最近更新时间:2025-03-11 22:46:56
模型在线服务 MOS(Model Online Service),帮助用户快速将一个或多个模型部署为在线服务,通过 API 接口调用的方式将 AI 集成到自身业务应用中,而无需关心底层IT基础设施的管理和维护。平台提供了丰富的资源供给、灵活的计费方式以及各种开发和调试工具,使得模型在线服务变得既强大又易于管理,从而更好地满足业务创新对AI的需求。
本教程将带你体验基于 MOS,使用自定义镜像和自定义模型,实现部署 Qwen2.5-Coder-7B-Instruct 部署为在线服务。
已创建过文件共享服务请略过(多个服务只需要开通一次文件共享服务)。
前往地址 https://kenc.console.ksyun.com/#/simple/fileShare
创建文件共享服务,节点选择 厦门电信41 节点,网络选择 经典网络 选项,其他按需,点击【确认订单】。
前提是在阿里云或者金山云的对象存储里面已经上传了模型文件,模型文件地址例如 https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/
点击 MOS 左侧菜单【模型】或前往地址 https://mos.console.ksyun.com/#/modelManage
切换至自定义模型页面,点击【新模型注册】按钮
新模型注册配置信息如下
属性 | 是否必填 | 属性值 | 备注 |
---|---|---|---|
模型名称 | 必填 | Qwen2.5-Coder-7B-Instruct | |
版本号 | 必填 | 1.0.0 | 默认1.0.0 |
模型描述 | 选填 | Qwen2.5-Coder 是 CodeQwen 系列的最新代码专用大型语言模型。 | |
版本描述 | 选填 | 标准模型 | |
来源 | 必填 | 对象存储 URL地址:https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/ AccessKey ID:xxxxxxxx AccessKey Secret:xxxxxxxx | 对象存储:目前支持阿里云的OSS、金山云的 KS3。推荐新建对象存储的只读用户并获取对应AK/SK。 URL地址:请输入对象存储桶及模型文件根目录的外网(源站)地址,例如https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/ |
在自定义模型列表找到 Qwen2.5-Coder-7B-Instruct,点击【导入】按钮
选择刚才创建的文件共享服务,点击【确认】即可。
模型列表页面,点击右上角【导入历史】
查看模型文件导入进度,不同的模型耗时差异很大,主要看模型文件的大小,本次部署的模型大概会 2 分钟左右的时间即可导入成功。
点击 MOS 左侧菜单【镜像】或前往地址 https://mos.console.ksyun.com/#/mirrorManage
点击左上角【推送镜像】,获取推送镜像的步骤。
推送镜像前,需确保docker所在机器有存在 vllm-openai 容器镜像,如果没有可执行“docker pull vllm/vllm-openai:v0.7.3”进行获取。
推送成功后,在自定义镜像列表会看到自己上传成功的镜像。
点击 MOS 左侧菜单【服务】或前往地址 https://mos.console.ksyun.com/#/serverManage
点击左上角【部署服务】
资源部署信息选择如下
属性 | 属性值 | 备注 |
---|---|---|
资源类型 | 公共资源组 | |
地域 | 厦门电信41 | |
算力类型 | GPU | |
算力规格 | MOS.N1IN.4C16G.1A9 |
模型服务信息,配置如下
属性 | 属性值 | 备注 |
---|---|---|
服务名称 | qwen25 | 字母开头,支持数字、小写字母以及中横线(-),不得以中横线开始或者结尾,长度位 3~63 位 |
镜像 | 自定义镜像 2000085xxx/vllm-openai:v0.7.3 | |
模型配置 | NFS:上述导入模型的文件共享服务实例 NFS源路径(导入成功后可下拉选择):Qwen2.5-Coder-7B-Instruct-1.0.0/ 挂载路径:/data/qwen | |
运行命令 | python3 -m vllm.entrypoints.openai.api_server --model /data/qwen --api-key testqwen | |
端口号 | 8000 |
实例数量为 1 即可。点击【部署】。
一般 1 分钟内即可部署完成。
点击 MOS 左侧菜单【服务】或前往服务列表 https://mos.console.ksyun.com/#/serverManage
点击服务列表或详情【调用信息】,获取服务域名,例如 http://qwen25.ksymos.com
下载 ChatBox 或者其他 web chat 工具,新增配置如下
属性 | 属性值 | 备注 |
---|---|---|
模型提供方 | OpenAI API | |
API 密钥 | testqwen | 对应启动命令的 api-key 属性值 |
API 域名 | http://qwen25.ksymos.com/v1 | 服务域名+“/v1” |
模型 | 选择“自定义模型” 手动输入“/data/qwen” | 有些 web chat 工具可以自动获取 |
或者使用 curl 命令进行访问
curl -X POST "http://qwen25.ksymos.com/v1/completions" \
-H "Authorization: Bearer testqwen" \
-H "Content-Type: application/json" \
-d '{
"model": "/data/qwen",
"prompt": "请解释什么是人工智能。",
"max_tokens": 100,
"temperature": 0.7
}'
纯净模式