金山云-文档中心-使用自定义镜像和模型部署Qwen2.5-Coder-7B为在线服务

边缘节点计算

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

边缘节点计算

实践教程

模型在线服务实践教程

使用自定义镜像和模型部署Qwen2.5-Coder-7B为在线服务

最近更新时间：2025-07-03 16:49:44



概述

模型在线服务 MOS（Model Online Service），帮助用户快速将一个或多个模型部署为在线服务，通过 API 接口调用的方式将 AI 集成到自身业务应用中，而无需关心底层IT基础设施的管理和维护。平台提供了丰富的资源供给、灵活的计费方式以及各种开发和调试工具，使得模型在线服务变得既强大又易于管理，从而更好地满足业务创新对AI的需求。

本教程将带你体验基于 MOS，使用自定义镜像和自定义模型，实现部署 Qwen2.5-Coder-7B-Instruct 部署为在线服务。

第一步创建文件共享服务

已创建过文件共享服务请略过（多个服务只需要开通一次文件共享服务）。

前往地址 https://kenc.console.ksyun.com/#/simple/fileShare

创建文件共享服务，节点选择 厦门电信41 节点，网络选择 经典网络 选项，其他按需，点击【确认订单】。

第二步将自定义模型导入文件共享服务

方式一：通过自定义模型把模型文件导入到文件共享服务

前提是在阿里云或者金山云的对象存储里面已经上传了模型文件，模型文件地址例如 https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/

点击 MOS 左侧菜单【模型】或前往地址 https://mos.console.ksyun.com/#/modelManage

切换至自定义模型页面，点击【新模型注册】按钮

新模型注册配置信息如下

属性	是否必填	属性值	备注
模型名称	必填	Qwen2.5-Coder-7B-Instruct
版本号	必填	1.0.0	默认1.0.0
模型描述	选填	Qwen2.5-Coder 是 CodeQwen 系列的最新代码专用大型语言模型。
版本描述	选填	标准模型
来源	必填	对象存储 URL地址：https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/ AccessKey ID：xxxxxxxx AccessKey Secret：xxxxxxxx	对象存储：目前支持阿里云的OSS、金山云的 KS3。推荐新建对象存储的只读用户并获取对应AK/SK。 URL地址：请输入对象存储桶及模型文件根目录的外网（源站）地址，例如https://bucket-name.ks3-cn-beijing.ksyuncs.com/Qwen2.5-Coder-7B-Instruct/

在自定义模型列表找到 Qwen2.5-Coder-7B-Instruct，点击【导入】按钮

选择刚才创建的文件共享服务，点击【确认】即可。

模型列表页面，点击右上角【导入历史】

查看模型文件导入进度，不同的模型耗时差异很大，主要看模型文件的大小，本次部署的模型大概会 2 分钟左右的时间即可导入成功。

方式二：以文件的方式把模型导入到文件共享服务

通过文件共享服务的文件上传功能，把 Qwen2.5-Coder-7B-Instruct 模型文件导入至文件共享服务实例中，目录为：Qwen2.5-Coder-7B-Instruct-1.0.0/

文件上传的使用说明请见 https://docs.ksyun.com/documents/44337

第三步将自定义镜像推送到镜像仓库

点击 MOS 左侧菜单【镜像】或前往地址 https://mos.console.ksyun.com/#/mirrorManage

点击左上角【推送镜像】，获取推送镜像的步骤。

推送镜像前，需确保docker所在机器有存在 vllm-openai 容器镜像，如果没有可执行“docker pull vllm/vllm-openai:v0.7.3”进行获取。

推送成功后，在自定义镜像列表会看到自己上传成功的镜像。

第四步部署服务

点击 MOS 左侧菜单【服务】或前往地址 https://mos.console.ksyun.com/#/serverManage

点击左上角【部署服务】

资源部署信息选择如下

属性	属性值	备注
资源类型	公共资源组
地域	厦门电信41
算力类型	GPU
算力规格	MOS.N1IN.4C16G.1A9

模型服务信息，配置如下

属性	属性值	备注
服务名称	qwen25	字母开头，支持数字、小写字母以及中横线（-），不得以中横线开始或者结尾，长度位 3~63 位
镜像	自定义镜像 2000085xxx/vllm-openai:v0.7.3
模型配置	NFS：上述导入模型的文件共享服务实例 NFS源路径（导入成功后可下拉选择）：Qwen2.5-Coder-7B-Instruct-1.0.0/ 挂载路径：/data/qwen
运行命令	python3 -m vllm.entrypoints.openai.api_server --model /data/qwen --api-key testqwen
端口号	8000

实例数量为 1 即可。点击【部署】。

一般 1 分钟内即可部署完成。

访问服务

点击 MOS 左侧菜单【服务】或前往服务列表 https://mos.console.ksyun.com/#/serverManage

点击服务列表或详情【调用信息】，获取服务域名，例如 http://qwen25.ksymos.com

下载 ChatBox 或者其他 web chat 工具，新增配置如下

属性	属性值	备注
模型提供方	OpenAI API
API 密钥	testqwen	对应启动命令的 api-key 属性值
API 域名	http://qwen25.ksymos.com/v1	服务域名+“/v1”
模型	选择“自定义模型” 手动输入“/data/qwen”	对应启动命令的 model 属性值有些 web chat 工具可以自动获取

或者使用 curl 命令进行访问

curl -X POST "http://qwen25.ksymos.com/v1/completions" \
-H "Authorization: Bearer testqwen" \
-H "Content-Type: application/json" \
-d '{
  "model": "/data/qwen",
  "prompt": "请解释什么是人工智能。",
  "max_tokens": 100,
  "temperature": 0.7
}'

文档导读

上一篇：5分钟部署Qwen2.5-7B为在线推理服务

下一篇：5分钟部署DeepSeek-R1-Distill-Qwen-7B为在线推理服务

纯净模式常规模式

纯净模式

点击可全屏预览文档内容