金山云-文档中心-模型在线服务-模型部署

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

实践教程

模型在线服务

最近更新时间：2026-06-08 16:37:55



背景信息

星流平台模型在线服务提供了内置大模型部署和自定义部署两种方式。您只需配置几个参数，就可以将内置大模型快速部署至模型在线服务。

内置模型部署：选择平台预置的大模型，系统自动配置推理框架与启动参数，无需编写启动命令。
自定义部署：支持自定义模型与自定义推理框架（如 SGLang），需自行准备模型文件并配置启动命令。

约束限制

启动命令：自定义部署时，启动命令必须添加端口号，否则部署完成后会提示 Unhealthy。
SGLang 限制：当前 SGLang 无法调用内置模型，需上传准备自有模型文件。
资源占用：平台底层资源需要占用接近 8 核的 CPU 资源、9 GB 内存资源。此外，启动推理服务的 Pod 占用资源通过控制台指定，WebUI 占用 1 核。

准备工作

创建含有GPU节点的资源组。若平台已有资源组，但当前资源组无可用的GPU节点，可参考管理资源组-新增节点相关内容，添加GPU节点。
请确保相应 GPU 服务器有足够的硬盘空间。以 Qwen3-32B 为例，模型文件大小约 68 GB，此外还需要模型部署组件，硬盘空间确保至少 100 GB。
基于GPU资源组创建相应的GPU 队列。
针对自定义部署方式，需提前创建存储配置，且相应的模型文件需提前上传至该存储配置中。

采用内置模型部署

本实践使用内置模型 DeepSeek-R1-Distill-Qwen-7B 部署在线服务，具体操作如下。

步骤一：创建内置模型在线服务

登录星流平台，在顶部导航栏，选择训推与仿真>模型在线服务。
进入服务管理页面，点击+新建。
根据如下下要求配置各项参数，点击确定，等待模型在线服务状态转为运行中。
- 服务名称：用户自定义，根据实际情况填写。
- 部署类型：选择模型部署。
- 模型来源：选择内置大模型，并选择DeepSeek-R1-Distill-Qwen-7B 模型。
- 部署方式：选择vLLM。
- 资源组：选择准备工作中，提前创建好的资源组。
- 队列：选择准备工作中，提前创建好的队列。
- 资源类型：GPU卡数为1个，CPU核数为8，内存为24Gi。
- 启动参数：使用内置大模型，可为空。若需修改参数，可参考附录推理架构相关内容，进行修改。
- 环境变量：使用内置大模型，可为空。
- 其他参数保持默认或根据实际情况进行修改即可。

步骤二：调用模型在线服务

本实践使用WebUI进行调用，其他调用方式可参考调用模型在线服务相关内容。

返回模型在线服务列表页面，点击指定服务名称/ID，进入其详情页面。
选择在线调用页签，点击右上角的访问WebUI。
根据页面提示创建管理员账号。
进入相应对话页面，您可直接使用本示例中所部署的 DeepSeek-R1-Distill-Qwen-7B 模型。

自定义部署

自定义部署支持使用非官方镜像，您需自行准备相应镜像文件，具体可参考：

本实践使用官方提供的SGLang推理架构，具体操作可参考以下内容。

在模型在线服务列表页面，点击+新建。
进入新建模型服务页面，根据以下说明配置各项参数。
- 服务名称：用户自定义，根据实际情况填写。
- 部署类型：选择自定义部署。
- 镜像类型：选择官方镜像。
- 镜像：选择SGLang架构，本实践使用sglang-v0.5.11镜像。
- 资源组：选择准备工作中，提前创建好的资源组。
- 队列：选择准备工作中，提前创建好的队列。
- 资源类型：GPU卡数为1个，CPU核数为8，内存为24Gi。
- 启动命令：参考如下命令。注意，启动命令必须添加端口号，否则部署完成后提示 Unhealthy。
```
python3 -m sglang.launch_server \
  --model-path /root/.cache/huggingface/DeepSeek-R1 \
  --trust-remote-code \
  --host 0.0.0.0 \
  --port 8000
```
- 模型配置：选择准备工作中，模型文件所在的存储配置即可。
- 网络配置：选择可用子网，并开放启动命令中设置的端口号，本实践为8000。
- 其他参数保持默认或根据实际情况进行修改即可。
完成上述配置后，点击确定，等待服务状态变为运行中。

附录

推理架构

内置模型无需配置启动命令。系统默认推理框架为 vllm-0.8.5。

如需调整启动参数，只需写入对应参数即可，不需要完整命令。例如：

--tensor-parallel-size 1
--pipeline-parallel-size 2

完整的推理框架启动命令参考如下：

vllm serve /mnt/models/DeepSeek-R1-Distill-Qwen-14B \
  --host=0.0.0.0 \
  --served-model-name=DeepSeek-R1-Distill-Qwen-14B \
  --port=8000 \
  --tensor-parallel-size=2 \
  --pipeline-parallel-size=1 \
  --trust-remote-code \
  --enable-reasoning \
  --reasoning-parser=deepseek_r1 \
  --max-model-len=32768