全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

模型在线服务

最近更新时间:2025-09-05 15:39:14

星流平台模型在线服务提供了内置大模型部署和自定义部署两种方式;您只需配置几个参数就可以将内置大模型快速部署至模型在线服务。本文为您介绍两种部署方式部署模型。

准备工作(以宁夏区为例)

  1. 开通宁夏区;

  2. 开通容器服务;

  3. 开通星流服务;

  4. 开通KS3(可选);

配置步骤

步骤概览:

创建GPU资源---加入容器集群---创建资源池及队列---创建模型在线服务

请确保GPU服务器有足够的硬盘空间。以Qwen3-32B为例,模型文件大小68GB,此外还需要模型部署组件,硬盘空间确保至少100GB。

关于推理框架

内置模型部署时系统默认推理框架为vllm-0.8.5。

内置模型不需要配置启动命令。

实际执行推理框架代码示例:

vllm serve /mnt/models/DeepSeek-R1-Distill-Qwen-14B \
--host=0.0.0.0 \
--served-model-name=DeepSeek-R1-Distill-Qwen-14B \
--port=8000 \
--tensor-parallel-size=2 \
--pipeline-parallel-size=1 \
--trust-remote-code \
--enable-reasoning \
--reasoning-parser=deepseek_r1 \
--max-model-len=32768

如果要调整“启动命令”,只需要写入对应的命令即可,不需要完整的命令,例如:

--tensor-parallel-size 1 
--pipeline-parallel-size 2

采用内置模型部署

以GPU云服务器为例

1)开一台GPU云服务器并关机(仅支持关机状态加入容器集群):

2)创建容器集群,并选择“添加已有节点”

添加节点界面:

3)添加节点后等待容器组件安装完成:

4)确保云主机镜像包含驱动、cuda

5)新建资源池:

新建页面:

6)新建队列:

分配GPU资源,用于后续具体任务

7)模型在线服务页面,点击“新建”:

内置模型不需要配置启动命令

8)等待一段时间后,创建成功;创建成功后可以查看在线服务的配置信息、调用、监控、日志等内容,支持WebUI调用服务

采用自定义部署

自定义模型、自定义框架(如内置的SGLang),均采用自定义部署方式。

当前SGLang无法调用内置模型,需上传准备模型文件。

1)创建存储配置

指定模型文件所在位置,以KS3为例。

2)新建模型在线服务

内容:自定义部署---镜像选择sglang---启动命令填完整的sglang启动命令---选择自有模型文件

注:“启动命令”必须添加端口号,否则部署完成后提示Unhealthy

参考的SGLang“启动命令”:

python3 -m sglang.launch_server \
    --model-path /root/.cache/huggingface/DeepSeek-R1 \
    --trust-remote-code \
    --host 0.0.0.0 \
    --port 8000

3)提交后显示:

平台占用资源说明

平台底层资源需要占用接近8核的CPU资源、9GB内存资源。此外启动推理服务的pod占用资源通过控制台指定,WebUI占用1核。

问题排查

1)如果启动遇到问题,查看“状态”确认故障:

2)在“事件”页面查看具体故障信息:

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈