金山云-文档中心-创建模型在线服务

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

训推平台

模型在线服务

创建模型在线服务

最近更新时间：2026-04-29 10:47:35



本文主要介绍如何创建模型在线服务。

前提条件

已创建1个及以上通用类型的资源组。
资源组中已经创建1个及以上的队列。

操作步骤

登录星流平台，在顶部导航栏，选择训推与仿真 > 模型在线服务。
在模型在线服务列表页面，点击+新建。

在新建模型在线服务页面，根据以下说明配置各项参数，点击确定，等待服务状态转为运行中。

参数		是否必须	说明
基本信息	服务名称	是	当前模型在线服务的名称，用户自定义。
基本信息	描述	否	针对当前在线服务的描述性信息。
环境配置	部署类型	是	若选择模型部署，需配置以下参数：模型来源：默认为内置大模型，根据实际需要选择具体的模型。部署方式：根据所选模型，配置相应模型方式，支持以下方式： vLLM：是一个快速且易于使用的LLM推理和服务库。 SGLang：是一个面向大型语言模型和视觉语言模型的快速服务框架。 OpenPI：是一种多模态机器人策略框架，用于部署π0及相关模型。 PD分离：是否开启PD分离部署，仅部分模型支持开启该功能。
环境配置	部署类型	是	若选择自定义部署，则需配置以下参数：镜像类型：支持选择官方镜像、自定义镜像以及第三方镜像。官方镜像使用详见镜像管理-官方镜像自定义镜像使用详见镜像管理-自定义镜像。第三方进行使用详见镜像管理-第三方镜像。
资源配置	资源组	是	选择在线服务所需资源所属的资源组。各内置模型所需资源，可参看内置大模型资源配置建议。
	队列	是	用户可自定义选择具备权限的队列。
	资源类型	是	GPU类型：选择队列内已配置的GPU卡型。 GPU数量：当前GPU数量不可配置。 CPU核数：用户根据需求和模型大小配置CPU核数。内存：用户根据需求和模型大小配置内存。副本数量：根据需求配置模型在线服务的副本数量。
	启动参数	否	输入启动命令，用于启动模型在线服务。
	环境变量	否	输入环境变量，用于配置模型在线服务的环境参数。
	多机部署	否	根据模型大小选择是否开启多机部署，适用于模型需要多机并行的场景。开启后需配置机器数量。使用自定义镜像的自定义部署暂不支持多机部署。开启多机部署时GPU卡数固定为8。
	自动扩缩容	否	开启后，服务会根据配置策略自动进行扩缩容，支持在服务创建后再开启扩缩容。
	副本数量	是	根据需求配置模型在线服务的副本数量，至少为 `1`个副本。
	模型加载加速	否	若选择模型部署，可根据实际情况，选择配置该参数。若开启，模型会预先加载至服务器本地，服务整体启动速度会得到一定提升
	本地路径	条件必须	若选择模型部署，必须配置该参数用于保存模型数据。注意：须确认本地路径所在磁盘剩余空间大于模型文件大小，以避免加载失败
挂载配置	模型配置	条件必须	若选择自定义部署，则须配置该参数，即模型数据所在的存储配置，支持选择对象存储KS3或文件存储KPFS。
挂载配置	代码配置	否	输入代码路径，指定模型服务所用的代码位置。
网络配置	子网	是	选择资源组所在的VPC网络下的子网。
网络配置	端口号	是	根据实际情况填写，例如：8000.
权限配置	队列内共享	否	默认仅创建者个人私有，开启队列内共享后全队列可见可操作。
高级配置	hostNetwork	否	开启后，服务将使用hostNetwork，您可通过节点IP+端口直接访问服务，请保证配置的端口不会被节点上其他服务占用以免端口冲突。
高级配置	一致性哈希调度	否	配置一致性哈希方式，服务发生扩缩容后，访问会重新进行映射。

后续操作

调用在线服务。
管理在线服务。

文档导读

上一篇：模型在线服务

下一篇：调用模型在线服务

纯净模式常规模式

纯净模式

点击可全屏预览文档内容