全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

创建模型在线服务

最近更新时间:2026-04-29 10:47:35

本文主要介绍如何创建模型在线服务。

前提条件

操作步骤

  1. 登录星流平台,在顶部导航栏,选择训推与仿真 > 模型在线服务

  2. 在模型在线服务列表页面,点击+新建。

  3. 新建模型在线服务页面,根据以下说明配置各项参数,点击确定,等待服务状态转为运行中

    参数

    是否必须

    说明

    基本信息

    服务名称

    当前模型在线服务的名称,用户自定义。

    描述

    针对当前在线服务的描述性信息。

    环境配置

    部署类型

    若选择模型部署,需配置以下参数:

    • 模型来源:默认为内置大模型,根据实际需要选择具体的模型。

    • 部署方式:根据所选模型,配置相应模型方式,支持以下方式:

      • vLLM:是一个快速且易于使用的LLM推理和服务库。

      • SGLang:是一个面向大型语言模型和视觉语言模型的快速服务框架。

      • OpenPI:是一种多模态机器人策略框架,用于部署π0及相关模型。

    • PD分离:是否开启PD分离部署,仅部分模型支持开启该功能。

    若选择自定义部署,则需配置以下参数:

    资源配置

    资源组

    选择在线服务所需资源所属的资源组。各内置模型所需资源,可参看内置大模型资源配置建议

    队列

    用户可自定义选择具备权限的队列。

    资源类型

    • GPU类型:选择队列内已配置的GPU卡型。

    • GPU数量:当前GPU数量不可配置。

    • CPU核数:用户根据需求和模型大小配置CPU核数。

    • 内存:用户根据需求和模型大小配置内存。

    • 副本数量:根据需求配置模型在线服务的副本数量。

    启动参数

    输入启动命令,用于启动模型在线服务。

    环境变量

    输入环境变量,用于配置模型在线服务的环境参数。

    多机部署

    根据模型大小选择是否开启多机部署,适用于模型需要多机并行的场景。

    开启后需配置机器数量。使用自定义镜像的自定义部署暂不支持多机部署。开启多机部署时GPU卡数固定为8。

    自动扩缩容

    开启后,服务会根据配置策略自动进行扩缩容,支持在服务创建后再开启扩缩容。

    副本数量

    根据需求配置模型在线服务的副本数量,至少为 1个副本。

    模型加载加速

    若选择模型部署,可根据实际情况,选择配置该参数。

    若开启,模型会预先加载至服务器本地,服务整体启动速度会得到一定提升

    本地路径

    条件必须

    若选择模型部署,必须配置该参数用于保存模型数据。

    注意:须确认本地路径所在磁盘剩余空间大于模型文件大小,以避免加载失败

    挂载配置

    模型配置

    条件必须

    若选择自定义部署,则须配置该参数,即模型数据所在的存储配置,支持选择对象存储KS3文件存储KPFS

    代码配置

    输入代码路径,指定模型服务所用的代码位置。

    网络配置

    子网

    选择资源组所在的VPC网络下的子网。

    端口号

    根据实际情况填写,例如:8000.

    权限配置

    队列内共享

    默认仅创建者个人私有,开启队列内共享后全队列可见可操作 。

    高级配置

    hostNetwork

    开启后,服务将使用hostNetwork,您可通过节点IP+端口直接访问服务,请保证配置的端口不会被节点上其他服务占用以免端口冲突。

    一致性哈希调度

    配置一致性哈希方式,服务发生扩缩容后,访问会重新进行映射。

后续操作

  • 调用在线服务。

  • 管理在线服务。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈