全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

模型在线服务快速入门

最近更新时间:2026-04-29 10:47:27

本文介绍如何快速使用星流训推平台的模型在线服务。

前提条件

已完成星流平台前置操作指引,创建相关依赖资源,如VPC网络、子网等。

准备工作

创建资源组

  1. 登录星流平台,在顶部导航栏,选择训推与仿真>资源管理>资源组

  2. 在资源组管理界面,点击+新建

  3. 根据以下要求配置各项参数,点击立即购买。详细操作可参考创建资源组相关内容

    • 资源组名称:用户自定义,根据实际情况填写。

    • 资源配置:本示例中需选择GPU资源的机型或集群,以便后续操作。

      本示例要后续使用 DeepSeek-R1-Distill-Qwen-7B 模型,需要的GPU数量为1,推荐GPU卡型TeslaV100CPU核数为6,内存为 24,相应的GPU实例本地盘须有足够空间,建议设置100GB。

    • 其他参数根据实际情况进行选择即可。

创建队列

  1. 在左侧导航栏,选择队列

  2. 在队列管理页面,点击+新建

  3. 根据以下要求配置各项参数,点击确定

    • 队列名称:用户自定义,根据实际情况填写。

    • 资源池:选择上述步骤中已创建好的资源组。

    • 资源规格GPU类型,选择可用的GPU,GPU卡数设置为1CPU核数设置为6内存设置为24,以便后续使用。

    • 其他参数根据实际情况进行选择即可。

操作步骤

创建模型在线服务

本示例采用内置模型 DeepSeek-R1-Distill-Qwen-7B 部署在线服务,具体操作如下。

  1. 在左侧导航栏选择模型在线服务

  2. 进入服务管理页面,点击+新建

  3. 根据如下下要求配置各项参数,点击确定,等待模型在线服务状态转为运行中

    • 服务名称:用户自定义,根据实际情况填写。

    • 部署类型:选择模型部署。

    • 模型来源:选择内置大模型,并选择DeepSeek-R1-Distill-Qwen-7B 模型。

    • 部署方式:选择vLLM

    • 资源组:选择准备工作中,提前创建好的资源组。

    • 队列:选择准备工作中,提前创建好的队列。

    • 资源类型GPU卡数为1个,CPU核数为6,内存为24Gi。

    • 启动参数:使用内置大模型,可为空。

    • 环境变量:使用内置大模型,可为空。

    • 其他参数保持默认或根据实际情况进行修改即可。

查看并调试在线服务

  1. 完成上述操作。

  2. 模型在线服务列表页面,点击指定服务名称/ID,进入其详情页面

  3. 选择在线调用页签,您可根据实际情况选择相应的调用方式。支持WebUI调用VPC内调用公网调用。

  4. 下拉至在线调试区域,在request body内输入以下内容。

    {
      "model": "DeepSeek-R1-Distill-Qwen-7B",
      "do_sample": false,
      "stream": false,
      "messages": [
        {
          "role": "system",
          "content": "You are a helpful assistent."
        },
        {
          "role": "user",
          "content": "你好"
        }]
    }
  5. 点击调试,即可查看相应响应内容。

WebUI直接调用

  1. 进入当前在线服务详情页面,点击右上角的访问WebUI

  2. 根据页面提示创建管理员账号

  3. 进入相应对话页面,您可直接使用本示例中所部署的 DeepSeek-R1-Distill-Qwen-7B 模型。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈