全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

查看和管理模型在线服务

最近更新时间:2026-04-29 10:47:35

本文主要介绍如何对当前平台内的模型在线服务进行管理,包括查看监控、日志,扩缩容,配置告警规则等。

前提条件

创建模型在线服务

进入服务详情页面

  1. 登录星流平台,在顶部导航栏,选择训推与仿真 > 模型在线服务

  2. 在模型在线服务列表页面,点击指定服务名称/ID,进入其详情页面。

  3. 默认进入概览页面,在当前页面内,可查看该服务的基本信息环境配置信息、挂载配置信息、资源配置信息、网络配置信息、权限配置信息、高级配置信息以及实例运行状态信息。

查看服务监控信息

当前模型在线服务所配置的资源组需提前关联Prometheus实例,具体操作可参考资源组相关内容

  1. 进入在线服务详情页面。

  2. 选择监控页签,即可查看相应监控状态。监控详情中可以查看GPU 温度、GPU 平均温度、GPU 总功率、GPU 功率、Tensor Core 利用率、GPU 利用率、GPU Xid 错误、GPU 显存、GPU PCIe 接收速率、GPU PCIe 传输速率、GPU 内存带宽利用率、CPU 和内存利用率、NVLINK 带宽总量、CPU 使用量(核)、Memory 使用量、网络带宽 Receive、网络带宽 Transmit等指标。

查看日志信息

  1. 进入在线服务详情页面。

  2. 选择日志页签,即可查看当前服务的日志信息。

    • 点击日志页面左上角实例名称下拉框,可选择查看指定节点的日志内容。

    • 点击右上角的刷新标识,可查看最新的日志信息。

    • 若开启Klog日志服务,则可在当前页面最多查看10000条日志,点击下载按钮也可直接查看完整日志。

扩缩容

  1. 在模型在线服务列表页面。

  2. 点击指定服务,操作列内的更多>扩缩容

  3. 在弹出的提示窗口中,设置服务副本个数,以及是否开启自动扩缩容,点击确定即可。

配置告警规则

具体可参考监控告警-任务状态变更主动通知相关内容。

更新

  1. 在模型在线服务列表页面。

  2. 点击指定服务,操作列内的更多>更新

  3. 在弹出的提示窗口中,支持修改描述启动命令环境变量、hostNetwork以及一致性哈希调度相关参数。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈