最近更新时间:2026-04-29 10:47:35
本文主要介绍如何对当前平台内的模型在线服务进行管理,包括查看监控、日志,扩缩容,配置告警规则等。
已创建模型在线服务。
登录星流平台,在顶部导航栏,选择训推与仿真 > 模型在线服务。
在模型在线服务列表页面,点击指定服务名称/ID,进入其详情页面。
默认进入概览页面,在当前页面内,可查看该服务的基本信息、环境配置信息、挂载配置信息、资源配置信息、网络配置信息、权限配置信息、高级配置信息以及实例运行状态信息。
当前模型在线服务所配置的资源组需提前关联Prometheus实例,具体操作可参考资源组相关内容。
进入在线服务详情页面。
选择监控页签,即可查看相应监控状态。监控详情中可以查看GPU 温度、GPU 平均温度、GPU 总功率、GPU 功率、Tensor Core 利用率、GPU 利用率、GPU Xid 错误、GPU 显存、GPU PCIe 接收速率、GPU PCIe 传输速率、GPU 内存带宽利用率、CPU 和内存利用率、NVLINK 带宽总量、CPU 使用量(核)、Memory 使用量、网络带宽 Receive、网络带宽 Transmit等指标。
进入在线服务详情页面。
选择日志页签,即可查看当前服务的日志信息。
具体可参考监控告警-任务状态变更主动通知相关内容。
在模型在线服务列表页面。
点击指定服务,操作列内的更多>更新。
在弹出的提示窗口中,支持修改描述、启动命令、环境变量、hostNetwork以及一致性哈希调度相关参数。
纯净模式
