金山云-文档中心-自定义监控指标告警

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

训推平台

资源管理

监控告警

自定义监控指标告警

最近更新时间：2026-04-29 10:47:31



星流平台为资源组、任务的使用情况提供了详细的监控指标，帮助用户掌握资源负载情况。通过在金山云的Prometheus监控中自定义的配置告警规则和通知策略，如果资源组、任务的监控指标出现异常情况（例如节点的GPU使用率、任务的内存使用率等指标超过设定阈值）时会发送告警通知，用户可以及时感知到问题并进行相关的处理。

注意事项

目前仅针对自运维资源组。

相应自运维资源组已经关联Prometheus实例，具体操作可参考资源组相关内容。

操作步骤

步骤一：进入资源组关联的Prometheus实例

在资源组列表页，点击资源组名称/ID，进入资源组详情。
在资源组详情页，在关联资源区域，查看关联的Prometheus实例名称。
进入Prometheus监控控制台，进入Prometheus实例列表页，查询到资源组所关联的Prometheus实例，点击进入详情页

步骤二：配置告警策略

在Prometheus实例的详情页，选择告警页签，点击新建告警策略
填写告警名称、告警规则、通知策略、收敛时间，配置示例如下。
- 配置10.0.3.167节点的各GPU卡平均显存用量大于20G的时触发告警
```
avg(DCGM_FI_DEV_FB_USED{Hostname="10.0.3.167"})>20480
```
- 当平均显存用量恢复到20G以下时发送告警恢复通知
创建告警策略后，告警策略默认为开启状态

步骤三：接收告警

当满足告警规则中配置的条件时，告警状态为告警中。
在告警接收人的邮箱中，收到触发告警和告警恢复邮件。

任务维度告警配置示例

如需对某一具体任务配置告警，编辑告警规则中的PromQL和告警内容，配置示例如下：

PromQL

配置kaic-job命名空间下，任意Pod的内存利用率大于80%时触发告警：

sum by (namespace, pod) (container_memory_working_set_bytes{job="kubelet", metrics_path="/metrics/cadvisor", namespace="kaic-job", container!="", image!="", pod=~".+"}) * 100 / 
sum by (namespace, pod) (kube_pod_container_resource_requests{job="kube-state-metrics", namespace=~"kaic-job", pod=~".+", resource="memory"}) >80

告警内容

任务{{ $labels.pod }}的内存使用率大于80%

配置页面如下图所示：
当告警触发或恢复后，收到告警邮件

支持的监控指标

用户可以根据下面的监控指标，灵活的配置节点、任务、队列的告警规则。

DCGM指标

指标	类型	单位	说明
DCGM_FI_DEV_SM_CLOCK	Gauge	MHz	SM时钟频率
DCGM_FI_DEV_MEM_CLOCK	Gauge	MHz	SM内存时钟频率
DCGM_FI_DEV_POWER_USAGE	Gauge	W	功率
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION	Counter	mJ	能量消耗
DCGM_FI_DEV_GPU_TEMP	Gauge	摄氏度	设备的当前GPU温度读数
DCGM_FI_DEV_PCIE_REPLAY_COUNTER	Counter	次	PCIe replay 次数
DCGM_FI_DEV_GPU_UTIL	Gauge	% (1-100)	单位时间内至少一个核函数处于Active的时间的百分比
DCGM_FI_DEV_MEM_COPY_UTIL	Gauge	% (1-100)	内存带宽利用率
DCGM_FI_DEV_ENC_UTIL	Gauge	% (1-100)	编码器利用率
DCGM_FI_DEV_DEC_UTIL	Gauge	% (1-100)	解码器利用率
DCGM_FI_DEV_XID_ERRORS	Gauge	/	上一次发生的 XID 错误的错误码
DCGM_FI_DEV_FB_FREE	Gauge	MB	未使用的BAR1
DCGM_FI_DEV_FB_USED	Gauge	MB	已使用的BAR1
DCGM_FI_PROF_GR_ENGINE_ACTIVE	Gauge	占比(0-1)	在一个时间间隔内，Graphics或Compute引擎处于Active的时间占比
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE	Gauge	占比(0-1)	单位时间内 Tensor Pipes 平均处于Active 状态的周期分数
DCGM_FI_PROF_DRAM_ACTIVE	Gauge	占比(0-1)	内存拷贝活跃周期分数（一个周期内有一次 DRAM 指令则该周期为 100%）
DCGM_FI_PROF_PCIE_TX_BYTES	Counter	B/s	通过 PCIe 总线传输的数据流量
DCGM_FI_PROF_PCIE_RX_BYTES	Counter	B/s	通过 PCIe 总线接收的数据流量
DCGM_FI_PROF_NVLINK_RX_BYTES	Counter	B/s	通过 NVLink 传输的数据流量
DCGM_FI_PROF_NVLINK_TX_BYTES	Counter	B/s	通过 NVLink 接收的数据流量

cAdvisor指标

分类	指标	类型	单位	说明
CPU	container_cpu_usage_seconds_total	Counter	s	容器 CPU 累计使用量
	container_cpu_system_seconds_total	Counter	s	System CPU 累计占用时间
	container_cpu_user_seconds_total	Counter	s	User CPU 累计占用时间
内存	container_memory_max_usage_bytes	Gauge	Byte	容器的最大内存使用量
	container_memory_usage_bytes	Gauge	Byte	容器当前的内存使用量，包括缓存等可释放的内存
	container_memory_working_set_bytes	Gauge	Byte	容器当前的内存使用量
	container_spec_memory_limit_bytes	Gauge	Byte	容器的内存使用量限制
	machine_memory_bytes	Gauge	Byte	当前主机的内存总量

节点&队列指标

指标	类型	单位	说明
kaic_node_gpu_count	Gauge	卡数	节点GPU卡总数
kaic_queue_deserved_gpu	Gauge	卡数	队列GPU卡配额
kaic_queue_deserved_cpu	Gauge	Core	队列CPU配额
kaic_queue_deserved_mem_bytes	Gauge	GiB	队列内存配额
kaic_queue_gpu_allocated	Gauge	卡数	队列已分配GPU卡数
kaic_queue_cpu_allocated	Gauge	Core	队列已分配CPU
kaic_queue_memory_allocated	Gauge	GiB	队列已分配内存

任务指标

指标	类型	单位	说明
kaic_task_info	Gauge	/	任务详情。指标值恒为1
kaic_pod_gpu_requests	Gauge	卡数	任务实际Pod请求的GPU卡数
kaic_task_memory_gb	Gauge	GiB	任务内存使用量
kaic_task_total_pod_num	Gauge	个	任务Pod数量
kaic_task_run_start_timestamp	Gauge	/	任务本次运行的启动时间
kaic_task_gpu_num	Gauge	卡数	任务单个实例请求的GPU数量
kaic_task_active	Gauge	/	任务是否运行中。运行中值为1，否则为0
kaic_gpu_mapping	Gauge	/	GPU名称和k8s资源名称对应关系。指标值恒为1

其他指标

其他支持的监控指标详见托管Prometheus指标说明。

文档导读

上一篇：监控告警

下一篇：任务状态变更主动通知

纯净模式常规模式

纯净模式

点击可全屏预览文档内容