全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

自定义监控指标告警

最近更新时间:2026-03-13 13:35:55

背景

星流平台为资源组、任务的使用情况提供了详细的监控指标,帮助用户掌握资源负载情况。通过在金山云的Prometheus监控中自定义的配置告警规则和通知策略,如果资源组、任务的监控指标出现异常情况(例如节点的GPU使用率、任务的内存使用率等指标超过设定阈值)时会发送告警通知,用户可以及时感知到问题并进行相关的处理。

操作步骤

步骤一:进入资源组关联的Prometheus实例

  1. 在资源组列表页,点击资源组名称,进入资源组详情

  2. 在资源组详情页,查看关联的Prometheus实例名称

  3. 进入Prometheus监控控制台,进入Prometheus实例列表页,查询到资源组所关联的Prometheus实例,点击进入详情页

步骤二:配置告警策略

  1. 在Prometheus实例的详情页,点击告警tab,点击新建告警策略

  2. 填写告警名称、告警规则、通知策略、收敛时间,配置示例如下

    1. 配置10.0.3.167节点的各GPU卡平均显存用量大于20G的时触发告警

      avg(DCGM_FI_DEV_FB_USED{Hostname="10.0.3.167"})>20480
    2. 当平均显存用量恢复到20G以下时发送告警恢复通知

  3. 创建告警策略后,告警策略默认为开启状态

步骤三:接收告警

  1. 当满足告警规则中配置的条件时,告警状态为告警中

  2. 在告警接收人的邮箱中,收到触发告警告警恢复邮件

任务维度告警配置示例

如需对某一具体任务配置告警,编辑告警规则中的PromQL告警内容,配置示例如下:

PromQL

配置kaic-job命名空间下,任意Pod的内存利用率大于80%时触发告警:

sum by (namespace, pod) (container_memory_working_set_bytes{job="kubelet", metrics_path="/metrics/cadvisor", namespace="kaic-job", container!="", image!="", pod=~".+"}) * 100 / 
sum by (namespace, pod) (kube_pod_container_resource_requests{job="kube-state-metrics", namespace=~"kaic-job", pod=~".+", resource="memory"}) >80

告警内容

任务{{ $labels.pod }}的内存使用率大于80%

配置页面如下图所示:

当告警触发或恢复后,收到告警邮件

支持的监控指标

用户可以根据下面的监控指标,灵活的配置节点、任务、队列的告警规则。

DCGM指标

指标

类型

单位

说明

DCGM_FI_DEV_SM_CLOCK

Gauge

MHz

SM时钟频率

DCGM_FI_DEV_MEM_CLOCK

Gauge

MHz

SM内存时钟频率

DCGM_FI_DEV_POWER_USAGE

Gauge

W

功率

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

Counter

mJ

能量消耗

DCGM_FI_DEV_GPU_TEMP

Gauge

摄氏度

设备的当前GPU温度读数

DCGM_FI_DEV_PCIE_REPLAY_COUNTER

Counter

PCIe replay 次数

DCGM_FI_DEV_GPU_UTIL

Gauge

% (1-100)

单位时间内至少一个核函数处于Active的时间的百分比

DCGM_FI_DEV_MEM_COPY_UTIL

Gauge

% (1-100)

内存带宽利用率

DCGM_FI_DEV_ENC_UTIL

Gauge

% (1-100)

编码器利用率

DCGM_FI_DEV_DEC_UTIL

Gauge

% (1-100)

解码器利用率

DCGM_FI_DEV_XID_ERRORS

Gauge

/

上一次发生的 XID 错误的错误码

DCGM_FI_DEV_FB_FREE

Gauge

MB

未使用的BAR1

DCGM_FI_DEV_FB_USED

Gauge

MB

已使用的BAR1

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Gauge

占比(0-1)

在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Gauge

占比(0-1)

单位时间内 Tensor Pipes 平均处于Active 状态的周期分数

DCGM_FI_PROF_DRAM_ACTIVE

Gauge

占比(0-1)

内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%)

DCGM_FI_PROF_PCIE_TX_BYTES

Counter

B/s

通过 PCIe 总线传输的数据流量

DCGM_FI_PROF_PCIE_RX_BYTES

Counter

B/s

通过 PCIe 总线接收的数据流量

DCGM_FI_PROF_NVLINK_RX_BYTES

Counter

B/s

通过 NVLink 传输的数据流量

DCGM_FI_PROF_NVLINK_TX_BYTES

Counter

B/s

通过 NVLink 接收的数据流量

cAdvisor指标

分类

指标

类型

单位

说明

CPU

container_cpu_usage_seconds_total

Counter

s

容器 CPU 累计使用量

container_cpu_system_seconds_total

Counter

s

System CPU 累计占用时间

container_cpu_user_seconds_total

Counter

s

User CPU 累计占用时间

内存

container_memory_max_usage_bytes

Gauge

Byte

容器的最大内存使用量

container_memory_usage_bytes

Gauge

Byte

容器当前的内存使用量,包括缓存等可释放的内存

container_memory_working_set_bytes

Gauge

Byte

容器当前的内存使用量

container_spec_memory_limit_bytes

Gauge

Byte

容器的内存使用量限制

machine_memory_bytes

Gauge

Byte

当前主机的内存总量

节点&队列指标

指标

类型

单位

说明

kaic_node_gpu_count

Gauge

卡数

节点GPU卡总数

kaic_queue_deserved_gpu

Gauge

卡数

队列GPU卡配额

kaic_queue_deserved_cpu

Gauge

Core

队列CPU配额

kaic_queue_deserved_mem_bytes

Gauge

GiB

队列内存配额

kaic_queue_gpu_allocated

Gauge

卡数

队列已分配GPU卡数

kaic_queue_cpu_allocated

Gauge

Core

队列已分配CPU

kaic_queue_memory_allocated

Gauge

GiB

队列已分配内存

任务指标

指标

类型

单位

说明

kaic_task_info

Gauge

/

任务详情。指标值恒为1

kaic_pod_gpu_requests

Gauge

卡数

任务实际Pod请求的GPU卡数

kaic_task_memory_gb

Gauge

GiB

任务内存使用量

kaic_task_total_pod_num

Gauge

任务Pod数量

kaic_task_run_start_timestamp

Gauge

/

任务本次运行的启动时间

kaic_task_gpu_num

Gauge

卡数

任务单个实例请求的GPU数量

kaic_task_active

Gauge

/

任务是否运行中。运行中值为1,否则为0

kaic_gpu_mapping

Gauge

/

GPU名称和k8s资源名称对应关系。指标值恒为1

其他指标

其他支持的监控指标详见托管Prometheus指标说明

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈