最近更新时间:2026-03-13 13:35:55
星流平台为资源组、任务的使用情况提供了详细的监控指标,帮助用户掌握资源负载情况。通过在金山云的Prometheus监控中自定义的配置告警规则和通知策略,如果资源组、任务的监控指标出现异常情况(例如节点的GPU使用率、任务的内存使用率等指标超过设定阈值)时会发送告警通知,用户可以及时感知到问题并进行相关的处理。
在资源组列表页,点击资源组名称,进入资源组详情
在资源组详情页,查看关联的Prometheus实例名称
进入Prometheus监控控制台,进入Prometheus实例列表页,查询到资源组所关联的Prometheus实例,点击进入详情页
如需对某一具体任务配置告警,编辑告警规则中的PromQL和告警内容,配置示例如下:
PromQL
配置kaic-job命名空间下,任意Pod的内存利用率大于80%时触发告警:
sum by (namespace, pod) (container_memory_working_set_bytes{job="kubelet", metrics_path="/metrics/cadvisor", namespace="kaic-job", container!="", image!="", pod=~".+"}) * 100 /
sum by (namespace, pod) (kube_pod_container_resource_requests{job="kube-state-metrics", namespace=~"kaic-job", pod=~".+", resource="memory"}) >80告警内容
任务{{ $labels.pod }}的内存使用率大于80%配置页面如下图所示:
当告警触发或恢复后,收到告警邮件
用户可以根据下面的监控指标,灵活的配置节点、任务、队列的告警规则。
指标 | 类型 | 单位 | 说明 |
|---|---|---|---|
DCGM_FI_DEV_SM_CLOCK | Gauge | MHz | SM时钟频率 |
DCGM_FI_DEV_MEM_CLOCK | Gauge | MHz | SM内存时钟频率 |
DCGM_FI_DEV_POWER_USAGE | Gauge | W | 功率 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | Counter | mJ | 能量消耗 |
DCGM_FI_DEV_GPU_TEMP | Gauge | 摄氏度 | 设备的当前GPU温度读数 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | Counter | 次 | PCIe replay 次数 |
DCGM_FI_DEV_GPU_UTIL | Gauge | % (1-100) | 单位时间内至少一个核函数处于Active的时间的百分比 |
DCGM_FI_DEV_MEM_COPY_UTIL | Gauge | % (1-100) | 内存带宽利用率 |
DCGM_FI_DEV_ENC_UTIL | Gauge | % (1-100) | 编码器利用率 |
DCGM_FI_DEV_DEC_UTIL | Gauge | % (1-100) | 解码器利用率 |
DCGM_FI_DEV_XID_ERRORS | Gauge | / | 上一次发生的 XID 错误的错误码 |
DCGM_FI_DEV_FB_FREE | Gauge | MB | 未使用的BAR1 |
DCGM_FI_DEV_FB_USED | Gauge | MB | 已使用的BAR1 |
DCGM_FI_PROF_GR_ENGINE_ACTIVE | Gauge | 占比(0-1) | 在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比 |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | Gauge | 占比(0-1) | 单位时间内 Tensor Pipes 平均处于Active 状态的周期分数 |
DCGM_FI_PROF_DRAM_ACTIVE | Gauge | 占比(0-1) | 内存拷贝活跃周期分数(一个周期内有一次 DRAM 指令则该周期为 100%) |
DCGM_FI_PROF_PCIE_TX_BYTES | Counter | B/s | 通过 PCIe 总线传输的数据流量 |
DCGM_FI_PROF_PCIE_RX_BYTES | Counter | B/s | 通过 PCIe 总线接收的数据流量 |
DCGM_FI_PROF_NVLINK_RX_BYTES | Counter | B/s | 通过 NVLink 传输的数据流量 |
DCGM_FI_PROF_NVLINK_TX_BYTES | Counter | B/s | 通过 NVLink 接收的数据流量 |
分类 | 指标 | 类型 | 单位 | 说明 |
|---|---|---|---|---|
CPU | container_cpu_usage_seconds_total | Counter | s | 容器 CPU 累计使用量 |
container_cpu_system_seconds_total | Counter | s | System CPU 累计占用时间 | |
container_cpu_user_seconds_total | Counter | s | User CPU 累计占用时间 | |
内存 | container_memory_max_usage_bytes | Gauge | Byte | 容器的最大内存使用量 |
container_memory_usage_bytes | Gauge | Byte | 容器当前的内存使用量,包括缓存等可释放的内存 | |
container_memory_working_set_bytes | Gauge | Byte | 容器当前的内存使用量 | |
container_spec_memory_limit_bytes | Gauge | Byte | 容器的内存使用量限制 | |
machine_memory_bytes | Gauge | Byte | 当前主机的内存总量 |
指标 | 类型 | 单位 | 说明 |
|---|---|---|---|
kaic_node_gpu_count | Gauge | 卡数 | 节点GPU卡总数 |
kaic_queue_deserved_gpu | Gauge | 卡数 | 队列GPU卡配额 |
kaic_queue_deserved_cpu | Gauge | Core | 队列CPU配额 |
kaic_queue_deserved_mem_bytes | Gauge | GiB | 队列内存配额 |
kaic_queue_gpu_allocated | Gauge | 卡数 | 队列已分配GPU卡数 |
kaic_queue_cpu_allocated | Gauge | Core | 队列已分配CPU |
kaic_queue_memory_allocated | Gauge | GiB | 队列已分配内存 |
指标 | 类型 | 单位 | 说明 |
|---|---|---|---|
kaic_task_info | Gauge | / | 任务详情。指标值恒为1 |
kaic_pod_gpu_requests | Gauge | 卡数 | 任务实际Pod请求的GPU卡数 |
kaic_task_memory_gb | Gauge | GiB | 任务内存使用量 |
kaic_task_total_pod_num | Gauge | 个 | 任务Pod数量 |
kaic_task_run_start_timestamp | Gauge | / | 任务本次运行的启动时间 |
kaic_task_gpu_num | Gauge | 卡数 | 任务单个实例请求的GPU数量 |
kaic_task_active | Gauge | / | 任务是否运行中。运行中值为1,否则为0 |
kaic_gpu_mapping | Gauge | / | GPU名称和k8s资源名称对应关系。指标值恒为1 |
其他支持的监控指标详见托管Prometheus指标说明。
纯净模式
