最近更新时间:2024-12-11 19:27:03
监控指标 | 描述 | 说明 | 单位 | 指标引入版本 |
---|---|---|---|---|
cpu.utilizition.total | CPU利用率 | % | ||
per.cpu.usage[核心] | CPU单核利用率 | 需安装插件 | % | v1.36 |
disk.read.Bps[sda] | 磁盘每秒读字节sda | Bps | ||
disk.read.Bps[sdb] | 磁盘每秒读字节sdb | Bps | ||
disk.read.ops[sda] | 磁盘每秒读次数sda | pps | ||
disk.read.ops[sdb] | 磁盘每秒读次数sdb | pps | ||
disk.write.Bps[sda] | 磁盘每秒写字节sda | Bps | ||
disk.write.Bps[sdb] | 磁盘每秒写字节sdb | Bps | ||
disk.write.ops[sda] | 磁盘每秒写次数sda | pps | ||
disk.write.ops[sdb] | 磁盘每秒写次数sdb | pps | ||
disk.io.avgrq[盘符] | I/O请求的平均大小 | sectors | v1.32 | |
disk.io.avgqu[盘符] | I/O请求队列的平均长度 | count | v1.32 | |
disk.read.await[盘符] | 每个读操作的平均耗时 | ms | v1.32 | |
disk.write.await[盘符] | 每个写操作的平均耗时 | ms | v1.32 | |
disk.io.util[盘符] | 磁盘IO使用率 | % | v1.32 | |
vfs.fs.total[盘符] | 磁盘的使用量 | B | v1.32 | |
vfs.fs.capacity[挂载点] | 磁盘总容量 | B | v1.36 | |
gpu.memory.total[index] | GPU[0-7]总显存 | Framebuffer memory total (in MiB). | MB | |
gpu.memory.used[index] | GPU[0-7]已用显存 | Framebuffer memory used (in MiB). | MB | |
gpu.memory.utilization[index] | GPU显存利用率 | Memory utilization (in %). | % | |
gpu.temperature[index] | GPU温度 | GPU temperature (in C). | ℃ | |
gpu.utilization[index] | GPU利用率 | GPU utilization (in %). | % | |
gpu.memory.reserved[index] | GPU保留显存 | Framebuffer memory total (in MiB). | MB | |
gpu.memory.usage[index] | GPU显存使用率 | Memory useage (in %). | % | |
gpu.decoder.utilization[index] | GPU解码器利用率 | Decoder utilization (in %). | % | |
gpu.encoder.utilization[index] | GPU编码器利用率 | Encoder utilization (in %). | % | |
gpu.clock.mem[index] | GPU内存时钟频率 | Memory clock frequency (in MHz). | MHz | |
gpu.num | gpu数量 | - | v1.33 | |
gpu.clocks.event.reason | gpu降速原因 | - | v1.33 | |
gpu.clock.sm[index] | GPUSM时钟频率 | SM clock frequency (in MHz). | MHz | |
gpu.pcie.replay[index] | PCIe重试次数 | Total number of PCIe retries. | 次 | |
gpu.remap.correctable[index] | 重新映射CE | Number of remapped rows for correctable errors | 个 | |
gpu.remap.uncorrectable[index] | 重新映射UE | Number of remapped rows for uncorrectable errors | 个 | |
gpu.remap.failure[index] | 重新映射状态 | Whether remapping of rows has failed | - | |
gpu.power.draw[index] | GPU功率 | Power draw (in W). | W | |
load.1min | CPU1分钟平均负载 | - | ||
load.5min | CPU5分钟平均负载 | - | ||
load.15min | CPU15分钟平均负载 | - | ||
net.if.in_bps[网卡名称] | 网卡入流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps | |
net.if.in_pps[网卡名称] | 网卡入包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps | |
net.if.out_bps[网卡名称] | 网卡出流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps | |
net.if.out_pps[网卡名称] | 网卡出包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps | |
proc.num[] | 运行进程个数 | 个 | ||
vfs.fs.size[/] | 磁盘使用率 | % | ||
vm.memory.free | 可用内存 | B | ||
vm.memory.size | 总内存 | B | ||
vm.memory.util | 内存利用率 | % |
CX7网卡指标
监控指标 | 描述 | 说明 | 单位 |
---|---|---|---|
tx.packets.phy[网卡名称] | 出向包速率 | 物理网卡总的发送包速率(pps) | pps |
rx.packets.phy[网卡名称] | 入向包速率 | 物理网卡总的接收包速率(pps) | pps |
tx.bytes.phy[网卡名称] | 出向带宽 | 物理网卡总的出向带宽(Bps) | Bps |
rx.bytes.phy[网卡名称] | 入向带宽 | 物理网卡总的入向带宽(Bps) | Bps |
rx.pause.ctrl.phy[网卡名称] | pause帧入向包速率 | 物理网卡链路层接收到的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
tx.pause.ctrl.phy[网卡名称] | pause帧出向包速率 | 物理网卡链路层发送的pause帧的速率,当pause帧增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
rx.prio5.bytes[网卡名称] | RDMA入向带宽 | RDMA总的入向带宽(Bps) | Bps |
rx.prio5.packets[网卡名称] | RDMA入向包速率 | RDMA总的接收报文速率(pps) | pps |
rx.prio5.discards[网卡名称] | RDMA丢包速率(接收buffer不足) | RDMA接收过程中,由于接收buffer不足导致的丢包(pps) | pps |
tx.prio5.bytes[网卡名称] | RDMA出向带宽 | RDMA总的出向带宽(Bps) | Bps |
tx.prio5.packets[网卡名称] | RDMA出向包速率 | RDMA总的发送包速率(pps) | pps |
rx.prio5.pause[网卡名称] | RDMA pause帧入向包速率 | RDMA接收的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
rx.prio5.pause.duration[网卡名称] | RDMA接收到pause帧持续时间 | RDMA接收到pause帧持续的时间(单位为microSec) | ms |
tx.prio5.pause[网卡名称] | RDMA pause帧出向包速率 | RDMA发送的pause帧的计数,当这个计数增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
tx.prio5.pause.duration[网卡名称] | RDMA发送pause帧持续时间 | RDMA发送pause帧持续的时间(单位为microSec) | ms |
rx.prio5.buf.discard[网卡名称] | RDMA丢包速率(host receive buffer不足) | RDMA收包过程中由于host receive buffer不够而导致的丢包(pps) | pps |
rx.prio5.cong.discard[网卡名称] | RDMA丢包速率(host拥塞) | RDMA收包过程中由于host拥塞而导致的丢包(pps) | pps |
rx.prio5.marked[网卡名称] | RDMA ECN入向包速率 | RDMA收包过程中被标记ECN的报文(pps) | pps |
rp.cnp.handled[网卡名称] | 对端CNP包速率 | 被对端网卡处理的CNP报文计数 | pps |
rp.cnp.ignored[网卡名称] | 对端CNP丢包速率 | 对端网卡接收到但是被忽略的CNP报文计数,该计数不应该增加 | pps |
np.cnp.sent[网卡名称] | 发送CNP包速率 | 当网卡通过RoCEv2 IP头分析到存在拥塞控制时发送的CNP报文计数 | pps |
np.ecn.marked.roce.packets[网卡名称] | 接收ECN包速率 | 网卡接收到的RoCEv2报文中被标记了ECN bit的报文计数 | pps |
NPU指标
监控指标 | 描述 | 采集周期 | 单位 |
machine.npu.nums | 处理器数 | 60s | |
npu.chip.info.utilization[n] | Core 利用率 | 60s | % |
npu.chip.info.aicore.current.freq[n] | Core 当前频率 | 60s | MHz |
npu.chip.info.used.memory[n] | 内存使用量 | 60s | MB |
npu.chip.info.total.memory[n] | 内存总量 | 60s | MB |
npu.chip.info.hbm.used.memory[n] | HBM 内存使用量 | 60s | MB |
npu.chip.info.hbm.total.memory[n] | HBM 内存总量 | 60s | MB |
npu.chip.info.temperature[n] | 温度 | 60s | ℃ |
npu.chip.info.power[n] | 功耗 | 60s | W |
npu.chip.info.voltage[n] | 电压 | 60s | V |
npu.chip.info.health.status[n] | 处理器健康状态 | 60s | |
npu.chip.info.network.status[n] | 网络健康状态 | 60s | |
npu.chip.info.error.code[n] | 处理器错误码 | 60s | |
npu.chip.link.speed[n] | 网口默认速率 | 60s | Mbit/s |
npu.chip.link.up.num[n] | 闪断次数 | 60s | |
npu.chip.info.bandwidth.rx[n] | 网口实时接收速率 | 60s | MB/s |
npu.chip.info.bandwidth.tx[n] | 网口实时发送速率 | 60s | MB/s |
npu.chip.mac.tx.bad.oct.num[n] | MAC 发送的坏包总报文字节数 | 60s | Bps |
npu.chip.mac.rx.bad.oct.num[n] | MAC 接收的坏包总报文字节数 | 60s | Bps |
npu.chip.mac.rx.pause.num[n] | MAC 接收pause帧总报文数 | 60s | pps |
npu.chip.mac.tx.pause.num[n] | MAC 发送pause帧总报文数 | 60s | pps |
npu.chip.mac.rx.pfc.pkt.num[n] | MAC 接收PFC帧总报文数 | 60s | pps |
npu.chip.mac.tx.pfc.pkt.num[n] | MAC 发送PFC帧总报文数 | 60s | pps |
npu.chip.mac.rx.bad.pkt.num[n] | MAC 接收坏包总报文数 | 60s | pps |
npu.chip.mac.tx.bad.pkt.num[n] | MAC 发送的坏包总报文数 | 60s | pps |
npu.chip.roce.rx.all.pkt.num[n] | RoCE 接收的总报文数 | 60s | pps |
npu.chip.roce.tx.all.pkt.num[n] | RoCE 发送的总报文数 | 60s | pps |
npu.chip.roce.rx.err.pkt.num[n] | RoCE 接收的坏报文报文数 | 60s | pps |
npu.chip.roce.tx.err.pkt.num[n] | RoCE 发送的坏报文报文数 | 60s | pps |
npu.chip.roce.rx.cnp.pkt.num[n] | RoCE 接收的CNP类型报文数 | 60s | pps |
npu.chip.roce.tx.cnp.pkt.num[n] | RoCE 发送的CNP类型报文数 | 60s | pps |
npu.chip.roce.new.pkt.rty.num[n] | RoCE 重试报文数 | 60s | pps |
npu.chip.roce.unexpected.ack.num[n] | RoCE 接收的非预期ACK报文数 | 60s | pps |
npu.chip.roce.out.of.order.num[n] | RoCE 接收的PSN报文数 | 60s | pps |
npu.chip.roce.verification.err.num[n] | RoCE 接收的域段校验错误的报文数 | 60s | pps |
npu.chip.roce.qp.status.err.num[n] | RoCE 接收QP连接状态异常报文数 | 60s | pps |
纯净模式