最近更新时间:2025-06-05 20:23:39
监控指标 | 描述 | 说明 | 单位 | 指标引入版本 |
|---|---|---|---|---|
cpu.utilizition.total | CPU利用率 | 无 | % | |
per.cpu.usage[核心] | CPU单核利用率 | 需安装插件 | % | v1.36 |
disk.read.Bps[盘符] | 磁盘每秒读字节 | 无 | Bps | |
disk.read.ops[盘符] | 磁盘每秒读次数 | 无 | pps | |
disk.write.Bps[盘符] | 磁盘每秒写字节 | 无 | Bps | |
disk.write.ops[盘符] | 磁盘每秒写次数 | 无 | pps | |
vfs.fs.total[挂载点] | 磁盘的使用量 | 无 | B | v1.32 |
vfs.fs.capacity[挂载点] | 磁盘总容量 | 无 | B | v1.36 |
load.1min | CPU1分钟平均负载 | 无 | - | |
load.5min | CPU5分钟平均负载 | 无 | - | |
load.15min | CPU15分钟平均负载 | 无 | - | |
net.if.in_bps[网卡名称] | 网卡入流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps | |
net.if.in_pps[网卡名称] | 网卡入包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps | |
net.if.out_bps[网卡名称] | 网卡出流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps | |
net.if.out_pps[网卡名称] | 网卡出包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps | |
proc.num[] | 运行进程个数 | 无 | 个 | |
vfs.fs.size[挂载点] | 磁盘使用率 | 无 | % | |
vm.memory.free | 可用内存 | 无 | B | |
vm.memory.size | 总内存 | 无 | B | |
vm.memory.util | 内存利用率 | 无 | % |
监控指标 | 描述 | 说明 | 单位 | 指标引入版本 |
|---|---|---|---|---|
gpu.memory.total[index] | GPU[0-7]总显存 | Framebuffer memory total (in MiB). | MB | |
gpu.memory.used[index] | GPU[0-7]已用显存 | Framebuffer memory used (in MiB). | MB | |
gpu.memory.utilization[index] | GPU显存利用率 | Memory utilization (in %). | % | |
gpu.temperature[index] | GPU温度 | GPU temperature (in C). | ℃ | |
gpu.utilization[index] | GPU利用率 | GPU utilization (in %). | % | |
gpu.memory.reserved[index] | GPU保留显存 | Framebuffer memory total (in MiB). | MB | |
gpu.memory.usage[index] | GPU显存使用率 | Memory useage (in %). | % | |
gpu.decoder.utilization[index] | GPU解码器利用率 | Decoder utilization (in %). | % | |
gpu.encoder.utilization[index] | GPU编码器利用率 | Encoder utilization (in %). | % | |
gpu.clock.mem[index] | GPU内存时钟频率 | Memory clock frequency (in MHz). | MHz | |
gpu.num | gpu数量 | 无 | - | v1.33 |
gpu.clocks.event.reason | gpu降速原因 | 无 | - | v1.33 |
gpu.clock.sm[index] | GPUSM时钟频率 | SM clock frequency (in MHz). | MHz | |
gpu.pcie.replay[index] | PCIe重试次数 | Total number of PCIe retries. | 次 | |
gpu.remap.correctable[index] | 重新映射CE | Number of remapped rows for correctable errors | 个 | |
gpu.remap.uncorrectable[index] | 重新映射UE | Number of remapped rows for uncorrectable errors | 个 | |
gpu.remap.failure[index] | 重新映射状态 | Whether remapping of rows has failed | - | |
gpu.power.draw[index] | GPU功率 | Power draw (in W). | W |
监控指标 | 描述 | 说明 | 单位 |
|---|---|---|---|
tx.packets.phy[网卡名称] | 出向包速率 | 物理网卡总的发送包速率(pps) | pps |
rx.packets.phy[网卡名称] | 入向包速率 | 物理网卡总的接收包速率(pps) | pps |
tx.bytes.phy[网卡名称] | 出向带宽 | 物理网卡总的出向带宽(Bps) | Bps |
rx.bytes.phy[网卡名称] | 入向带宽 | 物理网卡总的入向带宽(Bps) | Bps |
rx.pause.ctrl.phy[网卡名称] | pause帧入向包速率 | 物理网卡链路层接收到的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
tx.pause.ctrl.phy[网卡名称] | pause帧出向包速率 | 物理网卡链路层发送的pause帧的速率,当pause帧增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
rx.prio5.bytes[网卡名称] | RDMA入向带宽 | RDMA总的入向带宽(Bps) | Bps |
rx.prio5.packets[网卡名称] | RDMA入向包速率 | RDMA总的接收报文速率(pps) | pps |
rx.prio5.discards[网卡名称] | RDMA丢包速率(接收buffer不足) | RDMA接收过程中,由于接收buffer不足导致的丢包(pps) | pps |
tx.prio5.bytes[网卡名称] | RDMA出向带宽 | RDMA总的出向带宽(Bps) | Bps |
tx.prio5.packets[网卡名称] | RDMA出向包速率 | RDMA总的发送包速率(pps) | pps |
rx.prio5.pause[网卡名称] | RDMA pause帧入向包速率 | RDMA接收的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
rx.prio5.pause.duration[网卡名称] | RDMA接收到pause帧持续时间 | RDMA接收到pause帧持续的时间(单位为microSec) | ms |
tx.prio5.pause[网卡名称] | RDMA pause帧出向包速率 | RDMA发送的pause帧的计数,当这个计数增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
tx.prio5.pause.duration[网卡名称] | RDMA发送pause帧持续时间 | RDMA发送pause帧持续的时间(单位为microSec) | ms |
rx.prio5.buf.discard[网卡名称] | RDMA丢包速率(host receive buffer不足) | RDMA收包过程中由于host receive buffer不够而导致的丢包(pps) | pps |
rx.prio5.cong.discard[网卡名称] | RDMA丢包速率(host拥塞) | RDMA收包过程中由于host拥塞而导致的丢包(pps) | pps |
rx.prio5.marked[网卡名称] | RDMA ECN入向包速率 | RDMA收包过程中被标记ECN的报文(pps) | pps |
rp.cnp.handled[网卡名称] | 对端CNP包速率 | 被对端网卡处理的CNP报文计数 | pps |
rp.cnp.ignored[网卡名称] | 对端CNP丢包速率 | 对端网卡接收到但是被忽略的CNP报文计数,该计数不应该增加 | pps |
np.cnp.sent[网卡名称] | 发送CNP包速率 | 当网卡通过RoCEv2 IP头分析到存在拥塞控制时发送的CNP报文计数 | pps |
np.ecn.marked.roce.packets[网卡名称] | 接收ECN包速率 | 网卡接收到的RoCEv2报文中被标记了ECN bit的报文计数 | pps |
roce.port.phys.state | RoCE网络接口物理状态 | - | - |
roce.port.state | RoCE端口状态 | - | - |
描述 | 监控指标 | 单位 | 指标引入版本 |
|---|---|---|---|
InfiniBand过量缓冲区溢出错误 | infiniband.excessive.buffer.overrun.errors | 个 | v1.47 |
InfiniBand链路断开 | infiniband.link.downed | 次 | v1.47 |
InfiniBand链路错误恢复 | infiniband.link.error.recovery | 次 | v1.47 |
InfiniBand本地链接完整性错误 | infiniband.local.link.integrity.errors | 次 | v1.47 |
InfiniBand多播接收包 | infiniband.multicast.rcv.packets | pps | v1.47 |
InfiniBand多播发送包 | infiniband.multicast.xmit.packets | pps | v1.47 |
InfiniBand端口约束错误接收 | infiniband.port.rcv.constraint.errors | pps | v1.47 |
InfiniBand端口约束错误发送 | infiniband.port.xmit.constraint.errors | pps | v1.47 |
InfiniBand端口数据接收字节 | infiniband.port.rcv.data | Bps | v1.47 |
InfiniBand端口数据发送字节 | infiniband.port.xmit.data | Bps | v1.47 |
InfiniBand端口丢弃发送 | infiniband.port.xmit.discards | pps | v1.47 |
InfiniBand端口错误接收 | infiniband.port.rcv.errors | pps | v1.47 |
InfiniBand端口接收包 | infiniband.port.rcv.packets | pps | v1.47 |
InfiniBand端口发送包 | infiniband.port.xmit.packets | pps | v1.47 |
InfiniBand端口接收远程物理错误 | infiniband.port.rcv.remote.physical.errors | pps | v1.47 |
InfiniBand端口接收交换机中继错误 | infiniband.port.rcv.switch.relay.errors | pps | v1.47 |
InfiniBand端口发送等待 | infiniband.port.xmit.wait | 个 | v1.47 |
InfiniBand符号错误 | infiniband.symbol.error | 个 | v1.47 |
InfiniBand单播接收包 | infiniband.unicast.rcv.packets | pps | v1.47 |
InfiniBand单播发送包 | infiniband.unicast.xmit.packets | pps | v1.47 |
InfiniBand VL15丢弃 | infiniband.vl15.dropped | pps | v1.47 |
InfiniBand网络接口物理状态 | infiniband.port.phys.state | - | v1.47 |
InfiniBand状态 | infiniband.port.state | - | v1.47 |
监控指标 | 描述 | 单位采集周期 | 单位 |
|---|---|---|---|
machine.npu.nums | 处理器数 | 60s | - |
npu.chip.info.utilization[n] | Core 利用率 | 60s | % |
npu.chip.info.aicore.current.freq[n] | Core 当前频率 | 60s | MHz |
npu.chip.info.used.memory[n] | 内存使用量 | 60s | MB |
npu.chip.info.total.memory[n] | 内存总量 | 60s | MB |
npu.chip.info.hbm.used.memory[n] | HBM 内存使用量 | 60s | MB |
npu.chip.info.hbm.total.memory[n] | HBM 内存总量 | 60s | MB |
npu.chip.info.temperature[n] | 温度 | 60s | ℃ |
npu.chip.info.power[n] | 功耗 | 60s | W |
npu.chip.info.voltage[n] | 电压 | 60s | V |
npu.chip.info.health.status[n] | 处理器健康状态 | 60s | - |
npu.chip.info.network.status[n] | 网络健康状态 | 60s | - |
npu.chip.info.error.code[n] | 处理器错误码 | 60s | - |
npu.chip.link.speed[n] | 网口默认速率 | 60s | Mbit/s |
npu.chip.link.up.num[n] | 闪断次数 | 60s | - |
npu.chip.info.bandwidth.rx[n] | 网口实时接收速率 | 60s | MB/s |
npu.chip.info.bandwidth.tx[n] | 网口实时发送速率 | 60s | MB/s |
npu.chip.mac.tx.bad.oct.num[n] | MAC 发送的坏包总报文字节数 | 60s | Bps |
npu.chip.mac.rx.bad.oct.num[n] | MAC 接收的坏包总报文字节数 | 60s | Bps |
npu.chip.mac.rx.pause.num[n] | MAC 接收pause帧总报文数 | 60s | pps |
npu.chip.mac.tx.pause.num[n] | MAC 发送pause帧总报文数 | 60s | pps |
npu.chip.mac.rx.pfc.pkt.num[n] | MAC 接收PFC帧总报文数 | 60s | pps |
npu.chip.mac.tx.pfc.pkt.num[n] | MAC 发送PFC帧总报文数 | 60s | pps |
npu.chip.mac.rx.bad.pkt.num[n] | MAC 接收坏包总报文数 | 60s | pps |
npu.chip.mac.tx.bad.pkt.num[n] | MAC 发送的坏包总报文数 | 60s | pps |
npu.chip.roce.rx.all.pkt.num[n] | RoCE 接收的总报文数 | 60s | pps |
npu.chip.roce.tx.all.pkt.num[n] | RoCE 发送的总报文数 | 60s | pps |
npu.chip.roce.rx.err.pkt.num[n] | RoCE 接收的坏报文报文数 | 60s | pps |
npu.chip.roce.tx.err.pkt.num[n] | RoCE 发送的坏报文报文数 | 60s | pps |
npu.chip.roce.rx.cnp.pkt.num[n] | RoCE 接收的CNP类型报文数 | 60s | pps |
npu.chip.roce.tx.cnp.pkt.num[n] | RoCE 发送的CNP类型报文数 | 60s | pps |
npu.chip.roce.new.pkt.rty.num[n] | RoCE 重试报文数 | 60s | pps |
npu.chip.roce.unexpected.ack.num[n] | RoCE 接收的非预期ACK报文数 | 60s | pps |
npu.chip.roce.out.of.order.num[n] | RoCE 接收的PSN报文数 | 60s | pps |
npu.chip.roce.verification.err.num[n] | RoCE 接收的域段校验错误的报文数 | 60s | pps |
npu.chip.roce.qp.status.err.num[n] | RoCE 接收QP连接状态异常报文数 | 60s | pps |
描述 | 监控指标 | 说明 | 单位版本 | 指标引入版本 |
|---|---|---|---|---|
网卡接收带宽平均值 | rx.bytes.ms.avg | 10秒内网卡接收带宽的毫秒级统计粒度平均值 | bps | v1.47 |
网卡接收带宽最大值 | rx.bytes.ms.max | 10秒内网卡接收带宽的毫秒级统计粒度最大值 | bps | v1.47 |
网卡接收带宽最小值 | rx.bytes.ms.min | 10秒内网卡接收带宽的毫秒级统计粒度最小值 | bps | v1.47 |
网卡接收带宽50百分位值 | rx.bytes.ms.p50 | 10秒内从小到大网卡接收带宽的毫秒级统计粒度前50百分位数 | bps | v1.47 |
网卡接收带宽90百分位值 | rx.bytes.ms.p90 | 10秒内从小到大网卡接收带宽的毫秒级统计粒度前90百分位数 | bps | v1.47 |
网卡发送带宽平均值 | tx.bytes.ms.avg | 10秒内网卡发送带宽的毫秒级统计粒度平均值 | bps | v1.47 |
网卡发送带宽最大值 | tx.bytes.ms.max | 10秒内网卡发送带宽的毫秒级统计粒度最大值 | bps | v1.47 |
网卡发送带宽最小值 | tx.bytes.ms.min | 10秒内网卡发送带宽的毫秒级统计粒度最小值 | bps | v1.47 |
网卡发送带宽50百分位 | tx.bytes.ms.p50 | 10秒内从小到大网卡发送带宽毫秒级统计粒度前50百分位数 | bps | v1.47 |
网卡发送带宽90百分位 | tx.bytes.ms.p90 | 10秒内从小到大网卡发送带宽毫秒级统计粒度前90百分位数 | bps | v1.47 |
Usage of /usr/sbin/elfin-epc:
-c string
configuration file (default "/etc/elfin-epc/elfin-epc.json")
-h help
-rdma-duration int
enable rdma detail duration,unit second,default 10s (default 10)
-rdma-enable
enable rdma detail print
-rdma-filter string
enable rdma detail filter,all: print all ,other example: eth0x,eth1x (default "all")
-v show version
纯净模式
