全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

GEPC GPU裸金属服务器

最近更新时间:2025-06-05 20:23:39

GEPC GPU裸金属服务器

GPU裸金属服务器

监控指标

描述

说明

单位

指标引入版本

cpu.utilizition.total

CPU利用率

%

per.cpu.usage[核心]

CPU单核利用率

需安装插件

%

v1.36

disk.read.Bps[盘符]

磁盘每秒读字节

Bps

disk.read.ops[盘符]

磁盘每秒读次数

pps

disk.write.Bps[盘符]

磁盘每秒写字节

Bps

disk.write.ops[盘符]

磁盘每秒写次数

pps

vfs.fs.total[挂载点]

磁盘的使用量

B

v1.32

vfs.fs.capacity[挂载点]

磁盘总容量

B

v1.36

load.1min

CPU1分钟平均负载

-

load.5min

CPU5分钟平均负载

-

load.15min

CPU15分钟平均负载

-

net.if.in_bps[网卡名称]

网卡入流量

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

bps

net.if.in_pps[网卡名称]

网卡入包速率

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

pps

net.if.out_bps[网卡名称]

网卡出流量

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

bps

net.if.out_pps[网卡名称]

网卡出包速率

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

pps

proc.num[]

运行进程个数

vfs.fs.size[挂载点]

磁盘使用率

%

vm.memory.free

可用内存

B

vm.memory.size

总内存

B

vm.memory.util

内存利用率

%

GPU卡

监控指标

描述

说明

单位

指标引入版本

gpu.memory.total[index]

GPU[0-7]总显存

Framebuffer memory total (in MiB).

MB

gpu.memory.used[index]

GPU[0-7]已用显存

Framebuffer memory used (in MiB).

MB

gpu.memory.utilization[index]

GPU显存利用率

Memory utilization (in %).

%

gpu.temperature[index]

GPU温度

GPU temperature (in C).

gpu.utilization[index]

GPU利用率

GPU utilization (in %).

%

gpu.memory.reserved[index]

GPU保留显存

Framebuffer memory total (in MiB).

MB

gpu.memory.usage[index]

GPU显存使用率

Memory useage (in %).

%

gpu.decoder.utilization[index]

GPU解码器利用率

Decoder utilization (in %).

%

gpu.encoder.utilization[index]

GPU编码器利用率

Encoder utilization (in %).

%

gpu.clock.mem[index]

GPU内存时钟频率

Memory clock frequency (in MHz).

MHz

gpu.num

gpu数量

-

v1.33

gpu.clocks.event.reason

gpu降速原因

-

v1.33

gpu.clock.sm[index]

GPUSM时钟频率

SM clock frequency (in MHz).

MHz

gpu.pcie.replay[index]

PCIe重试次数

Total number of PCIe retries.

gpu.remap.correctable[index]

重新映射CE

Number of remapped rows for correctable errors

gpu.remap.uncorrectable[index]

重新映射UE

Number of remapped rows for uncorrectable errors

gpu.remap.failure[index]

重新映射状态

Whether remapping of rows has failed

-

gpu.power.draw[index]

GPU功率

Power draw (in W).

W

RoCE网卡指标

监控指标

描述

说明

单位

tx.packets.phy[网卡名称]

出向包速率

物理网卡总的发送包速率(pps)

pps

rx.packets.phy[网卡名称]

入向包速率

物理网卡总的接收包速率(pps)

pps

tx.bytes.phy[网卡名称]

出向带宽

物理网卡总的出向带宽(Bps)

Bps

rx.bytes.phy[网卡名称]

入向带宽

物理网卡总的入向带宽(Bps)

Bps

rx.pause.ctrl.phy[网卡名称]

pause帧入向包速率

物理网卡链路层接收到的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps)

pps

tx.pause.ctrl.phy[网卡名称]

pause帧出向包速率

物理网卡链路层发送的pause帧的速率,当pause帧增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps)

pps

rx.prio5.bytes[网卡名称]

RDMA入向带宽

RDMA总的入向带宽(Bps)

Bps

rx.prio5.packets[网卡名称]

RDMA入向包速率

RDMA总的接收报文速率(pps)

pps

rx.prio5.discards[网卡名称]

RDMA丢包速率(接收buffer不足)

RDMA接收过程中,由于接收buffer不足导致的丢包(pps)

pps

tx.prio5.bytes[网卡名称]

RDMA出向带宽

RDMA总的出向带宽(Bps)

Bps

tx.prio5.packets[网卡名称]

RDMA出向包速率

RDMA总的发送包速率(pps)

pps

rx.prio5.pause[网卡名称]

RDMA pause帧入向包速率

RDMA接收的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps)

pps

rx.prio5.pause.duration[网卡名称]

RDMA接收到pause帧持续时间

RDMA接收到pause帧持续的时间(单位为microSec)

ms

tx.prio5.pause[网卡名称]

RDMA pause帧出向包速率

RDMA发送的pause帧的计数,当这个计数增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps)

pps

tx.prio5.pause.duration[网卡名称]

RDMA发送pause帧持续时间

RDMA发送pause帧持续的时间(单位为microSec)

ms

rx.prio5.buf.discard[网卡名称]

RDMA丢包速率(host receive buffer不足)

RDMA收包过程中由于host receive buffer不够而导致的丢包(pps)

pps

rx.prio5.cong.discard[网卡名称]

RDMA丢包速率(host拥塞)

RDMA收包过程中由于host拥塞而导致的丢包(pps)

pps

rx.prio5.marked[网卡名称]

RDMA ECN入向包速率

RDMA收包过程中被标记ECN的报文(pps)

pps

rp.cnp.handled[网卡名称]

对端CNP包速率

被对端网卡处理的CNP报文计数

pps

rp.cnp.ignored[网卡名称]

对端CNP丢包速率

对端网卡接收到但是被忽略的CNP报文计数,该计数不应该增加

pps

np.cnp.sent[网卡名称]

发送CNP包速率

当网卡通过RoCEv2 IP头分析到存在拥塞控制时发送的CNP报文计数

pps

np.ecn.marked.roce.packets[网卡名称]

接收ECN包速率

网卡接收到的RoCEv2报文中被标记了ECN bit的报文计数

pps

roce.port.phys.state

RoCE网络接口物理状态

-

-

roce.port.state

RoCE端口状态

-

-

IB网卡监控指标

描述

监控指标

单位

指标引入版本

InfiniBand过量缓冲区溢出错误

infiniband.excessive.buffer.overrun.errors

v1.47

InfiniBand链路断开

infiniband.link.downed

v1.47

InfiniBand链路错误恢复

infiniband.link.error.recovery

v1.47

InfiniBand本地链接完整性错误

infiniband.local.link.integrity.errors

v1.47

InfiniBand多播接收包

infiniband.multicast.rcv.packets

pps

v1.47

InfiniBand多播发送包

infiniband.multicast.xmit.packets

pps

v1.47

InfiniBand端口约束错误接收

infiniband.port.rcv.constraint.errors

pps

v1.47

InfiniBand端口约束错误发送

infiniband.port.xmit.constraint.errors

pps

v1.47

InfiniBand端口数据接收字节

infiniband.port.rcv.data

Bps

v1.47

InfiniBand端口数据发送字节

infiniband.port.xmit.data

Bps

v1.47

InfiniBand端口丢弃发送

infiniband.port.xmit.discards

pps

v1.47

InfiniBand端口错误接收

infiniband.port.rcv.errors

pps

v1.47

InfiniBand端口接收包

infiniband.port.rcv.packets

pps

v1.47

InfiniBand端口发送包

infiniband.port.xmit.packets

pps

v1.47

InfiniBand端口接收远程物理错误

infiniband.port.rcv.remote.physical.errors

pps

v1.47

InfiniBand端口接收交换机中继错误

infiniband.port.rcv.switch.relay.errors

pps

v1.47

InfiniBand端口发送等待

infiniband.port.xmit.wait

v1.47

InfiniBand符号错误

infiniband.symbol.error

v1.47

InfiniBand单播接收包

infiniband.unicast.rcv.packets

pps

v1.47

InfiniBand单播发送包

infiniband.unicast.xmit.packets

pps

v1.47

InfiniBand VL15丢弃

infiniband.vl15.dropped

pps

v1.47

InfiniBand网络接口物理状态

infiniband.port.phys.state

-

v1.47

InfiniBand状态

infiniband.port.state

-

v1.47

NPU监控指标

监控指标

描述

单位采集周期

单位

machine.npu.nums

处理器数

60s

-

npu.chip.info.utilization[n]

Core 利用率

60s

%

npu.chip.info.aicore.current.freq[n]

Core 当前频率

60s

MHz

npu.chip.info.used.memory[n]

内存使用量

60s

MB

npu.chip.info.total.memory[n]

内存总量

60s

MB

npu.chip.info.hbm.used.memory[n]

HBM 内存使用量

60s

MB

npu.chip.info.hbm.total.memory[n]

HBM 内存总量

60s

MB

npu.chip.info.temperature[n]

温度

60s

npu.chip.info.power[n]

功耗

60s

W

npu.chip.info.voltage[n]

电压

60s

V

npu.chip.info.health.status[n]

处理器健康状态

60s

-

npu.chip.info.network.status[n]

网络健康状态

60s

-

npu.chip.info.error.code[n]

处理器错误码

60s

-

npu.chip.link.speed[n]

网口默认速率

60s

Mbit/s

npu.chip.link.up.num[n]

闪断次数

60s

-

npu.chip.info.bandwidth.rx[n]

网口实时接收速率

60s

MB/s

npu.chip.info.bandwidth.tx[n]

网口实时发送速率

60s

MB/s

npu.chip.mac.tx.bad.oct.num[n]

MAC 发送的坏包总报文字节数

60s

Bps

npu.chip.mac.rx.bad.oct.num[n]

MAC 接收的坏包总报文字节数

60s

Bps

npu.chip.mac.rx.pause.num[n]

MAC 接收pause帧总报文数

60s

pps

npu.chip.mac.tx.pause.num[n]

MAC 发送pause帧总报文数

60s

pps

npu.chip.mac.rx.pfc.pkt.num[n]

MAC 接收PFC帧总报文数

60s

pps

npu.chip.mac.tx.pfc.pkt.num[n]

MAC 发送PFC帧总报文数

60s

pps

npu.chip.mac.rx.bad.pkt.num[n]

MAC 接收坏包总报文数

60s

pps

npu.chip.mac.tx.bad.pkt.num[n]

MAC 发送的坏包总报文数

60s

pps

npu.chip.roce.rx.all.pkt.num[n]

RoCE 接收的总报文数

60s

pps

npu.chip.roce.tx.all.pkt.num[n]

RoCE 发送的总报文数

60s

pps

npu.chip.roce.rx.err.pkt.num[n]

RoCE 接收的坏报文报文数

60s

pps

npu.chip.roce.tx.err.pkt.num[n]

RoCE 发送的坏报文报文数

60s

pps

npu.chip.roce.rx.cnp.pkt.num[n]

RoCE 接收的CNP类型报文数

60s

pps

npu.chip.roce.tx.cnp.pkt.num[n]

RoCE 发送的CNP类型报文数

60s

pps

npu.chip.roce.new.pkt.rty.num[n]

RoCE 重试报文数

60s

pps

npu.chip.roce.unexpected.ack.num[n]

RoCE 接收的非预期ACK报文数

60s

pps

npu.chip.roce.out.of.order.num[n]

RoCE 接收的PSN报文数

60s

pps

npu.chip.roce.verification.err.num[n]

RoCE 接收的域段校验错误的报文数

60s

pps

npu.chip.roce.qp.status.err.num[n]

RoCE 接收QP连接状态异常报文数

60s

pps

RDMA 毫秒级监控指标以及命令行说明

描述

监控指标

说明

单位版本

指标引入版本

网卡接收带宽平均值

rx.bytes.ms.avg

10秒内网卡接收带宽的毫秒级统计粒度平均值

bps

v1.47

网卡接收带宽最大值

rx.bytes.ms.max  

10秒内网卡接收带宽的毫秒级统计粒度最大值

bps

v1.47

网卡接收带宽最小值

rx.bytes.ms.min

10秒内网卡接收带宽的毫秒级统计粒度最小值

bps

v1.47

网卡接收带宽50百分位值

rx.bytes.ms.p50

10秒内从小到大网卡接收带宽的毫秒级统计粒度前50百分位数

bps

v1.47

网卡接收带宽90百分位值

rx.bytes.ms.p90

10秒内从小到大网卡接收带宽的毫秒级统计粒度前90百分位数

bps

v1.47

网卡发送带宽平均值

tx.bytes.ms.avg

10秒内网卡发送带宽的毫秒级统计粒度平均值

bps

v1.47

网卡发送带宽最大值

tx.bytes.ms.max

10秒内网卡发送带宽的毫秒级统计粒度最大值

bps

v1.47

网卡发送带宽最小值

tx.bytes.ms.min

10秒内网卡发送带宽的毫秒级统计粒度最小值

bps

v1.47

网卡发送带宽50百分位

tx.bytes.ms.p50

10秒内从小到大网卡发送带宽毫秒级统计粒度前50百分位数

bps

v1.47

网卡发送带宽90百分位

tx.bytes.ms.p90

10秒内从小到大网卡发送带宽毫秒级统计粒度前90百分位数

bps

v1.47

命令行使用说明
Usage of /usr/sbin/elfin-epc:
  -c string
    	configuration file (default "/etc/elfin-epc/elfin-epc.json")
  -h	help
  -rdma-duration int
    	enable rdma detail duration,unit second,default 10s (default 10)
  -rdma-enable
    	enable rdma detail print
  -rdma-filter string
    	enable rdma detail filter,all: print all  ,other example: eth0x,eth1x (default "all")
  -v	show version

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈