全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

GEPC GPU裸金属服务器

最近更新时间:2024-12-11 19:27:03

GEPC GPU裸金属服务器

监控指标

描述

说明

单位

指标引入版本

cpu.utilizition.total

CPU利用率

%

per.cpu.usage[核心]

CPU单核利用率

需安装插件

%

v1.36

disk.read.Bps[sda]

磁盘每秒读字节sda

Bps

disk.read.Bps[sdb]

磁盘每秒读字节sdb

Bps

disk.read.ops[sda]

磁盘每秒读次数sda

pps

disk.read.ops[sdb]

磁盘每秒读次数sdb

pps

disk.write.Bps[sda]

磁盘每秒写字节sda

Bps

disk.write.Bps[sdb]

磁盘每秒写字节sdb

Bps

disk.write.ops[sda]

磁盘每秒写次数sda

pps

disk.write.ops[sdb]

磁盘每秒写次数sdb

pps

disk.io.avgrq[盘符]

I/O请求的平均大小

sectors

v1.32

disk.io.avgqu[盘符]

I/O请求队列的平均长度

count

v1.32

disk.read.await[盘符]

每个读操作的平均耗时

ms

v1.32

disk.write.await[盘符]

每个写操作的平均耗时

ms

v1.32

disk.io.util[盘符]

磁盘IO使用率

%

v1.32

vfs.fs.total[盘符]

磁盘的使用量

B

v1.32

vfs.fs.capacity[挂载点]

磁盘总容量

B

v1.36

gpu.memory.total[index]

GPU[0-7]总显存

Framebuffer memory total (in MiB).

MB

gpu.memory.used[index]

GPU[0-7]已用显存

Framebuffer memory used (in MiB).

MB

gpu.memory.utilization[index]

GPU显存利用率

Memory utilization (in %).

%

gpu.temperature[index]

GPU温度

GPU temperature (in C).

gpu.utilization[index]

GPU利用率

GPU utilization (in %).

%

gpu.memory.reserved[index]

GPU保留显存

Framebuffer memory total (in MiB).

MB

gpu.memory.usage[index]

GPU显存使用率

Memory useage (in %).

%

gpu.decoder.utilization[index]

GPU解码器利用率

Decoder utilization (in %).

%

gpu.encoder.utilization[index]

GPU编码器利用率

Encoder utilization (in %).

%

gpu.clock.mem[index]

GPU内存时钟频率

Memory clock frequency (in MHz).

MHz

gpu.num

gpu数量

-

v1.33

gpu.clocks.event.reason

gpu降速原因

-

v1.33

gpu.clock.sm[index]

GPUSM时钟频率

SM clock frequency (in MHz).

MHz

gpu.pcie.replay[index]

PCIe重试次数

Total number of PCIe retries.

gpu.remap.correctable[index]

重新映射CE

Number of remapped rows for correctable errors

gpu.remap.uncorrectable[index]

重新映射UE

Number of remapped rows for uncorrectable errors

gpu.remap.failure[index]

重新映射状态

Whether remapping of rows has failed

-

gpu.power.draw[index]

GPU功率

Power draw (in W).

W

load.1min

CPU1分钟平均负载

-

load.5min

CPU5分钟平均负载

-

load.15min

CPU15分钟平均负载

-

net.if.in_bps[网卡名称]

网卡入流量

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

bps

net.if.in_pps[网卡名称]

网卡入包速率

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

pps

net.if.out_bps[网卡名称]

网卡出流量

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

bps

net.if.out_pps[网卡名称]

网卡出包速率

例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3

pps

proc.num[]

运行进程个数

vfs.fs.size[/]

磁盘使用率

%

vm.memory.free

可用内存

B

vm.memory.size

总内存

B

vm.memory.util

内存利用率

%

CX7网卡指标

监控指标

描述

说明

单位

tx.packets.phy[网卡名称]

出向包速率

物理网卡总的发送包速率(pps)

pps

rx.packets.phy[网卡名称]

入向包速率

物理网卡总的接收包速率(pps)

pps

tx.bytes.phy[网卡名称]

出向带宽

物理网卡总的出向带宽(Bps)

Bps

rx.bytes.phy[网卡名称]

入向带宽

物理网卡总的入向带宽(Bps)

Bps

rx.pause.ctrl.phy[网卡名称]

pause帧入向包速率

物理网卡链路层接收到的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps)

pps

tx.pause.ctrl.phy[网卡名称]

pause帧出向包速率

物理网卡链路层发送的pause帧的速率,当pause帧增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps)

pps

rx.prio5.bytes[网卡名称]

RDMA入向带宽

RDMA总的入向带宽(Bps)

Bps

rx.prio5.packets[网卡名称]

RDMA入向包速率

RDMA总的接收报文速率(pps)

pps

rx.prio5.discards[网卡名称]

RDMA丢包速率(接收buffer不足)

RDMA接收过程中,由于接收buffer不足导致的丢包(pps)

pps

tx.prio5.bytes[网卡名称]

RDMA出向带宽

RDMA总的出向带宽(Bps)

Bps

tx.prio5.packets[网卡名称]

RDMA出向包速率

RDMA总的发送包速率(pps)

pps

rx.prio5.pause[网卡名称]

RDMA pause帧入向包速率

RDMA接收的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps)

pps

rx.prio5.pause.duration[网卡名称]

RDMA接收到pause帧持续时间

RDMA接收到pause帧持续的时间(单位为microSec)

ms

tx.prio5.pause[网卡名称]

RDMA pause帧出向包速率

RDMA发送的pause帧的计数,当这个计数增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps)

pps

tx.prio5.pause.duration[网卡名称]

RDMA发送pause帧持续时间

RDMA发送pause帧持续的时间(单位为microSec)

ms

rx.prio5.buf.discard[网卡名称]

RDMA丢包速率(host receive buffer不足)

RDMA收包过程中由于host receive buffer不够而导致的丢包(pps)

pps

rx.prio5.cong.discard[网卡名称]

RDMA丢包速率(host拥塞)

RDMA收包过程中由于host拥塞而导致的丢包(pps)

pps

rx.prio5.marked[网卡名称]

RDMA ECN入向包速率

RDMA收包过程中被标记ECN的报文(pps)

pps

rp.cnp.handled[网卡名称]

对端CNP包速率

被对端网卡处理的CNP报文计数

pps

rp.cnp.ignored[网卡名称]

对端CNP丢包速率

对端网卡接收到但是被忽略的CNP报文计数,该计数不应该增加

pps

np.cnp.sent[网卡名称]

发送CNP包速率

当网卡通过RoCEv2 IP头分析到存在拥塞控制时发送的CNP报文计数

pps

np.ecn.marked.roce.packets[网卡名称]

接收ECN包速率

网卡接收到的RoCEv2报文中被标记了ECN bit的报文计数

pps

NPU指标

监控指标

描述

采集周期

单位

machine.npu.nums

处理器数

60s

npu.chip.info.utilization[n]

Core 利用率

60s

%

npu.chip.info.aicore.current.freq[n]

Core 当前频率

60s

MHz

npu.chip.info.used.memory[n]

内存使用量

60s

MB

npu.chip.info.total.memory[n]

内存总量

60s

MB

npu.chip.info.hbm.used.memory[n]

HBM 内存使用量

60s

MB

npu.chip.info.hbm.total.memory[n]

HBM 内存总量

60s

MB

npu.chip.info.temperature[n]

温度

60s

npu.chip.info.power[n]

功耗

60s

W

npu.chip.info.voltage[n]

电压

60s

V

npu.chip.info.health.status[n]

处理器健康状态

60s

npu.chip.info.network.status[n]

网络健康状态

60s

npu.chip.info.error.code[n]

处理器错误码

60s

npu.chip.link.speed[n]

网口默认速率

60s

Mbit/s

npu.chip.link.up.num[n]

闪断次数

60s

npu.chip.info.bandwidth.rx[n]

网口实时接收速率

60s

MB/s

npu.chip.info.bandwidth.tx[n]

网口实时发送速率

60s

MB/s

npu.chip.mac.tx.bad.oct.num[n]

MAC 发送的坏包总报文字节数

60s

Bps

npu.chip.mac.rx.bad.oct.num[n]

MAC 接收的坏包总报文字节数

60s

Bps

npu.chip.mac.rx.pause.num[n]

MAC 接收pause帧总报文数

60s

pps

npu.chip.mac.tx.pause.num[n]

MAC 发送pause帧总报文数

60s

pps

npu.chip.mac.rx.pfc.pkt.num[n]

MAC 接收PFC帧总报文数

60s

pps

npu.chip.mac.tx.pfc.pkt.num[n]

MAC 发送PFC帧总报文数

60s

pps

npu.chip.mac.rx.bad.pkt.num[n]

MAC 接收坏包总报文数

60s

pps

npu.chip.mac.tx.bad.pkt.num[n]

MAC 发送的坏包总报文数

60s

pps

npu.chip.roce.rx.all.pkt.num[n]

RoCE 接收的总报文数

60s

pps

npu.chip.roce.tx.all.pkt.num[n]

RoCE 发送的总报文数

60s

pps

npu.chip.roce.rx.err.pkt.num[n]

RoCE 接收的坏报文报文数

60s

pps

npu.chip.roce.tx.err.pkt.num[n]

RoCE 发送的坏报文报文数

60s

pps

npu.chip.roce.rx.cnp.pkt.num[n]

RoCE 接收的CNP类型报文数

60s

pps

npu.chip.roce.tx.cnp.pkt.num[n]

RoCE 发送的CNP类型报文数

60s

pps

npu.chip.roce.new.pkt.rty.num[n]

RoCE 重试报文数

60s

pps

npu.chip.roce.unexpected.ack.num[n]

RoCE 接收的非预期ACK报文数

60s

pps

npu.chip.roce.out.of.order.num[n]

RoCE 接收的PSN报文数

60s

pps

npu.chip.roce.verification.err.num[n]

RoCE 接收的域段校验错误的报文数

60s

pps

npu.chip.roce.qp.status.err.num[n]

RoCE 接收QP连接状态异常报文数

60s

pps

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈