全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

RoCE网络监控

最近更新时间:2025-08-27 19:27:25

RoCE网络监控提供了资源池维度的RoCE网络监控,助力用户关注及定位网络拥塞等问题。

使用前提和限制

使用RoCE网络监控的基础是您资源池内存在支持RDMA的GPU节点。

RoCE指标监控

提供端侧和网侧两维度的监控指标

支持按时间维度展示指标监控视图,可观测到一定时间范围内的指标变化趋势

可以根据业务需要自定义选择指标以及自定义时间区间展示对应的监控视图。

当前支持的监控指标和数据

指标类型

监控指标

描述

单位

网侧指标

if_out_pkts

发送报文速率

pps

if_in_pkts

接收报文速率

pps

if_out_octets_bps

出向实时带宽

pps

if_in_octets_bps

入向实时带宽

pps

if_out_discards_pkts

出向异常丢包速率

pps

if_in_discards_pkts

入向异常丢包速率

pps

if_out_pfc_pkts

发送PFC帧速率

pps

if_in_pfc_pkts

接收PFC帧速率

pps

if_in_cnp_pkts

入向CNP帧速率

pps

if_out_ecn_pkts

出向ECN帧速率

pps

if_in_rocev2_nack_pkts

入向NACK速率

pps

if_out_wred_drop_pkts

出向WRED帧速率

pps

if_in_headroom_peak

入向headroom使用峰值

if_in_headroom_peak_time

入向headroom使用峰值持续时间

if_out_shared_buffer_utilization

出向缓存利用率

%

if_out_shared_buffer_peak

出向缓存利用率峰值

if_out_shared_buffer_peak_time

出向缓存利用率峰值持续时间

if_in_errors_pkts

入向错误报文速率

bps

if_out_errors_pkts

出向错误报文速率

bps

端侧

tx.prio5.packets[网卡名称]

发送报文速率

pps

rx.prio5.packets[网卡名称]

接收报文速率

pps

tx.prio5.bytes[网卡名称]

出向带宽

bps

rx.prio5.packets[网卡名称]

入向带宽

bps

tx.prio5.pause[网卡名称]

发送pause帧速率

pps

rx.prio5.pause[网卡名称]

接收pause帧速率

pps

rx.prio5.buf.discard[网卡名称]+rx.prio5.cong.discard[网卡名称]

丢包速率

pps

rx.prio5.marked[网卡名称]

收包被标记ECN速率

pps

np.cnp.sent[网卡名称]

网卡分析RoCE IP头存在拥塞时发送CNP报文数量

pps

rx.prio5.pause.duration[网卡名称]

入向PFC帧持续时间

ms

tx.prio5.pause.duration[网卡名称]

出向PFC帧持续时间

ms

tx.packets.phy[网卡名称]

出向报文速率

pps

rx.packets.phy[网卡名称]

入向报文速率

pps

tx.bytes.phy[网卡名称]

出向带宽

bps

rx.bytes.phy[网卡名称]

入向带宽

bps

tx.prio5.bytes[网卡名称]

RDMA出向带宽

bps

rx.prio5.bytes[网卡名称]

RDMA入向带宽

bps

tx.prio5.packets[网卡名称]

RDMA出向报文速率

pps

rx.prio5.packets[网卡名称]

RDMA入向报文速率

pps

rx.prio5.discards[网卡名称]

RDMA丢包速率(接收buffer不足)

pps

rp.cnp.handled[网卡名称]

对端CNP包速率

pps

rp.cnp.ignored[网卡名称]

对端CNP丢包速率

pps

np.ecn.marked.roce.packets[网卡名称]

接收ECN包速率

pps

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈