全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

裸金属服务器

最近更新时间:2025-11-21 11:37:35

裸金属服务器事件如下:

事件类型

事件名称

事件名称(中文)

引入版本

处理方法与建议

采集上报聚合规则

聚合标签

标签示例

CPU故障

CPUFaultTriggered

CPU故障发生

/

可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

内存故障

MemoryOOM

MemoryOOM

v1.32

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

  • type:事件发现类型

  • pid:进程ID

  • pname:进程名称

type=dmesg_log

MemoryOOM

MemoryOOM

v1.47

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

  • type:事件发现类型

  • pid:进程ID

  • pname:进程名称

  • trigger:触发方式

type=dmesg_log
trigger={oom,oom_kill,oom_killer,cgroup}

MemoryCE

内存CE

v1.47

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min

无标签

type=dmesg_log

MemoryUE

内存UE

v1.47

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min

无标签

type=dmesg_log

MemoryFaultTriggered

内存故障发生

/

可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

主板故障

BoardcardFaultTriggered

主板故障发生

/

可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

电源故障

PowerModuleFaultTriggered

电源故障

/

可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

磁盘异常

NvmeError

Nvme磁盘异常

v1.47

常见错误类型:
CountDecrease, 磁盘数量减少
PmrRo, 持久内存只读警告
VmbuFailed, 易失性内存备份失败警告
Ro, 磁盘处于只读模式
ReliabilityDegraded, 非易失性存储子系统可靠性状况
TempThreshold, 表温度阈值警告
AvailableSpare 可用备用空间已低于阈值
建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • reason:原因

  • device:设备

reason={CountDecrease,PmrRo,VmbuFailed,Ro,ReliabilityDegraded,TempThreshold,AvailableSpare}
device=nvme0n1

PhysicalDiskHealthError

物理盘健康状态异常

/

可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:物理盘类型

  • device:磁盘设备名称

type=direct/hba

PhysicalDiskIOError

物理盘出现IO错误

v1.19

可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

5min聚合

  • type:事件发现类型

  • device:磁盘设备名称

type=dmesg_log

FileSystemReadOnly

文件系统只读

v1.19

可登录系统执行dmesg ,可见filesystem read-only相关信息。

不聚合

  • type:事件发现类型

type=dmesg_log

RAIDError

RAID错误

/

可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

type=storcli/megacli

PhysicalDiskFailed

物理盘 Failed

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • EIDSlt:槽位

type=storcli/megacli

PhysicalDiskOffline

物理盘 Offline

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • EIDSlt:槽位

type=storcli/megacli

PhysicalDiskUnconfigedBad

物理盘 UnconfigedBad

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • EIDSlt:槽位

type=storcli/megacli

PhysicalDiskUnconfigedGood

物理盘 UnconfigedGood

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • EIDSlt:槽位

type=storcli/megacli

LogicalDiskDegraded

逻辑盘 Degraded

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • DGVD:虚拟设备编号

  • raid_type:raid类型

type=storcli/megacli

LogicalDiskFailed

逻辑盘 Failed

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • DGVD:虚拟设备编号

  • raid_type:raid类型

type=storcli/megacli

LogicalDiskPartialDegraded

逻辑盘 Partial Degraded

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • DGVD:虚拟设备编号

  • raid_type:raid类型

type=storcli/megacli

LogicalDiskOffline

逻辑盘 Offline

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • DGVD:虚拟设备编号

  • raid_type:raid类型

type=storcli/megacli

系统故障

VFSFileMaxLimit

打开文件数超限

v1.47

可登录系统查看/var/log/messages或者执行dmesg ,查阅 file-max limit 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min

无标签

type=dmesg_log

CPUBlock

CPUBlock

v1.47

可登录系统查看/var/log/messages或者执行dmesg ,查阅blocked for more than相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • pid:进程ID

  • pname:进程名称

type=dmesg_log

NCCLSegfault

NCCLSegfault

提示:仅限 GPU 裸金属

v1.47

建议升级GPU驱动至最新版本。

1min

无标签

type=dmesg_log

CPUSoftLockup

CPUSoftLockup

v1.47

可登录系统查看/var/log/messages或者执行dmesg ,查阅 watchdog: BUG: soft lockup - CPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • CPU:CPU编号

type=dmesg_log
CPU=0

SystemReboot

系统重启

v1.34

若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

type=proc

KernelPanic

内核故障

v1.32

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

  • type:事件发现类型

type=dmesg_log

GPU故障

SXidError

GPU出现NVSwitch Xid故障

提示:仅限 GPU 裸金属

v1.33

可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

5min聚合

  • type:事件发现类型

  • sxid:sxid错误编码

  • pci:pci设备ID

  • switch:nvswitch编号

  • description:sxid描述信息

  • error_level:错误等级

type=dmesg_log

GpuCheckHealthError

GPU出现健康检查故障
提示:仅限 GPU 裸金属


说明: GPU以1次/每小时的频率自动执行 nvidia-smi命令,发生异常时触发该事件。

v1.33

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • reason:原因

type=dmesg_log

GpuMemError

GPU出现内存故障

提示:仅限 GPU 裸金属

v1.33

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • index:gpu设备编号

  • reason:原因

  • gpu_name:GPU名称

  • gpu_uuid:gpu的uuid

  • pci:gpu pic设备id

type=nvml

GPU异常

XidError

GPU XID 异常

提示:仅限 GPU 裸金属

/

可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

  • type:事件发现类型

  • xid:xid错误编码

  • pci:pci设备ID

  • description:xid描述信息

  • causes:xid可能原因

  • gpu_name:GPU名称

  • gpu_uuid:gpu的uuid

  • index:gpu index编号

type=dmesg_log

NPU事件

NPUEvent

NPU事件

/

可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

  • EventID:事件ID

  • LogicID:设备ID

  • Severity:事件等级

type=dmesg_log

网卡故障

NicLinkError

网卡异常故障

v1.39

可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

type=dmesg_log

NicLinkDown

RoCE网卡异常故障

提示:仅限 GPU 裸金属

v1.34

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • nic:网卡名称

  • pci:pci设备ID

  • status:当前状态

type=dmesg_log

NicLinkDownRecovery

RoCE网卡异常故障恢复

提示:仅限 GPU 裸金属

v1.47

恢复事件无需处理。

不聚合

  • type:事件发现类型

  • nic:网卡名称

  • pci:pci设备ID

  • status:当前状态

type=dmesg_log

NicLinkUpDown

RoCE网卡抖动异常故障

提示:仅限 GPU 裸金属

v1.34

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • nic:网卡名称

  • pci:pci设备ID

  • status:当前状态

type=dmesg_log

EthLinkDown

业务网卡异常故障

v1.47

可登录系统查看/var/log/messages或者执行dmesg ,查阅NIC Link is 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • type:事件发现类型

  • nic:网卡名称

  • pci:pci设备ID

  • status:当前状态

type=dmesg_log

EthLinkDownRecovery

业务网卡异常故障恢复

v1.47

恢复事件无需处理。

不聚合

  • type:事件发现类型

  • nic:网卡名称

  • pci:pci设备ID

  • status:当前状态

type=dmesg_log

IBLinkDown

IB网卡异常故障

/

/

不聚合

/

/

IBLinkDownRecovery

IB网卡异常故障恢复

/

恢复事件无需处理。

不聚合

/

/

IBLinkUpDown

IB网卡抖动故障

/

/

不聚合

/

/

RoCE交换机故障

RoCEDownLinkGPUFaultTriggered

RoCE交换机下联GPU服务器异常发生

提示:仅限 GPU 裸金属

/

GPU服务器异常, 可能关机或重启:GPU服务器多个(大于4个)上联RoCE交换机端口同时DOWN。

不聚合

/

/

RoCEDownLinkGPUFaultRecovered

RoCE交换机下联GPU服务器异常恢复

提示:仅限 GPU 裸金属

/

/

不聚合

/

/

RoCEPortDownTriggered

RoCE交换机端口Down异常发生

提示:仅限 GPU 裸金属

/

GPU服务器上联某个RoCE交换机端口发生端口DOWN且60秒内没有UP。

不聚合

/

/

RoCEPortDownRecovered

RoCE交换机端口Down异常恢复

提示:仅限 GPU 裸金属

/

/

不聚合

/

/

RoCEPortFaultTriggered

RoCE交换机端口异常

提示:仅限 GPU 裸金属

/

GPU服务器上联某个RoCE交换机端口发生抖动,并且最后一次为端口DOWN后,60秒内没有UP。

不聚合

/

/

RoCEPortFaultRecovered

RoCE交换机端口异常恢复

提示:仅限 GPU 裸金属

/

/

不聚合

/

/

交换机端口翻动

RoCEPortFlappingTriggered

RoCE 交换机端口翻动发生

提示:仅限 GPU 裸金属

/

交换机端口最近频繁翻动, 10分钟内翻动达到5次或20分钟内翻动达到10次或24小时内达到25次

不聚合

/

/

RoCEPortFlappingRecovered

RoCE 交换机端口翻动恢复

提示:仅限 GPU 裸金属

/

/

不聚合

/

/

IB交换机故障

IBPortDownTriggered

IB交换机端口DOWN异常发生

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

IBPortDownRecovered

IB交换机端口DOWN异常恢复

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

IBPortUnhealthyTriggered

IB交换机端口Unhealthy异常发生

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

IBPortUnhealthyRecovered

IB交换机端口Unhealthy异常恢复

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

IBSwitchDownTriggered

IB交换机DOWN异常发生

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

IBSwitchDownRecovered

IB交换机DOWN异常恢复

/

建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

  • switch_name:交换机名称

  • switch_port_name:交换机端口名

  • port_guid:端口GUID

  • port_ name:端口名

  • host_guid:hostGUID

switch_port_name=8

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈