全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

裸金属服务器

最近更新时间:2025-01-14 15:36:48

裸金属服务器事件如下:

事件类型

事件名称

事件名称(中文)

事件引入版本

处理方法与建议

采集上报聚合规则

聚合标签

标签示例

CPU故障

CPUFaultTriggered

CPU故障发生

/

可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

内存故障

MemoryFaultTriggered

内存故障发生

/

可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

主板故障

BoardcardFaultTriggered

主板故障发生

/

可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

电源故障

PowerModuleFaultTriggered

电源故障

/

可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

磁盘异常

RAIDError

RAID错误

/

可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型

type=storcli/megacli

磁盘异常

PhysicalDiskFailed

物理盘 Failed

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,EIDSlt:槽位

type=storcli/megacli

磁盘异常

PhysicalDiskOffline

物理盘 Offline

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,EIDSlt:槽位

type=storcli/megacli

磁盘异常

PhysicalDiskUnconfigedBad

物理盘 UnconfigedBad

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,EIDSlt:槽位

type=storcli/megacli

磁盘异常

PhysicalDiskUnconfigedGood

物理盘 UnconfigedGood

/

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,EIDSlt:槽位

type=storcli/megacli

磁盘异常

LogicalDiskDegraded

逻辑盘 Degraded

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型

type=storcli/megacli

磁盘异常

LogicalDiskFailed

逻辑盘 Failed

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型

type=storcli/megacli

磁盘异常

LogicalDiskPartialDegraded

逻辑盘 Partial Degraded

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型

type=storcli/megacli

磁盘异常

LogicalDiskOffline

逻辑盘 Offline

/

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型

type=storcli/megacli

磁盘异常

PhysicalDiskIOError

物理盘出现IO错误

v1.19

可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

5min聚合

type:事件发现类型,device:磁盘设备名称

type=dmesg_log

磁盘异常

FileSystemReadOnly

文件系统只读

v1.19

可登录系统执行dmesg ,可见filesystem read-only相关信息。

不聚合

type:事件发现类型

type=dmesg_log

磁盘异常

PhysicalDiskHealthError

物理盘健康状态异常

/

可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:物理盘类型,device:磁盘设备名称

type=direct/hba

NPU事件

NPUEvent

NPU事件

/

可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

EventID:事件ID,LogicID:设备ID,Severity:事件等级

type=dmesg_log

内存故障

MemoryOOM

内存OOM

v1.32

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

type:事件发现类型,pid:进程id,pname:进程名称

type=dmesg_log

CPU故障

KernelPanic

内核故障

v1.32

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

type:事件发现类型

type=dmesg_log

系统故障

SystemReboot

系统重启

v1.34

若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型

type=proc

网卡故障

NicFault

网卡异常故障

v1.39

可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型

type=dmesg_log

网卡故障

NicLinkDown

(仅GPU裸金属)RoCE网卡异常故障

v1.34

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,nic:网卡名称,pci:pci设备ID,status:当前状态

type=dmesg_log

网卡故障

NicLinkUpDown

(仅GPU裸金属)RoCE网卡抖动异常故障

v1.34

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,nic:网卡名称,pci:pci设备ID,status:当前状态

type=dmesg_log

GPU异常

XidError

(仅GPU裸金属)GPU XID 异常

/

可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

1min聚合

type:事件发现类型,xid:xid错误编码,pci:pci设备ID,description:xid描述信息,causes:xid可能原因,gpu_name:GPU名称,gpu_uuid:gpu的uuid,index:gpu index编号

type=dmesg_log

GPU故障

SXidError

(仅GPU裸金属)GPU出现NVSwitch Xid故障

v1.33

可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

5min聚合

type:事件发现类型,sxid:sxid错误编码,pci:pci设备ID,switch:nvswitch编号,description:sxid描述信息,error_level:错误等级

type=dmesg_log

GPU故障

GpuMemError

(仅GPU裸金属)GPU出现内存故障

v1.33

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,index:gpu设备编号,reason:原因,gpu_name:GPU名称,gpu_uuid:gpu的uuid,pci:gpu pic设备id

type=nvml

GPU故障

GpuCheckHealthError

(仅GPU裸金属)GPU出现健康检查故障

(说明:GPU以1次/每小时的频率自动执行nvidia-smi命令,发生异常时触发该事件)

v1.33

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

不聚合

type:事件发现类型,reason:原因

type=dmesg_log

交换机端口翻动

RoCEPortFlappingTriggered

(仅GPU裸金属)RoCE 交换机端口翻动发生

/

交换机端口最近频繁翻动, 10分钟内翻动达到5次或20分钟内翻动达到10次或24小时内达到25次

不聚合

/

/

交换机端口翻动

RoCEPortFlappingRecovered

(仅GPU裸金属)RoCE 交换机端口翻动恢复

/

/

不聚合

/

/

RoCE交换机故障

RoCEDownLinkGPUFaultTriggered

(仅GPU裸金属)RoCE交换机下联GPU服务器异常发生

/

GPU服务器异常, 可能关机或重启:GPU服务器多个(大于4个)上联RoCE交换机端口同时DOWN。

不聚合

/

/

RoCE交换机故障

RoCEDownLinkGPUFaultRecovered

(仅GPU裸金属)RoCE交换机下联GPU服务器异常恢复

/

/

不聚合

/

/

RoCE交换机故障

RoCEPortDownTriggered

(仅GPU裸金属)RoCE交换机端口Down发生

/

GPU服务器上联某个RoCE交换机端口发生端口DOWN且60秒内没有UP。

不聚合

/

/

RoCE交换机故障

RoCEPortDownRecovered

(仅GPU裸金属)RoCE交换机端口异常发生

/

/

不聚合

/

/

RoCE交换机故障

RoCEPortFaultTriggered

(仅GPU裸金属)RoCE交换机端口异常

/

GPU服务器上联某个RoCE交换机端口发生抖动,并且最后一次为端口DOWN后,60秒内没有UP。

不聚合

/

/

RoCE交换机故障

RoCEPortFaultRecovered

(仅GPU裸金属)RoCE交换机端口异常恢复

/

/

不聚合

/

/

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈