最近更新时间:2025-01-14 15:36:48
裸金属服务器事件如下:
事件类型 | 事件名称 | 事件名称(中文) | 事件引入版本 | 处理方法与建议 | 采集上报聚合规则 | 聚合标签 | 标签示例 |
---|---|---|---|---|---|---|---|
CPU故障 | CPUFaultTriggered | CPU故障发生 | / | 可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
内存故障 | MemoryFaultTriggered | 内存故障发生 | / | 可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
主板故障 | BoardcardFaultTriggered | 主板故障发生 | / | 可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
电源故障 | PowerModuleFaultTriggered | 电源故障 | / | 可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
磁盘异常 | RAIDError | RAID错误 | / | 可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型 | type=storcli/megacli |
磁盘异常 | PhysicalDiskFailed | 物理盘 Failed | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,EIDSlt:槽位 | type=storcli/megacli |
磁盘异常 | PhysicalDiskOffline | 物理盘 Offline | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,EIDSlt:槽位 | type=storcli/megacli |
磁盘异常 | PhysicalDiskUnconfigedBad | 物理盘 UnconfigedBad | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,EIDSlt:槽位 | type=storcli/megacli |
磁盘异常 | PhysicalDiskUnconfigedGood | 物理盘 UnconfigedGood | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,EIDSlt:槽位 | type=storcli/megacli |
磁盘异常 | LogicalDiskDegraded | 逻辑盘 Degraded | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型 | type=storcli/megacli |
磁盘异常 | LogicalDiskFailed | 逻辑盘 Failed | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型 | type=storcli/megacli |
磁盘异常 | LogicalDiskPartialDegraded | 逻辑盘 Partial Degraded | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型 | type=storcli/megacli |
磁盘异常 | LogicalDiskOffline | 逻辑盘 Offline | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,DGVD:虚拟设备编号,raid_type:raid类型 | type=storcli/megacli |
磁盘异常 | PhysicalDiskIOError | 物理盘出现IO错误 | v1.19 | 可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 5min聚合 | type:事件发现类型,device:磁盘设备名称 | type=dmesg_log |
磁盘异常 | FileSystemReadOnly | 文件系统只读 | v1.19 | 可登录系统执行dmesg ,可见filesystem read-only相关信息。 | 不聚合 | type:事件发现类型 | type=dmesg_log |
磁盘异常 | PhysicalDiskHealthError | 物理盘健康状态异常 | / | 可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:物理盘类型,device:磁盘设备名称 | type=direct/hba |
NPU事件 | NPUEvent | NPU事件 | / | 可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 | EventID:事件ID,LogicID:设备ID,Severity:事件等级 | type=dmesg_log |
内存故障 | MemoryOOM | 内存OOM | v1.32 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 | type:事件发现类型,pid:进程id,pname:进程名称 | type=dmesg_log |
CPU故障 | KernelPanic | 内核故障 | v1.32 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 | type:事件发现类型 | type=dmesg_log |
系统故障 | SystemReboot | 系统重启 | v1.34 | 若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型 | type=proc |
网卡故障 | NicFault | 网卡异常故障 | v1.39 | 可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型 | type=dmesg_log |
网卡故障 | NicLinkDown | (仅GPU裸金属)RoCE网卡异常故障 | v1.34 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,nic:网卡名称,pci:pci设备ID,status:当前状态 | type=dmesg_log |
网卡故障 | NicLinkUpDown | (仅GPU裸金属)RoCE网卡抖动异常故障 | v1.34 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,nic:网卡名称,pci:pci设备ID,status:当前状态 | type=dmesg_log |
GPU异常 | XidError | (仅GPU裸金属)GPU XID 异常 | / | 可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 | type:事件发现类型,xid:xid错误编码,pci:pci设备ID,description:xid描述信息,causes:xid可能原因,gpu_name:GPU名称,gpu_uuid:gpu的uuid,index:gpu index编号 | type=dmesg_log |
GPU故障 | SXidError | (仅GPU裸金属)GPU出现NVSwitch Xid故障 | v1.33 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 5min聚合 | type:事件发现类型,sxid:sxid错误编码,pci:pci设备ID,switch:nvswitch编号,description:sxid描述信息,error_level:错误等级 | type=dmesg_log |
GPU故障 | GpuMemError | (仅GPU裸金属)GPU出现内存故障 | v1.33 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,index:gpu设备编号,reason:原因,gpu_name:GPU名称,gpu_uuid:gpu的uuid,pci:gpu pic设备id | type=nvml |
GPU故障 | GpuCheckHealthError | (仅GPU裸金属)GPU出现健康检查故障 (说明:GPU以1次/每小时的频率自动执行nvidia-smi命令,发生异常时触发该事件) | v1.33 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | type:事件发现类型,reason:原因 | type=dmesg_log |
交换机端口翻动 | RoCEPortFlappingTriggered | (仅GPU裸金属)RoCE 交换机端口翻动发生 | / | 交换机端口最近频繁翻动, 10分钟内翻动达到5次或20分钟内翻动达到10次或24小时内达到25次 | 不聚合 | / | / |
交换机端口翻动 | RoCEPortFlappingRecovered | (仅GPU裸金属)RoCE 交换机端口翻动恢复 | / | / | 不聚合 | / | / |
RoCE交换机故障 | RoCEDownLinkGPUFaultTriggered | (仅GPU裸金属)RoCE交换机下联GPU服务器异常发生 | / | GPU服务器异常, 可能关机或重启:GPU服务器多个(大于4个)上联RoCE交换机端口同时DOWN。 | 不聚合 | / | / |
RoCE交换机故障 | RoCEDownLinkGPUFaultRecovered | (仅GPU裸金属)RoCE交换机下联GPU服务器异常恢复 | / | / | 不聚合 | / | / |
RoCE交换机故障 | RoCEPortDownTriggered | (仅GPU裸金属)RoCE交换机端口Down发生 | / | GPU服务器上联某个RoCE交换机端口发生端口DOWN且60秒内没有UP。 | 不聚合 | / | / |
RoCE交换机故障 | RoCEPortDownRecovered | (仅GPU裸金属)RoCE交换机端口异常发生 | / | / | 不聚合 | / | / |
RoCE交换机故障 | RoCEPortFaultTriggered | (仅GPU裸金属)RoCE交换机端口异常 | / | GPU服务器上联某个RoCE交换机端口发生抖动,并且最后一次为端口DOWN后,60秒内没有UP。 | 不聚合 | / | / |
RoCE交换机故障 | RoCEPortFaultRecovered | (仅GPU裸金属)RoCE交换机端口异常恢复 | / | / | 不聚合 | / | / |
纯净模式