最近更新时间:2024-11-28 11:41:47
事件类型 | 事件名称 | 事件名称(中文) | 事件描述 | 处理方法与建议 |
CPU故障 | CPUFaultTriggered | CPU故障发生 | CPU 发生硬件故障或性能下降,影响系统正常运行。 | 可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
内存故障 | MemoryFaultTriggered | 内存故障发生 | 内存模块发生硬件故障或数据错误,导致系统不稳定。 | 可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
主板故障 | BoardcardFaultTriggered | 主板故障发生 | 主板发生硬件故障,影响系统启动和运行。 | 可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
电源故障 | PowerModuleFaultTriggered | 电源故障 | 电源模块发生故障,导致系统断电或重启。 | 可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | RAIDError | RAID错误 | RAID 配置发生错误,影响数据存储和读取。 | 可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | PhysicalDiskFailed | 物理盘 Failed | 物理磁盘发生故障,无法正常读写数据。 | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | PhysicalDiskOffline | 物理盘 Offline | 物理磁盘离线,无法被系统识别。 | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | PhysicalDiskUnconfigedBad | 物理盘 UnconfigedBad | 物理磁盘未配置且状态不良,无法使用。 | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | PhysicalDiskUnconfigedGood | 物理盘 UnconfigedGood | 物理磁盘未配置但状态良好,需要配置后使用。 | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | LogicalDiskDegraded | 逻辑盘 Degraded | 逻辑磁盘处于降级状态,影响数据读写性能。 | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | LogicalDiskFailed | 逻辑盘 Failed | 逻辑磁盘发生故障,无法正常读写数据。 | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | LogicalDiskPartialDegraded | 逻辑盘 Partial Degraded | 逻辑磁盘部分降级,影响部分数据读写性能。 | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | LogicalDiskOffline | 逻辑盘 Offline | 逻辑磁盘离线,无法被系统识别。 | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | PhysicalDiskIOError | 物理盘出现IO错误 | 物理磁盘发生输入/输出错误,影响数据读写。 | 可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
磁盘异常 | FileSystemReadOnly | 文件系统只读 | 文件系统变为只读状态,无法写入数据。 | 可登录系统执行dmesg ,可见filesystem read-only相关信息。 |
磁盘异常 | PhysicalDiskHealthError | 物理盘健康状态异常 | 物理磁盘健康状态异常,存在潜在故障风险。 | 可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
NPU事件 | NPUEvent | NPU事件 | NPU 发生事件,影响 NPU 性能和稳定性。 | 可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
内存故障 | MemoryOOM | 内存OOM | 系统内存不足,导致应用程序崩溃或系统不稳定。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
CPU故障 | KernelPanic | 内核故障 | 操作系统内核 bug 或驱动问题导致操作系统内核发生致命错误。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
系统故障 | SystemReboot | 系统重启 | 系统意外重启,影响业务连续性。 | 若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
GPU异常 | XidError | GPU XID 异常 | (仅GPU裸金属)GPU 发生 XID 错误,影响 GPU 性能和稳定性。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
GPU故障 | SXidError | GPU出现NVSwitch Xid故障 | (仅GPU裸金属)GPU的NVSwitch模块发生XID错误,影响 GPU 通信和数据传输。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
GPU故障 | GpuMemError | GPU出现内存故障 | (仅GPU裸金属)GPU 内存发生故障,影响 GPU 性能和稳定性。 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
GPU故障 | GpuCheckHealthError | GPU出现健康检查故障 | (仅GPU裸金属)GPU 健康检查失败,存在潜在故障风险。 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
网卡故障 | NicLinkDown | RoCE网卡异常故障 | (仅GPU裸金属)RoCE 网卡连接中断,影响网络通信。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
网卡故障 | NicLinkUpDown | RoCE网卡抖动异常故障 | (仅GPU裸金属)RoCE 网卡连接频繁断开和恢复,影响网络稳定性。 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
网卡故障 | NicLinkError | 网卡异常故障 | 网卡在运行过程中出现的各种非正常状态,包括网卡速率下降。 | 可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 |
纯净模式