全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

常见裸金属事件处理建议

最近更新时间:2024-11-28 11:41:47

事件类型

事件名称

事件名称(中文)

事件描述

处理方法与建议

CPU故障

CPUFaultTriggered

CPU故障发生

CPU 发生硬件故障或性能下降,影响系统正常运行。

可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

内存故障

MemoryFaultTriggered

内存故障发生

内存模块发生硬件故障或数据错误,导致系统不稳定。

可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

主板故障

BoardcardFaultTriggered

主板故障发生

主板发生硬件故障,影响系统启动和运行。

可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

电源故障

PowerModuleFaultTriggered

电源故障

电源模块发生故障,导致系统断电或重启。

可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

RAIDError

RAID错误

RAID 配置发生错误,影响数据存储和读取。

可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

PhysicalDiskFailed

物理盘 Failed

物理磁盘发生故障,无法正常读写数据。

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

PhysicalDiskOffline

物理盘 Offline

物理磁盘离线,无法被系统识别。

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

PhysicalDiskUnconfigedBad

物理盘 UnconfigedBad

物理磁盘未配置且状态不良,无法使用。

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

PhysicalDiskUnconfigedGood

物理盘 UnconfigedGood

物理磁盘未配置但状态良好,需要配置后使用。

可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

LogicalDiskDegraded

逻辑盘 Degraded

逻辑磁盘处于降级状态,影响数据读写性能。

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

LogicalDiskFailed

逻辑盘 Failed

逻辑磁盘发生故障,无法正常读写数据。

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

LogicalDiskPartialDegraded

逻辑盘 Partial Degraded

逻辑磁盘部分降级,影响部分数据读写性能。

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

LogicalDiskOffline

逻辑盘 Offline

逻辑磁盘离线,无法被系统识别。

可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

PhysicalDiskIOError

物理盘出现IO错误

物理磁盘发生输入/输出错误,影响数据读写。

可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

磁盘异常

FileSystemReadOnly

文件系统只读

文件系统变为只读状态,无法写入数据。

可登录系统执行dmesg ,可见filesystem read-only相关信息。

磁盘异常

PhysicalDiskHealthError

物理盘健康状态异常

物理磁盘健康状态异常,存在潜在故障风险。

可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

NPU事件

NPUEvent

NPU事件

NPU 发生事件,影响 NPU 性能和稳定性。

可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

内存故障

MemoryOOM

内存OOM

系统内存不足,导致应用程序崩溃或系统不稳定。

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

CPU故障

KernelPanic

内核故障

操作系统内核 bug 或驱动问题导致操作系统内核发生致命错误。

可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

系统故障

SystemReboot

系统重启

系统意外重启,影响业务连续性。

若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

GPU异常

XidError

GPU XID 异常

(仅GPU裸金属)GPU 发生 XID 错误,影响 GPU 性能和稳定性。

可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

GPU故障

SXidError

GPU出现NVSwitch Xid故障

(仅GPU裸金属)GPU的NVSwitch模块发生XID错误,影响 GPU 通信和数据传输。

可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

GPU故障

GpuMemError

GPU出现内存故障

(仅GPU裸金属)GPU 内存发生故障,影响 GPU 性能和稳定性。

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

GPU故障

GpuCheckHealthError

GPU出现健康检查故障

(仅GPU裸金属)GPU 健康检查失败,存在潜在故障风险。

可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

网卡故障

NicLinkDown

RoCE网卡异常故障

(仅GPU裸金属)RoCE 网卡连接中断,影响网络通信。

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

网卡故障

NicLinkUpDown

RoCE网卡抖动异常故障

(仅GPU裸金属)RoCE 网卡连接频繁断开和恢复,影响网络稳定性。

可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

网卡故障

NicLinkError

网卡异常故障

网卡在运行过程中出现的各种非正常状态,包括网卡速率下降。

可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈