最近更新时间:2025-11-21 11:37:35
裸金属服务器事件如下:
事件类型 | 事件名称 | 事件名称(中文) | 引入版本 | 处理方法与建议 | 采集上报聚合规则 | 聚合标签 | 标签示例 |
CPU故障 | CPUFaultTriggered | CPU故障发生 | / | 可登录带外管理控制台查看CPU状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
内存故障 | MemoryOOM | MemoryOOM | v1.32 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 |
| type=dmesg_log |
MemoryOOM | MemoryOOM | v1.47 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Out of memory相关信息。建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 |
| type=dmesg_log | |
MemoryCE | 内存CE | v1.47 | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min | 无标签 | type=dmesg_log | |
MemoryUE | 内存UE | v1.47 | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min | 无标签 | type=dmesg_log | |
MemoryFaultTriggered | 内存故障发生 | / | 可登录带外管理控制台查看内存状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 | |
主板故障 | BoardcardFaultTriggered | 主板故障发生 | / | 可登录带外管理控制台查看主板状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
电源故障 | PowerModuleFaultTriggered | 电源故障 | / | 可登录带外管理控制台查看电源状态,同时建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 | 无 | 无 |
磁盘异常 | NvmeError | Nvme磁盘异常 | v1.47 | 常见错误类型: | 不聚合 |
| reason={CountDecrease,PmrRo,VmbuFailed,Ro,ReliabilityDegraded,TempThreshold,AvailableSpare} |
PhysicalDiskHealthError | 物理盘健康状态异常 | / | 可登录系统执行 smartctl -i -H /dev/{dev},查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=direct/hba | |
PhysicalDiskIOError | 物理盘出现IO错误 | v1.19 | 可登录系统执行dmesg ,可见I/O error相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 5min聚合 |
| type=dmesg_log | |
FileSystemReadOnly | 文件系统只读 | v1.19 | 可登录系统执行dmesg ,可见filesystem read-only相关信息。 | 不聚合 |
| type=dmesg_log | |
RAIDError | RAID错误 | / | 可登录系统执行storcli64 show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
PhysicalDiskFailed | 物理盘 Failed | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
PhysicalDiskOffline | 物理盘 Offline | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
PhysicalDiskUnconfigedBad | 物理盘 UnconfigedBad | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
PhysicalDiskUnconfigedGood | 物理盘 UnconfigedGood | / | 可登录系统执行storcli64 /call/eall/sall show all nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
LogicalDiskDegraded | 逻辑盘 Degraded | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
LogicalDiskFailed | 逻辑盘 Failed | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
LogicalDiskPartialDegraded | 逻辑盘 Partial Degraded | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
LogicalDiskOffline | 逻辑盘 Offline | / | 可登录系统执行storcli64 /call/vall show nolog,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=storcli/megacli | |
系统故障 | VFSFileMaxLimit | 打开文件数超限 | v1.47 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 file-max limit 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min | 无标签 | type=dmesg_log |
CPUBlock | CPUBlock | v1.47 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅blocked for more than相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
NCCLSegfault | NCCLSegfault 提示:仅限 GPU 裸金属 | v1.47 | 建议升级GPU驱动至最新版本。 | 1min | 无标签 | type=dmesg_log | |
CPUSoftLockup | CPUSoftLockup | v1.47 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 watchdog: BUG: soft lockup - CPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
SystemReboot | 系统重启 | v1.34 | 若发生预期外的重启,可优先检查电源、内存、硬盘、主板及CPU等硬件是否存在错误。还可登录系统查看/var/log/messages或者执行dmesg,查阅重启前后的错误信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=proc | |
KernelPanic | 内核故障 | v1.32 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 Kernel panic - not syncing相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 |
| type=dmesg_log | |
GPU故障 | SXidError | GPU出现NVSwitch Xid故障 提示:仅限 GPU 裸金属 | v1.33 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅 SXid相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 5min聚合 |
| type=dmesg_log |
GpuCheckHealthError | GPU出现健康检查故障
| v1.33 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
GpuMemError | GPU出现内存故障 提示:仅限 GPU 裸金属 | v1.33 | 可登录系统执行nvidia-smi,查看输出结果。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=nvml | |
GPU异常 | XidError | GPU XID 异常 提示:仅限 GPU 裸金属 | / | 可登录系统查看/var/log/messages或者执行dmesg ,查阅NVRM: Xid 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 |
| type=dmesg_log |
NPU事件 | NPUEvent | NPU事件 | / | 可登录系统查看/var/log/messages或者执行dmesg,查阅NPU相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 1min聚合 |
| type=dmesg_log |
网卡故障 | NicLinkError | 网卡异常故障 | v1.39 | 可优先检查网卡、线缆、交换机等硬件状态是否正常,也可登录系统查看/var/log/messages或者执行dmesg,查阅网卡相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log |
NicLinkDown | RoCE网卡异常故障 提示:仅限 GPU 裸金属 | v1.34 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
NicLinkDownRecovery | RoCE网卡异常故障恢复 提示:仅限 GPU 裸金属 | v1.47 | 恢复事件无需处理。 | 不聚合 |
| type=dmesg_log | |
NicLinkUpDown | RoCE网卡抖动异常故障 提示:仅限 GPU 裸金属 | v1.34 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅mlx5_core (.*?) (.*?): Link (down|up)相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
EthLinkDown | 业务网卡异常故障 | v1.47 | 可登录系统查看/var/log/messages或者执行dmesg ,查阅NIC Link is 相关信息。同时建议您登录控制台针对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| type=dmesg_log | |
EthLinkDownRecovery | 业务网卡异常故障恢复 | v1.47 | 恢复事件无需处理。 | 不聚合 |
| type=dmesg_log | |
IBLinkDown | IB网卡异常故障 | / | / | 不聚合 | / | / | |
IBLinkDownRecovery | IB网卡异常故障恢复 | / | 恢复事件无需处理。 | 不聚合 | / | / | |
IBLinkUpDown | IB网卡抖动故障 | / | / | 不聚合 | / | / | |
RoCE交换机故障 | RoCEDownLinkGPUFaultTriggered | RoCE交换机下联GPU服务器异常发生 提示:仅限 GPU 裸金属 | / | GPU服务器异常, 可能关机或重启:GPU服务器多个(大于4个)上联RoCE交换机端口同时DOWN。 | 不聚合 | / | / |
RoCEDownLinkGPUFaultRecovered | RoCE交换机下联GPU服务器异常恢复 提示:仅限 GPU 裸金属 | / | / | 不聚合 | / | / | |
RoCEPortDownTriggered | RoCE交换机端口Down异常发生 提示:仅限 GPU 裸金属 | / | GPU服务器上联某个RoCE交换机端口发生端口DOWN且60秒内没有UP。 | 不聚合 | / | / | |
RoCEPortDownRecovered | RoCE交换机端口Down异常恢复 提示:仅限 GPU 裸金属 | / | / | 不聚合 | / | / | |
RoCEPortFaultTriggered | RoCE交换机端口异常 提示:仅限 GPU 裸金属 | / | GPU服务器上联某个RoCE交换机端口发生抖动,并且最后一次为端口DOWN后,60秒内没有UP。 | 不聚合 | / | / | |
RoCEPortFaultRecovered | RoCE交换机端口异常恢复 提示:仅限 GPU 裸金属 | / | / | 不聚合 | / | / | |
交换机端口翻动 | RoCEPortFlappingTriggered | RoCE 交换机端口翻动发生 提示:仅限 GPU 裸金属 | / | 交换机端口最近频繁翻动, 10分钟内翻动达到5次或20分钟内翻动达到10次或24小时内达到25次 | 不聚合 | / | / |
RoCEPortFlappingRecovered | RoCE 交换机端口翻动恢复 提示:仅限 GPU 裸金属 | / | / | 不聚合 | / | / | |
IB交换机故障 | IBPortDownTriggered | IB交换机端口DOWN异常发生 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 |
IBPortDownRecovered | IB交换机端口DOWN异常恢复 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 | |
IBPortUnhealthyTriggered | IB交换机端口Unhealthy异常发生 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 | |
IBPortUnhealthyRecovered | IB交换机端口Unhealthy异常恢复 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 | |
IBSwitchDownTriggered | IB交换机DOWN异常发生 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 | |
IBSwitchDownRecovered | IB交换机DOWN异常恢复 | / | 建议您登录控制台对裸金属服务器下发工单,或者联系技术支持进行进一步的诊断和处理。 | 不聚合 |
| switch_port_name=8 |
纯净模式
