最近更新时间:2025-08-27 19:27:30
事件 | 常见原因 | 建议处理措施 |
FailedMount 表示 Pod 无法成功挂载卷(Volume),导致 Pod 无法正常启动。 |
|
|
BackOff 表示 Pod 中的容器启动失败并不断尝试重启,但每次都以失败告终。 |
|
|
Unschedulable 表示 Pod 已被放入调度队列,但由于某些原因无法被调度到任何节点上。 |
|
|
FailedBinding |
|
|
Failed
|
|
|
FailedScheduling 表示 Kubernetes 调度器无法将 Pod 调度到集群中的任何节点上。 |
|
|
级别 | 异常描述 | 自愈描述 | 自愈流程 |
P0 | gpu故障, GPU Xid: 48,79,94 | P0级别明确故障,重启机器可以恢复 |
|
gpu故障,GPU Xid: 13,32,61,62,63,64,74,92,95,119,120 | P0级别明确故障,重启无法解决,执行相应自愈流程 |
| |
P1 | gpu故障,GPU Xid: (排除P0级别gpu故障的xid) | 需要结合P2级别事件判断是否执行自愈 | (如果没有引发任务故障,不执行自愈) |
非gpu xid类型的故障 | 需要结合P2级别事件判断是否执行自愈 | (如果没有引发任务故障,不执行自愈) | |
P2 | 训练任务故障: job failed/job hang | 任务故障,判断是否有同时期P1级别故障,并执行相应自愈流程 |
|
P3 | 其它类型机器异常告警 | 其它类型机器故障,只发送异常告警 |
|
纯净模式
