最近更新时间:2025-04-16 14:05:56
本文介绍了训练任务过程中发生故障时的自愈策略
级别 | 异常描述 | 自愈描述 | 自愈流程 |
P0 | gpu故障, GPU Xid: 48,79,94 | P0级别明确故障,重启机器可以恢复 |
|
gpu故障,GPU Xid: 13,32,61,62,63,64,74,92,95,119,120 | P0级别明确故障,重启无法解决,执行相应自愈流程 |
| |
P1 | gpu故障,GPU Xid: (排除P0级别gpu故障的xid) | 需要结合P2级别事件判断是否执行自愈 | (如果没有引发任务故障,不执行自愈) |
非gpu xid类型的故障 | 需要结合P2级别事件判断是否执行自愈 | (如果没有引发任务故障,不执行自愈) | |
P2 | 训练任务故障: job failed/job hang | 任务故障,判断是否有同时期P1级别故障,并执行相应自愈流程 |
|
P3 | 其它类型机器异常告警 | 其它类型机器故障,只发送异常告警 |
|
纯净模式