全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

训练任务自愈策略

最近更新时间:2025-04-16 14:05:56

本文介绍了训练任务过程中发生故障时的自愈策略

级别

异常描述

自愈描述

自愈流程

P0

gpu故障, GPU Xid:

48,79,94

P0级别明确故障,重启机器可以恢复

  1. 封锁故障机器,检查是热备机还是训练机器;

  2. 如果是热备机,直接重启机器;

  3. 如果是训练机器,获取机器上运行中的训练任务列表;

  4. 如果有运行中的任务列表,将其中开启自愈开关的任务执行重启,未开启的任务等待运行结束;

  5. 机器上任务运行完成,执行热备机替换,替换成功将原机器标记热备机,替换失败解除封锁;

  6. 自愈流程结束,向自愈记录表更新执行结果;

gpu故障,GPU Xid:

13,32,61,62,63,64,74,92,95,119,120

P0级别明确故障,重启无法解决,执行相应自愈流程

  1. 封锁故障机器,检查是热备机还是训练机;

  2. 如果是热备机,执行机器下线操作(从集群移除,不实际删除节点);

  3. 如果是训练机器,获取机器上运行中的训练任务列表;

  4. 如果有运行中的任务列表,将其中开启自愈开关的任务执行重启,未开启的任务等待运行结束;

  5. 机器上任务运行完成后,执行热备机替换,替换成功后,下线原故障机;

  6. 自愈流程结束,向自愈记录表更新执行结果;

P1

gpu故障,GPU Xid:

(排除P0级别gpu故障的xid)

需要结合P2级别事件判断是否执行自愈

(如果没有引发任务故障,不执行自愈)

非gpu xid类型的故障

需要结合P2级别事件判断是否执行自愈

(如果没有引发任务故障,不执行自愈)

P2

训练任务故障:

job failed/job hang

任务故障,判断是否有同时期P1级别故障,并执行相应自愈流程

  1. 接受到job异常告警,查询任务所在机器host ip列表;

  2. 对机器列表执行封锁,检测任务执行期间是否有P1级别故障,尝试获取异常节点列表;

  3. 判断是否有故障机器,如果有,对机器执行热备机替换,并下线故障机;

  4. 如果没有检测到故障机,解除上述节点封锁;

  5. 对运行异常任务执行重启操作;

  6. 自愈流程结束,向自愈记录表更新执行结果;

P3

其它类型机器异常告警

其它类型机器故障,只发送异常告警

  1. 接收告警事件,判断是否为P3级别异常;

  2. 是则发送协作群告警通知,否则不处理;

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容