全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

常见问题

最近更新时间:2025-08-27 19:27:30

训练任务

事件

常见原因

建议处理措施

FailedMount

表示 Pod 无法成功挂载卷(Volume),导致 Pod 无法正常启动。

  • kpfs挂载路径设置错误

  • 底层节点posix客户端未正确安装

  • 确认挂载路径正确且可用

  • 确认机器已安装posix客户端

BackOff

表示 Pod 中的容器启动失败并不断尝试重启,但每次都以失败告终。

  • 资源不足:pod的内存或CPU资源不足,导致容器启动失败

  • 镜像:镜像拉取失败

  • 配置错误:pod配置中的环境变量、启动命令设置不当

  • 应用错误:容器内的代码存在错误,导致启动后立即崩溃

  • 依赖缺失:容器缺少必要的依赖项

  • 调整pod的资源请求

  • 确保镜像名称无误,镜像仓库的用户名密码无误

  • 修正环境变量、启动命令的错误

  • 根据日志修复代码中的错误

  • 确保容器内包含所有必要的依赖项,检查镜像

Unschedulable

表示 Pod 已被放入调度队列,但由于某些原因无法被调度到任何节点上。

  • 底层资源不满足调度需求

  • 查看是否有运行中任务占用资源

  • 检查节点状态是否正常

  • 集群内可用资源不足,可增加节点资源或停止其他任务

FailedBinding

  • pv/pvc绑定失败,底层pv/pvc被删除或状态异常

  • 检查底层pv/pvc状态是否正常

Failed

Failed 状态可能出现在多种场景中,例如 Pod 启动失败、业务程序异常退出等。

  • pod运行失败

    • 启动脚本执行异常;

    • 业务容器未以0状态码退出;

  • 检测是否启动脚本启动异常,如cd路径不存在,文件不存在等;

  • 检查业务容器是否触发异常退出;

FailedScheduling

表示 Kubernetes 调度器无法将 Pod 调度到集群中的任何节点上。

  • 底层资源不满足调度需求

  • 查看是否有运行中任务占用资源

  • 检查节点状态是否正常

  • 集群内可用资源不足,可增加节点资源或停止其他任务

自愈策略

级别

异常描述

自愈描述

自愈流程

P0

gpu故障, GPU Xid:

48,79,94

P0级别明确故障,重启机器可以恢复

  1. 封锁故障机器,检查是热备机还是训练机器;

  2. 如果是热备机,直接重启机器;

  3. 如果是训练机器,获取机器上运行中的训练任务列表;

  4. 如果有运行中的任务列表,将其中开启自愈开关的任务执行重启,未开启的任务等待运行结束;

  5. 机器上任务运行完成,执行热备机替换,替换成功将原机器标记热备机,替换失败解除封锁;

  6. 自愈流程结束,向自愈记录表更新执行结果;

gpu故障,GPU Xid:

13,32,61,62,63,64,74,92,95,119,120

P0级别明确故障,重启无法解决,执行相应自愈流程

  1. 封锁故障机器,检查是热备机还是训练机;

  2. 如果是热备机,执行机器下线操作(从集群移除,不实际删除节点);

  3. 如果是训练机器,获取机器上运行中的训练任务列表;

  4. 如果有运行中的任务列表,将其中开启自愈开关的任务执行重启,未开启的任务等待运行结束;

  5. 机器上任务运行完成后,执行热备机替换,替换成功后,下线原故障机;

  6. 自愈流程结束,向自愈记录表更新执行结果;

P1

gpu故障,GPU Xid:

(排除P0级别gpu故障的xid)

需要结合P2级别事件判断是否执行自愈

(如果没有引发任务故障,不执行自愈)

非gpu xid类型的故障

需要结合P2级别事件判断是否执行自愈

(如果没有引发任务故障,不执行自愈)

P2

训练任务故障:

job failed/job hang

任务故障,判断是否有同时期P1级别故障,并执行相应自愈流程

  1. 接受到job异常告警,查询任务所在机器host ip列表;

  2. 对机器列表执行封锁,检测任务执行期间是否有P1级别故障,尝试获取异常节点列表;

  3. 判断是否有故障机器,如果有,对机器执行热备机替换,并下线故障机;

  4. 如果没有检测到故障机,解除上述节点封锁;

  5. 对运行异常任务执行重启操作;

  6. 自愈流程结束,向自愈记录表更新执行结果;

P3

其它类型机器异常告警

其它类型机器故障,只发送异常告警

  1. 接收告警事件,判断是否为P3级别异常;

  2. 是则发送协作群告警通知,否则不处理;

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈