全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

训练任务常见异常事件及处理建议

最近更新时间:2025-03-25 08:41:34

事件

常见原因

建议处理措施

FailedMount

表示 Pod 无法成功挂载卷(Volume),导致 Pod 无法正常启动。

  • kpfs挂载路径设置错误

  • 底层节点posix客户端未正确安装

  • 确认挂载路径正确且可用

  • 确认机器已安装posix客户端

BackOff

表示 Pod 中的容器启动失败并不断尝试重启,但每次都以失败告终。

  • 资源不足:pod的内存或CPU资源不足,导致容器启动失败

  • 镜像:镜像拉取失败

  • 配置错误:pod配置中的环境变量、启动命令设置不当

  • 应用错误:容器内的代码存在错误,导致启动后立即崩溃

  • 依赖缺失:容器缺少必要的依赖项

  • 调整pod的资源请求

  • 确保镜像名称无误,镜像仓库的用户名密码无误

  • 修正环境变量、启动命令的错误

  • 根据日志修复代码中的错误

  • 确保容器内包含所有必要的依赖项,检查镜像

Unschedulable

表示 Pod 已被放入调度队列,但由于某些原因无法被调度到任何节点上。

  • 底层资源不满足调度需求

  • 查看是否有运行中任务占用资源

  • 检查节点状态是否正常

  • 集群内可用资源不足,可增加节点资源或停止其他任务

FailedBinding

  • pv/pvc绑定失败,底层pv/pvc被删除或状态异常

  • 检查底层pv/pvc状态是否正常

Failed

Failed 状态可能出现在多种场景中,例如 Pod 启动失败、业务程序异常退出等。

  • pod运行失败

    • 启动脚本执行异常;

    • 业务容器未以0状态码退出;

  • 检测是否启动脚本启动异常,如cd路径不存在,文件不存在等;

  • 检查业务容器是否触发异常退出;

FailedScheduling

表示 Kubernetes 调度器无法将 Pod 调度到集群中的任何节点上。

  • 底层资源不满足调度需求

  • 查看是否有运行中任务占用资源

  • 检查节点状态是否正常

  • 集群内可用资源不足,可增加节点资源或停止其他任务

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈