最近更新时间:2026-05-20 16:38:07
新建开发任务后,任务一直处于排队状态,无法正常启动。
登录控制台,查看资源组的整体情况。具体操作可参考管理资源组相关内容。
查看资源组节点信息,确认当前资源组的资源是否充足。
检查队列资源情况。
若确认资源充足,则进入该任务详情,查看事件的具体内容,以计划确认下一步动作。具体操作可参考开发任务相关内容。
事件案例解释:
事件一:如下图所示
核心问题:2个任务(Gang 调度)无法调度。
具体原因:
pod group is not ready:Pod 组(Gang 调度要求的一组 Pod)未准备就绪。
2 Pending:2个 Pod 处于等待调度状态。
资源不足:
Node nvidia.com/h800 resources are insufficient:节点的 NVIDIA H800 GPU 资源不足。
5 Insufficient cpu:5个节点的 CPU 资源不足。
事件二:如下图所示:
核心问题:7个节点不可用。
具体原因:
2 Insufficient cpu:2个节点的 CPU 资源不足,无法满足 Pod 的 CPU 请求。
5 Insufficient nvidia.com/h800:5个节点的 NVIDIA H800 GPU 资源不足(无法分配所需的 GPU)。
需要评估是否新增资源,或者等待其他任务运行完毕后释放资源。
可用资源充足,但可用卡数比较分散。例如,任务需求为8卡,资源组可用资源也有8卡以上,但空闲显卡分散在多台机器,无单机具备8张连续空闲卡。
不紧急情况:可以等待当前已运行的任务运行完毕,释放卡资源后,新任务才能满足资源需求。
紧急情况:
将分散运行的小任务先打镜像。
停止这些小任务,直至腾出8张连续的 GPU 设备。
优先启动8卡任务,直至8卡任务成功拉起。
再使用已打好的镜像启动之前的小任务。
通过此方式可以腾出完整的8卡机器来运行新任务。
若以上方案均无法解决问题,请联系金山云技术支持工程师处理。
纯净模式
