全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

新建开发任务长期处于排队中解决方法

最近更新时间:2026-05-20 16:38:07

问题描述

新建开发任务后,任务一直处于排队状态,无法正常启动。

排查步骤

确认资源池情况

  1. 登录控制台,查看资源组的整体情况。具体操作可参考管理资源组相关内容

  2. 查看资源组节点信息,确认当前资源组的资源是否充足。

    • 在开发任务详情页面查看资源配置信息,确定任务资源规格(包括 GPU 卡数、CPU 核数、内存)。

    • 资源组管理页面,查看查询的任务所属资源组的 GPU 节点数和卡数。

    • 节点列表:点击该资源组名称/ID,进入其详情页,在节点列表中可以查看该资源组关联的设备和资源占用量,确认当前节点状态是否正常、资源是否足够。

    • 资源监控:点击资源监控可以查看资源池的资源监控(根据实际需求,可以查看不同的监控菜单)。

  3. 检查队列资源情况。

结合任务事件判断异常

  1. 若确认资源充足,则进入该任务详情,查看事件的具体内容,以计划确认下一步动作。具体操作可参考开发任务相关内容

  2. 事件案例解释

    • 事件一:如下图所示

      • 核心问题:2个任务(Gang 调度)无法调度。

      • 具体原因

        • pod group is not readyPod 组(Gang 调度要求的一组 Pod)未准备就绪。

        • 2 Pending:2个 Pod 处于等待调度状态。

        • 资源不足:

          • Node nvidia.com/h800 resources are insufficient:节点的 NVIDIA H800 GPU 资源不足。

          • 5 Insufficient cpu:5个节点的 CPU 资源不足。

    • 事件二:如下图所示:

      • 核心问题:7个节点不可用。

      • 具体原因

        • 2 Insufficient cpu:2个节点的 CPU 资源不足,无法满足 PodCPU 请求。

        • 5 Insufficient nvidia.com/h800:5个节点的 NVIDIA H800 GPU 资源不足(无法分配所需的 GPU)。

解决方案

情况一:可用资源不足以支撑业务使用

需要评估是否新增资源,或者等待其他任务运行完毕后释放资源。

情况二:可用资源充足,但资源分散

可用资源充足,但可用卡数比较分散。例如,任务需求为8卡,资源组可用资源也有8卡以上,但空闲显卡分散在多台机器,无单机具备8张连续空闲卡。

  • 不紧急情况:可以等待当前已运行的任务运行完毕,释放卡资源后,新任务才能满足资源需求。

  • 紧急情况

    1. 将分散运行的小任务先打镜像。

    2. 停止这些小任务,直至腾出8张连续的 GPU 设备。

    3. 优先启动8卡任务,直至8卡任务成功拉起。

    4. 再使用已打好的镜像启动之前的小任务。

    5. 通过此方式可以腾出完整的8卡机器来运行新任务。

其他情况

若以上方案均无法解决问题,请联系金山云技术支持工程师处理。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈