最近更新时间:2025-08-27 19:27:03
队列是平台进行资源隔离与调度的基础单位,合理配置有助于提高资源利用率与管理可控性。
建议原则:
队列总GPU资源量 = 资源池总可用GPU资源量(例如:所选资源池共有 8 张GDP501及8张RTX3090,则所有使用此资源池的队列配置GPU加总不应超过此相应数量)
队列总CPU/内存资源量=90%*资源池总可用CPU/内存资源量(例如:所选资源池共36核GPU及256G内存,则所有使用此资源池的队列配置CPU/内存加总不应超过此相应数量的90%)
队列间抢占:
创建开发/训练任务时,可使用队列对应资源池内的资源;如开启队列间抢占,本队列借用其它队列的资源允许被抢占。
注意事项:
资源池变动后,请同步调整各队列资源上限;
可根据业务优先级设置队列间抢占策略。
纯净模式
