最近更新时间:2026-04-29 10:47:32
队列是平台进行资源隔离与调度的基础单位,合理配置有助于提高资源利用率与管理可控性。
GPU资源:队列总GPU资源量 = 资源池总可用GPU资源量。
示例:若所选资源池共有8张GDP501及8张RTX3090,则所有使用此资源池的队列配置GPU加总不应超过此相应数量。
CPU/内存资源:队列总CPU/内存资源量 = 90% * 资源池总可用CPU/内存资源量。
示例:若所选资源池共36核CPU及256G内存,则所有使用此资源池的队列配置CPU/内存加总不应超过此相应数量的90%。
创建开发或训练任务时,可使用队列对应资源池内的资源。如果开启了队列间抢占功能,本队列借用其他队列的资源可能被抢占。
资源池调整:资源池配置变动后,请同步调整各队列的资源上限。
抢占策略:可根据业务优先级设置队列间的抢占策略。
已提前创建可用的资源组。
登录星流平台训推平台。
在左侧导航栏,选择资源管理 > 队列,进入队列管理页面。
点击+新建,在新建队列页面,参考以下说明配置各项参数。
参数 | 是否必须 | 说明 |
|---|---|---|
队列名称 | 是 | 用户自定义,用于快速检索和区分平台内已存在的队列。 |
队列描述 | 是 | 针对当前队列的描述性信息。 |
资源池 | 是 | 当前队列所依赖的资源组。 |
资源规格 | 是 | 当前队列的算力资源,包括GPU类型、GPU卡数、CPU核数以及内存。 注意,若需使用GPU资源,则相应的资源池内须有GPU节点。 |
队列外资源 | 否 | 开启后,当本队列配额用满时,若资源池仍有剩余资源,可通过借用其他队列配额的方式调度 |
可用负载类型 | 否 | 平台内可使用当前队列的任务类型,默认为不限制。 若勾选仅支持指定类型,您可选择开发任务、训练任务、模型在线服务和数据处理任务。 |
创建人 | 是 | 创建人默认拥有当前队列的完整权限。 |
队列管理员 | 否 | 队列管理员有权限编辑队列和管理队列内负载,但不可删除队列。 在未添加列表内,勾选相应账号名称,点击“ > ”移动至已添加列表即可。 |
队列成员 | 否 | 队列成员仅可使用当前队列资源。 在未添加列表内,勾选相应账号名称,点击“ > ”移动至已添加列表即可。 |
完成上述参数配置,点击确定,完成队列创建。
在队列管理页面。
点击指定队列,操作列中的编辑,进入编辑队列页面,可对以下信息进行修改。
基本信息:队列描述、资源规格、队列外资源和可用负载类型。
队列信息:队列管理员和队列成员。
在队列管理页面。点击指定队列,操作列中的删除。
在弹出的提示窗口中,勾选“我已确认执行删除操作”提示信息,点击删除即可。
删除队列,队列中的任务将停止并释放计算资源,操作不可恢复。请谨慎操作,并确保不影响相关业务运行。
删除过程中请勿向该队列提交新的任务。
删除队列后,其关联的计算资源将自动返还至所属资源组。
您可通过配置清理策略来自动释放资源。当任务满足特定条件(如运行时长过限,相应资源使用率达下限)时,清理策略会自动将相应开发任务终止,从而避免资源被无效占用。另外,平台也支持设置白名单,在其中的实例,命中清理策略后不会触发自动清理。
在队列管理页面,点击指定队列名称/ID,进入其详情页面。
选择清理策略页签,点击+新建。
在弹出的新建清理策略窗口中,配置各项参数,点击保存。
在清理策略页面内,切换至白名单页签。
参数 | 是否必填 | 说明 |
|---|---|---|
策略名称 | 是 | 当前清理策略的名称,用户自定义。 |
策略类型 | 是 | 目前仅支持开发任务低使用率停止。 |
触发条件 | 是 | 必填项,可根据实际情况设置以下条件。当多个条件同时满足时,才会触发相应终止任务操作。
|
点击+新建,在弹出的新建白名单中,选择具体的开发任务实例,点击保存即可。
纯净模式
