全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

任务状态变更主动通知

最近更新时间:2026-04-29 10:47:31

功能概述

在AI训推场景下,任务常需数小时甚至数天的持续运行,缺乏实时状态变更通知机制导致用户必须主动轮询任务状态,可能造成关键异常响应延迟(如训练失败/服务崩溃)、资源闲置浪费(排队任务未及时处理)。

本功能支持当开发、训练任务和模型在线服务的状态变化时,通过云监控主动推送告警通知,支持短信、邮件形式。以便用户实时感知任务状态变更,及时处理异常。

支持告警的事件

事件类型

事件名称

任务状态变化

事件等级

开发任务状态变更

开发任务因资源不足任务已经入排队状态

创建中->排队中

启动中->排队中

Info

开发任务排队结束进入运行状态

排队中-> 部署中

部署中-> 运行中

Info

开发任务状态异常

创建中 -> 异常

排队中 -> 异常

启动中 -> 异常

运行中 -> 异常

停止中 -> 异常

镜像保存中 -> 异常

Warn

开发任务创建失败

创建中->创建失败

Warn

训练任务状态变更

训练任务因资源不足任务已经入排队状态

创建中 -> 排队中

Info

训练任务排队结束进入运行状态

排队中 -> 运行中

Info

训练任务已失败,请及时查看原因

创建中 -> 失败

排队中 -> 失败

运行中 -> 失败

停止中 -> 失败

Warn

训练任务成功,请及时查看及验收任务结果

运行中 -> 成功

Info

模型在线服务状态变更

模型在线服务任务创建失败,请及时查看原因

创建中 -> 创建失败

Warn

模型在线服务扩缩容失败,请及时查看原因

扩缩容中 -> 扩缩容失败

Warn

模型在线服务更新失败,请及时查看原因

更新中 -> 更新失败

Warn

前提条件

已成功创建开发任务训练任务模型在线服务

操作步骤

步骤一:配置告警规则

  1. 登录星流平台,在顶部导航栏,点击训推与仿真,选择进入开发任务、训练任务或模型在线服务列表页面。

  2. 在任务列表页,指定任务所在行最右侧的更多 > 配置告警规则。

  3. 进入告警服务管理页面,点击新建告警策略

  4. 参考以下要求,配置告警规则。

    • 输入策略名称

    • 产品类型选择星流平台(开发及训推任务)

    • 选择事件名称,并配置告警策略

    • 关联实例处,选择要关联的开发任务/训练任务/模型在线服务

    • 配置告警联系人

步骤二:接收告警

完成上述操作后,当任务状态变更触发配置的告警规则时,相应的联系人将会通过短信、邮件方式收到告警信息。

短信

邮件

附录:告警邮件相关信息说明

告警邮件中的相关信息部分内容说明如下:

{ 
  "TaskType": "Notebook",  //任务类型:Notebook开发任务,TrainJob训练任务,Inference模型在线服务
  "TaskName": "notebookname_001",  //任务实例名称
  "TaskId": "kaic-71d6xxxx-f614-44ed-a20b-ff073e3fxxxx",  //任务ID
  "Status": "running",  //可选值:pending, running, failed, submitfailed  #当前任务状态
  "oldStatus": "deploying",  //可选值:pending, running, failed, submitfailed  #变更前任务状态
  "StatusChangeTime": "2025-11-10T07:10:35Z",  //任务状态变更时间
  "ResourcePoolId":"2b45ca63-6d66-4a46-9899-22c62645xxxx",  //资源组ID
  "QueueName":"queuename_001",  //队列名称
  "creator": "creator"  //任务创建人
}

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈