全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

任务状态变更主动通知

最近更新时间:2026-03-13 13:15:00

背景

在AI训推场景下,任务常需数小时甚至数天的持续运行,缺乏实时状态变更通知机制导致用户必须主动轮询任务状态,可能造成关键异常响应延迟(如训练失败/服务崩溃)、资源闲置浪费(排队任务未及时处理)。

本功能支持当开发、训练任务和模型在线服务的状态变化时,通过云监控主动推送告警通知,支持短信、邮件形式。以便用户实时感知任务状态变更,及时处理异常。

操作步骤

步骤一:配置告警规则

  1. 在任务列表页,点击配置告警规则

  1. 点击新建告警策略

  2. 配置告警规则

    1. 输入策略名称

    2. 产品类型选择星流平台(开发及训推任务)

    3. 选择事件名称,并配置告警策略

    4. 关联实例处,选择要关联的开发任务/训练任务/模型在线服务

    5. 配置告警联系人

步骤二:接收告警

当任务状态变更触发配置的告警规则时,将会通过短信、邮件方式收到告警

短信

邮件

支持告警的事件

事件类型

事件名称

任务状态变化

事件等级

开发任务状态变更

开发任务因资源不足任务已经入排队状态

创建中->排队中

启动中->排队中

Info

开发任务排队结束进入运行状态

排队中-> 部署中

部署中-> 运行中

Info

开发任务状态异常

创建中 -> 异常

排队中 -> 异常

启动中 -> 异常

运行中 -> 异常

停止中 -> 异常

镜像保存中 -> 异常

Warn

开发任务创建失败

创建中->创建失败

Warn

训练任务状态变更

训练任务因资源不足任务已经入排队状态

创建中 -> 排队中

Info

训练任务排队结束进入运行状态

排队中 -> 运行中

Info

训练任务已失败,请及时查看原因

创建中 -> 失败

排队中 -> 失败

运行中 -> 失败

停止中 -> 失败

Warn

训练任务成功,请及时查看及验收任务结果

运行中 -> 成功

Info

模型在线服务状态变更

模型在线服务任务创建失败,请及时查看原因

创建中 -> 创建失败

Warn

模型在线服务扩缩容失败,请及时查看原因

扩缩容中 -> 扩缩容失败

Warn

模型在线服务更新失败,请及时查看原因

更新中 -> 更新失败

Warn

JSON内容

告警邮件中的相关信息部分

{ 
  "TaskType": "Notebook",  //任务类型:Notebook开发任务,TrainJob训练任务,Inference模型在线服务
  "TaskName": "notebookname_001",  //任务实例名称
  "TaskId": "kaic-71d6xxxx-f614-44ed-a20b-ff073e3fxxxx",  //任务ID
  "Status": "running",  //可选值:pending, running, failed, submitfailed  #当前任务状态
  "oldStatus": "deploying",  //可选值:pending, running, failed, submitfailed  #变更前任务状态
  "StatusChangeTime": "2025-11-10T07:10:35Z",  //任务状态变更时间
  "ResourcePoolId":"2b45ca63-6d66-4a46-9899-22c62645xxxx",  //资源组ID
  "QueueName":"queuename_001",  //队列名称
  "creator": "creator"  //任务创建人
}

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈