最近更新时间:2026-03-13 13:15:00
在AI训推场景下,任务常需数小时甚至数天的持续运行,缺乏实时状态变更通知机制导致用户必须主动轮询任务状态,可能造成关键异常响应延迟(如训练失败/服务崩溃)、资源闲置浪费(排队任务未及时处理)。
本功能支持当开发、训练任务和模型在线服务的状态变化时,通过云监控主动推送告警通知,支持短信、邮件形式。以便用户实时感知任务状态变更,及时处理异常。
在任务列表页,点击配置告警规则
当任务状态变更触发配置的告警规则时,将会通过短信、邮件方式收到告警
短信 | 邮件 |
事件类型 | 事件名称 | 任务状态变化 | 事件等级 |
|---|---|---|---|
开发任务状态变更 | 开发任务因资源不足任务已经入排队状态 | 创建中->排队中 启动中->排队中 | Info |
开发任务排队结束进入运行状态 | 排队中-> 部署中 部署中-> 运行中 | Info | |
开发任务状态异常 | 创建中 -> 异常 排队中 -> 异常 启动中 -> 异常 运行中 -> 异常 停止中 -> 异常 镜像保存中 -> 异常 | Warn | |
开发任务创建失败 | 创建中->创建失败 | Warn | |
训练任务状态变更 | 训练任务因资源不足任务已经入排队状态 | 创建中 -> 排队中 | Info |
训练任务排队结束进入运行状态 | 排队中 -> 运行中 | Info | |
训练任务已失败,请及时查看原因 | 创建中 -> 失败 排队中 -> 失败 运行中 -> 失败 停止中 -> 失败 | Warn | |
训练任务成功,请及时查看及验收任务结果 | 运行中 -> 成功 | Info | |
模型在线服务状态变更 | 模型在线服务任务创建失败,请及时查看原因 | 创建中 -> 创建失败 | Warn |
模型在线服务扩缩容失败,请及时查看原因 | 扩缩容中 -> 扩缩容失败 | Warn | |
模型在线服务更新失败,请及时查看原因 | 更新中 -> 更新失败 | Warn |
告警邮件中的相关信息部分
{
"TaskType": "Notebook", //任务类型:Notebook开发任务,TrainJob训练任务,Inference模型在线服务
"TaskName": "notebookname_001", //任务实例名称
"TaskId": "kaic-71d6xxxx-f614-44ed-a20b-ff073e3fxxxx", //任务ID
"Status": "running", //可选值:pending, running, failed, submitfailed #当前任务状态
"oldStatus": "deploying", //可选值:pending, running, failed, submitfailed #变更前任务状态
"StatusChangeTime": "2025-11-10T07:10:35Z", //任务状态变更时间
"ResourcePoolId":"2b45ca63-6d66-4a46-9899-22c62645xxxx", //资源组ID
"QueueName":"queuename_001", //队列名称
"creator": "creator" //任务创建人
}
纯净模式
