• 热门
  • 基础
  • 数据库
  • 安全
  • 大数据
  • 人工智能
  • 混合云
  • 开发与运维
  • 企业应用

应用服务

行业引擎

全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

新建事件告警策略

最近更新时间:2024-12-11 19:21:19

一、入口

登录云监控控制台,点击左侧导航中告警服务下的告警策略菜单,切换到事件告警分页。点击左上角新建告警策略按钮,点击即可进入新建告警策略

二、创建事件告警策略

1. 输入策略名称

2. 选择产品类型

3. 选择触发条件。

若选择模板,将从选择的条件触发模板中的事件告警规则同步过来。若选择手动匹配,则需选择事件名称和告警策略。

4. 选择事件名称

4.1 事件名称选择“自选事件”时,需要逐一添加事件。选择“全部事件”时,将展开所选产品线下的所有事件。

4.2 编辑告警策略栏,其中有以下参数需要配置。

配置项名称

配置项含义和可选值

告警生效时间

告警规则生效的时间段,默认为全天生效。

触发方式

可选值有两种:触发和累计触发。

累计次数

当选择“触发”时,次数默认为1且无法修改。当选择“累计触发”时,次数默认为2,可填写或增加最大至180的正整数。

统计周期

当触发方式选择“累计触发”时,需配置该值,实现"在X分钟内,累计触发N次"的聚合降噪逻辑。

可选值有:在5分钟内、在15分钟内、在30分钟内、在60分钟内、在3小时内、在6小时内、在12小时内、在24小时内

告警间隔

告警间隔时间。

可选值为:告警一次、每5分钟告警一次、每10分钟告警一次、每15分钟告警一次、每30分钟告警一次、每1小时告善一次、每3小时告警一次、每6小时告警一次、每12小时告警一次、每1天告警一次

5. 选择关联实例

若选择“自选实例”,需添加规则作用的实例资源。若选择“项目”,告警规则将对所选项目中包含所选产品类型的实例生效。

6.(选填)添加告警联系人

选择对应的告警接收人,可以接收到实例触发规则后产生的警报信息,支持添加联系人组、联系人,当前告警通知方式支持短信邮箱。联系人及联系组可通过联系人管理界面进行管理。

7.(选填)添加告警回调

填写公网可访问到的 URL作为回调接口地址,例如:https://console.ksyun.com:8080/callback

说明:

  • 可填写公网可访问到的 URL 或金山协作、企业微信、钉钉、飞书 webhook地址,云监控将及时把告警信息推送到对应的 URL 或金山协作、企业微信、钉钉、飞书 webhook地址;

  • 告警推送失败最多重试3次,每次推送请求的超时等待时间为5秒;

  • 至多可添加5个回调地址。

三、事件告警逻辑说明

1. 配置规则实现逻辑

以告警规则“A事件:在5分钟内,累计触发2次,间隔10分钟告警”为例。

告警判断过程:每次事件A发生时,判断在过去5分钟内的累计发生次数是否≥2:

  • 若<2,则未满足首次触发条件,不告警。

  • 若≥2,再判断距离上一次告警是否间隔10分钟:

    • 若间隔小于10分钟,则抑制不告警。

    • 若间隔大于10分钟,则发出告警。

循环以上判断逻辑。

2. 采集端聚合逻辑

云监控底层采集端上报事件时,对部分云服务器和裸金属服务器事件实现了聚合逻辑,详见云产品事件列表云服务器裸金属服务器说明文档的”采集上报聚合规则“&“聚合标签”列。对于这些事件,通过云监控控制台设置的告警规则将在底层采集端聚合后的上报事件做二次聚合降噪。

举例1:

裸金属服务器中的物理盘Failed事件(PhysicalDiskFailed)在云监控底层按5min聚合,且最大上报次数为100条/小时。

故物理盘Failed事件最短将间隔5分钟上报,若告警规则配置“在5分钟内,累计N次”发出告警将失去作用。对于其他统计时间,可生效的累计次数值见下表梳理:

统计时间

底层聚合后,统计时间内可上报的最大次数

(最大上报次数=统计时间/底层聚合时间)

累计次数有效值

(累计次数取值范围为【2,max(最大上报次数,180)】)

在10分钟内

最多告警2次

2

在30分钟内

最多告警6次

【2,6】

在60分钟内

最多告警12次

【2,12】

在3小时内

最多告警36次

【2,36】

在6小时内

最多告警72次

【2,72】

在12小时内

最多告警144次

【2,144】

在24小时内

最多告警288次

【2,180】

举例2:

裸金属服务器中的内存OOM事件(MemoryOOM)在云监控底层按1min聚合,且最大上报次数为100条/小时。

故内存OOM事件最短将间隔1分钟上报。对于其他统计时间,可生效的累计次数值见下表梳理:

统计时间

底层聚合后,统计时间内可上报的最大次数

(最大上报次数=统计时间/底层聚合时间)

累计次数有效值

(累计次数取值范围为

【2,max(最大上报次数,180)】)

在5分钟内

最多告警5次

【2,5】

在10分钟内

最多告警10次

【2,10】

在30分钟内

最多告警30次

【2,30】

在60分钟内

最多告警60次

【2,60】

在3小时内

最多告警180次

【2,180】

在6小时内

最多告警360次

【2,180】

在12小时内

最多告警720次

【2,180】

在24小时内

最多告警1440次

【2,180】

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容

鼠标选中内容,快速反馈问题

如果在文档使用中出现问题,可选中有问题的部分进行快速反馈,我们将跟进处理。
不再提示
好的,我知道了

聆听反馈