全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

监测告警指标

最近更新时间:2021-08-05 15:07:41

利用金山云的云平台监测能力,按一组有序的时间序列数据(称为指标)来检索统计数据。您可使用这些指标来验证您的系统是否按预期运行,如果超过了阈值,则会进行扩缩容。

AS指标:

  • CPU利用率
  • 内存利用率
  • 网卡出流量
  • 网卡入流量
  • GPU利用率
  • GPU显存利用率
  • 监听器出流量
  • 监听器入流量

每个指标可以支持以下维度:

  • 最大值

  • 最小值

  • 平均值

指标聚合方法

金山云弹性伸缩是对云服务器集群进行监测,这会涉及到多个云服务器以及这些云服务器在时间周期内产生的多个监测数据,这些数据会先进行聚合,再根据用户配置策略进行操作。

统计的基本策略是每个周期对每台云服务器的设定监测项进行1分钟取值(每分钟取一个值),若取到的值连续多个周期都符合设定的规则(周期数用户可自定义),则会触发告警伸缩行为。

例如:

某伸缩组中有3台云服务器,定义的告警伸缩策略是:CPU利用率在5分钟内的最大/最小/平均值大于50%,发生3次。

弹性伸缩采集监测数据和策略判断,步骤如下

步骤1:系统会每分钟对每台云服务器取1个值,一个周期(当前设置为5分钟)里取了15个CPU使用率的值。

步骤2:根据配置是最大值/最小值/平均值结合策略进行判断是否符合告警规则。

最大值:如果这15个值中的最大值有超过阈值(50%)的,该周期符合告警伸缩规则。

最小值:如果这15个值中的最小值有超过阈值(50%)的,该周期符合告警伸缩规则。

平均值:如果这15个值的平均值有超过阈值(50%)的,该周期符合告警伸缩规则。

步骤3:如果连续3个周期(共15分钟,每5分钟判断当前周期)都符合此规则,则会触发伸缩行为。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈