集群监控

最近更新时间:2020-03-02 11:19:15

在KES控制台提供了对集群状态和节点状态多维度指标的实时监控和历史监控,如存储、CPU、内存使用率等。您可以根据这些指标实时了解集群服务的运行状况,针对可能存在的风险及时处理,保障集群的稳定运行。

在集群列表页操作栏中,点击集群监控,或在集群详情页的左侧菜单栏,选择【集群监控】进入集群监控页。

点击进入云监控平台,可设置告警。

集群状态

集群监控

部分指标说明

监控指标 统计方式 详情
服务状态 KES 服务状态:0:绿色,表示集群正常;1:黄色,表示告警,部分副本分片不可用;2:红色,表示异常,部分主分片不可用。 状态为【黄色】:此时搜索结果仍然是完整的。但集群的高可用性在一定程度上受到影响,数据面临较高的丢失风险。应及时调查和定位问题,并修复,防止数据丢失。状态为【红色】意味着已有部分数据丢失:搜索只能返回部分数据,而分配到丢失分片上的写入请求会返回异常。应及时定位异常分片,并进行修复。
集群查询QPS 集群每秒执行的查询QPS个数 查询QPS与查询索引的主分片个数有关。如查询的索引有5个主分片,则一次查询请求对应5个QPS。如果查询QPS流量突增,可能引起CPU或HeapMemory使用率过高或load_1m负载过高,导致集群节点处理能力下降。
Doc写入QPS 每秒写入文档的数量的总和 如果写入QPS流量过高,可能引起CPU或HeapMemory使用率过高或load_1m负载过高,导致集群节点处理能力下降。

节点状态

集群监控

部分指标说明

监控指标 统计方式 详情
节点CPU使用率(%) 每隔60s统计一次,各节点CPU使用百分比 CPU 使用率过高会导致集群节点处理能力下降,若该指标持续较高,可考虑对集群节点进行纵向扩容,提高单节点的负载能力。
节点磁盘使用率(%) 每隔60s统计一次,各个节点磁盘使用百分比。 节点磁盘使用率须控制在85%以下,过高会影响服务。请及时清理无用的索引。对集群进行扩容,增加单节点的磁盘容量或增加节点个数。
节点HeapMemory使用率(%) 每隔60s统计一次,各个节点HeapMemory使用百分比。 当HeapMemory使用率比较高时,会影响ES集群服务,也会自动触发GC操作,过高会出现 OOM。
节点load_1m 60s内集群负载情况 该监控项的正常数值应该低于当前ES节点规格的CPU核数。以单核的ES节点为例,监控项数值说明如下。 Load<1:没有等待的进程。 Load=1:系统无额外的资源运行更多的进程。Load>1:进程拥堵,等待资源。过高时,建议降低集群负载或调大集群节点规格。
GC运行总时长 60s内发生gc时间时长的累计 Gc时间长说明节点正在承受较大内存压力,建议调大节点内存,纵向分担压力或者增加节点数量,横向分担压力
被拒绝请求数目 60s内写入拒绝率+查拒绝率 CPU、内存、磁盘使用率过高时,可能会造成集群写入和查询拒绝率增加。一般地,是集群当前配置无法满足业务读写操作需求,该值过高时建议调大集群节点配置,提高集群节点的处理能力。

金山云,开启您的云计算之旅

免费注册