最近更新时间:2023-09-21 17:06:27
监控指标 | 描述 | 单位 |
---|---|---|
system.cpu.load[percpu,avg1] | CPU1分钟平均负载(每核) | 空 |
system.cpu.load[percpu,avg15] | CPU15分钟平均负载(每核) | 空 |
system.cpu.load[percpu,avg5] | CPU5分钟平均负载(每核) | 空 |
cpu.utilizition.total | CPU利用率 | % |
system.cpu.load[all,avg1] | CPU1分钟平均负载 | 空 |
system.cpu.load[all,avg5] | CPU5分钟平均负载 | 空 |
system.cpu.load[all,avg15] | CPU15分钟平均负载 | 空 |
vfs.fs.size[/,pused]-Linux vfs.fs.size[D:,pused]-Windows vfs.fs.size[C:,pused]-Windows | 磁盘使用率 | % |
disk.read.Bps[盘符] | 磁盘读盘符 | Bps |
disk.read.ops[盘符] | 磁盘每秒读次数盘符 | Ops |
disk.write.Bps[盘符] | 磁盘写盘符 | Bps |
disk.write.ops[盘符] | 磁盘每秒写次数盘符 | Ops |
memory.utilizition.total | 内存使用率(计算方式:1-内存可用率) | % |
proc.num[] | 运行进程个数 | 个 |
system.cpu.util[,idle,avg1] | CPU闲置率 | % |
tcp.count | TCP连接数 | 个 |
udp.count | UDP连接数 | 个 |
agent.ping | 宕机 | 空 |
vm.memory.size[available] | 可用内存(计算方式:/proc/meminfo中的MemAvailable,主要为Centos 7.2与Ubuntu 16.04以上(包含)的系统;若/proc/meminfo中无MemAvailable,则MemAvailable=MemFree+Buffers+Cached) | B |
vm.memory.size[pavailable] | 内存可用率(计算方式:可用内存/总内存*100%) | % |
vm.memory.size[total] | 总内存(计算方式:/proc/meminfo的MemTotal) | B |
vm.memory.size[used] | 已用内存 (计算方式:总内存-MemFree) | B |
net.if.in[eth0] | 网卡进流量eth0 | 控制台单位bps,SDK单位Bps |
net.if.out[eth0] | 网卡出流量eth0 | 控制台单位bps,SDK单位Bps |
net.if.in[eth0,packets] | 网卡入包速率(Windows) | pps |
net.if.in[eth0,packets] | 网卡入包速率(Linux) | pps |
net.if.out[eth0,packets] | 网卡出包速率(Windows) | pps |
net.if.out[eth0,packets] | 网卡出包速率(Linux) | pps |
监控指标 | 描述 | 单位 |
---|---|---|
eip.bps.in | 弹性IP入网流量 | bps |
eip.bps.out | 弹性IP出网流量 | bps |
eip.pps.in | 弹性IP每秒流入包数 | 个 |
eip.pps.out | 弹性IP每秒流出包数 | 个 |
eip.utilization.in | 弹性IP入向带宽使用百分比 | % |
eip.utilization.out | 弹性IP出向带宽使用百分比 | % |
监控指标 | 描述 | 单位 |
---|---|---|
vpc.nat.bps.in | NAT入网流量 | bps |
vpc.nat.bps.out | NAT出网流量 | bps |
vpc.nat.pps.in | NAT每秒入包数 | 个 |
vpc.nat.pps.out | NAT每秒出包数 | 个 |
vpc.nat.public.bps.in | NAT(公网)入网流量 | bps |
vpc.nat.public.bps.out | NAT(公网)出网流量 | bps |
vpc.nat.public.pps.in | NAT(公网)每秒入包数 | 个 |
vpc.nat.public.pps.out | NAT(公网)每秒出包数 | 个 |
vpc.nat.public.utilization.in | NAT(公网)入网带宽使用率 | % |
vpc.nat.public.utilization.out | NAT(公网)出网带宽使用率 | % |
vpc.nat.ipconflict | NAT(IP)端口占满 | - |
vpc.nat.concur_connect_num | NAT并发连接数 | 个 |
vpc.nat.concur_dropped_connect_rate | NAT并发丢弃连接速率 | 个/秒 |
监控指标 | 描述 | 单位 |
---|---|---|
kcs.cpu_load | CPU使用率 | % |
kcs.usedmemory | 已使用内存 | MB |
kcs.memory_load | 内存使用率 | % |
kcs.input_kbps | 每秒入流量 | kB/s |
kcs.output_kbps | 每秒出流量 | kB/s |
kcs.intranet_in_ratio | 入流量使用率 | % |
kcs.intranet_out_ratio | 出流量使用率 | % |
kcs.qps | 每秒查询次数 | 次/秒 |
kcs.get_qps | 每秒读命令请求数 | 次/秒 |
kcs.put_qps | 每秒写命令请求数 | 次/秒 |
kcs.1ms | 小于1毫秒 | 个 |
kcs.1-5ms | 1-5ms | 个 |
kcs.5-10ms | 5-10ms | 个 |
kcs.10-50ms | 10-50ms | 个 |
kcs.50-200ms | 50-200ms | 个 |
kcs.200ms | 大于200ms | 个 |
kcs.connections | 当前连接数 | 个 |
kcs.connection_usage | 连接数使用率 | % |
kcs.total_keys | 总键个数* | 个 |
kcs.evicted_keys | 淘汰键个数* | 个 |
kcs.expired_keys | 过期键个数* | 个 |
kcs.evicted_keys_per_second | 每秒淘汰键数* | 个 |
kcs.expired_keys_per_second | 每秒过期键个数* | 个 |
kcs.hit_rate | 缓存命中率* | % |
kcs.hit | 每秒命中数* | 个 |
kcs.miss | 每秒未命中数* | 个 |
kcs.slowlog_len | 慢查询数 | 个 |
kcs.cmd_err_history | 错误指令数 | 个 |
kcs.bigvalue_read | 大value读 | 个 |
kcs.bigvalue_write | 大value写 | 个 |
kcs.hyperlog_cmd | hyperlog类型 | 个 |
kcs.pub_sub_cmd | PubSub类型 | 个 |
kcs.transaction_cmd | 事务类型 | 个 |
kcs.lua_cmd | Lua脚本 | 个 |
kcs.latency_avg | 平均延迟 | us |
kcs.latency_max | 最大延迟 | us |
kcs.latency_read_avg | 读平均延迟 | us |
kcs.latency_read_max | 读最大延迟 | us |
kcs.latency_write_avg | 写平均延迟 | us |
kcs.latency_write_max | 写最大延迟 | us |
kcs.latency_other_avg | 其它平均延迟 | us |
kcs.latency_other_max | 其它最大延迟 | us |
kcs.hash_cmd | Hash类型 | 个 |
kcs.list_cmd | List类型 | 个 |
kcs.set_cmd | Set类型 | 个 |
kcs.sort_cmd | SortedSet类型 | 个 |
kcs.keys_cmd | keys类型 | 个 |
kcs.latencylog_len | 长延迟数 | 个 |
kcs.string_cmd | String类型 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
rds.bytes_received | 实例每秒入流量 | Kb/s |
rds.bytes_sent | 实例每秒出流量 | Kb/s |
rds.com_delete | com_delete | 次/秒 |
rds.com_insert | com_insert | 次/秒 |
rds.com_replace | com_replace | 次/秒 |
rds.com_select | com_select | 次/秒 |
rds.com_update | com_update | 次/秒 |
rds.created_tmp_disk_tables | 临时表数量 | 个 |
rds.innodb_buffer_pool_hit_ratio | InnoDB缓存命中率 | % |
rds.innodb_data_fsyncs | InnoDBfsync次数 | 次/秒 |
rds.innodb_data_reads | InnoDB磁盘读次数 | 次/秒 |
rds.innodb_data_writes | InnoDB磁盘写次数 | 次/秒 |
rds.myisam_keycache_readhit_ration | MyISAM读命中率 | % |
rds.myisam_keycache_used_percent | MyISAM缓存使用率 | % |
rds.myisam_keycache_writehit_ration | MyISAM写命中率 | % |
rds.qcache_hit_ratio | querycache命中率 | % |
rds.qcache_used_percent | querycache使用率 | % |
rds.qps | QPS | 次/秒 |
rds.rbps | 磁盘读IOBS | 字节/秒 |
rds.resident_memory_size | 内存使用量 | MB |
rds.riops | 磁盘读IOPS | 次/秒 |
rds.select_scan | select_scan | 次/秒 |
rds.slave_delay | 复制延迟时间 | s |
rds.slow_queries | slow_queries | 次 |
rds.space_used_percent | 磁盘使用率 | % |
rds.table_locks_waited | 表锁次数 | 次/秒 |
rds.threads_connected | 当前连接数 | 个 |
rds.threads_running | 当前活跃连接数 | 个 |
rds.tps | TPS | 次/秒 |
rds.wbps | 磁盘写IOBS | 字节/秒 |
rds.wiops | 磁盘写IOPS | 次/秒 |
rds.cpu_used_percent | CPU使用率 | % |
rds.memory_used_percent | 内存使用率 | % |
rds.innodb_buffer_pool_pages_free | InnoDB空页数 | 个 |
rds.innodb_buffer_pool_pages_total | InnoDB总页数 | 个 |
rds.innodb_buffer_pool_read_requests | InnoDB逻辑读 | 次/秒 |
rds.innodb_buffer_pool_reads | InnoDB物理读 | 次/秒 |
rds.innodb_buffer_pool_use_ratio | InnoDB缓存使用率 | % |
rds.innodb_num_open_files | 当前InnoDB打开文件数量 | 个 |
rds.innodb_data_read | InnoDB读取量 | Byte/秒 |
rds.innodb_data_written | InnoDB写入量 | Byte/秒 |
rds.handler_read_rnd_next | 读下一行请求数 | 次/秒 |
rds.handler_rollback | 内部回滚数 | 次/秒 |
rds.handler_commit | 内部提交数 | 次/秒 |
rds.opened_tables | 已经打开的表数 | 个 |
rds.com_commit | 提交数 | 次/秒 |
rds.com_rollback | 回滚数 | 次/秒 |
rds.threads_created | 已创建的线程数 | 个 |
rds.innodb_rows_deleted | InnoDB行删除量 | 次/秒 |
rds.innodb_rows_inserted | InnoDB行插入量 | 次/秒 |
rds.innodb_rows_updated | InnoDB行更新量 | 次/秒 |
rds.innodb_rows_read | InnoDB行读取量 | 次/秒 |
rds.temp_space_used | 临时文件使用空间 | MB |
rds.slave_io_running | IO线程状态 | 状态值(Yes-1,No-0,Connecting-2) |
rds.slave_sql_running | SQL线程状态 | 状态值(Yes-1,No-0) |
rds.innodb_row_lock_time_avg | InnoDB平均获取行锁时间 | 毫秒 |
rds.innodb_row_lock_waits | InnoDB等待行锁次数 | 次/秒 |
rds.key_blocks_unused | 未使用的块数量 | 个 |
rds.key_blocks_used | 使用的块数量 | 个 |
rds.key_read_requests | 读取数据块次数 | 次/秒 |
rds.key_reads | 硬盘读取数据块次数 | 次/秒 |
rds.key_write_requests | 数据块写入键缓冲次数 | 次/秒 |
rds.key_writes | 数据块写入磁盘次数 | 次/秒 |
rds.seconds_behind_master | 主从延迟时间 | 秒 |
rds.connection_used_percent | 连接使用率 | % |
监控指标 | 描述 | 单位 |
---|---|---|
krds_proxy.cpu_used_percent | CPU使用率 | % |
krds_proxy.memory_used | 内存使用量 | MB |
krds_proxy.status | 代理实例状态 | 1或者0 |
krds_proxy.conns | 连接数 | 个 |
krds_proxy.qps | 每秒查询量 | 次/秒 |
监控指标 | 描述 | 单位 |
---|---|---|
slb.bps.in | SLB入网流量 | bps |
slb.bps.out | SLB出网流量 | bps |
slb.pps.in | SLB每秒流入包数 | 个 |
slb.pps.out | SLB每秒流出包数 | 个 |
slb.cps | SLB每秒新建连接数 | 个 |
slb.activeconn | SLB当前活跃连接数 | 个 |
slb.inactiveconn | SLB当前不活跃连接数 | 个 |
slb.concurrentconn | SLB并发连接数 | 个 |
slb.drop.bps.in | 丢弃入流量 | bps |
slb.drop.bps.out | 丢弃出流量 | bps |
slb.drop.bps.acl | ACL丢弃流量 | bps |
slb.drop.pps.in | 丢弃流入数据包 | pps |
slb.drop.pps.out | 丢弃流出数据包 | pps |
slb.drop.pps.acl | ACL丢弃数据包 | pps |
slb.req_rate | 7层协议QPS | qps |
slb.rs_disable | 健康检查未开启的rs数量 | 个 |
slb.rs_up | 健康检查状态为健康的rs数量 | 个 |
slb.rs_down | 健康检查状态为不健康的rs数量 | 个 |
slb.rs_init | 健康检查未完成的rs数量 | 个 |
4层监听器监控指标如下:
监控指标 | 描述 | 单位 |
---|---|---|
listener.bps.in | 监听器入网流量 | bps |
listener.bps.out | 监听器出网流量 | bps |
listener.pps.in | 监听器每秒流入包数 | 个 |
listener.pps.out | 监听器每秒流出包数 | 个 |
listener.cps | 监听器每秒新建连接数 | 个 |
listener.activeconn | 监听器当前活跃连接数 | 个 |
listener.inactiveconn | 监听器当前未活跃连接数 | 个 |
listener.concurrentconn | 监听器并发连接数 | 个 |
7层监听器监控指标如下:
监控指标 | 描述 | 单位 |
---|---|---|
listener.bps.in | 监听器入网流量 | bps |
listener.bps.out | 监听器出网流量 | bps |
listener.pps.in | 监听器每秒流入包数 | 个 |
listener.pps.out | 监听器每秒流出包数 | 个 |
listener.cps | 监听器每秒新建连接数 | 个 |
listener.activeconn | 监听器当前活跃连接数 | 个 |
listener.inactiveconn | 监听器当前未活跃连接数 | 个 |
listener.httpcode.2xx | 监听器返回的2XX的状态码数量 | 个 |
listener.httpcode.3xx | 监听器返回的3XX的状态码数量 | 个 |
listener.httpcode.4xx | 监听器返回的4XX的状态码数量 | 个 |
listener.httpcode.5xx | 监听器返回的5XX的状态码数量 | 个 |
listener.httpcode.backend.2xx | 真实服务器返回的2XX的状态码数量 | 个 |
listener.httpcode.backend.3xx | 真实服务器返回的3XX的状态码数量 | 个 |
listener.httpcode.backend.4XX | 真实服务器返回的4XX的状态码数量 | 个 |
listener.httpcode.backend.5xx | 真实服务器返回的5XX的状态码数量 | 个 |
listener.latency | HTTP请求到后端的延时,Average(单位时间内平均值) | ms |
listener.requestcount | 单位时间内完成的HTTP请求数 | 个 |
listener.concurrentconn | 监听器并发连接数 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
peering.bps.in | 对等连接入网流量 | bps |
peering.bps.out | 对等连接出网流量 | bps |
peering.pps.in | 对等连接每秒流入包数 | 个 |
peering.pps.out | 对等连接每秒流出包数 | 个 |
peering.drop.bps.in | 对等连接入网流量丢失带宽 | bps |
peering.drop.bps.out | 对等连接出网流量丢失带宽 | bps |
peering.drop.pps.in | 对等连接每秒入流量丢包数 | 个 |
peering.drop.pps.out | 对等连接每秒出流量丢包数 | 个 |
peering.utilization.in | 入向带宽使用率 | % |
peering.utilization.out | 出向带宽使用率 | % |
监控指标 | 描述 | 单位 |
---|---|---|
bws.bps.in | 共享带宽入网流量 | bps |
bws.bps.out | 共享带宽出网流量 | bps |
bws.pps.in | 共享带宽每秒流入包数 | 个 |
bws.pps.out | 共享带宽每秒流出包数 | 个 |
bws.utilization.in | 共享带宽入向带宽使用百分比 | % |
bws.utilization.out | 共享带宽出向带宽使用百分比 | % |
监控指标 | 描述 | 单位 |
---|---|---|
cpu.utilizition.total | CPU利用率 | % |
load.1min | CPU 1分钟平均负载 | 空 |
load.5min | CPU 5分钟平均负载 | 空 |
load.15min | CPU 15分钟平均负载 | 空 |
vm.memory.free | 可用内存 | B |
vm.memory.size | 总内存 | B |
vm.memory.util | 内存利用率 | % |
disk.read.Bps[盘符] | 磁盘读盘符 | Bps |
disk.read.ops[盘符] | 磁盘每秒读次数盘符 | Ops |
disk.write.Bps[盘符] | 磁盘写盘符 | Bps |
disk.write.ops[盘符] | 磁盘每秒写次数盘符 | Ops |
disk.io.error[盘符] | 磁盘IO错误数 | 个 |
vfs.fs.size[/] | 磁盘使用率/ | % |
net.if.in_bps[bond0] | 网卡进流量bond0 | bps |
net.if.out_bps[bond0] | 网卡出流量bond0 | bps |
net.if.out_pps[bond0] | 网卡出包数bond0 | pps |
net.if.in_pps[bond0] | 网卡入包数bond0 | pps |
监控指标 | 描述 | 单位 |
---|---|---|
cpu.utilizition.total | CPU利用率 | % |
system.cpu.load[percpu,avg1] | CPU 1分钟平均负载(每核) | 空 |
system.cpu.load[percpu,avg5] | CPU 5分钟平均负载(每核) | 空 |
system.cpu.load[percpu,avg15] | CPU 15分钟平均负载(每核) | 空 |
system.cpu.load[all,avg1] | CPU 1分钟平均负载 | 空 |
system.cpu.load[all,avg5] | CPU 5分钟平均负载 | 空 |
system.cpu.load[all,avg15] | CPU 15分钟平均负载 | 空 |
disk.read.Bps[盘符] | 磁盘读盘符 | Bps |
disk.read.ops[盘符] | 磁盘每秒读次数盘符 | Ops |
disk.write.Bps[盘符] | 磁盘写盘符 | Bps |
disk.write.ops[盘符] | 磁盘每秒写次数盘符 | Ops |
net.if.in[bond1,bytes] | 网卡进流量bond1 | 控制台单位bps,SDK单位Bps |
net.if.out[bond1,bytes] | 网卡出流量bond1 | 控制台单位bps,SDK单位Bps |
kdc.alive | 宕机告警 | 空 |
监控指标 | 描述 | 单位 |
---|---|---|
ks3.upload.bandwidth.Internal | 内网上行带宽 | bit/s |
ks3.download.bandwidth.Internal | 内网下行带宽 | bit/s |
ks3.upload.bandwidth.Internet | 外网上行带宽 | bit/s |
ks3.download.bandwidth.Internet | 外网下行带宽 | bit/s |
ks3.download.bandwidth.cdn | CDN带宽 | bit/s |
ks3.response.2xx | 2XX状态码 | 次 |
ks3.response.3xx | 3XX状态码 | 次 |
ks3.response.4xx | 4XX状态码 | 次 |
ks3.response.5xx | 5XX状态码 | 次 |
ks3.response.400 | 400状态码 | 次 |
ks3.response.403 | 403状态码 | 次 |
ks3.response.404 | 404状态码 | 次 |
ks3.requests | 总请求数 | 次 |
ks3.requests.get | GET 类总请求数 | 次 |
ks3.requests.put | PUT 类总请求数 | 次 |
ks3.requests.delete | DELETE类请求数 | 次 |
ks3.traffic.crr | 跨区域复制流量 | B |
ks3.upload.traffic.Internet | 外网上行流量 | B |
ks3.download.traffic.Internet | 外网下行流量 | B |
ks3.upload.traffic.Internal | 内网上行流量 | B |
ks3.download.traffic.Internal | 内网下行流量 | B |
ks3.download.traffic.cdn | CDN回源流量 | B |
ks3.request.latency | 总请求平均时延 | ms |
ks3.replication.latency.Max | 复制延时(最大值) | s |
ks3.replication.latency.Avg | 复制延时(平均值) | s |
监控指标 | 描述 | 单位 |
---|---|---|
cdn.vod.origin.flow | 回源流量 | GB |
cdn.vod.origin.bps | 回源带宽 | Gbps |
cdn.vod.httpcode.504 | 504状态码比率 | % |
cdn.vod.httpcode.503 | 503状态码比率 | % |
cdn.vod.httpcode.502 | 502状态码比率 | % |
cdn.vod.httpcode.500 | 500状态码比率 | % |
cdn.vod.httpcode.499 | 499状态码比率 | % |
cdn.vod.httpcode.416 | 416状态码比率 | % |
cdn.vod.httpcode.412 | 412状态码比率 | % |
cdn.vod.httpcode.409 | 409状态码比率 | % |
cdn.vod.httpcode.404 | 404状态码比率 | % |
cdn.vod.httpcode.403 | 403状态码比率 | % |
cdn.vod.httpcode.5xx | 5XX状态码比率 | % |
cdn.vod.httpcode.4xx | 4XX状态码比率 | % |
cdn.vod.hitpv | 请求数命中率 | % |
cdn.vod.hitflow | 流量命中率 | % |
cdn.vod.edge.flow | 边缘流量 | GB |
cdn.vod.edge.bps | 边缘带宽 | Gbps |
cdn.vod.httpcode.counts.409 | 边缘 409状态码次数 | 次 |
cdn.vod.httpcode.counts.412 | 边缘 412状态码次数 | 次 |
cdn.vod.httpcode.counts.416 | 边缘 416状态码次数 | 次 |
cdn.vod.httpcode.counts.499 | 边缘 499状态码次数 | 次 |
cdn.vod.httpcode.counts.403 | 边缘 403状态码次数 | 次 |
cdn.vod.httpcode.counts.404 | 边缘 404状态码次数 | 次 |
cdn.vod.httpcode.counts.4xx | 边缘 4xx状态码次数 | 次 |
cdn.vod.httpcode.counts.500 | 边缘 500状态码次数 | 次 |
cdn.vod.httpcode.counts.502 | 边缘 502状态码次数 | 次 |
cdn.vod.httpcode.counts.503 | 边缘 503状态码次数 | 次 |
cdn.vod.httpcode.counts.504 | 边缘 504状态码次数 | 次 |
cdn.vod.httpcode.counts.5xx | 边缘 5xx状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.409 | 回源 409状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.412 | 回源 412状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.416 | 回源 416状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.499 | 回源 499状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.403 | 回源 403状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.404 | 回源 404状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.4xx | 回源 4xx状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.500 | 回源 500状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.502 | 回源 502状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.503 | 回源 503状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.504 | 回源 504状态码次数 | 次 |
cdn.vod.origin.httpcode.counts.5xx | 回源 5xx状态码次数 | 次 |
cdn.vod.origin.httpcode.409 | 回源 409状态码比率 | % |
cdn.vod.origin.httpcode.412 | 回源 412状态码比率 | % |
cdn.vod.origin.httpcode.416 | 回源 416状态码比率 | % |
cdn.vod.origin.httpcode.499 | 回源 499状态码比率 | % |
cdn.vod.origin.httpcode.403 | 回源 403状态码比率 | % |
cdn.vod.origin.httpcode.404 | 回源 404状态码比率 | % |
cdn.vod.origin.httpcode.4xx | 回源 4xx状态码比率 | % |
cdn.vod.origin.httpcode.500 | 回源 500状态码比率 | % |
cdn.vod.origin.httpcode.502 | 回源 502状态码比率 | % |
cdn.vod.origin.httpcode.503 | 回源 503状态码比率 | % |
cdn.vod.origin.httpcode.504 | 回源 504状态码比率 | % |
cdn.vod.origin.httpcode.5xx | 回源 5xx状态码比率 | % |
集群维度监控
监控指标 | 描述 | 单位 |
---|---|---|
cluster.cpu.usage | 集群CPU利用率 | % |
cluster.memory.usage | 集群内存利用率 | % |
cluster.cpu.allocation | 集群CPU分配率 | % |
cluster.memory.allocation | 集群内存分配率 | % |
cluster.systemdisk.usage | 集群系统盘使用率 | % |
cluster.health.apiserver.status | Apiserver状态 | |
cluster.health.controllermanager.status | Controllermanager状态 | |
cluster.health.scheduler.status | Scheduler状态 | |
cluster.health.etcd.status | Etcd状态 |
实例维度监控
监控指标 | 描述 | 单位 |
---|---|---|
pod.network.rx | 实例网络入流量 | MB |
pod.network.tx | 实例网络出流量 | MB |
pod.cpu.usage | PodCPU使用情况 | millicores |
pod.cpu.usage_for_node | PodCPU使用率(占节点) | % |
pod.cpu.usage_for_request | PodCPU使用率(占Request) | % |
pod.cpu.usage_for_limit | PodCPU使用率(占Limit) | % |
pod.memory.usage | Pod内存使用情况 | % |
pod.memory.usage_for_node | Pod内存使用率(占节点) | % |
pod.memory.usage_for_request | Pod内存使用率(占Request) | % |
pod.memory.usage_for_limit | Pod内存使用率(占Limit) | % |
pod.network.rx_bandwidth | Pod网络入带宽 | 字节/秒 |
pod.network.tx_bandwidth | Pod网络出带宽 | 字节/秒 |
pod.network.rx_packet | Pod网络入包量 | 个/秒 |
pod.network.tx_packet | Pod网络出包量 | 个/秒 |
pod.network.rx_traffic | Pod网络入流量 | B |
pod.network.tx_traffic | Pod网络出流量 | B |
pod.restart.times | Pod重启次数 | 次 |
容器维度监控
监控指标 | 描述 | 单位 |
---|---|---|
container.disk.io_read_bytes_rate | 容器磁盘读IOPS | count |
container.disk.io_write_bytes_rate | 容器磁盘写IOPS | count |
container.disk.io_read_bytes | 容器磁盘读流量 | KB/s |
container.disk.io_write_bytes | 容器磁盘写流量 | KB/s |
container.memory.usage_for_limit | 容器内存使用率(占Limit) | % |
container.memory.usage_for_request | 容器内存使用率(占Request) | % |
container.memory.usage | 容器内存使用情况 | MiB |
container.cpu.usage_for_request | 容器CPU使用率(占Request) | % |
container.cpu.usage_for_limit | 容器CPU使用率(占Limit) | % |
container.cpu.usage | 容器CPU使用情况 | 核 |
container.memory.usage_for_node | 容器内存使用率(占节点) | % |
container.cpu.usage_for_node | 容器CPU使用率(占节点) | % |
container.disk.read_bandwidth | 容器块设备读带宽 | 字节/秒 |
container.disk.write_bandwidth | 容器块设备写带宽 | 字节/秒 |
container.disk.read_iops | 容器块设备读IOPS | 次/秒 |
container.disk.write_iops | 容器块设备写IOPS | 次/秒 |
监控指标 | 描述 | 单位 |
---|---|---|
memcached.connections | 当前连接数 | 个 |
memcached.cpu_load | CPU利用率 | % |
memcached.hit_rate | 缓存命中率 | % |
memcached.input_kbps | 每秒入流量 | KB/s |
memcached.memory_load | 内存使用率 | % |
memcached.output_kbps | 每秒出流量 | KB/s |
memcached.qps | 每秒查询次数 | 次/秒 |
memcached.usedmemory | 已使用内存 | MB |
监控指标 | 描述 | 单位 |
---|---|---|
mongo.mem.memused.amount | 内存使用量 | GB |
mongo.mem.memused.percent | 内存使用率 | % |
mongo.cpu.used | CPU使用率 | % |
mongo.disk.used | 磁盘使用空间 * | GB |
mongo.disk.percent | 使用空间与规格最大可用空间比值 * | - |
mongo.wtcache.readinto_b | wiredTiger读入cache的数据量大小* | B/s |
mongo.wtcache.writtenfrom_b | wiredTiger从cache写的数据量大小* | B/s |
mongo.iops.percent | 实例当前使用IOPS大小与最大可用IOPS的比值* | % |
mongo.iops.amount | 实例当前使用的IOPS大小* | 次/s |
mongo.network.connections | 当前连接数 | 个 |
mongo.network.connections_percent | 当前连接数与最大可用连接数比值 | % |
mongo.network.bytesin | 入流量 | B/s |
mongo.network.bytesout | 出流量 | B/s |
mongo.network.numrequesets | 请求数 | 个 |
mongo.cursor.open_total | 当前cursor打开数量 | 个 |
mongo.cursor.timeout | cursor超时数量 | 个 |
mongo.lock.readers | 全局读锁的等待队列长度* | 个 |
mongo.lock.writers | 全局写锁的等待队列长度* | 个 |
mongo.lock.total | 所有全局锁的等待队列长度* | 个 |
mongo.qps.command | 总QPS | 次/秒 |
mongo.qps.getmore | getmore次数 | 次/秒 |
mongo.qps.delete | 删除次数 | 次/秒 |
mongo.qps.update | 更新次数 | 次/秒 |
mongo.qps.insert | 插入次数 | 次/秒 |
mongo.qps.query | 读取次数 | 次/秒 |
mongo.rs.slavedelay | 主从复制延迟* | - |
监控指标 | 描述 | 单位 |
---|---|---|
dcgw.bps.in | 专线网关入网带宽 | bps |
dcgw.drop.bps.in | 专线网关入网流量丢失带宽 | bps |
dcgw.bps.out | 专线网关出网带宽 | bps |
dcgw.drop.bps.out | 专线网关出网流量丢失带宽 | bps |
dcgw.drop.pps.in | 专线网关每秒入流量丢包数 | 个 |
dcgw.drop.pps.out | 专线网关每秒出流量丢包数 | 个 |
dcgw.pps.in | 专线网关每秒流入包数 | 个 |
dcgw.pps.out | 专线网关每秒流出包数 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
postgresql.riops | 磁盘读IOPS | 次/秒 |
postgresql.wiops | 磁盘写IOPS | 次/秒 |
postgresql.rbps | 读吞吐 | 字节/秒 |
postgresql.wbps | 写吞吐 | 字节/秒 |
postgresql.resident_memory_size | 内存使用量 | MB |
postgresql.space_used_percent | 磁盘使用率 | % |
postgresql.usage_in_percent | 内存使用率 | % |
postgresql.cpu_used_percent | CPU使用率 | % |
postgresql.clientconns | 当前连接数 | 个 |
postgresql.clientqps | QPS | 次/秒 |
postgresql.tps | TPS | 次/秒 |
postgresql.pg_xlog | 事务日志使用量 | MB |
postgresql.max_used_xids | 事务最大已使用ID数 | 个 |
postgresql.xlog_size_speed | 事务日志生成速率 | MB/s |
postgresql.cache_hit | 缓冲区缓存命中率 | % |
postgresql.top_ten_execute_delay | 最长TOP10执行时延 | ms |
postgresql.unused_xids | 剩余XID数量 | 个 |
postgresql.total_requests | 总请求数 | 次/秒 |
postgresql.read_requests | 读请求数 | 次/秒 |
postgresql.write_requests | 写请求数 | 次/秒 |
postgresql.delay | 主从复制时延 | 秒 |
postgresql.pg_xlog_location_diff | 主备XLOG同步差异 | 字节 |
postgresql.replica_lagest_lag | 最滞后副本滞后量 | MB |
监控指标 | 描述 | 单位 |
---|---|---|
kts.failed_batchgetrow | 批量读失败数 | cu |
kts.failed_batchputrow | 批量写入失败数 | % |
kts.failed_deleterow | 单行删除失败数 | % |
kts.failed_getrow | 单行读失败数 | % |
kts.failed_putrow | 单行写失败数 | cu |
kts.failed_ratio_batchgetrow | 批量读失败率 | % |
kts.failed_ratio_batchputrow | 批量写入失败率 | % |
kts.failed_ratio_deleterow | 单行删除失败率 | % |
kts.failed_ratio_getrow | 单行读失败率 | % |
kts.failed_ratio_putrow | 单行写失败率 | % |
kts.failed_ratio_updaterow | 单行更新失败率 | % |
kts.failed_updaterow | 单行更新失败数 | % |
kts.delay_batchgetrow | 批量读多行数据时延 | ms |
kts.delay_batchputrow | 批量写入多行数据时延 | ms |
kts.delay_deleterow | 删除单行数据时延 | ms |
kts.delay_getrow | 读取单行数据时延 | ms |
kts.delay_putrow | 写入单行数据时延 | ms |
kts.delay_updaterow | 数据更新时延 | ms |
kts.read_cu_batchgetrow | 多行读取吞吐量 | cu |
kts.read_cu_getrow | 单行读取吞吐量 | cu |
kts.read_cu_total | 总的读吞吐量 | cu |
kts.success_batchgetrow | 批量写成功数 | cu |
kts.success_batchputrow | 批量读取吞吐量 | cu |
kts.success_deleterow | 单行删除成功数 | cu |
kts.success_getrow | 单行读成功数 | cu |
kts.success_putrow | 单行写成功数 | cu |
kts.success_updaterow | 单行更新成功数 | cu |
kts.table_size | 表大小 | MB |
kts.write_cu_batchputrow | 批量写入吞吐量 | cu |
kts.write_cu_deleterow | 单行删除吞吐量 | cu |
kts.write_cu_putrow | 单行写入吞吐量 | cu |
kts.write_cu_total | 总的写吞吐量 | cu |
kts.write_cu_updaterow | 单行更新吞吐量 | cu |
监控指标 | 描述 | 单位 |
---|---|---|
kad.attack | 入向流量 | unit |
kad.cc | CC防御次数 | 个 |
kad.conn | 并发连接数 | 个 |
kad.idc | 回源流量 | bps |
kad.qps | 每秒请求数(QPS) | 个 |
监控指标 | 描述 | 说明 | 单位 |
---|---|---|---|
cpu.utilizition.total | CPU利用率 | % | |
disk.read.Bps[sda] | 磁盘每秒读字节sda | Bps | |
disk.read.Bps[sdb] | 磁盘每秒读字节sdb | Bps | |
disk.read.ops[sda] | 磁盘每秒读次数sda | pps | |
disk.read.ops[sdb] | 磁盘每秒读次数sdb | pps | |
disk.write.Bps[sda] | 磁盘每秒写字节sda | Bps | |
disk.write.Bps[sdb] | 磁盘每秒写字节sdb | Bps | |
disk.write.ops[sda] | 磁盘每秒写次数sda | pps | |
disk.write.ops[sdb] | 磁盘每秒写次数sdb | pps | |
gpu.memory.free[index] | GPU[0-7]可用显存 | Framebuffer memory total (in MiB). | MB |
gpu.memory.total[index] | GPU[0-7]总显存 | Framebuffer memory total (in MiB). | MB |
gpu.memory.used[index] | GPU[0-7]已用显存 | Framebuffer memory used (in MiB). | MB |
gpu.memory.utilization[index] | GPU显存利用率 | Memory utilization (in %). | % |
gpu.temperature[index] | GPU温度 | GPU temperature (in C). | ℃ |
gpu.utilization[index] | GPU利用率 | GPU utilization (in %). | % |
gpu.memory.reserved[index] | GPU保留显存 | Framebuffer memory total (in MiB). | MB |
gpu.memory.usage[index] | GPU显存使用率 | Memory useage (in %). | % |
gpu.decoder.utilization[index] | GPU解码器利用率 | Decoder utilization (in %). | % |
gpu.encoder.utilization[index] | GPU编码器利用率 | Encoder utilization (in %). | % |
gpu.clock.mem[index] | GPU内存时钟频率 | Memory clock frequency (in MHz). | MHz |
gpu.clock.sm[index] | GPUSM时钟频率 | SM clock frequency (in MHz). | MHz |
gpu.pcie.replay[index] | PCIe重试次数 | Total number of PCIe retries. | 次 |
gpu.remap.correctable[index] | 重新映射CE | Number of remapped rows for correctable errors | 个 |
gpu.remap.uncorrectable[index] | 重新映射UE | Number of remapped rows for uncorrectable errors | 个 |
gpu.remap.failure[index] | 重新映射状态 | Whether remapping of rows has failed | - |
gpu.power.draw[index] | GPU功率 | Power draw (in W). | W |
load.1min | CPU1分钟平均负载 | - | |
load.5min | CPU5分钟平均负载 | - | |
load.15min | CPU15分钟平均负载 | - | |
net.if.in_bps[网卡名称] | 网卡入流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps |
net.if.in_pps[网卡名称] | 网卡入包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps |
net.if.out_bps[网卡名称] | 网卡出流量 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | bps |
net.if.out_pps[网卡名称] | 网卡出包速率 | 例如:网卡名称为bond0、bond1、eth0、eth1、ethx2、ethx3 | pps |
proc.num[] | 运行进程个数 | 个 | |
vfs.fs.size[/] | 磁盘使用率 | % | |
vm.memory.free | 可用内存 | B | |
vm.memory.size | 总内存 | B | |
vm.memory.util | 内存利用率 | % | |
disk.io.error[盘符] | 磁盘IO错误数 | 已支持物理盘出现IO错误事件,该监控项废弃 | 个 |
CX7网卡指标
监控指标 | 描述 | 说明 | 单位 |
---|---|---|---|
tx.packets.phy[网卡名称] | 出向包速率 | 物理网卡总的发送包速率(pps) | pps |
rx.packets.phy[网卡名称] | 入向包速率 | 物理网卡总之的接收包速率(pps) | pps |
tx.bytes.phy[网卡名称] | 出向带宽 | 物理网卡总的出向带宽(Bps) | Bps |
rx.bytes.phy[网卡名称] | 入向带宽 | 物理网卡总的入向带宽(Bps) | Bps |
rx.pause.ctrl.phy[网卡名称] | pause帧入向包速率 | 物理网卡链路层接收到的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
tx.pause.ctrl.phy[网卡名称] | pause帧出向包速率 | 物理网卡链路层发送的pause帧的速率,当pause帧增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
rx.prio5.bytes[网卡名称] | RDMA入向带宽 | RDMA总的入向带宽(Bps) | Bps |
rx.prio5.packets[网卡名称] | RDMA入向包速率 | RDMA总的接收报文速率(pps) | pps |
rx.prio5.discards[网卡名称] | RDMA丢包速率(接收buffer不足) | RDMA接收过程中,由于接收buffer不足导致的丢包(pps) | pps |
tx.prio5.bytes[网卡名称] | RDMA出向带宽 | RDMA总的出向带宽(Bps) | Bps |
tx.prio5.packets[网卡名称] | RDMA出向包速率 | RDMA总的发送包速率(pps) | pps |
rx.prio5.pause[网卡名称] | RDMA pause帧入向包速率 | RDMA接收的pause帧的速率,当pause帧增加,意味着网络存在拥塞,网络对端无法从网卡继续收包(pps) | pps |
rx.prio5.pause.duration[网卡名称] | RDMA接收到pause帧持续时间 | RDMA接收到pause帧持续的时间(单位为microSec) | ms |
tx.prio5.pause[网卡名称] | RDMA pause帧出向包速率 | RDMA发送的pause帧的计数,当这个计数增加,意味着网卡本身存在拥塞,网卡无法从网络上继续收包(pps) | pps |
tx.prio5.pause.duration[网卡名称] | RDMA发送pause帧持续时间 | RDMA发送pause帧持续的时间(单位为microSec) | ms |
rx.prio5.buf.discard[网卡名称] | RDMA丢包速率(host receive buffer不足) | RDMA收包过程中由于host receive buffer不够而导致的丢包(pps) | pps |
rx.prio5.cong.discard[网卡名称] | RDMA丢包速率(host拥塞) | RDMA收包过程中由于host拥塞而导致的丢包(pps) | pps |
rx.prio5.marked[网卡名称] | RDMA ECN入向包速率 | RDMA收包过程中被标记ECN的报文(pps) | pps |
rp.cnp.handled[网卡名称] | 对端CNP包速率 | 被对端网卡处理的CNP报文计数 | pps |
rp.cnp.ignored[网卡名称] | 对端CNP丢包速率 | 对端网卡接收到但是被忽略的CNP报文计数,该计数不应该增加 | pps |
np.cnp.sent[网卡名称] | 发送CNP包速率 | 当网卡通过RoCEv2 IP头分析到存在拥塞控制时发送的CNP报文计数 | pps |
np.ecn.marked.roce.packets[网卡名称] | 接收ECN包速率 | 网卡接收到的RoCEv2报文中被标记了ECN bit的报文计数 | pps |
监控指标 | 描述 | 单位 |
---|---|---|
cpu.utilizition.tota | CPU利用率 | % |
memory.utilizition.total | 内存利用率 | % |
proc.num[] | 运行进行个数 | 个 |
system.cpu.load[all,avg1] | CPU1分钟平均负载 | - |
system.cpu.load[all,avg5] | CPU5分钟平均负载 | - |
system.cpu.load[all,avg15] | CPU15分钟平均负载 | - |
vfs.fs.size[{#FSNAME},pused] | 磁盘使用率{#FSNAME} | % |
vm.memory.size[available] | 可用内存 | B |
gpu.memory.used[(#GPU)] | GPU{#GPU}已用显存 | MB |
gpu.memory.total[(#GPU)] | GPU{#GPU}总显存 | MB |
gpu.temperature[{#GPU}] | GPU{#GPU}温度 | ℃ |
gpu.utilization[{#GPU}] | GPU{#GPU}利用率 | % |
gpu.memory.utilization[(#GPU)] | GPU{#GPU}显存利用率 | % |
disk.read.Bps[{#DISK}] | 磁盘读{#DISK} | Bps |
disk.write.Bps[{#DISK}] | 磁盘写{#DISK} | Bps |
disk.write.ops[{#DISK}] | 磁盘每秒写次数{#DISK} | Ops |
disk.read.ops[{#DISK}] | 磁盘每秒读次数{#DISK} | Ops |
net.if.out[{#IFNAME}] | 网卡出流量{#IFNAME} | Bps |
net.if.in[{#IFNAME}] | 网卡进流量{#IFNAME} | Bps |
tcp.count | TCP连接数 | 个 |
proc.num[] | 运行进程个数 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
drds.riops | 磁盘读IOPS | 次/秒 |
drds.wiops | 磁盘写IOPS | 次/秒 |
drds.rbps | 读吞吐 | 字节/秒 |
drds.wbps | 写吞吐 | 字节/秒 |
drds.resident_memory_size | 内存使用量 | MB |
drds.clientqps | QPS | 次/秒 |
drds.clientconns | 当前连接数 | 个 |
drds.cpu_used_percent | CPU使用率 | % |
drds.slowlogtotal | slow_queries | 次 |
drds.space_used_percent | 磁盘使用率 | % |
drds.usage_in_percent | 内存使用率 | % |
监控指标 | 描述 | 单位 |
---|---|---|
dts.task_alive | 任务存活 | 次/秒 |
dts.consume_delay | 数据订阅消费延迟 | 秒 |
dts.lock_num | 源端持锁数量 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
rabbitmq.disk.free | 可用存储空间 | GB |
rabbitmq.sockets.used | Socket连接数 | 个 |
rabbitmq.file.handle | 文件句柄数 | GB |
rabbitmq.memory.used | 内存占用 | 个 |
rabbitmq.process.used | Erlang进程数 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
kingdb.mysql.qps | QPS | 次/每秒 |
kingdb.mysql.tps | TPS | 次/每秒 |
kingdb.mysql.com_delete | com_delete | 次/每秒 |
kingdb.mysql.com_select | com_select | 次/每秒 |
kingdb.mysql.com_update | com_update | 次/每秒 |
kingdb.mysql.com_insert | com_insert | 次/每秒 |
kingdb.mysql.com_replace | com_replace | 次/每秒 |
kingdb.mysql.select_scan | select_scan | 次/每秒 |
kingdb.mysql.slow_queries | slow_queries | 次 |
kingdb.mysql.handler_read_rnd_next | 读下一行请求数 | 次/每秒 |
kingdb.mysql.handler_rollback | 内部回滚数 | 次/每秒 |
kingdb.mysql.handler_commit | 内部提交数 | 次/每秒 |
kingdb.mysql.innodb_data_fsyncs | InnoDB fsync次数 | 次/每秒 |
kingdb.mysql.innodb_data_reads | InnoDB 磁盘读次数 | 次/每秒 |
kingdb.mysql.innodb_data_writes | InnoDB 磁盘写次数 | 次/每秒 |
kingdb.mysql.innodb_buffer_pool_hit_ratio | InnoDB 缓存命中率 | % |
kingdb.mysql.innodb_buffer_pool_pages_free | InnoDB 空页数 | 个 |
kingdb.mysql.innodb_buffer_pool_pages_total | InnoDB 总页数 | 个 |
kingdb.mysql.innodb_buffer_pool_read_requests | InnoDB 逻辑读 | 次/每秒 |
kingdb.mysql.innodb_buffer_pool_reads | InnoDB 物理读 | 次/每秒 |
kingdb.mysql.innodb_buffer_pool_use_ratio | InnoDB 缓存使用率 | % |
kingdb.mysql.innodb_num_open_files | 当前 InnoDB 打开文件数量 | 个 |
kingdb.mysql.innodb_data_read | InnoDB 读取量 | 字节/每秒 |
kingdb.mysql.innodb_data_written | InnoDB 写入量 | 字节/每秒 |
kingdb.mysql.space_used_percent | 磁盘使用率 | % |
kingdb.mysql.rbps | 读吞吐 | 字节/每秒 |
kingdb.mysql.wbps | 写吞吐 | 字节/每秒 |
kingdb.mysql.riops | 磁盘读IOPS | 次/每秒 |
kingdb.mysql.wiops | 磁盘写IOPS | 次/每秒 |
kingdb.mysql.resident_memory_size | 内存使用量 | MB |
kingdb.mysql.cpu_used_percent | CPU使用率 | % |
kingdb.mysql.memory_usage_percent | 内存使用率 | % |
kingdb.mysql.qcache_hit_ratio | query cache命中率 | % |
kingdb.mysql.qcache_used_percent | query cache使用率 | % |
kingdb.mysql.bytes_sent | 实例每秒出流量 | Kb/s |
kingdb.mysql.bytes_received | 实例每秒入流量 | Kb/s |
kingdb.mysql.created_tmp_disk_tables | 临时表数量 | 个 |
kingdb.mysql.threads_running | 当前活跃连接数 | 个 |
kingdb.mysql.threads_connected | 当前连接数 | 个 |
kingdb.mysql.table_locks_waited | 表锁次数 | 次/秒 |
kingdb.mysql.slave_delay | 只读实例复制延迟 | 毫秒 |
ES集群维度监控
监控指标 | 描述 | 单位 |
---|---|---|
elasticsearch_cluster_health_status | 集群状态 | - |
elasticsearch_cluster_health_active_shards | 集群可用分片数 | 个 |
elasticsearch_cluster_health_unassigned_shards | 集群未分配分片数 | 个 |
elasticsearch_cluster_health_relocating_shards | 集群正在迁移的分片数 | 个 |
elasticsearch_cluster_health_number_of_pending_tasks | 集群pending_task数 | 个 |
elasticsearch_cluster_health_number_of_nodes | 集群总节点数目 | 个 |
elasticsearch_indices_search_query_total | 集群索引请求总次数 | 次 |
elasticsearch_indices_docs_nums | Doc写入QPS数 | - |
elasticsearch_cluster_health_active_primary_shards | 集群主分片数 | 个 |
elasticsearch_indices_indexing_index_total | 集群总索引数 | 个 |
elasticsearch_cluster_health_initializing_shards | 集群初始化中分片数 | 个 |
elasticsearch_cluster_health_number_of_data_nodes | 集群的数据节点数目 | 个 |
ES节点维度监控
监控指标 | 描述 | 单位 |
---|---|---|
elasticsearch_os_load1 | 1分钟 | % |
elasticsearch_os_load5 | 5分钟 | % |
elasticsearch_os_load15 | 15分钟 | % |
elasticsearch_filesystem_data_available_bytes | 可用磁盘空间大小 | B |
elasticsearch_filesystem_io_stats_device_read_size_kilobytes_sum | 磁盘读取数据量 | B |
elasticsearch_jvm_memory_used_bytes | es进程内存使用量 | B |
elasticsearch_process_cpu_percent | es进程使用的CPU | 个 |
elasticsearch_filesystem_io_stats_device_write_size_kilobytes_sum | 磁盘写入数据量 | B |
elasticsearch_jvm_gc_collection_seconds_sum | gc运行总时长 | 秒 |
elasticsearch_heap_memtory_usage | heap_memory使用率 | % |
elasticsearch_jvm_gc_collection_seconds_count | gc运行次数 | 次 |
集群
监控指标 | 描述 | 单位 |
---|---|---|
Hadoop_HBase_readCluster_Qps | 集群读QPS | - |
Hadoop_HBase_writeCluster_Qps | 集群写QPS | - |
Hadoop_HBase_readLatency | 集群读取延迟 | - |
Hadoop_HBase_writeLatency | 集群写入延迟 | - |
Hadoop_Hbase_regionConnection | region链接数 | 个 |
Master节点
监控指标 | 描述 | 单位 |
---|---|---|
Hadoop_HBase_numberRegionServers | regionserver数量 | 个 |
Hadoop_HBase_numDeadRegionServers | regionserver dead 数量 | 个 |
Hadoop_HBase_ritCountOverThreshold | 超出rit阈值数量 | 个 |
RegionServer节点
监控指标 | 描述 | 单位 |
---|---|---|
Hadoop_HBase_regionCount | 每个rs的region数量 | 个 |
Hadoop_HBase_storeFileCount | StoreFile数量 | 个 |
Hadoop_HBase_hlogFileCount | HLog文件数量 | 个 |
Hadoop_HBase_totalRequestCount | 总请求数 | 个 |
Hadoop_HBase_readRequestCount | 读请求数 | 个 |
Hadoop_HBase_writeRequestCount | 写请求数 | 个 |
Hadoop_HBase_numOpenConnections | 打开连接数 | 个 |
Hadoop_HBase_numActiveHandler | rpc handler数 | 个 |
Hadoop_HBase_numCallsInGeneralQueue | 排队请求数 | 个 |
Hadoop_HBase_flushQueueLength | Memtore刷新队列深度 | - |
Hadoop_HBase_blockCacheHitCount | Block缓存命中数 | 个 |
Hadoop_HBase_blockCacheMissCount | Block缓存丢失数 | 个 |
Hadoop_HBase_blockCacheExpressHitPercent | Block缓存命中率 | % |
TiDB
监控指标 | 描述 | 单位 |
---|---|---|
tidb.tidb.ops | OPS | 个 |
tidb.tidb.tps | TPS | 个 |
tidb.tidb.runtime | 运行时间 | second |
tidb.tidb.query_duration_seconds95 | 95%的sql响应时间 | ms |
tidb.tidb.connection_count | 总连接数 | 个 |
tidb.tidb.cpu_usage | CPU使用率 | % |
tidb.tidb.mem_usage | 内存使用量 | B |
TiKV
监控指标 | 描述 | 单位 |
---|---|---|
tidb.tikv.cpu_usage | CPU使用率 | % |
tidb.tikv.mem_usage | 内存使用量 | B |
tidb.tikv.runtime | 运行时间 | second |
tidb.tikv.store_size | 数据使用量 | B |
tidb.tikv.region | region数量 | 个 |
tidb.tikv.leader | leader数量 | 个 |
tidb.tikv.hot_write_region_as_leader | 热点写region分布 | 个 |
tidb.tikv.hot_read_region_as_leader | 热点读region分布 | 个 |
TiFlash
监控指标 | 描述 | 单位 |
---|---|---|
tidb.tiflash.cpu_usage | CPU使用率 | % |
tidb.tiflash.mem_usage | 内存使用量 | B |
tidb.tiflash.runtime | 运行时间 | second |
tidb.tiflash.store_size | 数据使用量 | B |
tidb.tiflash.executor_qps | OPS | 次/s |
tidb.tiflash.query_duration_seconds95 | 95%的sql的响应时间 | ms |
PD
监控指标 | 描述 | 单位 |
---|---|---|
tidb.pd.cpu_usage | CPU使用率 | % |
tidb.pd.mem_usage | 内存使用量 | B |
tidb.pd.runtime | 运行时间 | second |
tidb.pd.store_disconnected_count | 连接异常存储节点数量 | 个 |
tidb.pd.store_unhealth_count | 不健康的存储节点数量 | 个 |
tidb.pd.store_low_space_count | 磁盘剩余空间不足的存储节点数量 | 个 |
tidb.pd.store_down_count | 宕机的存储节点数量 | 个 |
tidb.pd.store_offline_count | 下线的存储节点数量 | 个 |
tidb.pd.store_tombstone_count | tomb状态的存储节点数量 | 个 |
tidb.pd.move-leader | leader调度任务创建数量 | 个 |
TiCDC
监控指标 | 描述 | 单位 |
---|---|---|
tidb.ticdc.cpu_usage | CPU使用率 | % |
tidb.ticdc.mem_usage | 内存使用量 | B |
tidb.ticdc.runtime | 运行时间 | second |
监控指标 | 描述 | 单位 |
---|---|---|
ch.qps | QPS | 次/每秒 |
ch.rows | 每秒写入行数 | 行 |
ch.bytes | 每秒写入大小 | MB |
ch.space_used_percent | 磁盘使用率 | % |
ch.rbps | 读吞吐 | 字节/每秒 |
ch.wbps | 写吞吐 | 字节/每秒 |
ch.riops | 磁盘读IOPS | 次/每秒 |
ch.wiops | 磁盘写IOPS | 次/每秒 |
ch.zk_wait | ZK平均等待时长 | ms |
ch.cpu_wait | 平均CPU等待时长 | ms |
ch.connections | 当前连接数 | 个 |
ch.bytes_sent | 实例每秒出流量 | Kb/s |
ch.bytes_received | 实例每秒入流量 | Kb/s |
ch.cpu_used_percent | CPU使用率 | % |
ch.memory_used_percent | 内存使用率 | % |
ch.resident_memory_size | 内存使用量 | MBytes |
ch.spaced_used | 磁盘使用量 | MBytes |
ch.query_failed | 失败Query个数 | 个 |
ch.query_running | 运行Query个数 | 个 |
ch.merge_running | 运行Merge个数 | 个 |
ch.mutation_running | 运行Mutation个数 | 个 |
ch.insert_delay_count | 延迟Insert个数 | 个 |
监控指标 | 描述 | 单位 |
---|---|---|
sqlserver.space_used | 磁盘使用量 | MB |
sqlserver.space_used_percent | 磁盘使用率 | % |
sqlserver.cpu_used_percent | CPU使用率 | % |
sqlserver.riops | 磁盘读IOPS | 次/秒 |
sqlserver.wiops | 磁盘写IOPS | 次/秒 |
sqlserver.memory_used | 内存使用量 | MB |
sqlserver.memory_used_percent | 内存使用率 | % |
sqlserver.used_connections | 当前连接数 | 个 |
sqlserver.logins | 每秒登录次数 | 次/秒 |
sqlserver.tps | 事务数 | 次/秒 |
sqlserver.recv_mb | 输入流量 | MB/秒 |
sqlserver.send_mb | 输出流量 | MB/秒 |
sqlserver.cache_hit | 缓存命中率 | % |
sqlserver.qps | 总请求数 | 次/秒 |
sqlserver.sql_compilations | SQL编译数 | 次/秒 |
sqlserver.lock_requests | 锁请求次数 | 次/秒 |
sqlserver.lock_waits | 锁等待次数 | 次/秒 |
监控指标 | 描述 | 单位 |
---|---|---|
namenode_connection_load | 当前连接数 | 个 |
namenode_volume_failures_total | Datanodes的全故障总数 | 次 |
namenode_blocks_total | 总BLOCK数量 | 个 |
namenode_under_replicated_blocks | 副本数不够的块数量 | 个 |
namenode_capacity_utilization | HDFS空间利用率 | % |
namenode_capacity_total | 集群存储总容量 | GB |
namenode_capacity_used | 集群存储已使用容量 | GB |
namenode_capacity_used_non_dfs | 集群非HDFS使用容量 | bytes |
namenode_capacity_remaining | 集群存储剩余容量 | GB |
namenode_files_total | 总文件数量 | 个 |
namenode_num_dead_data_nodes | 已经标记为Dead状态的数据节点数量 | 个 |
namenode_num_live_data_nodes | 活的数据节点数量 | 个 |
namenode_num_decommissioning_data_nodes | 正在下线的节点数量 | 个 |
namenode_corrupt_blocks | 坏块数量 | 个 |
resourcemanager_app_failures | 失败application百分比 | % |
resourcemanager_apps_running | 正在运行的application个数 | 个 |
resourcemanager_apps_submitted | 应用提交个数 | 个 |
resourcemanager_apps_pending | 挂起的application个数 | 个 |
resourcemanager_apps_completed | 完成的application个数 | 个 |
resourcemanager_apps_killed | 被杀死的application个数 | 个 |
resourcemanager_apps_failed | 失败的application个数 | 个 |
resourcemanager_cluster_memory | 集群内存利用率 | % |
resourcemanager_mem_allocated | 已分配的内存量 | MB |
resourcemanager_mem_reserved | 预留内存量 | MB |
resourcemanager_mem_available | 可用内存量 | MB |
resourcemanager_vcores_allocated | 使用的VCore数目 | 个 |
resourcemanager_vcores_available | 可用的VCore数目 | 个 |
resourcemanager_cluster_cpu | 集群CPU利用率 | % |
resourcemanager_allocated_containers | 已分配容器数 | 个 |
resourcemanager_pending_containers | 挂起容器个数 | 个 |
resourcemanager_reserved_containers | 预留容器数 | 个 |
resourcemanager_active_nms | 集群节点存活数量 | 个 |
resourcemanager_decommissioned_nms | 已退役节点数量 | 个 |
resourcemanager_lost_nms | 丢失节点数量 | 个 |
resourcemanager_unhealthy_nms | 非健康节点数量 | 个 |
presto_active_workers | 活跃的worker数 | 个 |
presto_failed_workers | 失败worker数量 | 个 |
presto_total_workers | 总worke数量 | 个 |
presto_running_queries | 正在运行的查询总数 | 个 |
presto_queued_queries | 等待状态的查询总数 | 个 |
presto_failedqueries_oneminute_count | 失败的查询总数 | 个/min |
presto_abandonedqueries_oneminute_count | 放弃的查询总数 | 个/min |
presto_canceledqueries_oneminute_count | 取消的查询总数 | 个/min |
presto_completedqueries_oneminute_count | 完成的查询总数 | 个/min |
presto_startedqueries_oneminute_count | 已启动的查询总数 | 个/min |
presto_submittedqueries_oneminute_count | 已提交的查询总数 | 个/min |
presto_inputdatasize_oneminute_rate | 输入数据速率 | bytes |
presto_outputdatasize_oneminute_rate | 输出数据速率 | bytes |
presto_reservedistributedbytes | 集群中 Reserved Memory 的大小 | bytes |
presto_totalInputrows | 平均处理的输入行数 | 行 |
presto_totalcputimesecs | Worker 的并发总数 | 个 |
KMR节点
监控指标 | 描述 | 单位 |
---|---|---|
zookeeper_num_alive_connections | 当前连接数 | 个 |
zookeeper_znode_count | zk的znode数量 | 个 |
zookeeper_avg_latency | zk处理平均延迟 | ms |
zookeeper_max_latency | zk处理最大时延 | ms |
zookeeper_min_latency | zk处理最小时延 | ms |
zookeeper_watch_count | zk的watch数目 | 个 |
zookeeper_packets_received | zk接收的数据包速率 | 个/s |
zookeeper_packets_sent | zk发送的数据包速率 | 个/s |
zookeeper_outstanding_requests | 排队请求数 | 个 |
zookeeper_server_state | zk节点类型 | 0:unknow1:leader2:follower |
zookeeper_process_alive | 进程存活 | 0:存活1:不存活 |
namenode_process_alive | namenode进程存活 | |
datanode_process_alive | datanode进程存活 | |
journalnode_process_alive | journalnode进程存活 | |
zkfailovercontroller_process_alive | zkfailovercontroller进程存活 | |
namenode_gc_count | JVMGC次数 | 次 |
namenode_gc_time | JVMGC耗时 | ms |
namenode_mem_heap_used | JVM已使用堆内存 | MB |
namenode_mem_heap_committed | JVM可用堆内存 | MB |
namenode_mem_heap_max | JVM最大堆内存 | MB |
namenode_memory_utilization | namenode内存利用率 | % |
namenode_cpu_utilization | namenodeCPU利用率 | % |
namenode_rpc_processing_time_avg_time | RPC请求平均处理时间 | ms |
namenode_rpc_queue_time_avg_time | RPC平均延迟时间 | ms |
namenode_ha_state | NN状态 | |
nodemanager_process_alive | nodemanager进程存活 | |
resourcemanager_process_alive | resourcemanager进程存活 | |
jobhistoryserver_process_alive | jobhistoryserver进程存活 | |
resourcemanager_memory_utilization | memory利用率 | % |
resourcemanager_cpu_utilization | CPU利用率 | % |
resourcemanager_mem_heap_used | JVM已使用堆内存 | MB |
resourcemanager_mem_heap_committed | JVM可用堆内存 | MB |
resourcemanager_mem_heap_max | JVM最大堆内存 | MB |
resourcemanager_sentbytes | RPC发送数据量(8032) | bytes/s |
resourcemanager_receivedbytes | RPC接收数据量(8032) | bytes/s |
metastore_process_alive | metastore进程存活 | |
hiveserver2_process_alive | hiveserver2进程存活 | |
metastore_process_cpu_load | 进程的CPU使用率 | % |
metastore_mem_heap_used | JVM已使用堆内存 | MB |
metastore_mem_heap_committed | JVM可用堆内存 | MB |
metastore_mem_heap_max | JVM最大堆内存 | MB |
metastore_max_fd_count | 最大文件描述符数 | 个 |
metastore_open_fd_count | 已打开文件描述符数量 | 个 |
metastore_thread_count | metastore总线程数 | 个 |
hiveserver2_mem_heap_used | Jhiveserver2JVM已使用堆内存 | MB |
hiveserver2_mem_heap_committed | hiveserver2可用堆内存 | MB |
hiveserver2_mem_heap_max | hiveserver2最大堆内存 | MB |
hiveserver2_max_fd_count | hiveserver2最大文件描述符数 | 个 |
hiveserver2_open_fd_count | hiveserver2已打开文件描述符数 | 个 |
hiveserver2_thread_count | hiveserver2总线程数 | 个 |
spark_historyserver_process_alive | historyserver进程存活 | |
spark_historyserver_jvm_threads_current | 已使用线程 | 个 |
spark_historyserver_jvm_threads_daemon | JVM守护线程数 | 个 |
spark_historyserver_jvm_classes_loaded | JVM已加载类数量 | 个 |
spark_historyserver_process_open_fds | 已打开文件描述符数 | 个 |
spark_historyserver_process_max_fds | 最大文件描述符数 | 个 |
spark_historyserver_gc_collection_seconds_sum_ms | 每次GC总耗时(老年代) | s |
spark_historyserver_gc_collection_seconds_sum_s | 每次GC总耗时(新生代) | s |
spark_historyserver_gc_collection_seconds_count_ms | 每秒GC次数(老年代) | 次 |
spark_historyserver_gc_collection_seconds_count_s | 每秒GC次数(新生代) | 次 |
spark_historyserver_mem_heap_used | JVM已使用堆内存 | MB |
spark_historyserver_mem_heap_committed | JVM可用堆内存 | MB |
spark_historyserver_mem_heap_max | JVM最大堆内存 | MB |
flink_historyserver_process_alive | historyserver进程存活 | |
flink_historyserver_jvm_threads_current | 已使用线程 | 个 |
flink_historyserver_jvm_threads_daemon | JVM守护线程数 | 个 |
flink_historyserver_jvm_classes_loaded | JVM已加载类数量 | 个 |
flink_historyserver_process_open_fds | 已打开文件描述符数 | 个 |
flink_historyserver_process_max_fds | 最大文件描述符数 | 个 |
flink_historyserver_gc_collection_seconds_sum_ms | 每次GC总耗时(老年代) | s |
flink_historyserver_gc_collection_seconds_sum_s | 每次GC总耗时(新生代) | s |
flink_historyserver_gc_collection_seconds_count_ms | 每秒GC次数(老年代) | 次 |
flink_historyserver_gc_collection_seconds_count_s | 每秒GC次数(新生代) | 次 |
flink_historyserver_mem_heap_used | JVM已使用堆内存 | MB |
flink_historyserver_mem_heap_committed | JVM可用堆内存 | MB |
flink_historyserver_mem_heap_max | JVM最大堆内存 | MB |
prestocoordinator_process_alive | coordinator进程存活 | |
prestoworker_process_alive | worker进程存活 | |
hue_process_alive | hue进程存活 | |
oozie_process_alive | oozie进程存活 |
监控指标 | 描述 | 单位 |
---|---|---|
cassandra.mem.memused.amount | 内存使用 | GB |
cassandra.mem.memused.percent | 内存使用率 | % |
cassandra.cpu.used | CPU使用率 | % |
cassandra.disk.used | 磁盘使用空间 | GB |
监控指标 | 描述 | 单位 |
---|---|---|
net.if.bps.out | 端口出向流量 | Mbps |
net.if.bps.in | 端口入向流量 | Mbps |
net.if.pps.out | 端口每秒流出包数 | 个 |
net.if.pps.in | 端口每秒流入包数 | 个 |
net.if.state | 端口状态,1:up, 2:down, 3:testing, 4:unknown, 5:dormant, 6:notPresent, 7:lowerLayerDown |
监控指标 | 描述 | 单位 |
---|---|---|
waf3.statuscode-400 | 400 | 个 |
waf3.statuscode-403 | 403 | 个 |
waf3.statuscode-404 | 404 | 个 |
waf3.statuscode-502 | 502 | 个 |
waf3.statuscode-503 | 503 | 个 |
waf3.statuscode-504 | 504 | 个 |
waf3.statuscode-4XX | 4XX | 个 |
waf3.statuscode-5XX | 5XX | 个 |
waf3.net.qps | QPS | 个 |
waf3.webattack.count | Web攻击拦截量 | 个 |
waf3.ccattack.count | CC攻击拦截量 | 个 |
waf3.accesscontrol.count | 访问控制拦截量 | 个 |
waf3.requests.count | 请求总数 | 个 |
纯净模式