各产品的监控项
1.KEC 云服务器
2.EIP 弹性IP
3.NAT
4.Redis 云数据库Redis
5.KRDS 关系型数据库
6.SLB 负载均衡
7.Listener 监听器
8.Peering 对等连接
9.BWS 共享带宽
10.裸金属服务器
11.KDH 专属宿主机
12.KS3 对象存储
13.CDN 内容分发网络
14.KCE 容器引擎
15.Memcached 云数据库Memcached
16.MongoDB 云数据库MongoDB
17.DCGW 专线网关
18.VPNTU 专线通道
19.KTS 表格数据库
20.KAD 高防IP
21.GPU GPU裸金属服务器
22.GPUVM GPU云服务器
23.DRDS 分布式数据库
24.KDTS 数据传输服务
25.RabbitMQ 消息队列RabbitMQ
26.KingDB 云数据库KingDB
27.KES Elasticsearch服务
28.KHbase Hbase服务
1.KEC 云服务器
监控指标 |
描述 |
单位 |
system.cpu.load[percpu,avg1] |
CPU1分钟平均负载(每核) |
空 |
system.cpu.load[percpu,avg15] |
CPU15分钟平均负载(每核) |
空 |
system.cpu.load[percpu,avg5] |
CPU5分钟平均负载(每核) |
空 |
cpu.utilizition.total |
CPU利用率 |
% |
system.cpu.load[all,avg1] |
CPU1分钟平均负载 |
空 |
system.cpu.load[all,avg5] |
CPU5分钟平均负载 |
空 |
system.cpu.load[all,avg15] |
CPU15分钟平均负载 |
空 |
vfs.fs.size[/,pused]-Linux vfs.fs.size[D:,pused]-Windows vfs.fs.size[C:,pused]-Windows |
磁盘使用率 |
% |
disk.read.Bps[盘符] |
磁盘读盘符 |
Bps |
disk.read.ops[盘符] |
磁盘每秒读次数盘符 |
Ops |
disk.write.Bps[盘符] |
磁盘写盘符 |
Bps |
disk.write.ops[盘符] |
磁盘每秒写次数盘符 |
Ops |
memory.utilizition.total |
内存使用率(计算方式:1-内存可用率) |
% |
proc.num[] |
运行进程个数 |
个 |
system.cpu.util[,idle,avg1] |
CPU闲置率 |
% |
tcp.count |
TCP连接数 |
个 |
agent.ping |
宕机 |
空 |
vm.memory.size[available] |
可用内存(计算方式:/proc/meminfo中的MemAvailable,主要为Centos 7.2与Ubuntu 16.04以上(包含)的系统;若/proc/meminfo中无MemAvailable,则MemAvailable=MemFree+Buffers+Cached) |
B |
vm.memory.size[pavailable] |
内存可用率(计算方式:可用内存/总内存*100%) |
% |
vm.memory.size[total] |
总内存(计算方式:/proc/meminfo的MemTotal) |
B |
vm.memory.size[used] |
已用内存 (计算方式:总内存-MemFree) |
B |
net.if.in[eth0] |
网卡进流量eth0 |
控制台单位bps,SDK单位Bps |
net.if.out[eth0] |
网卡出流量eth0 |
控制台单位bps,SDK单位Bps |
net.if.in[Red Hat VirtIO Ethernet Adapter,packets] |
网卡入包速率(Windows) |
pps |
net.if.in[eth0,packets] |
网卡入包速率(Linux) |
pps |
net.if.out[Red Hat VirtIO Ethernet Adapter,packets] |
网卡出包速率(Windows) |
pps |
net.if.out[eth0,packets] |
网卡出包速率(Linux) |
pps |
2.EIP 弹性IP
监控指标 |
描述 |
单位 |
eip.bps.in |
弹性IP入网流量 |
bps |
eip.bps.out |
弹性IP出网流量 |
bps |
eip.pps.in |
弹性IP每秒流入包数 |
个 |
eip.pps.out |
弹性IP每秒流出包数 |
个 |
eip.utilization.in |
弹性IP入向带宽使用百分比 |
% |
eip.utilization.out |
弹性IP出向带宽使用百分比 |
% |
3.NAT
监控指标 |
描述 |
单位 |
vpc.nat.bps.in |
NAT入网流量 |
bps |
vpc.nat.bps.out |
NAT出网流量 |
bps |
vpc.nat.pps.in |
NAT每秒入包数 |
个 |
vpc.nat.pps.out |
NAT每秒出包数 |
个 |
vpc.nat.public.bps.in |
NAT(公网)入网流量 |
bps |
vpc.nat.public.bps.out |
NAT(公网)出网流量 |
bps |
vpc.nat.public.pps.in |
NAT(公网)每秒入包数 |
个 |
vpc.nat.public.pps.out |
NAT(公网)每秒出包数 |
个 |
vpc.nat.public.utilization.in |
NAT(公网)入网带宽使用率 |
% |
vpc.nat.public.utilization.out |
NAT(公网)出网带宽使用率 |
% |
vpc.nat.ipconflict |
NAT(IP)端口占满 |
- |
4.Redis 云数据库Redis
监控指标 |
描述 |
单位 |
kcs.connections |
当前连接数 |
个 |
kcs.cpu_load |
CPU利用率 |
% |
kcs.evicted_keys |
淘汰键个数 |
个 |
kcs.expired_keys |
过期键个数 |
个 |
kcs.hash_cmd |
Hash类型数据每秒操作次数 |
次/秒 |
kcs.hit_rate |
缓存命中率 |
% |
kcs.input_kbps |
每秒入流量 |
kb/s |
kcs.list_cmd |
List类型数据每秒操作次数 |
次/秒 |
kcs.output_kbps |
每秒出流量 |
kb/s |
kcs.qps |
每秒查询次数 |
次/秒 |
kcs.read_cmd |
每秒读操作次数 |
次/秒 |
kcs.set_cmd |
Set类型数据每秒操作次数 |
次/秒 |
kcs.sort_cmd |
SortedSet类型数据每秒操作次数 |
次/秒 |
kcs.string_cmd |
String类型数据每秒操作次数 |
次/秒 |
kcs.total_keys |
总键个数 |
个 |
kcs.usedmemory |
已使用内存 |
MB |
kcs.write_cmd |
每秒写操作次数 |
次/秒 |
5.KRDS 关系型数据库
监控指标 |
描述 |
单位 |
rds.bytes_received |
实例每秒入流量 |
Kb/s |
rds.bytes_sent |
实例每秒出流量 |
Kb/s |
rds.com_delete |
com_delete |
次/秒 |
rds.com_insert |
com_insert |
次/秒 |
rds.com_replace |
com_replace |
次/秒 |
rds.com_select |
com_select |
次/秒 |
rds.com_update |
com_update |
次/秒 |
rds.connection_used_percent |
已使用连接数占用率 |
% |
rds.created_tmp_disk_tables |
临时表数量 |
个 |
rds.innodb_buffer_pool_hit_ratio |
InnoDB缓存命中率 |
% |
rds.innodb_data_fsyncs |
InnoDB fsync次数 |
次/秒 |
rds.innodb_data_reads |
InnoDB磁盘读次数 |
次/秒 |
rds.innodb_data_writes |
InnoDB磁盘写次数 |
次/秒 |
rds.max_connections |
最大连接数 |
个 |
rds.max_used_connections |
历史最大连接数 |
个 |
rds.myisam_keycache_readhit_ration |
MyISAM读命中率 |
% |
rds.myisam_keycache_used_percent |
MyISAM缓存使用率 |
% |
rds.myisam_keycache_writehit_ration |
MyISAM写命中率 |
% |
rds.qcache_hit_ratio |
query cache命中率 |
% |
rds.qcache_used_percent |
query cache使用率 |
% |
rds.qps |
QPS |
次/秒 |
rds.rbps |
磁盘读IOBS |
字节/秒 |
rds.resident_memory_size |
当前占用内存 |
MB |
rds.riops |
磁盘读IOPS |
次/秒 |
rds.select_scan |
select_scan |
次/秒 |
rds.slave_delay |
复制延迟时间 |
s |
rds.slow_queries |
slow_queries |
次 |
rds.space_used_percent |
磁盘使用率 |
% |
rds.table_locks_waited |
表锁次数 |
次/秒 |
rds.threads_connected |
当前连接数 |
个 |
rds.threads_running |
当前活跃连接数 |
个 |
rds.tps |
TPS |
次/秒 |
rds.wbps |
磁盘写IOBS |
字节/秒 |
rds.wiops |
磁盘写IOPS |
次/秒 |
rds.cpu_used_percent |
CPU利用率 |
% |
6.SLB 负载均衡
监控指标 |
描述 |
单位 |
slb.bps.in |
SLB入网流量 |
bps |
slb.bps.out |
SLB出网流量 |
bps |
slb.pps.in |
SLB每秒流入包数 |
个 |
slb.pps.out |
SLB每秒流出包数 |
个 |
slb.cps |
SLB每秒新建连接数 |
个 |
slb.activeconn |
SLB当前活跃连接数 |
个 |
slb.inactiveconn |
SLB当前不活跃连接数 |
个 |
slb.concurrentconn |
SLB并发连接数 |
个 |
7.Listener 监听器
4层监听器监控指标如下:
监控指标 |
描述 |
单位 |
listener.bps.in |
监听器入网流量 |
bps |
listener.bps.out |
监听器出网流量 |
bps |
listener.pps.in |
监听器每秒流入包数 |
个 |
listener.pps.out |
监听器每秒流出包数 |
个 |
listener.cps |
监听器每秒新建连接数 |
个 |
listener.activeconn |
监听器当前活跃连接数 |
个 |
listener.inactiveconn |
监听器当前未活跃连接数 |
个 |
listener.concurrentconn |
监听器并发连接数 |
个 |
7层监听器监控指标如下:
监控指标 |
描述 |
单位 |
listener.bps.in |
监听器入网流量 |
bps |
listener.bps.out |
监听器出网流量 |
bps |
listener.pps.in |
监听器每秒流入包数 |
个 |
listener.pps.out |
监听器每秒流出包数 |
个 |
listener.cps |
监听器每秒新建连接数 |
个 |
listener.activeconn |
监听器当前活跃连接数 |
个 |
listener.inactiveconn |
监听器当前未活跃连接数 |
个 |
listener.httpcode.2xx |
监听器返回的2XX的状态码数量 |
个 |
listener.httpcode.3xx |
监听器返回的3XX的状态码数量 |
个 |
listener.httpcode.4xx |
监听器返回的4XX的状态码数量 |
个 |
listener.httpcode.5xx |
监听器返回的5XX的状态码数量 |
个 |
listener.httpcode.backend.2xx |
真实服务器返回的2XX的状态码数量 |
个 |
listener.httpcode.backend.3xx |
真实服务器返回的3XX的状态码数量 |
个 |
listener.httpcode.backend.4XX |
真实服务器返回的4XX的状态码数量 |
个 |
listener.httpcode.backend.5xx |
真实服务器返回的5XX的状态码数量 |
个 |
listener.latency |
HTTP请求到后端的延时,Average(单位时间内平均值) |
ms |
listener.requestcount |
单位时间内完成的HTTP请求数 |
个 |
listener.concurrentconn |
监听器并发连接数 |
个 |
8.Peering 对等连接
监控指标 |
描述 |
单位 |
peering.bps.in |
对等连接入网流量 |
bps |
peering.bps.out |
对等连接出网流量 |
bps |
peering.pps.in |
对等连接每秒流入包数 |
个 |
peering.pps.out |
对等连接每秒流出包数 |
个 |
peering.drop.bps.in |
对等连接入网流量丢失带宽 |
bps |
peering.drop.bps.out |
对等连接出网流量丢失带宽 |
bps |
peering.drop.pps.in |
对等连接每秒入流量丢包数 |
个 |
peering.drop.pps.out |
对等连接每秒出流量丢包数 |
个 |
9.BWS 共享带宽
监控指标 |
描述 |
单位 |
bws.bps.in |
共享带宽入网流量 |
bps |
bws.bps.out |
共享带宽出网流量 |
bps |
bws.pps.in |
共享带宽每秒流入包数 |
个 |
bws.pps.out |
共享带宽每秒流出包数 |
个 |
bws.utilization.in |
共享带宽入向带宽使用百分比 |
% |
bws.utilization.out |
共享带宽出向带宽使用百分比 |
% |
10.裸金属服务器
监控指标 |
描述 |
单位 |
cpu.utilizition.total |
CPU利用率 |
% |
load.1min |
CPU 1分钟平均负载 |
空 |
load.5min |
CPU 5分钟平均负载 |
空 |
load.15min |
CPU 15分钟平均负载 |
空 |
vm.memory.free |
可用内存 |
B |
vm.memory.size |
总内存 |
B |
vm.memory.util |
内存利用率 |
% |
disk.read.Bps[盘符] |
磁盘读盘符 |
Bps |
disk.read.ops[盘符] |
磁盘每秒读次数盘符 |
Ops |
disk.write.Bps[盘符] |
磁盘写盘符 |
Bps |
disk.write.ops[盘符] |
磁盘每秒写次数盘符 |
Ops |
vfs.fs.size[/] |
磁盘使用率/ |
% |
net.if.in_bps[bond0] |
网卡进流量bond0 |
bps |
net.if.out_bps[bond0] |
网卡出流量bond0 |
bps |
proc.num[] |
运行进程个数 |
个 |
11.KDH 专属宿主机
监控指标 |
描述 |
单位 |
cpu.utilizition.total |
CPU利用率 |
% |
system.cpu.load[percpu,avg1] |
CPU 1分钟平均负载(每核) |
空 |
system.cpu.load[percpu,avg5] |
CPU 5分钟平均负载(每核) |
空 |
system.cpu.load[percpu,avg15] |
CPU 15分钟平均负载(每核) |
空 |
system.cpu.load[all,avg1] |
CPU 1分钟平均负载 |
空 |
system.cpu.load[all,avg5] |
CPU 5分钟平均负载 |
空 |
system.cpu.load[all,avg15] |
CPU 15分钟平均负载 |
空 |
disk.read.Bps[盘符] |
磁盘读盘符 |
Bps |
disk.read.ops[盘符] |
磁盘每秒读次数盘符 |
Ops |
disk.write.Bps[盘符] |
磁盘写盘符 |
Bps |
disk.write.ops[盘符] |
磁盘每秒写次数盘符 |
Ops |
net.if.in[bond1,bytes] |
网卡进流量bond1 |
控制台单位bps,SDK单位Bps |
net.if.out[bond1,bytes] |
网卡出流量bond1 |
控制台单位bps,SDK单位Bps |
kdc.alive |
宕机告警 |
空 |
12.KS3 对象存储
监控指标 |
描述 |
单位 |
ks3.bucket.capacity.total.sd |
标准存储量总量 |
byte |
ks3.bucket.capacity.add.sd |
标准存储量增量 |
byte |
ks3.bucket.capacity.del.sd |
标准存储量删除量 |
byte |
ks3.bucket.capacity.total.ia |
低频存储量总量 |
byte |
ks3.bucket.capacity.add.ia |
低频存储量增量 |
byte |
ks3.bucket.capacity.del.ia |
低频存储量删除量 |
byte |
ks3.bucket.capacity.total.ar |
归档存储总量 |
byte |
ks3.bucket.capacity.add.ar |
归档存储增量 |
byte |
ks3.bucket.capacity.del.ar |
归档存储删除量 |
byte |
ks3.bucket.flow.down.sd |
标准存储流量(外网下载流量+CDN回源流量) |
byte |
ks3.bucket.flow.onet.down.sd |
标准存储外网流量(不包含CDN下载量的公网下行流量) |
byte |
ks3.bucket.flow.cdn.down.sd |
标准存储CDN流量(下载) |
byte |
ks3.bucket.flow.down.ia |
低频存储流量(外网下载流量+CDN回源流量) |
byte |
ks3.bucket.flow.onet.down.ia |
低频存储外网流量(不包含CDN下载量的公网下行流量) |
byte |
ks3.bucket.flow.cdn.down.ia |
低频存储CDN流量(下载) |
byte |
ks3.bucket.flow.down.ar |
归档存储流量(外网下载流量+CDN回源流量) |
byte |
ks3.bucket.flow.onet.down.ar |
归档存储外网流量(不包含CDN下载量的公网下行流量) |
byte |
ks3.bucket.flow.cdn.down.ar |
归档存储CDN流量(下载) |
byte |
ks3.bucket.bandwidth.down |
下行带宽(不区分外网带宽和CDN回源带宽) |
bps |
ks3.bucket.getcount.sd |
标准get次数 |
次 |
ks3.bucket.putcount.sd |
标准put次数 |
次 |
ks3.bucket.getcount.ia |
低频get次数 |
次 |
ks3.bucket.putcount.ia |
低频put次数 |
次 |
ks3.bucket.getcount.ar |
归档get次数 |
次 |
ks3.bucket.putcount.ar |
归档put次数 |
次 |
ks3.bucket.flow.up.ia |
低频存储取回量 |
byte |
ks3.bucket.flow.up.ar |
归档存储取回量 |
byte |
13.CDN 内容分发网络
监控指标 |
描述 |
单位 |
cdn.vod.origin.flow |
回源流量 |
GB |
cdn.vod.origin.bps |
回源带宽 |
Gbps |
cdn.vod.httpcode.504 |
504状态码比率 |
% |
cdn.vod.httpcode.503 |
503状态码比率 |
% |
cdn.vod.httpcode.502 |
502状态码比率 |
% |
cdn.vod.httpcode.500 |
500状态码比率 |
% |
cdn.vod.httpcode.499 |
499状态码比率 |
% |
cdn.vod.httpcode.416 |
416状态码比率 |
% |
cdn.vod.httpcode.412 |
412状态码比率 |
% |
cdn.vod.httpcode.409 |
409状态码比率 |
% |
cdn.vod.httpcode.404 |
404状态码比率 |
% |
cdn.vod.httpcode.403 |
403状态码比率 |
% |
cdn.vod.httpcode.5xx |
5XX状态码比率 |
% |
cdn.vod.httpcode.4xx |
4XX状态码比率 |
% |
cdn.vod.hitpv |
请求数命中率 |
% |
cdn.vod.edge.flow |
边缘流量 |
GB |
cdn.vod.edge.bps |
边缘带宽 |
Gbps |
14.KCE 容器引擎
集群维度监控
监控指标 |
描述 |
单位 |
cluster.cpu.usage |
集群CPU利用率 |
% |
cluster.memory.usage |
集群内存利用率 |
% |
实例维度监控
监控指标 |
描述 |
单位 |
pod.network.rx |
实例网络入流量 |
MB |
pod.network.tx |
实例网络出流量 |
MB |
容器维度监控
监控指标 |
描述 |
单位 |
container.cpu.usage |
容器CPU使用情况 |
核 |
container.cpu.usage_for_request |
容器CPU使用率(占Request) |
% |
container.cpu.usage_for_limit |
容器CPU使用率(占Limit) |
% |
container.memory.usage |
容器内存使用情况 |
MiB |
container.memory.usage_for_request |
容器内存使用率(占Request) |
% |
container.memory.usage_for_limit |
容器内存使用率(占Limit) |
% |
15.Memcached 云数据库Memcached
监控指标 |
描述 |
单位 |
memcached.connections |
当前连接数 |
个 |
memcached.cpu_load |
CPU利用率 |
% |
memcached.hit_rate |
缓存命中率 |
% |
memcached.input_kbps |
每秒入流量 |
KB/s |
memcached.memory_load |
内存使用率 |
% |
memcached.output_kbps |
每秒出流量 |
KB/s |
memcached.qps |
每秒查询次数 |
次/秒 |
memcached.usedmemory |
已使用内存 |
MB |
16.MongoDB 云数据库MongoDB
监控指标 |
描述 |
单位 |
mongo.mem.memused.amount |
内存使用量 |
GB |
mongo.mem.memused.percent |
内存使用率 |
% |
mongo.cpu.used |
CPU使用率 |
% |
mongo.disk.used |
磁盘使用空间 * |
GB |
mongo.disk.percent |
使用空间与规格最大可用空间比值 * |
- |
mongo.wtcache.readinto_b |
wiredTiger读入cache的数据量大小* |
B/s |
mongo.wtcache.writtenfrom_b |
wiredTiger从cache写的数据量大小* |
B/s |
mongo.iops.percent |
实例当前使用IOPS大小与最大可用IOPS的比值* |
% |
mongo.iops.amount |
实例当前使用的IOPS大小* |
次/s |
mongo.network.connections |
当前连接数 |
个 |
mongo.network.connections_percent |
当前连接数与最大可用连接数比值 |
% |
mongo.network.bytesin |
入流量 |
B/s |
mongo.network.bytesout |
出流量 |
B/s |
mongo.network.numrequesets |
请求数 |
个 |
mongo.cursor.open_total |
当前cursor打开数量 |
个 |
mongo.cursor.timeout |
cursor超时数量 |
个 |
mongo.lock.readers |
全局读锁的等待队列长度* |
个 |
mongo.lock.writers |
全局写锁的等待队列长度* |
个 |
mongo.lock.total |
所有全局锁的等待队列长度* |
个 |
mongo.qps.command |
总QPS |
次/秒 |
mongo.qps.getmore |
getmore次数 |
次/秒 |
mongo.qps.delete |
删除次数 |
次/秒 |
mongo.qps.update |
更新次数 |
次/秒 |
mongo.qps.insert |
插入次数 |
次/秒 |
mongo.qps.query |
读取次数 |
次/秒 |
mongo.rs.slavedelay |
主从复制延迟* |
- |
- 分片集群数据和副本集数据均为节点维度采集,监控项通用。
- mongos节点无*监控项。
17.DCGW 专线网关
监控指标 |
描述 |
单位 |
dcgw.bps.in |
专线网关入网带宽 |
bps |
dcgw.drop.bps.in |
专线网关入网流量丢失带宽 |
bps |
dcgw.bps.out |
专线网关出网带宽 |
bps |
dcgw.drop.bps.out |
专线网关出网流量丢失带宽 |
bps |
dcgw.drop.pps.in |
专线网关每秒入流量丢包数 |
个 |
dcgw.drop.pps.out |
专线网关每秒出流量丢包数 |
个 |
dcgw.pps.in |
专线网关每秒流入包数 |
个 |
dcgw.pps.out |
专线网关每秒流出包数 |
个 |
18.VPNTU 专线通道
监控指标 |
描述 |
单位 |
vpntunnel.bps.in |
VPN通道入网带宽 |
bps |
vpntunnel.bps.out |
VPN通道出网带宽 |
bps |
vpntunnel.pps.in |
VPN通道每秒流入包数 |
个 |
vpntunnel.pps.out |
VPN通道每秒流出包数 |
个 |
19.KTS 表格数据库
监控指标 |
描述 |
单位 |
kts.failed_batchgetrow |
批量读失败数 |
cu |
kts.failed_batchputrow |
批量写入失败数 |
% |
kts.failed_deleterow |
单行删除失败数 |
% |
kts.failed_getrow |
单行读失败数 |
% |
kts.failed_putrow |
单行写失败数 |
cu |
kts.failed_ratio_batchgetrow |
批量读失败率 |
% |
kts.failed_ratio_batchputrow |
批量写入失败率 |
% |
kts.failed_ratio_deleterow |
单行删除失败率 |
% |
kts.failed_ratio_getrow |
单行读失败率 |
% |
kts.failed_ratio_putrow |
单行写失败率 |
% |
kts.failed_ratio_updaterow |
单行更新失败率 |
% |
kts.failed_updaterow |
单行更新失败数 |
% |
kts.delay_batchgetrow |
批量读多行数据时延 |
ms |
kts.delay_batchputrow |
批量写入多行数据时延 |
ms |
kts.delay_deleterow |
删除单行数据时延 |
ms |
kts.delay_getrow |
读取单行数据时延 |
ms |
kts.delay_putrow |
写入单行数据时延 |
ms |
kts.delay_updaterow |
数据更新时延 |
ms |
kts.read_cu_batchgetrow |
多行读取吞吐量 |
cu |
kts.read_cu_getrow |
单行读取吞吐量 |
cu |
kts.read_cu_total |
总的读吞吐量 |
cu |
kts.success_batchgetrow |
批量写成功数 |
cu |
kts.success_batchputrow |
批量读取吞吐量 |
cu |
kts.success_deleterow |
单行删除成功数 |
cu |
kts.success_getrow |
单行读成功数 |
cu |
kts.success_putrow |
单行写成功数 |
cu |
kts.success_updaterow |
单行更新成功数 |
cu |
kts.table_size |
表大小 |
MB |
kts.write_cu_batchputrow |
批量写入吞吐量 |
cu |
kts.write_cu_deleterow |
单行删除吞吐量 |
cu |
kts.write_cu_putrow |
单行写入吞吐量 |
cu |
kts.write_cu_total |
总的写吞吐量 |
cu |
kts.write_cu_updaterow |
单行更新吞吐量 |
cu |
20.KAD 高防IP
监控指标 |
描述 |
单位 |
kad.attack |
入向流量 |
unit |
kad.cc |
CC防御次数 |
个 |
kad.conn |
并发连接数 |
个 |
kad.idc |
回源流量 |
bps |
kad.qps |
每秒请求数(QPS) |
个 |
21.GPU GPU裸金属服务器
监控指标 |
描述 |
单位 |
cpu.utilizition.total |
CPU利用率 |
% |
disk.read.Bps[sda] |
磁盘每秒读字节sda |
Bps |
disk.read.Bps[sdb] |
磁盘每秒读字节sdb |
Bps |
disk.read.ops[sda] |
磁盘每秒读次数sda |
pps |
disk.read.ops[sdb] |
磁盘每秒读次数sdb |
pps |
disk.write.Bps[sda] |
磁盘每秒写字节sda |
Bps |
disk.write.Bps[sdb] |
磁盘每秒写字节sdb |
Bps |
disk.write.ops[sda] |
磁盘每秒写次数sda |
pps |
disk.write.ops[sdb] |
磁盘每秒写次数sdb |
pps |
gpu.memory.free[0] |
GPU0可用显存 |
MB |
gpu.memory.free[1] |
GPU1可用显存 |
MB |
gpu.memory.free[2] |
GPU2可用显存 |
MB |
gpu.memory.free[3] |
GPU3可用显存 |
MB |
gpu.memory.free[4] |
GPU4可用显存 |
MB |
gpu.memory.free[5] |
GPU5可用显存 |
MB |
gpu.memory.free[6] |
GPU6可用显存 |
MB |
gpu.memory.free[7] |
GPU7可用显存 |
MB |
gpu.memory.total[0] |
GPU0总显存 |
MB |
gpu.memory.total[1] |
GPU1总显存 |
MB |
gpu.memory.total[2] |
GPU2总显存 |
MB |
gpu.memory.total[3] |
GPU3总显存 |
MB |
gpu.memory.total[4] |
GPU4总显存 |
MB |
gpu.memory.total[5] |
GPU5总显存 |
MB |
gpu.memory.total[6] |
GPU6总显存 |
MB |
gpu.memory.total[7] |
GPU7总显存 |
MB |
gpu.memory.used[0] |
GPU0已用显存 |
MB |
gpu.memory.used[1] |
GPU1已用显存 |
MB |
gpu.memory.used[2] |
GPU2已用显存 |
MB |
gpu.memory.used[3] |
GPU3已用显存 |
MB |
gpu.memory.used[4] |
GPU4已用显存 |
MB |
gpu.memory.used[5] |
GPU5已用显存 |
MB |
gpu.memory.used[6] |
GPU6已用显存 |
MB |
gpu.memory.used[7] |
GPU7已用显存 |
MB |
gpu.memory.utilization[0] |
GPU0显存利用率 |
% |
gpu.memory.utilization[1] |
GPU0显存利用率 |
% |
gpu.memory.utilization[2] |
GPU0显存利用率 |
% |
gpu.memory.utilization[3] |
GPU0显存利用率 |
% |
gpu.memory.utilization[4] |
GPU0显存利用率 |
% |
gpu.memory.utilization[5] |
GPU0显存利用率 |
% |
gpu.memory.utilization[6] |
GPU0显存利用率 |
% |
gpu.memory.utilization[7] |
GPU0显存利用率 |
% |
gpu.temperature[0] |
GPU0温度 |
℃ |
gpu.temperature[1] |
GPU1温度 |
℃ |
gpu.temperature[2] |
GPU2温度 |
℃ |
gpu.temperature[3] |
GPU3温度 |
℃ |
gpu.temperature[4] |
GPU4温度 |
℃ |
gpu.temperature[5] |
GPU5温度 |
℃ |
gpu.temperature[6] |
GPU6温度 |
℃ |
gpu.temperature[7] |
GPU7温度 |
℃ |
gpu.utilization[0] |
GPU0利用率 |
% |
gpu.utilization[1] |
GPU1利用率 |
% |
gpu.utilization[2] |
GPU2利用率 |
% |
gpu.utilization[3] |
GPU3利用率 |
% |
gpu.utilization[4] |
GPU4利用率 |
% |
gpu.utilization[5] |
GPU5利用率 |
% |
gpu.utilization[6] |
GPU6利用率 |
% |
gpu.utilization[7] |
GPU7利用率 |
% |
load.1min |
CPU1分钟平均负载 |
- |
load.5min |
CPU5分钟平均负载 |
- |
load.15min |
CPU15分钟平均负载 |
- |
net.if.in_bps[bond0] |
网卡入流量bond0 |
bps |
net.if.in_bps[bond1] |
网卡入流量bond1 |
bps |
net.if.in_bps[eth0] |
网卡入流量eth0 |
bps |
net.if.in_bps[eth1] |
网卡入流量eth1 |
bps |
net.if.in_bps[ethx0] |
网卡入流量ethx0 |
bps |
net.if.in_bps[ethx1] |
网卡入流量ethx1 |
bps |
net.if.in_bps[ethx2] |
网卡入流量ethx2 |
bps |
net.if.in_bps[ethx3] |
网卡入流量ethx3 |
bps |
net.if.in_pps[bond0] |
网卡入包速率bond0 |
pps |
net.if.in_pps[bond1] |
网卡入包速率bond1 |
pps |
net.if.in_pps[eth0] |
网卡入包速率eth0 |
pps |
net.if.in_pps[eth1] |
网卡入包速率eth1 |
pps |
net.if.in_pps[ethx0] |
网卡入包速率ethx0 |
pps |
net.if.in_pps[ethx1] |
网卡入包速率ethx1 |
pps |
net.if.in_pps[ethx2] |
网卡入包速率ethx2 |
pps |
net.if.in_pps[ethx3] |
网卡入包速率ethx3 |
pps |
net.if.out_bps[bond0] |
网卡出流量bond0 |
bps |
net.if.out_bps[bond1] |
网卡出流量bond1 |
bps |
net.if.out_bps[eth0] |
网卡出流量eth0 |
bps |
net.if.out_bps[eth1] |
网卡出流量eth1 |
bps |
net.if.out_bps[ethx0] |
网卡出流量ethx0 |
bps |
net.if.out_bps[ethx1] |
网卡出流量ethx1 |
bps |
net.if.out_bps[ethx2] |
网卡出流量ethx2 |
bps |
net.if.out_bps[ethx3] |
网卡出流量ethx3 |
bps |
net.if.out_pps[bond0] |
网卡出包速率bond0 |
pps |
net.if.out_pps[bond1] |
网卡出包速率bond1 |
pps |
net.if.out_pps[eth0] |
网卡出包速率eth0 |
pps |
net.if.out_pps[eth1] |
网卡出包速率eth1 |
pps |
net.if.out_pps[ethx0] |
网卡出包速率ethx0 |
pps |
net.if.out_pps[ethx1] |
网卡出包速率ethx1 |
pps |
net.if.out_pps[ethx2] |
网卡出包速率ethx2 |
pps |
net.if.out_pps[ethx3] |
网卡出包速率ethx3 |
pps |
proc.num[] |
运行进程个数 |
个 |
vfs.fs.size[/] |
磁盘使用率 |
% |
vm.memory.free |
可用内存 |
B |
vm.memory.size |
总内存 |
B |
vm.memory.util |
内存利用率 |
% |
22.GPUVM GPU云服务器
监控指标 |
描述 |
单位 |
cpu.utilizition.tota |
CPU利用率 |
% |
memory.utilizition.total |
内存利用率 |
% |
proc.num[] |
运行进行个数 |
个 |
system.cpu.load[all,avg1] |
CPU1分钟平均负载 |
- |
system.cpu.load[all,avg5] |
CPU5分钟平均负载 |
- |
system.cpu.load[all,avg15] |
CPU15分钟平均负载 |
- |
vfs.fs.size[{#FSNAME},pused] |
磁盘使用率{#FSNAME} |
% |
vm.memory.size[available] |
可用内存 |
B |
gpu.memory.used[(#GPU)] |
GPU{#GPU}已用显存 |
MB |
gpu.memory.total[(#GPU)] |
GPU{#GPU}总显存 |
MB |
gpu.temperature[{#GPU}] |
GPU{#GPU}温度 |
℃ |
gpu.utilization[{#GPU}] |
GPU{#GPU}利用率 |
% |
gpu.memory.utilization[(#GPU)] |
GPU{#GPU}显存利用率 |
% |
disk.read.Bps[{#DISK}] |
磁盘读{#DISK} |
Bps |
disk.write.Bps[{#DISK}] |
磁盘写{#DISK} |
Bps |
disk.write.ops[{#DISK}] |
磁盘每秒写次数{#DISK} |
Ops |
disk.read.ops[{#DISK}] |
磁盘每秒读次数{#DISK} |
Ops |
net.if.out[{#IFNAME}] |
网卡出流量{#IFNAME} |
Bps |
net.if.in[{#IFNAME}] |
网卡进流量{#IFNAME} |
Bps |
tcp.count |
TCP连接数 |
个 |
proc.num[] |
运行进程个数 |
个 |
23.DRDS 分布式数据库
监控指标 |
描述 |
单位 |
drds.riops |
磁盘读IOPS |
次/秒 |
drds.wiops |
磁盘写IOPS |
次/秒 |
drds.rbps |
读吞吐 |
字节/秒 |
drds.wbps |
写吞吐 |
字节/秒 |
drds.resident_memory_size |
内存使用量 |
MB |
drds.clientqps |
QPS |
次/秒 |
drds.clientconns |
当前连接数 |
个 |
drds.cpu_used_percent |
CPU使用率 |
% |
drds.slowlogtotal |
slow_queries |
次 |
drds.space_used_percent |
磁盘使用率 |
% |
drds.usage_in_percent |
内存使用率 |
% |
24.KDTS 数据传输服务
监控指标 |
描述 |
单位 |
dts.task_alive |
任务存活 |
次/秒 |
dts.consume_delay |
数据订阅消费延迟 |
秒 |
dts.lock_num |
源端持锁数量 |
个 |
25.RabbitMQ 消息队列RabbitMQ
监控指标 |
描述 |
单位 |
rabbitmq.disk.free |
可用存储空间 |
GB |
rabbitmq.sockets.used |
Socket连接数 |
个 |
rabbitmq.file.handle |
文件句柄数 |
GB |
rabbitmq.memory.used |
内存占用 |
个 |
rabbitmq.process.used |
Erlang进程数 |
个 |
26.KingDB 云数据库KingDB
监控指标 |
描述 |
单位 |
kingdb.mysql.qps |
QPS |
次/每秒 |
kingdb.mysql.tps |
TPS |
次/每秒 |
kingdb.mysql.com_delete |
com_delete |
次/每秒 |
kingdb.mysql.com_select |
com_select |
次/每秒 |
kingdb.mysql.com_update |
com_update |
次/每秒 |
kingdb.mysql.com_insert |
com_insert |
次/每秒 |
kingdb.mysql.com_replace |
com_replace |
次/每秒 |
kingdb.mysql.select_scan |
select_scan |
次/每秒 |
kingdb.mysql.slow_queries |
slow_queries |
次 |
kingdb.mysql.handler_read_rnd_next |
读下一行请求数 |
次/每秒 |
kingdb.mysql.handler_rollback |
内部回滚数 |
次/每秒 |
kingdb.mysql.handler_commit |
内部提交数 |
次/每秒 |
kingdb.mysql.innodb_data_fsyncs |
InnoDB fsync次数 |
次/每秒 |
kingdb.mysql.innodb_data_reads |
InnoDB 磁盘读次数 |
次/每秒 |
kingdb.mysql.innodb_data_writes |
InnoDB 磁盘写次数 |
次/每秒 |
kingdb.mysql.innodb_buffer_pool_hit_ratio |
InnoDB 缓存命中率 |
% |
kingdb.mysql.innodb_buffer_pool_pages_free |
InnoDB 空页数 |
个 |
kingdb.mysql.innodb_buffer_pool_pages_total |
InnoDB 总页数 |
个 |
kingdb.mysql.innodb_buffer_pool_read_requests |
InnoDB 逻辑读 |
次/每秒 |
kingdb.mysql.innodb_buffer_pool_reads |
InnoDB 物理读 |
次/每秒 |
kingdb.mysql.innodb_buffer_pool_use_ratio |
InnoDB 缓存使用率 |
% |
kingdb.mysql.innodb_num_open_files |
当前 InnoDB 打开文件数量 |
个 |
kingdb.mysql.innodb_data_read |
InnoDB 读取量 |
字节/每秒 |
kingdb.mysql.innodb_data_written |
InnoDB 写入量 |
字节/每秒 |
kingdb.mysql.space_used_percent |
磁盘使用率 |
% |
kingdb.mysql.rbps |
读吞吐 |
字节/每秒 |
kingdb.mysql.wbps |
写吞吐 |
字节/每秒 |
kingdb.mysql.riops |
磁盘读IOPS |
次/每秒 |
kingdb.mysql.wiops |
磁盘写IOPS |
次/每秒 |
kingdb.mysql.resident_memory_size |
内存使用量 |
MB |
kingdb.mysql.cpu_used_percent |
CPU使用率 |
% |
kingdb.mysql.memory_usage_percent |
内存使用率 |
% |
kingdb.mysql.qcache_hit_ratio |
query cache命中率 |
% |
kingdb.mysql.qcache_used_percent |
query cache使用率 |
% |
kingdb.mysql.bytes_sent |
实例每秒出流量 |
Kb/s |
kingdb.mysql.bytes_received |
实例每秒入流量 |
Kb/s |
kingdb.mysql.created_tmp_disk_tables |
临时表数量 |
个 |
kingdb.mysql.threads_running |
当前活跃连接数 |
个 |
kingdb.mysql.threads_connected |
当前连接数 |
个 |
kingdb.mysql.table_locks_waited |
表锁次数 |
次/秒 |
kingdb.mysql.slave_delay |
只读实例复制延迟 |
毫秒 |
27.KES Elasticsearch服务
ES集群维度监控
监控指标 |
描述 |
单位 |
elasticsearch_cluster_health_status |
集群状态 |
- |
elasticsearch_cluster_health_active_shards |
集群可用分片数 |
个 |
elasticsearch_cluster_health_unassigned_shards |
集群未分配分片数 |
个 |
elasticsearch_cluster_health_relocating_shards |
集群正在迁移的分片数 |
个 |
elasticsearch_cluster_health_number_of_pending_tasks |
集群pending_task数 |
个 |
elasticsearch_cluster_health_number_of_nodes |
集群总节点数目 |
个 |
elasticsearch_indices_search_query_total |
集群索引请求总次数 |
次 |
elasticsearch_indices_docs_nums |
Doc写入QPS数 |
- |
elasticsearch_cluster_health_active_primary_shards |
集群主分片数 |
个 |
elasticsearch_indices_indexing_index_total |
集群总索引数 |
个 |
elasticsearch_cluster_health_initializing_shards |
集群初始化中分片数 |
个 |
elasticsearch_cluster_health_number_of_data_nodes |
集群的数据节点数目 |
个 |
ES节点维度监控
监控指标 |
描述 |
单位 |
elasticsearch_os_load1 |
1分钟 |
% |
elasticsearch_os_load5 |
5分钟 |
% |
elasticsearch_os_load15 |
15分钟 |
% |
elasticsearch_filesystem_data_available_bytes |
可用磁盘空间大小 |
B |
elasticsearch_filesystem_io_stats_device_read_size_kilobytes_sum |
磁盘读取数据量 |
B |
elasticsearch_jvm_memory_used_bytes |
es进程内存使用量 |
B |
elasticsearch_process_cpu_percent |
es进程使用的CPU |
个 |
elasticsearch_filesystem_io_stats_device_write_size_kilobytes_sum |
磁盘写入数据量 |
B |
elasticsearch_jvm_gc_collection_seconds_sum |
gc运行总时长 |
秒 |
elasticsearch_heap_memtory_usage |
heap_memory使用率 |
% |
elasticsearch_jvm_gc_collection_seconds_count |
gc运行次数 |
次 |
28.KHbase Hbase服务
集群
监控指标 |
描述 |
单位 |
Hadoop_HBase_readCluster_Qps |
集群读QPS |
- |
Hadoop_HBase_writeCluster_Qps |
集群写QPS |
- |
Hadoop_HBase_readLatency |
集群读取延迟 |
- |
Hadoop_HBase_writeLatency |
集群写入延迟 |
- |
Hadoop_Hbase_regionConnection |
region链接数 |
个 |
Master节点
监控指标 |
描述 |
单位 |
Hadoop_HBase_numberRegionServers |
regionserver数量 |
个 |
Hadoop_HBase_numDeadRegionServers |
regionserver dead 数量 |
个 |
Hadoop_HBase_ritCountOverThreshold |
超出rit阈值数量 |
个 |
RegionServer节点
监控指标 |
描述 |
单位 |
Hadoop_HBase_regionCount |
每个rs的region数量 |
个 |
Hadoop_HBase_storeFileCount |
StoreFile数量 |
个 |
Hadoop_HBase_hlogFileCount |
HLog文件数量 |
个 |
Hadoop_HBase_totalRequestCount |
总请求数 |
个 |
Hadoop_HBase_readRequestCount |
读请求数 |
个 |
Hadoop_HBase_writeRequestCount |
写请求数 |
个 |
Hadoop_HBase_numOpenConnections |
打开连接数 |
个 |
Hadoop_HBase_numActiveHandler |
rpc handler数 |
个 |
Hadoop_HBase_numCallsInGeneralQueue |
排队请求数 |
个 |
Hadoop_HBase_flushQueueLength |
Memtore刷新队列深度 |
- |
Hadoop_HBase_blockCacheHitCount |
Block缓存命中数 |
个 |
Hadoop_HBase_blockCacheMissCount |
Block缓存丢失数 |
个 |
Hadoop_HBase_blockCacheExpressHitPercent |
Block缓存命中率 |
% |