最近更新时间:2024-04-12 10:06:24
KMR集群
监控指标 | 描述 | 单位 |
---|---|---|
namenode_connection_load | 当前连接数 | 个 |
namenode_volume_failures_total | Datanodes的全故障总数 | 次 |
namenode_blocks_total | 总BLOCK数量 | 个 |
namenode_under_replicated_blocks | 副本数不够的块数量 | 个 |
namenode_capacity_utilization | HDFS空间利用率 | % |
namenode_capacity_total | 集群存储总容量 | GB |
namenode_capacity_used | 集群存储已使用容量 | GB |
namenode_capacity_used_non_dfs | 集群非HDFS使用容量 | bytes |
namenode_capacity_remaining | 集群存储剩余容量 | GB |
namenode_files_total | 总文件数量 | 个 |
namenode_num_dead_data_nodes | 已经标记为Dead状态的数据节点数量 | 个 |
namenode_num_live_data_nodes | 活的数据节点数量 | 个 |
namenode_num_decommissioning_data_nodes | 正在下线的节点数量 | 个 |
namenode_corrupt_blocks | 坏块数量 | 个 |
resourcemanager_app_failures | 失败application百分比 | % |
resourcemanager_apps_running | 正在运行的application个数 | 个 |
resourcemanager_apps_submitted | 应用提交个数 | 个 |
resourcemanager_apps_pending | 挂起的application个数 | 个 |
resourcemanager_apps_completed | 完成的application个数 | 个 |
resourcemanager_apps_killed | 被杀死的application个数 | 个 |
resourcemanager_apps_failed | 失败的application个数 | 个 |
resourcemanager_cluster_memory | 集群内存利用率 | % |
resourcemanager_mem_allocated | 已分配的内存量 | MB |
resourcemanager_mem_reserved | 预留内存量 | MB |
resourcemanager_mem_available | 可用内存量 | MB |
resourcemanager_vcores_allocated | 使用的VCore数目 | 个 |
resourcemanager_vcores_available | 可用的VCore数目 | 个 |
resourcemanager_cluster_cpu | 集群CPU利用率 | % |
resourcemanager_allocated_containers | 已分配容器数 | 个 |
resourcemanager_pending_containers | 挂起容器个数 | 个 |
resourcemanager_reserved_containers | 预留容器数 | 个 |
resourcemanager_active_nms | 集群节点存活数量 | 个 |
resourcemanager_decommissioned_nms | 已退役节点数量 | 个 |
resourcemanager_lost_nms | 丢失节点数量 | 个 |
resourcemanager_unhealthy_nms | 非健康节点数量 | 个 |
presto_active_workers | 活跃的worker数 | 个 |
presto_failed_workers | 失败worker数量 | 个 |
presto_total_workers | 总worke数量 | 个 |
presto_running_queries | 正在运行的查询总数 | 个 |
presto_queued_queries | 等待状态的查询总数 | 个 |
presto_failedqueries_oneminute_count | 失败的查询总数 | 个/min |
presto_abandonedqueries_oneminute_count | 放弃的查询总数 | 个/min |
presto_canceledqueries_oneminute_count | 取消的查询总数 | 个/min |
presto_completedqueries_oneminute_count | 完成的查询总数 | 个/min |
presto_startedqueries_oneminute_count | 已启动的查询总数 | 个/min |
presto_submittedqueries_oneminute_count | 已提交的查询总数 | 个/min |
presto_inputdatasize_oneminute_rate | 输入数据速率 | bytes |
presto_outputdatasize_oneminute_rate | 输出数据速率 | bytes |
presto_reservedistributedbytes | 集群中 Reserved Memory 的大小 | bytes |
presto_totalInputrows | 平均处理的输入行数 | 行 |
presto_totalcputimesecs | Worker 的并发总数 | 个 |
KMR节点
监控指标 | 描述 | 单位 |
---|---|---|
zookeeper_num_alive_connections | 当前连接数 | 个 |
zookeeper_znode_count | zk的znode数量 | 个 |
zookeeper_avg_latency | zk处理平均延迟 | ms |
zookeeper_max_latency | zk处理最大时延 | ms |
zookeeper_min_latency | zk处理最小时延 | ms |
zookeeper_watch_count | zk的watch数目 | 个 |
zookeeper_packets_received | zk接收的数据包速率 | 个/s |
zookeeper_packets_sent | zk发送的数据包速率 | 个/s |
zookeeper_outstanding_requests | 排队请求数 | 个 |
zookeeper_server_state | zk节点类型 | 0:unknow1:leader2:follower |
zookeeper_process_alive | 进程存活 | 0:不存活1:存活 |
namenode_process_alive | namenode进程存活 | |
datanode_process_alive | datanode进程存活 | |
journalnode_process_alive | journalnode进程存活 | |
zkfailovercontroller_process_alive | zkfailovercontroller进程存活 | |
namenode_gc_count | JVMGC次数 | 次 |
namenode_gc_time | JVMGC耗时 | ms |
namenode_mem_heap_used | JVM已使用堆内存 | MB |
namenode_mem_heap_committed | JVM可用堆内存 | MB |
namenode_mem_heap_max | JVM最大堆内存 | MB |
namenode_memory_utilization | namenode内存利用率 | % |
namenode_cpu_utilization | namenodeCPU利用率 | % |
namenode_rpc_processing_time_avg_time | RPC请求平均处理时间 | ms |
namenode_rpc_queue_time_avg_time | RPC平均延迟时间 | ms |
namenode_ha_state | NN状态 | |
nodemanager_process_alive | nodemanager进程存活 | |
resourcemanager_process_alive | resourcemanager进程存活 | |
jobhistoryserver_process_alive | jobhistoryserver进程存活 | |
resourcemanager_memory_utilization | memory利用率 | % |
resourcemanager_cpu_utilization | CPU利用率 | % |
resourcemanager_mem_heap_used | JVM已使用堆内存 | MB |
resourcemanager_mem_heap_committed | JVM可用堆内存 | MB |
resourcemanager_mem_heap_max | JVM最大堆内存 | MB |
resourcemanager_sentbytes | RPC发送数据量(8032) | bytes/s |
resourcemanager_receivedbytes | RPC接收数据量(8032) | bytes/s |
metastore_process_alive | metastore进程存活 | |
hiveserver2_process_alive | hiveserver2进程存活 | |
metastore_process_cpu_load | 进程的CPU使用率 | % |
metastore_mem_heap_used | JVM已使用堆内存 | MB |
metastore_mem_heap_committed | JVM可用堆内存 | MB |
metastore_mem_heap_max | JVM最大堆内存 | MB |
metastore_max_fd_count | 最大文件描述符数 | 个 |
metastore_open_fd_count | 已打开文件描述符数量 | 个 |
metastore_thread_count | metastore总线程数 | 个 |
hiveserver2_mem_heap_used | Jhiveserver2JVM已使用堆内存 | MB |
hiveserver2_mem_heap_committed | hiveserver2可用堆内存 | MB |
hiveserver2_mem_heap_max | hiveserver2最大堆内存 | MB |
hiveserver2_max_fd_count | hiveserver2最大文件描述符数 | 个 |
hiveserver2_open_fd_count | hiveserver2已打开文件描述符数 | 个 |
hiveserver2_thread_count | hiveserver2总线程数 | 个 |
spark_historyserver_process_alive | historyserver进程存活 | |
spark_historyserver_jvm_threads_current | 已使用线程 | 个 |
spark_historyserver_jvm_threads_daemon | JVM守护线程数 | 个 |
spark_historyserver_jvm_classes_loaded | JVM已加载类数量 | 个 |
spark_historyserver_process_open_fds | 已打开文件描述符数 | 个 |
spark_historyserver_process_max_fds | 最大文件描述符数 | 个 |
spark_historyserver_gc_collection_seconds_sum_ms | 每次GC总耗时(老年代) | s |
spark_historyserver_gc_collection_seconds_sum_s | 每次GC总耗时(新生代) | s |
spark_historyserver_gc_collection_seconds_count_ms | 每秒GC次数(老年代) | 次 |
spark_historyserver_gc_collection_seconds_count_s | 每秒GC次数(新生代) | 次 |
spark_historyserver_mem_heap_used | JVM已使用堆内存 | MB |
spark_historyserver_mem_heap_committed | JVM可用堆内存 | MB |
spark_historyserver_mem_heap_max | JVM最大堆内存 | MB |
flink_historyserver_process_alive | historyserver进程存活 | |
flink_historyserver_jvm_threads_current | 已使用线程 | 个 |
flink_historyserver_jvm_threads_daemon | JVM守护线程数 | 个 |
flink_historyserver_jvm_classes_loaded | JVM已加载类数量 | 个 |
flink_historyserver_process_open_fds | 已打开文件描述符数 | 个 |
flink_historyserver_process_max_fds | 最大文件描述符数 | 个 |
flink_historyserver_gc_collection_seconds_sum_ms | 每次GC总耗时(老年代) | s |
flink_historyserver_gc_collection_seconds_sum_s | 每次GC总耗时(新生代) | s |
flink_historyserver_gc_collection_seconds_count_ms | 每秒GC次数(老年代) | 次 |
flink_historyserver_gc_collection_seconds_count_s | 每秒GC次数(新生代) | 次 |
flink_historyserver_mem_heap_used | JVM已使用堆内存 | MB |
flink_historyserver_mem_heap_committed | JVM可用堆内存 | MB |
flink_historyserver_mem_heap_max | JVM最大堆内存 | MB |
prestocoordinator_process_alive | coordinator进程存活 | |
prestoworker_process_alive | worker进程存活 | |
hue_process_alive | hue进程存活 | |
oozie_process_alive | oozie进程存活 |
Serverless Starrocks服务
监控指标 | 描述 | 单位 |
---|---|---|
starrocks_fe_database_num | Total database | |
starrocks_fe_table_num | Table总数 | |
starrocks-fe_process_alive | FE状态 | |
starrocks-cn_process_alive | CN状态 | |
starrocks_fe_max_journal_id | Max Replayed Journal Id | |
starrocks_fe_tablet_num | CN节点Tablet数量 | |
starrocks_be_disks_data_used_capacity | 磁盘的已用容量 | bytes |
starrocks_be_disks_total_capacity | 磁盘的总容量 | bytes |
starrocks_fe_connection_total | FE的总连接数 | |
starrocks_fe_query_err | Query Error | |
starrocks_fe_query_latency | 99th Latency | ms |
starrocks_fe_tablet_max_compaction_score | CN节点上最高的Compaction Score | |
starrocks_fe_meta_log_count | 未做Checkpoint的Edit Log数量 | |
starrocks_fe_editlog_write_latency_ms | BDBJE Write-99th | ms |
starrocks_be_process_thread_num | CN线程总数 | |
starrocks_be_max_disk_io_util_percent | 磁盘I/O利用率 | % |
starrocks_be_process_mem_bytes | CN进程使用的内存 | bytes |
starrocks_fe_request_total | RPS | ops/s |
starrocks_fe_query_total | QPS | ops/s |
starrocks_jvm_non_heap_size_bytes | FE JVM Non Heap | bytes |
starrocks_jvm_direct_buffer_pool_size_bytes | FE JVM Direct Buffer | bytes |
starrocks_jvm_heap_size_bytes | FE JVM Heap | bytes |
starrocks_be_jemalloc_allocated_bytes | 应用分配的总字节数 | bytes |
纯净模式