最近更新时间:2026-01-22 17:42:37
为提升大数据计算集群(如Flink、Spark)的可观测性,让用户能够便捷地监控集群与作业的运行状态并及时感知异常,KMR on KCE控制台提供了与托管Prometheus监控服务的无缝集成方案。本指南将引导您完成为KMR on KCE集群配置一站式监控与告警的全过程。
关联Prometheus是启用监控和告警功能的基础。您可以在创建集群时或集群创建后完成此操作。
操作入口1:集群创建页
进入KMR on KCE控制台,点击“创建集群”。
在集群配置页面,找到 【Prometheus监控】 配置项。
默认状态:该功能为开启状态。
自动关联:如果您选择的底层KCE集群已绑定Prometheus实例,系统会自动识别并填充实例信息。
手动选择:若KCE集群未绑定实例,您可以从当前地域的Prometheus实例列表中选择一个进行关联。
新建实例:若列表无合适实例,可点击“新建Prometheus实例”跳转至Prometheus控制台创建,完成后返回本页面点击“刷新”即可选择新实例。
完成其他配置,创建集群。
操作入口2:集群信息页
在集群列表中,点击目标集群名称,进入其“集群信息”页面。
查看 【Prometheus监控】 字段:
已关联:显示已绑定的Prometheus实例ID,点击ID可跳转至监控详情页。
未关联:点击右侧的 【关联托管Prometheus】 按钮,在弹出的窗口中选择现有实例或新建实例进行关联。
在集群创建页和集群信息页不支持直接更换已绑定的Prometheus实例。如需更换,请先前往KCE控制台解除当前绑定,再回到KMR on KCE集群信息页重新关联。
集群正常运行且成功关联Prometheus后,即可查看监控数据。
进入目标KMR on KCE集群的详情页,查看Grafana监控字段。
系统将根据您的集群类型,显示 【Spark作业监控】 或 【Flink作业监控】 链接。
页面将提供Grafana监控大盘的直接访问链接。点击链接将在新窗口或标签页中打开预设的Grafana大盘,展示从容器基础设施到Flink/Spark组件的核心监控指标。
告警规则的配置在已关联的Prometheus实例中完成。KMR on KCE控制台提供快捷入口。
确保集群已关联Prometheus实例。
在集群“基本信息”页面的 【Prometheus监控】 字段右侧,点击 【告警配置】 按钮。
系统将自动跳转至该Prometheus实例的告警规则管理页面。
在Prometheus控制台,点击 【创建策略】。
参照文档使用告警服务配置告警。
纯净模式
