全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

监控告警

最近更新时间:2026-01-22 17:42:37

为提升大数据计算集群(如Flink、Spark)的可观测性,让用户能够便捷地监控集群与作业的运行状态并及时感知异常,KMR on KCE控制台提供了与托管Prometheus监控服务的无缝集成方案。本指南将引导您完成为KMR on KCE集群配置一站式监控与告警的全过程。


步骤一:关联Prometheus实例

关联Prometheus是启用监控和告警功能的基础。您可以在创建集群时或集群创建后完成此操作。

操作入口1:集群创建页

  1. 进入KMR on KCE控制台,点击“创建集群”。

  2. 在集群配置页面,找到 【Prometheus监控】​ 配置项。

    • 默认状态:该功能为开启状态。

    • 自动关联:如果您选择的底层KCE集群已绑定Prometheus实例,系统会自动识别并填充实例信息。

    • 手动选择:若KCE集群未绑定实例,您可以从当前地域的Prometheus实例列表中选择一个进行关联。

    • 新建实例:若列表无合适实例,可点击“新建Prometheus实例”跳转至Prometheus控制台创建,完成后返回本页面点击“刷新”即可选择新实例。

  3. 完成其他配置,创建集群。

操作入口2:集群信息页

  1. 在集群列表中,点击目标集群名称,进入其“集群信息”页面。

  2. 查看 【Prometheus监控】​ 字段:

    • 已关联:显示已绑定的Prometheus实例ID,点击ID可跳转至监控详情页。

    • 未关联:点击右侧的 【关联托管Prometheus】​ 按钮,在弹出的窗口中选择现有实例或新建实例进行关联。

在集群创建页和集群信息页不支持直接更换已绑定的Prometheus实例。如需更换,请先前往KCE控制台解除当前绑定,再回到KMR on KCE集群信息页重新关联。

步骤二:查看Grafana监控

集群正常运行且成功关联Prometheus后,即可查看监控数据。

  1. 进入目标KMR on KCE集群的详情页,查看Grafana监控字段。

  2. 系统将根据您的集群类型,显示 【Spark作业监控】​ 或 【Flink作业监控】​ 链接。

    • 页面将提供Grafana监控大盘的直接访问链接。点击链接将在新窗口或标签页中打开预设的Grafana大盘,展示从容器基础设施到Flink/Spark组件的核心监控指标。

步骤三:配置告警

告警规则的配置在已关联的Prometheus实例中完成。KMR on KCE控制台提供快捷入口。

  1. 确保集群已关联Prometheus实例。

  2. 在集群“基本信息”页面的 【Prometheus监控】​ 字段右侧,点击 【告警配置】​ 按钮。

  3. 系统将自动跳转至该Prometheus实例的告警规则管理页面。

  4. 在Prometheus控制台,点击 【创建策略】

  5. 参照文档使用告警服务配置告警。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈