全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

集群巡检

最近更新时间:2026-05-25 18:41:37

为满足用户对主动运维和风险预知的需求,Serverless StarRocks 控制台提供集群巡检功能,支持用户创建、编辑和删除巡检策略。用户通过配置业务拨测SQL,平台将定期自动执行巡检任务,及时识别潜在稳定性风险。

使用场景

  1. 核心业务可用性监控​​:通过配置核心业务查询SQL,定时检测关键业务功能是否正常可用。

  2. ​查询性能保障​​:定期执行典型业务查询,监控查询响应时间,及时发现性能劣化趋势。

  3. ​服务连续性验证​​:通过定时执行SQL拨测,确保数据库服务持续可用,避免服务中断风险。

操作步骤

创建巡检策略

前提条件

  1. 已在控制台创建StarRocks集群,且目标集群处于运行中状态。

  2. 当前账号具有集群操作权限。

  1. 进入集群巡检页面:在StarRocks控制台上点击目标集群名称/ID进入【集群管理】-【集群巡检】页面。

  2. 新建巡检策略:点击右上角【新建】按钮

  3. 填写巡检策略基本信息

    • 策略名称:限定1-20字符,支持字母、数字、减号和下划线。

    • 执行周期,支持两种模式。

      • 固定间隔:5分钟至720分钟(12小时),以5分钟为间隔

      • 定时执行:每天指定整点或10分钟间隔时刻(如08:00、08:10)

  4. 配置巡检项

    • 勾选需要执行的巡检项

    • 点击展开按钮完善巡检项信息。

    • 将鼠标悬停在巡检项旁的"?"图标上查看详细说明和建议执行周期。

    • 对于SQL拨测类巡检项,请编写准确的SQL拨测语句,并提供执行用户和密码。

      平台不会对SQL语句进行校验,请确保语句正确性。

  5. 启用策略:点击【确认】启用策略

  6. 查看巡检策略

    巡检策略列表页可以看到新建的巡检策略的相关信息,包括策略名称、执行周期、创建时间等。

查看巡检结果

  1. 实时状态查看

    • 用户可以在巡检策略列表查看最近一次的执行状态(待开始/执行中/已完成)和巡检结果(正常/告警/严重/未知)。

    • 点击【巡检详情】查看各检查项详细结果,异常结果将显示异常巡检说明。

巡检策略首次执行前的巡检结果显示为“未知”

  1. 查看巡检历史

    • 点击执行历史,执进入【执行历史】页面查看所有巡检记录,包括执行时间、策略名称、巡检状态、巡检结果等信息。

    • 用户可以根据执行时间和策略名称进行筛选,可按巡检结果状态筛选(严重/警告/正常)

    • 点击巡检详情可查看执行异常的巡检项的结果说明。

管理巡检策略

编辑巡检策略

点击目标巡检策略项操作栏的编辑按钮,在编辑集群巡检页面中修改巡检名称、执行周期和策略设置,点击确认启动编辑后的巡检策略。

删除巡检策略

点击目标巡检策略项操作栏的删除按钮,弹出确认删除提示框,点击确定删除巡检策略。

执行中的巡检策略不支持编辑和删除。

配置云监控事件告警

当集群巡检发现异常(如慢查询、SQL 拨测失败)时,会将事件上报至云监控。通过配置事件告警策略,可以第一时间将告警推送到运维人员。

操作步骤

  1. 进入告警策略设置

在控制台左侧主导航栏中找到 云监控 服务。依次点击 告警服务 -> 告警策略

  1. 选择事件告警

在页面上方切换页签至 事件告警,然后点击 + 新建告警策略 按钮。

  1. 填写基本信息

    • 策略名称:填写易于识别的名称,如 慢查询触发告警SQL拨测告警

    • 描述:可选填写此策略的用途。

  2. 配置告警规则

    • 产品类型:在下拉菜单中选择 Serverless StarRocks 服务

    • 触发条件:选择 手动匹配

    • 事件名称:点击 + 添加事件,根据需求在下拉框中选择需要监控的巡检异常事件,例如:

      • SQL拨测巡检异常

      • 慢查询巡检异常

    • 触发规则:设置触发频次,如在 00:00 ~ 23:59 期间,满足条件则 触发 1 次,告警级别设为 告警一次

  3. 关联实例

    • 关联实例:选择 自选实例项目。点击 + 选择实例,勾选需要监控的特定 StarRocks 集群实例。

  4. 配置告警联系人与通知方式

    • 告警联系人 模块,选择接收通知的联系人或联系组。

    • 勾选通知方式,支持 邮箱短信 等。

  5. 保存生效

确认所有配置后,点击页面下方的 确定 完成创建,并确保策略状态处于 启用 状态。

告警通知样例与排查指南

配置完成后,一旦触发告警,绑定的联系人将收到通知:

场景一:SQL 拨测巡检异常

排查建议:检查拨测 SQL 语句中是否明确指定了数据库,或者检查拨测账号的数据库访问权限。

场景二:慢查询巡检异常

排查建议:由于告警邮件内提供了 KS3 对象存储的临时下载链接(10分钟内有效),请立即点击该链接下载 YAML 报告,查看导致告警的具体 SQL 文本、执行耗时及扫描数据量,并针对性地进行 SQL 优化或索引调整。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈