最近更新时间:2026-05-25 18:41:37
为满足用户对主动运维和风险预知的需求,Serverless StarRocks 控制台提供集群巡检功能,支持用户创建、编辑和删除巡检策略。用户通过配置业务拨测SQL,平台将定期自动执行巡检任务,及时识别潜在稳定性风险。
核心业务可用性监控:通过配置核心业务查询SQL,定时检测关键业务功能是否正常可用。
查询性能保障:定期执行典型业务查询,监控查询响应时间,及时发现性能劣化趋势。
服务连续性验证:通过定时执行SQL拨测,确保数据库服务持续可用,避免服务中断风险。
前提条件
已在控制台创建StarRocks集群,且目标集群处于运行中状态。
当前账号具有集群操作权限。
进入集群巡检页面:在StarRocks控制台上点击目标集群名称/ID进入【集群管理】-【集群巡检】页面。
新建巡检策略:点击右上角【新建】按钮
填写巡检策略基本信息
策略名称:限定1-20字符,支持字母、数字、减号和下划线。
执行周期,支持两种模式。
固定间隔:5分钟至720分钟(12小时),以5分钟为间隔
定时执行:每天指定整点或10分钟间隔时刻(如08:00、08:10)
配置巡检项
启用策略:点击【确认】启用策略
查看巡检策略
巡检策略列表页可以看到新建的巡检策略的相关信息,包括策略名称、执行周期、创建时间等。
巡检策略首次执行前的巡检结果显示为“未知”。
查看巡检历史
编辑巡检策略
点击目标巡检策略项操作栏的编辑按钮,在编辑集群巡检页面中修改巡检名称、执行周期和策略设置,点击确认启动编辑后的巡检策略。
删除巡检策略
点击目标巡检策略项操作栏的删除按钮,弹出确认删除提示框,点击确定删除巡检策略。
执行中的巡检策略不支持编辑和删除。
当集群巡检发现异常(如慢查询、SQL 拨测失败)时,会将事件上报至云监控。通过配置事件告警策略,可以第一时间将告警推送到运维人员。
进入告警策略设置:
在控制台左侧主导航栏中找到 云监控 服务。依次点击 告警服务 -> 告警策略。
选择事件告警:
在页面上方切换页签至 事件告警,然后点击 + 新建告警策略 按钮。
填写基本信息:
策略名称:填写易于识别的名称,如 慢查询触发告警 或 SQL拨测告警。
描述:可选填写此策略的用途。
配置告警规则:
产品类型:在下拉菜单中选择 Serverless StarRocks 服务。
触发条件:选择 手动匹配。
事件名称:点击 + 添加事件,根据需求在下拉框中选择需要监控的巡检异常事件,例如:
SQL拨测巡检异常
慢查询巡检异常
触发规则:设置触发频次,如在 00:00 ~ 23:59 期间,满足条件则 触发 1 次,告警级别设为 告警一次。
关联实例:
关联实例:选择 自选实例 或 项目。点击 + 选择实例,勾选需要监控的特定 StarRocks 集群实例。
配置告警联系人与通知方式:
在 告警联系人 模块,选择接收通知的联系人或联系组。
勾选通知方式,支持 邮箱、短信 等。
保存生效:
确认所有配置后,点击页面下方的 确定 完成创建,并确保策略状态处于 启用 状态。
配置完成后,一旦触发告警,绑定的联系人将收到通知:
场景一:SQL 拨测巡检异常
排查建议:检查拨测 SQL 语句中是否明确指定了数据库,或者检查拨测账号的数据库访问权限。
场景二:慢查询巡检异常
排查建议:由于告警邮件内提供了 KS3 对象存储的临时下载链接(10分钟内有效),请立即点击该链接下载 YAML 报告,查看导致告警的具体 SQL 文本、执行耗时及扫描数据量,并针对性地进行 SQL 优化或索引调整。
纯净模式
