最近更新时间:2026-01-22 17:42:37
本文介绍如何在控制台实现对Flink作业进行高效运维与状态管理,包括查看作业详情和状态信息、作业重跑时编辑参数、以及基于Savepoint的作业恢复等功能。
前提条件
已创建Flink类型的计算作业。提交Flink作业可参考文档Flink作业提交。
在作业信息页面,找到您需要管理的Flink作业,点击其作业名称或作业ID,即可进入该作业的详情页面。详情页是作业运维的核心,主要包含以下信息模块和操作功能:
1. 基础信息
作业名称:支持点击编辑进行修改。
作业状态:如运行中、已完成、已停止、失败等。
作业ID:作业的唯一标识符,通常支持复制。
作业类型:Flink。
创建时间:作业的提交时间。
更新时间:作业更新的时间。
2. 作业参数
基础参数:Jar包路径、主程序类、程序参数等。
资源参数:JobManager和TaskManager的CPU、内存配置,Slot数,并行度等。
其他参数:Checkpoint间隔、初始化Savepoint路径、容器镜像、自定义配置(以JSON格式展示,支持滚动查看和复制)。
3. 快照信息
此区域是管理有状态作业状态的核心,包含两个部分:
Checkpoint信息:
系统自动生成的检查点列表,用于故障恢复。
展示信息包括:Checkpoint ID、生成时间、耗时、数据大小等。
Savepoint列表:
展示用户手动创建或停止作业时触发的快照(默认展示最新10条)。
每一条记录包含:生成时间、描述、耗时、类型(手动生成/停止触发)、存储地址。
操作:
恢复:从选定的Savepoint快照恢复作业状态。
删除:删除不再需要的Savepoint以释放存储空间。
1、进入作业详情页:在作业列表中,点击目标 Flink 作业的名称,进入其详情页面。
2、进入编辑页:在详情页的操作栏 ,点击右上角的 【编辑】 按钮。
基础配置:Jar包路径、主程序类、程序参数。
资源配置:JobManager/TaskManager 的资源大小、并行度。
其他配置:Checkpoint 间隔、自定义配置等。
3、保存修改
确认修改无误后,点击窗口中的 【确定】 按钮。
此时作业配置已更新,但作业本身并未重启。您需要继续执行的 “重跑作业” 操作,才能使修改后的配置生效。
1、点击重跑按钮:您可以在作业列表页和目标作业详情页点击”重跑"按钮。
2、选择重跑模式:点击后系统会弹出重跑模式选择窗口,您需要根据运维目标选择一种模式:
无状态重跑(默认):完全不使用任何历史状态信息启动作业。适用于快速恢复无状态作业,或测试验证、参数调整后的重启。
从指定状态重跑:从用户手动创建或停止时触发的 Savepoint 恢复。适用于代码版本升级、数据修复、计划内维护等场景。
3、确认重跑:选择好模式后,点击窗口中的 【确认】 按钮,作业将根据您选择的模式启动。
该操作用于安全地停止一个运行中的作业。
1、点击停止按钮:您可以在作业列表页和目标作业详情页点击”停止"按钮。
2、确认停止操作:系统会弹出确认停止的对话框。
如果停止的是一个有状态的 Flink 作业,系统会提示 “同步生成 Savepoint 快照”。这是一个重要的安全机制,能保存作业的完整状态,便于后续从该点精确恢复。若停止的是无状态作业,则不会生成Savepoint 快照。
3、完成停止:在确认对话框中点击 “确定”,作业将开始停止流程,作业状态由“运行中”变为“暂停”。
该操作用于彻底删除一个的作业记录并释放其占用的后端资源。
1、点击删除按钮:可以在作业列表页和目标作业详情页点击”删除"按钮。
2、二次确认:由于删除操作不可逆,需要用户勾选确认删除。
3、确认删除:在确认窗口中点击 “确定”,作业将被删除。
注意事项:
删除操作前请确保已备份重要数据和状态信息
删除后作业将无法恢复,请谨慎操作
纯净模式
