在离线数据开发过程中不同作业支持不同的作业设置。所有的作业设置有:基本信息、参数设置、调度设置、前后命令行、告警设置、包依赖、函数依赖、版本。
具体不同插件支持的设置如下所示:
插件类型 | 参数设置 | 调度设置 | 前后命令行 | 告警设置 | 包依赖 | 函数依赖 | 版本 | 基本信息 |
---|---|---|---|---|---|---|---|---|
作业流 | √ | √ | √ | √ | ||||
数据同步 | √ | √ | √ | √ | √ | |||
数据加工 | √ | √ | √ | √ | √ | |||
数据整合 | √ | √ | √ | |||||
业务核验 | √ | √ | √ | |||||
Spark SQL | √ | √ | √ | √ | √ | |||
Spark Shell | √ | √ | √ | √ | ||||
Shell | √ | √ | √ | √ | √ | √ | ||
Python | √ | √ | √ | √ | √ | √ | ||
Perl | √ | √ | √ | √ | √ | √ | ||
MPP SQL | √ | √ | √ | √ | ||||
挖掘 | √ | √ | √ | √ |
基本信息功能仅仅在作业流显示,显示作业流的 ID、名称、责任人和描述等。
在数据开发过程中,可以使用参数,参数分为系统参数和用户自定义参数。对于系统参数,由系统进行赋值。用户自定的参数需要用户在参数设置中进行赋值。
在离线计算开发过程,作业/作业流需要进行周期性的执行。离线开发与调度系统进行了无缝的整合,用户在作业/作业流开发的过程中就可以进行周期设置。调度的周期设置分为,作业和作业流两部分。其中作业流上设置调度的首次生效日期,运行周期日历,执行策略,调度时间依赖和作业流上的外部事件依赖、外部作业依赖以及外部作业流依赖等。
作业上设置调度的信息包括频度设置,优先级设置,失败重试,逻辑资源组以及在作业上的外部事件依赖、外部作业依赖和外部作业流依赖。
作业设置前后处理之后将会在作业主程序之前和之后增加相应的前后处理命名。目前前后处理支持 shell 和 Python 3.6 两种命令格式。在选择开启之后,用户可以进行前后处理代码编辑。
针对每个作业用户可以进行告警设置。告警设置目前分为两类:任务失败告警、运行时间延时告警。当作业出现相应的作业运行异常时,可以按照作业的重要程度设置告警级别是通知还是严重。通知和严重仅仅作业告警信息通知文本体现。
告警设置中支持用户进行作业返回码映射功能。返回码对应的映射对应功能包括:成功、失败(重试)、失败(不重试)。目前返回码映射功能仅支持容器类作业,且最大返回码为255。YARN类型作业暂不支持返回码设置。
作业开发过程中可以引用函数。函数分为系统函数和用户自定义函数。用户使用系统函数系统会自动替换不需要进行函数依赖设置。当用户引入用户自定义函数时,需要在函数依赖中添加依赖。
数据开发可以进行作业和作业流的版本管理。当作业流进行提交操作的时候,作业流及其提交时包含的作业会生成一个新的版本。作业的版本生成只能依赖作业流,作业无法独立提交生成新的版本。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!