Source算子
Source 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。
进入编辑态的 Source 算子会根据不同的数据源显示不同的可操作项。
操作方式
- 拖拽 Source 算子到画板中,显示库表选择框。
- 选择需要进行加工的库表点击确定后,Source 变为缩略态。
- 双击 Source,显示编辑态,在编辑态中可以在过滤语句中添加过滤条件,将希望后续输出的字段输出进行勾选。
Target算子
Target 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。进入编辑态的 Target 算子会根据不同的数据源显示不同的可操作项。
操作方式
- 拖拽 Target 算子到画板中,显示库表选择框。
- 选择需要进行加工的库表点击确定后,target 变为缩略态。
- 将上游算子连接到 target 算子。
- 双击显示编辑态,在编辑态中进行上游算子字段和目标表字段的映射关系设置,并根据不同的目标源进行写入方式设置。
Aggregator算子
操作方式
- 拖拽 Aggregator 算子到画板中,将上游算子连线到 Aggregator 算子,上游算子勾选输出的数据会同步到 Aggretator 算子中。
- 双击 Aggregator 算子进入Aggregator 算子编辑状态。
- 对于 Aggregator 算子需要至少有一个分组字段,增加分组字段后,再添加需要进行聚合计算的字段,下拉勾选出对字段进行 sum、avg、max、min 等聚合运算。
- 在分组字段和聚合字段上将希望后续输出的字段输出进行勾选。
Filter算子
操作方式
- 拖拽 Filter 算子到画板中,将上游算子连接到 Filter 算子,上游算子勾选输出的数据会同步到 Filter 算子中。
- 双击 Filter 算子进入编辑状态。
- 在 Filter 条件中添加过滤条件。将希望后续输出的字段输出进行勾选。
Join算子
操作方式
- 选择 Join 算子,拖拽到工作区,生成 Join 算子缩略态。并选择两个上游算子分表连接到 Join 算子上,第一个连接的默认连线设置 0,为主表字段,第二个连接的默认连线设置为 1,为副表字段。
- 双击 Join 算子进入编辑态。编辑主表和副表的连接关系和连接字段。
Map算子
操作方式
- 拖拽 Map 算子到画板中,将上游算子连线到 Map 算子,上游算子勾选输出的数据会同步到 Map 算子中。
- 双击 Map 算子进入 Map 编辑状态。
- 可以在每行表达式中可以进行行级数据处理,如:数据类型转换,例如:
to_date(Port1,’yyyyMMdd’)
,数据项计算,例如:(Port1+port2)/Port3
,新增变量,例如:Port2=Port1+1
等。将希望后续输出的字段输出进行勾选。
Sample算子
操作方式
- 拖拽 Sample 算子到画板中,将上游算子连接到 Sample 算子,上游算子勾选输出的数据会同步到 Sample 算子中。
- 双击算子进入编辑状态。
- 在 Sample 条件中添加采样条件,按照百分比进行数据抽样。将希望后续输出的字段输出进行勾选。
Sorter算子
操作方式
- 拖拽 Sorter 算子到画板中,将上游算子连接到 Sorter 算子,上游算子勾选输出的数据会同步到 Sorter 算子中。
- 双击算子进入编辑态。
- 在排序字段中添加需要进行排序的字段,并选择排序类型是升序还是降序。将希望后续输出的字段输出进行勾选。
Union算子
操作方式
- 拖拽 Union 算子到画板中,Union 算子可以接收两个输入源。
- 将一个上游算子拖拽到 Union 作为 Union 的第一个输入组,在选另一个上游算子拖拽到 Union 中作为 Union 的第二个输入组。
- 第一个输入组的字段信息会显示在 Union 输出列表中,调整第一输入组,第二输入组和 Union 输出列表。需要字段类型一致。
- 在 Union 输出列表中,将希望后续输出的字段输出进行勾选。