数据加工-算子

最近更新时间:2021-06-11 17:25:06

查看PDF

Source算子

Source 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。
进入编辑态的 Source 算子会根据不同的数据源显示不同的可操作项。

操作方式

  1. 拖拽 Source 算子到画板中,显示库表选择框。
  2. 选择需要进行加工的库表点击确定后,Source 变为缩略态。
  3. 双击 Source,显示编辑态,在编辑态中可以在过滤语句中添加过滤条件,将希望后续输出的字段输出进行勾选。

Target算子

Target 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。进入编辑态的 Target 算子会根据不同的数据源显示不同的可操作项。

操作方式

  1. 拖拽 Target 算子到画板中,显示库表选择框。
  2. 选择需要进行加工的库表点击确定后,target 变为缩略态。
  3. 将上游算子连接到 target 算子。
  4. 双击显示编辑态,在编辑态中进行上游算子字段和目标表字段的映射关系设置,并根据不同的目标源进行写入方式设置。

Aggregator算子

操作方式

  1. 拖拽 Aggregator 算子到画板中,将上游算子连线到 Aggregator 算子,上游算子勾选输出的数据会同步到 Aggretator 算子中。
  2. 双击 Aggregator 算子进入Aggregator 算子编辑状态。
  3. 对于 Aggregator 算子需要至少有一个分组字段,增加分组字段后,再添加需要进行聚合计算的字段,下拉勾选出对字段进行 sum、avg、max、min 等聚合运算。
  4. 在分组字段和聚合字段上将希望后续输出的字段输出进行勾选。

Filter算子

操作方式

  1. 拖拽 Filter 算子到画板中,将上游算子连接到 Filter 算子,上游算子勾选输出的数据会同步到 Filter 算子中。
  2. 双击 Filter 算子进入编辑状态。
  3. 在 Filter 条件中添加过滤条件。将希望后续输出的字段输出进行勾选。

Join算子

操作方式

  1. 选择 Join 算子,拖拽到工作区,生成 Join 算子缩略态。并选择两个上游算子分表连接到 Join 算子上,第一个连接的默认连线设置 0,为主表字段,第二个连接的默认连线设置为 1,为副表字段。
  2. 双击 Join 算子进入编辑态。编辑主表和副表的连接关系和连接字段。

Map算子

操作方式

  1. 拖拽 Map 算子到画板中,将上游算子连线到 Map 算子,上游算子勾选输出的数据会同步到 Map 算子中。
  2. 双击 Map 算子进入 Map 编辑状态。
  3. 可以在每行表达式中可以进行行级数据处理,如:数据类型转换,例如:to_date(Port1,’yyyyMMdd’),数据项计算,例如:(Port1+port2)/Port3,新增变量,例如:Port2=Port1+1 等。将希望后续输出的字段输出进行勾选。

Sample算子

操作方式

  1. 拖拽 Sample 算子到画板中,将上游算子连接到 Sample 算子,上游算子勾选输出的数据会同步到 Sample 算子中。
  2. 双击算子进入编辑状态。
  3. 在 Sample 条件中添加采样条件,按照百分比进行数据抽样。将希望后续输出的字段输出进行勾选。

Sorter算子

操作方式

  1. 拖拽 Sorter 算子到画板中,将上游算子连接到 Sorter 算子,上游算子勾选输出的数据会同步到 Sorter 算子中。
  2. 双击算子进入编辑态。
  3. 在排序字段中添加需要进行排序的字段,并选择排序类型是升序还是降序。将希望后续输出的字段输出进行勾选。

Union算子

操作方式

  1. 拖拽 Union 算子到画板中,Union 算子可以接收两个输入源。
  2. 将一个上游算子拖拽到 Union 作为 Union 的第一个输入组,在选另一个上游算子拖拽到 Union 中作为 Union 的第二个输入组。
  3. 第一个输入组的字段信息会显示在 Union 输出列表中,调整第一输入组,第二输入组和 Union 输出列表。需要字段类型一致。
  4. 在 Union 输出列表中,将希望后续输出的字段输出进行勾选。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

内容不全,不深入
内容更新不及时
描述不清晰,比较混乱
系统或功能太复杂,缺乏足够的引导
内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈