全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

数据加工-算子

最近更新时间:2023-06-16 11:30:02

Source算子

Source 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。
进入编辑态的 Source 算子会根据不同的数据源显示不同的可操作项。

操作方式

  1. 拖拽 Source 算子到画板中,显示库表选择框。
  2. 选择需要进行加工的库表点击确定后,Source 变为缩略态。
  3. 双击 Source,显示编辑态,在编辑态中可以在过滤语句中添加过滤条件,将希望后续输出的字段输出进行勾选。

Target算子

Target 算子支持的数据源包括:Oracle、HIVE、对象存储、HBASE、MySQL。进入编辑态的 Target 算子会根据不同的数据源显示不同的可操作项。

操作方式

  1. 拖拽 Target 算子到画板中,显示库表选择框。
  2. 选择需要进行加工的库表点击确定后,target 变为缩略态。
  3. 将上游算子连接到 target 算子。
  4. 双击显示编辑态,在编辑态中进行上游算子字段和目标表字段的映射关系设置,并根据不同的目标源进行写入方式设置。

Aggregator算子

操作方式

  1. 拖拽 Aggregator 算子到画板中,将上游算子连线到 Aggregator 算子,上游算子勾选输出的数据会同步到 Aggretator 算子中。
  2. 双击 Aggregator 算子进入Aggregator 算子编辑状态。
  3. 对于 Aggregator 算子需要至少有一个分组字段,增加分组字段后,再添加需要进行聚合计算的字段,下拉勾选出对字段进行 sum、avg、max、min 等聚合运算。
  4. 在分组字段和聚合字段上将希望后续输出的字段输出进行勾选。

Filter算子

操作方式

  1. 拖拽 Filter 算子到画板中,将上游算子连接到 Filter 算子,上游算子勾选输出的数据会同步到 Filter 算子中。
  2. 双击 Filter 算子进入编辑状态。
  3. 在 Filter 条件中添加过滤条件。将希望后续输出的字段输出进行勾选。

Join算子

操作方式

  1. 选择 Join 算子,拖拽到工作区,生成 Join 算子缩略态。并选择两个上游算子分表连接到 Join 算子上,第一个连接的默认连线设置 0,为主表字段,第二个连接的默认连线设置为 1,为副表字段。
  2. 双击 Join 算子进入编辑态。编辑主表和副表的连接关系和连接字段。

Map算子

操作方式

  1. 拖拽 Map 算子到画板中,将上游算子连线到 Map 算子,上游算子勾选输出的数据会同步到 Map 算子中。
  2. 双击 Map 算子进入 Map 编辑状态。
  3. 可以在每行表达式中可以进行行级数据处理,如:数据类型转换,例如:to_date(Port1,’yyyyMMdd’),数据项计算,例如:(Port1+port2)/Port3,新增变量,例如:Port2=Port1+1 等。将希望后续输出的字段输出进行勾选。

Sample算子

操作方式

  1. 拖拽 Sample 算子到画板中,将上游算子连接到 Sample 算子,上游算子勾选输出的数据会同步到 Sample 算子中。
  2. 双击算子进入编辑状态。
  3. 在 Sample 条件中添加采样条件,按照百分比进行数据抽样。将希望后续输出的字段输出进行勾选。

Sorter算子

操作方式

  1. 拖拽 Sorter 算子到画板中,将上游算子连接到 Sorter 算子,上游算子勾选输出的数据会同步到 Sorter 算子中。
  2. 双击算子进入编辑态。
  3. 在排序字段中添加需要进行排序的字段,并选择排序类型是升序还是降序。将希望后续输出的字段输出进行勾选。

Union算子

操作方式

  1. 拖拽 Union 算子到画板中,Union 算子可以接收两个输入源。
  2. 将一个上游算子拖拽到 Union 作为 Union 的第一个输入组,在选另一个上游算子拖拽到 Union 中作为 Union 的第二个输入组。
  3. 第一个输入组的字段信息会显示在 Union 输出列表中,调整第一输入组,第二输入组和 Union 输出列表。需要字段类型一致。
  4. 在 Union 输出列表中,将希望后续输出的字段输出进行勾选。
文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈