数据同步工具不仅能够满足传统数据集成服务在复杂网络环境下进行多种异构数据源的导入导出需求,同时在数据导入导出的过程中的进行数据清洗、去重、规范化等提高数据质量。防止脏数据、垃圾数据的传播。
- 进入项目空间 > 我的项目,点击项目名称进入大数据开发套件。
- 点击进入数据开发 > 离线作业开发。
- 选择任务开发,点击
,新建一个作业流。

- 双击作业流,进入作业流开发面板,拖拽数据同步插件,输入节点名称。

- 双击打开新建的同步任务,打开同步任务页面后整个同步任务分成三步:
(1)选择数据源表。
- 目前源表支持的六种数据源:Oracle、MPP、HIVE、对象存储、HBASE、MySQL。选择则不同的数据源后会有各自不同的设置,详情见各不同源的设置界面。
- 选择数据源的过程中可以在数据过滤中添加过滤语句,进行数据的增量同步。
(2)选择数据目标表。
- 目前目标表支持:Oracle、MPP、HIVE、对象存储、Redis、HBASE、Elasticsearch、ArangoDB、MySQL。
(3)设置数据源表和数据目标表的映射管理。
- 在映射过程中左边字段信息来自源表,右边字段信息来自目标表。
- 用户可以在源表字段上进行字段的行级信息转换:进行字段格式转换、对字段应用系统函数、常量设置等。也可以新增字段进行字段转换。
- 在目标表字段中可以设置默认值,如有上游有数据传输下来使用上游字段,如果上游数据为空,使用默认值设置。
- 源和目标之间的连线设置表示数据的流向关系。