数据同步

最近更新时间:2021-03-23 14:38:32

查看PDF

数据同步工具不仅能够满足传统数据集成服务在复杂网络环境下进行多种异构数据源的导入导出需求,同时在数据导入导出的过程中的进行数据清洗、去重、规范化等提高数据质量。防止脏数据、垃圾数据的传播。

  1. 进入【项目空间】>【我的项目】,点击项目名称进入大数据开发套件。
  2. 点击进入【数据开发】>【离线作业开发】。
  3. 选择【任务开发】,点击image.png,新建一个作业流。

image.png

  1. 双击作业流,进入作业流开发面板,拖拽数据同步插件,输入节点名称。

image.png

  1. 双击打开新建的同步任务,打开同步任务页面后整个同步任务分成三步:

(1)选择数据源表。

  • 目前源表支持的六种数据源:Oracle、MPP、HIVE、对象存储、HBASE、MySQL。选择则不同的数据源后会有各自不同的设置,详情见各不同源的设置界面。
  • 选择数据源的过程中可以在【数据过滤】中添加过滤语句,进行数据的增量同步。

(2)选择数据目标表。

  • 目前目标表支持:Oracle、MPP、HIVE、对象存储、Redis、HBASE、Elasticsearch、ArangoDB、MySQL。

(3)设置数据源表和数据目标表的映射管理。

  • 在映射过程中左边字段信息来自源表,右边字段信息来自目标表。
  • 用户可以在源表字段上进行字段的行级信息转换:进行字段格式转换、对字段应用系统函数、常量设置等。也可以新增字段进行字段转换。
  • 在目标表字段中可以设置默认值,如有上游有数据传输下来使用上游字段,如果上游数据为空,使用默认值设置。
  • 源和目标之间的连线设置表示数据的流向关系。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

  • 内容不全,不深入
  • 内容更新不及时
  • 描述不清晰,比较混乱
  • 系统或功能太复杂,缺乏足够的引导
  • 内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈