数据同步

最近更新时间:2019-12-20 14:15:46

数据同步工具不仅能够满足传统数据集成服务在复杂网络环境下进行多种异构数据源的导入导出需求,同时在数据导入导出的过程中的进行数据清洗、去重、规范化等提高数据质量。防止脏数据、垃圾数据的传播。

  1. 进入【项目空间】->【我的项目】,点击项目名称进入大数据开发套件。点击进入【数据开发】->【离线作业开发】。

  2. 选择【任务开发】,在左侧目录点击创建的作业流,新建一个作业流。

双击作业流,进入作业流开发面板,拖拽数据同步插件,输入节点名称。

双击打开新建的同步任务,打开同步任务页面后整个同步任务分成三步:

  • 第一步选择数据源表 选择数据源的过程中可以在【数据过滤】中添加过滤语句,进行数据的增量同步。

  • 第二步选择数据目标表

  • 第三步设置数据源表和数据目标表的映射管理。

在映射过程中左边字段信息来自源表,右边字段信息来自目标表。

用户可以在源表字段上进行字段的行级信息转换:进行字段格式转换、对字段应用系统函数、常量设置等。也可以新增字段进行字段转换。

在目标表字段中可以设置默认值,如有上游有数据传输下来使用上游字段,如果上游数据为空,使用默认值设置。

源和目标之间的连线设置表示数据的流向关系。

在数据同步开发过程中可以进行变量数设置,变量设置格式为${}。 其中系统支持变量数如下:

  • 日期变量

yyyyMMdd

yyyy-MM-dd

yyyy/MM/dd

yyyy

MM

dd HH

mm

ss

  • 作业运行批次变量

job.batch.no

  • 作业名称变量

job.name

用户在使用的时系统将自动进行变量替换。例如${yyyyMMdd}系统将替换为作业运行时的业务日期。 除了系统变量外,还可以使用自定义变量,自定义变量需要在作业【参数设置】中进行变量赋值。

金山云,开启您的云计算之旅

注册有礼