数据同步-源表选择及其设置

最近更新时间:2021-03-23 10:48:56

查看PDF

Oracle 源

当同步源选择 Oracle 数据源时,用户可以进行数据的过滤,并且可以开启高级设置,切分设置功能。切分设置是为了加快读取 Oracle 数据进行的并行数据读取,仅支持数字类型的字段作为切分键。切分数量从 1 到 10,具体的数量用户可以根据使用运行的资源队列 CU 数的 2 至 3 倍。

HIVE 源

当数据同步选择 HIVE 数据源时,用户可以进行数据过滤。

对象存储源

当数据同步选择对象存储数据源的时候,用户可以针对文件进行多种设置。

目前数据同步针对对象存储只支持:文件结构化,JSON 半结构化两种类型。不支持非机构化的数据同步。

且因为文本中日期时间类型特殊,仅支持特定类型的日期文件,目前支持读取的日期时间格式字段为:

日期

yyyy-MM-dd
yyyy/MM/dd
yyyyMMdd
yyyy 年 MM 月 dd 日

时间

HH:mm:ss
HHmmss
HH:mm:ss:SSS
HHmmssSSS

日期时间

yyyy-MM-dd HH:mm:ss
yyyyMMddHHmmss
yyyy-MM-dd HH:mm:ss:SSS
yyyyMMddHHmmssSSS
yyyy/MM/dd HH:mm:ss
MM-dd HH:mm:ss
MMddHHmmss
yyyy 年 MM 月 dd 日 HH 时 mm 分 ss 秒

当时间日期字段出现其他类型时,同步任务读取失败。

当源文件中有表头时可以选择跳过表头设置。

如果针对的是文本结构化文件可开启技术检核。注意:除文本结构化文件可以开启检核外,其他类型文件均无开启检核功能。当开启检核后,可以设置技术检核过程中允许拒绝的数据上线。当前上线为 2W,数据上线统计规则为,拒绝数据+规则为一条。也就是说如果某条数据违反了多条技术检核规则,那么算作多条数据。

HBASE 源

当同步源选择 HBASE 数据源是,用户可以进行 rowkey 高级设置和数据版本选择。

数据版本包括:版本过滤、时间戳过滤、时间段过滤

MySQL 源

当同步源选择 MySQL 数据源时,用户可以进行数据的滤,并且可以开启高级设置,切分设置功能。切分设置是为了加快读取 MySQL 数据进行的并行数据读取,仅支持数字类型的字段作为切分键。切分数量从1到10,具体的数量用户可以根据使用运行的资源队列CU数的2至3倍。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

  • 内容不全,不深入
  • 内容更新不及时
  • 描述不清晰,比较混乱
  • 系统或功能太复杂,缺乏足够的引导
  • 内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈