当同步源选择 Oracle 数据源时,用户可以进行数据的过滤,并且可以开启高级设置,切分设置功能。切分设置是为了加快读取 Oracle 数据进行的并行数据读取,仅支持数字类型的字段作为切分键。切分数量从 1 到 10,具体的数量用户可以根据使用运行的资源队列 CU 数的 2 至 3 倍。
当数据同步选择 HIVE 数据源时,用户可以进行数据过滤。
当数据同步选择对象存储数据源的时候,用户可以针对文件进行多种设置。
目前数据同步针对对象存储只支持:文件结构化,JSON 半结构化两种类型。不支持非机构化的数据同步。
且因为文本中日期时间类型特殊,仅支持特定类型的日期文件,目前支持读取的日期时间格式字段为:
日期
yyyy-MM-dd
yyyy/MM/dd
yyyyMMdd
yyyy 年 MM 月 dd 日
时间
HH:mm:ss
HHmmss
HH:mm:ss:SSS
HHmmssSSS
日期时间
yyyy-MM-dd HH:mm:ss
yyyyMMddHHmmss
yyyy-MM-dd HH:mm:ss:SSS
yyyyMMddHHmmssSSS
yyyy/MM/dd HH:mm:ss
MM-dd HH:mm:ss
MMddHHmmss
yyyy 年 MM 月 dd 日 HH 时 mm 分 ss 秒
当时间日期字段出现其他类型时,同步任务读取失败。
当源文件中有表头时可以选择跳过表头设置。
如果针对的是文本结构化文件可开启技术检核。注意:除文本结构化文件可以开启检核外,其他类型文件均无开启检核功能。当开启检核后,可以设置技术检核过程中允许拒绝的数据上线。当前上线为 2W,数据上线统计规则为,拒绝数据+规则为一条。也就是说如果某条数据违反了多条技术检核规则,那么算作多条数据。
当同步源选择 HBASE 数据源是,用户可以进行 rowkey 高级设置和数据版本选择。
数据版本包括:版本过滤、时间戳过滤、时间段过滤
当同步源选择 MySQL 数据源时,用户可以进行数据的滤,并且可以开启高级设置,切分设置功能。切分设置是为了加快读取 MySQL 数据进行的并行数据读取,仅支持数字类型的字段作为切分键。切分数量从1到10,具体的数量用户可以根据使用运行的资源队列CU数的2至3倍。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!