稳定高效的数据同步工具。能够在复杂的网络情况下进行异构数据源之间数据高效稳定的同步迁移。同步过程中同步进行数据转换,数据标准化等。
insert into | insert overwrite | append | 其他设置 | |
---|---|---|---|---|
KS3(文本类型) | 每次运行是进行文件覆盖 | 进行数据的追加写入 | 1.是否写入表头 选择写入的源是否有表头,需要跳过 | |
HIVE | 每次运行进行数据追加 | 当表有分区时,将分区数据进行替换。当表没有分区时,直接将表清空再写入 | ||
Oracle | 每次运行时进行数据追加 | 每次运行时将表清空再写入 | ||
MySQL | 每次运行进行数据追加 | 每次运行时将表清空再写入 | ||
HBase | 1.rowkey设置 在数据管理设置rowkey,这里只进行显示 | |||
Redis | 1.KeyIndex 表明+选择多列+列间间隔 2.value type和mode string->set hah->hset、hmset list->lpush、rpush、mpush set->sadd 3.写入方式 标准模式和value转key模式 4.是否设置有效时间 5.数据有效时间 是否设置有效时间选【是】显示 | |||
ES | 1.doc id生成方式 拼接列:选择多列和间隔符/特定列:选择一个列/随机UUID |
可视化拖拽式的数据加工工具,对接多种数据源,可实现连接,过滤,采样,聚合等多种SQL操作。
名称 | 说明 |
---|---|
Source算子 | 数据加工的数据来源,可以选择多种数据源进行数据。 |
Target算子 | 整个数据数据加工的数据目标。 |
Map算子 | 基于行级的数据项复制、修改、计算。在同行记录中可新增、减少数据项。 |
Filter算子 | 按照条件过滤掉不符合条件的行。 |
Sample算子 | 按照一定的规律抽取数据,目前只支持按照百分比进行数据抽取。 |
Sorter算子 | 对数据按照某些字段进行升序/降序的排序。 |
Join算子 | 对两个数据源进行连接操作。只支持等值连接。Join只支持连接两个数据源,如果有多个数据源进行连接,使用多个Join。 |
Union算子 | 合并两个数据源到一个结果集。与执行“UNION ALL”SQL语句结果相似,不会删除重复行。Union只支持合并两个数据源,如果有多个数据源进行合并,使用多个Union。 |
Aggregator算子 | 对多组记录进行分组聚合计算。 |
在数据管理中配置多种业务检核规则后在数据集成中周期性运行,保证上云数据质量,确保数据的可用性。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!