产品功能

最近更新时间:2021-03-31 17:28:24

查看PDF

数据同步

稳定高效的数据同步工具。能够在复杂的网络情况下进行异构数据源之间数据高效稳定的同步迁移。同步过程中同步进行数据转换,数据标准化等。

数据同步支持的数据源类型

  • 文件存储(ks3)
  • 数据库(Oracle,MySQL)
  • NoSQL(HBase)
  • 大数据类(HIVE、kafka)

数据同步支持的数据目标类型

  • 文件存储(ks3)
  • 数据库(Oracle,MySQL)
  • NoSQL(HBase,Redis)
  • 大数据类(HIVE, Elasticsearch)

不同数据类型写入方式不同

insert into insert overwrite append 其他设置
KS3(文本类型) 每次运行是进行文件覆盖 进行数据的追加写入 1.是否写入表头 选择写入的源是否有表头,需要跳过
HIVE 每次运行进行数据追加 当表有分区时,将分区数据进行替换。当表没有分区时,直接将表清空再写入
Oracle 每次运行时进行数据追加 每次运行时将表清空再写入
MySQL 每次运行进行数据追加 每次运行时将表清空再写入
HBase 1.rowkey设置 在数据管理设置rowkey,这里只进行显示
Redis 1.KeyIndex 表明+选择多列+列间间隔 2.value type和mode string->set hah->hset、hmset list->lpush、rpush、mpush set->sadd 3.写入方式 标准模式和value转key模式 4.是否设置有效时间 5.数据有效时间 是否设置有效时间选【是】显示
ES 1.doc id生成方式 拼接列:选择多列和间隔符/特定列:选择一个列/随机UUID

数据加工

可视化拖拽式的数据加工工具,对接多种数据源,可实现连接,过滤,采样,聚合等多种SQL操作。

数据加工支持的算子

名称 说明
Source算子 数据加工的数据来源,可以选择多种数据源进行数据。
Target算子 整个数据数据加工的数据目标。
Map算子 基于行级的数据项复制、修改、计算。在同行记录中可新增、减少数据项。
Filter算子 按照条件过滤掉不符合条件的行。
Sample算子 按照一定的规律抽取数据,目前只支持按照百分比进行数据抽取。
Sorter算子 对数据按照某些字段进行升序/降序的排序。
Join算子 对两个数据源进行连接操作。只支持等值连接。Join只支持连接两个数据源,如果有多个数据源进行连接,使用多个Join。
Union算子 合并两个数据源到一个结果集。与执行“UNION ALL”SQL语句结果相似,不会删除重复行。Union只支持合并两个数据源,如果有多个数据源进行合并,使用多个Union。
Aggregator算子 对多组记录进行分组聚合计算。

业务检核

在数据管理中配置多种业务检核规则后在数据集成中周期性运行,保证上云数据质量,确保数据的可用性。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

  • 内容不全,不深入
  • 内容更新不及时
  • 描述不清晰,比较混乱
  • 系统或功能太复杂,缺乏足够的引导
  • 内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈