全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

产品功能

最近更新时间:2023-06-16 11:30:02

数据同步

稳定高效的数据同步工具。能够在复杂的网络情况下进行异构数据源之间数据高效稳定的同步迁移。同步过程中同步进行数据转换,数据标准化等。

数据同步支持的数据源类型

  • 文件存储(ks3)
  • 数据库(Oracle, MySQL)
  • NoSQL(HBase)
  • 大数据类(HIVE, kafka)

数据同步支持的数据目标类型

  • 文件存储(ks3)
  • 数据库(Oracle, MySQL)
  • NoSQL(HBase, Redis)
  • 大数据类(HIVE, Elasticsearch)

不同数据类型写入方式不同

insert into insert overwrite append 其他设置
KS3(文本类型) 每次运行是进行文件覆盖 进行数据的追加写入 1.是否写入表头 选择写入的源是否有表头,需要跳过
HIVE 每次运行进行数据追加 当表有分区时,将分区数据进行替换。当表没有分区时,直接将表清空再写入
Oracle 每次运行时进行数据追加 每次运行时将表清空再写入
MySQL 每次运行进行数据追加 每次运行时将表清空再写入
HBase 1.rowkey设置 在数据管理设置rowkey,这里只进行显示
Redis 1.KeyIndex 表明+选择多列+列间间隔 2.value type和mode string->set hah->hset、hmset list->lpush、rpush、mpush set->sadd 3.写入方式 标准模式和value转key模式 4.是否设置有效时间 5.数据有效时间 是否设置有效时间选【是】显示
ES 1.doc id生成方式 拼接列:选择多列和间隔符/特定列:选择一个列/随机UUID

数据加工

可视化拖拽式的数据加工工具,对接多种数据源,可实现连接,过滤,采样,聚合等多种SQL操作。

数据加工支持的算子

名称 说明
Source算子 数据加工的数据来源,可以选择多种数据源进行数据。
Target算子 整个数据数据加工的数据目标。
Map算子 基于行级的数据项复制、修改、计算。在同行记录中可新增、减少数据项。
Filter算子 按照条件过滤掉不符合条件的行。
Sample算子 按照一定的规律抽取数据,目前只支持按照百分比进行数据抽取。
Sorter算子 对数据按照某些字段进行升序/降序的排序。
Join算子 对两个数据源进行连接操作。只支持等值连接。Join只支持连接两个数据源,如果有多个数据源进行连接,使用多个Join。
Union算子 合并两个数据源到一个结果集。与执行“UNION ALL”SQL语句结果相似,不会删除重复行。Union只支持合并两个数据源,如果有多个数据源进行合并,使用多个Union。
Aggregator算子 对多组记录进行分组聚合计算。

业务检核

在数据管理中配置多种业务检核规则后在数据集成中周期性运行,保证上云数据质量,确保数据的可用性。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈