金山云-文档中心-产品功能

大数据云平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

大数据云平台

数据集成

产品功能

最近更新时间：2023-06-16 11:30:02

数据同步

稳定高效的数据同步工具。能够在复杂的网络情况下进行异构数据源之间数据高效稳定的同步迁移。同步过程中同步进行数据转换，数据标准化等。

数据同步支持的数据源类型

文件存储(ks3)
数据库(Oracle, MySQL)
NoSQL(HBase)
大数据类(HIVE, kafka)

数据同步支持的数据目标类型

文件存储(ks3)
数据库(Oracle, MySQL)
NoSQL(HBase, Redis)
大数据类(HIVE, Elasticsearch)

不同数据类型写入方式不同

	insert into	insert overwrite	append	其他设置
KS3（文本类型）		每次运行是进行文件覆盖	进行数据的追加写入	1.是否写入表头选择写入的源是否有表头，需要跳过
HIVE	每次运行进行数据追加	当表有分区时，将分区数据进行替换。当表没有分区时，直接将表清空再写入
Oracle	每次运行时进行数据追加	每次运行时将表清空再写入
MySQL	每次运行进行数据追加	每次运行时将表清空再写入
HBase				1.rowkey设置在数据管理设置rowkey，这里只进行显示
Redis				1.KeyIndex 表明+选择多列+列间间隔 2.value type和mode string->set hah->hset、hmset list->lpush、rpush、mpush set->sadd 3.写入方式标准模式和value转key模式 4.是否设置有效时间 5.数据有效时间是否设置有效时间选【是】显示
ES				1.doc id生成方式拼接列：选择多列和间隔符/特定列：选择一个列/随机UUID

数据加工

可视化拖拽式的数据加工工具，对接多种数据源，可实现连接，过滤，采样，聚合等多种SQL操作。

数据加工支持的算子

名称	说明
Source算子	数据加工的数据来源，可以选择多种数据源进行数据。
Target算子	整个数据数据加工的数据目标。
Map算子	基于行级的数据项复制、修改、计算。在同行记录中可新增、减少数据项。
Filter算子	按照条件过滤掉不符合条件的行。
Sample算子	按照一定的规律抽取数据，目前只支持按照百分比进行数据抽取。
Sorter算子	对数据按照某些字段进行升序/降序的排序。
Join算子	对两个数据源进行连接操作。只支持等值连接。Join只支持连接两个数据源，如果有多个数据源进行连接，使用多个Join。
Union算子	合并两个数据源到一个结果集。与执行“UNION ALL”SQL语句结果相似，不会删除重复行。Union只支持合并两个数据源，如果有多个数据源进行合并，使用多个Union。
Aggregator算子	对多组记录进行分组聚合计算。

业务检核

在数据管理中配置多种业务检核规则后在数据集成中周期性运行，保证上云数据质量，确保数据的可用性。

文档导读

上一篇：产品优势

下一篇：操作指南

纯净模式常规模式

纯净模式

点击可全屏预览文档内容

计算

消息队列

人工智能

应用中间件

其它

网络

大数据

合作与生态

合规性

数据库

云安全

管理与审计

存储与云分发

视频云服务

云监控

游戏服务

开发者工具

应用服务

用户中心