数据采集是大数据云平台内外部数据传输的桥梁,可以将云外数据安全有序的接入到大数据云平台内部。采集模块支持对文件、文件夹、外部kafka、自定义source等进行采集,将分散在各地的数据方便快捷的采集到大数据云平台,同时可通过流计算组件进行实时消费处理。
流式数据
实时、不间断产生的数据流,如业务日志、系统日志等各类日志信息。单条日志是流式数据采集和传输的基本单位。
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
Topic
Topic是Kafka对一组消息的归纳。在大数据云服务中,一个流式数据采集服务对应一个Topic,单个Topic可以存储一个或多个日志中的流式数据。
OGG
OGG 即Oracle Golden Gate,是一种基于日志的结构化数据复制软件。OGG 能够实现大量交易数据的实时捕捉,变换和投递,实现源数据库与目标数据库的数据同步,保持最少10ms的数据延迟。
Canal
Canal是通过模拟成为MySQL 的slave的方式,监听MySQL的binlog日志来获取数据,binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,基于这个特性,Canal就能高性能的获取到MySQL数据数据的变更。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!