全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

产品概述

最近更新时间:2023-06-16 11:46:58

数据采集是大数据云平台内外部数据传输的桥梁,可以将云外数据安全有序的接入到大数据云平台内部。采集模块支持对文件、文件夹、外部kafka、自定义source等进行采集,将分散在各地的数据方便快捷的采集到大数据云平台,同时可通过流计算组件进行实时消费处理。

名词解释

流式数据
实时、不间断产生的数据流,如业务日志、系统日志等各类日志信息。单条日志是流式数据采集和传输的基本单位。

Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

  • 通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
  • 高吞吐量:即使是非常普通的硬件,Kafka也可以支持每秒数百万的消息。
  • 支持通过Kafka服务器和消费机集群来分区消息。
  • 支持Hadoop并行数据加载。

Topic
Topic是Kafka对一组消息的归纳。在大数据云服务中,一个流式数据采集服务对应一个Topic,单个Topic可以存储一个或多个日志中的流式数据。

OGG
OGG 即Oracle Golden Gate,是一种基于日志的结构化数据复制软件。OGG 能够实现大量交易数据的实时捕捉,变换和投递,实现源数据库与目标数据库的数据同步,保持最少10ms的数据延迟。

Canal
Canal是通过模拟成为MySQL 的slave的方式,监听MySQL的binlog日志来获取数据,binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,基于这个特性,Canal就能高性能的获取到MySQL数据数据的变更。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈