流式采集-流式Agent采集

最近更新时间:2021-03-22 16:05:34

查看PDF

新建流式Agent采集

创建采集任务

点击页面的【新建采集】按钮,在弹出的抽屉中,点击【流式数据采集】>【Agent采集】创建采集任务。

配置基本信息

1.在弹出的窗口中填写新建采集任务的基本信息,必填参数说明如下:

参数名称 说明
采集名称 支持中文、英文、数字、下划线,最大50字符。
目标 Topic 待采集数据需要写入的Topic,支持下拉选择,可选择该项目下有权限的所有Topic。
异常数据 Topic 当指定错误队列时,格式异常的数据会写入异常Topic下,支持下拉选择,可选择该项目下有权限的所有Topic(异常 Topic 不能和目标Topic选择同一个)(备注:异常Topic在创建时,只需要指定一个string类型的字段即可)

image.png
2.选择 Topic 时,支持对 Topic 字段信息进行预览。
3.配置完毕后,点击【下一步】,进行Agent信息配置。

配置Agent信息

流式Agent采集支持采集文件、文件夹、Kafka、自定义source四种类型的数据。

文件采集

支持同时采集多个文件,配置参数说明如下:

参数名称 说明
待采集文件 待采集的数据路径及文件名,点击页面上的“+”号,可添加多个路径,实现多文件的采集。

待采集文件:待采集的数据路径及文件名,点击页面上的“+”号,可添加多个路径,实现多文件的采集。
image.png

文件夹采集

可以采集文件夹下的所有文件,配置参数说明如下:

参数名称 说明
待采集文件夹 待采集的文件夹的完整路径。

image.png

Kafka采集

支持同时采集多个 Topic 的数据,配置参数说明如下:

参数名称 说明
Kafka 地址 即 Kafka 的 IP:端口号,多个时使用“,”分隔。
Topic 名称 支持采集多个 Topic,点击“+”新增。

image.png

自定义source

自定义 source 需要在依赖线下开发的 JAR 包,通过 source 类路径名称实现采集任务和 JAR 包的关联:

参数名称 说明
Source 类路径 填写Kafka的IP:端口号,多个时使用“,”分隔。

image.png

高级配置

高级选项,包括缓存配置和传输配置,一般情况下,使用默认配置即可,如用户有特殊需求,可以自行修改默认配置。下面对高级配置的各项属性进行说明。
image.png

1.缓存配置
点击【类型选择】后面的下拉框,出弹出【memory】和【file】两个选项。

参数名称 说明
Memory 表示 Agent 的 channel 组件配置为 MemoryChannel,此时 Agent 采集的 Event 被缓存在内存中。
File 表示 Agent 的 channel 组件配置为 File Channel,此时 Agent 采集的 Event 被缓存在文件中。

根据类型选择的不同,有不同的缓存参数需要配置,下面具体说明。
(1)选择 memory 时,可以对【最大容量】和【事物容量】进行配置。下表对这两个配置项进行了说明:
image.png

配置项 配置项说明
最大容量 存储在 channel 中的 event 的最大数量。
事务容量 从 source 中取得或者发送给 sink 时,单个事务中允许的 event 最大数量。

(2)选择 file 时,可以对【最大容量】、【事务容量】、【checkpoint 目录】和【缓存目录】进行配置。下表对这四个配置项进行说明:
image.png

配置项 配置项说明
最大容量 缓存在 channel 中的 event 的最大数量。
事务容量 从 source 中取得或者发送给 sink 时,单个事务中的 event 最大数量。
checkpoint目录 采集游标的存储目录,使得 agent 重启后仍可以从中断的位置开始采集任务。
缓存目录 数据缓存在本地磁盘的目录,即 File Channel 的物理存储位置。

2.传输配置
缓存配置下方是传输配置。点击【传输配置】右侧的【展开】按钮,可以列出传输配置的配置项,如下图所示。
image.png
在传输配置中,可以设置 Agent 上传流式数据时,每个批次的最大、最小数据量以及并发线程数量。下表对这三个配置项进行了说明:

配置项 配置项说明
最大数据量/批 传输数据按批次进行,该参数设置每个批次传输 event 的最大数量。
最小数据量/批 每个批次传输 event 的最小数量。
并发线程数 单个 agent 中 sink 组件的数量,每个 sink 组件对应一个传输数据线程。

下载并启动 Agent

完成 Agent 配置后,点击下一步,即可生成 Agent 部署包。
image.png
未采集任务创建结束的页面下载 Agent 的,也可以在采集任务列表上方的公共部分:【下载通用采集工具及接口规范】处,下载采集任务的 Agent。
image.png
下载采集工具后,上传至各个采集节点,进入解压缩后的目录下,执行start.sh,即可在本地启动 agent,开始采集流式任务。
备注:采集开发页面的任务运行在测试环境中。

数据预览

启动成功后,若采集任务执行正常,可在数据管理中进行数据预览(数据管理支持预览 10 条数据,可简单验证数据情况),验证任务执行是否成功。
点击【数据管理】>【数据地图】>【数据目录】>【技术元数据】>【Kafka】>推送目标的具体 Topic,选择环境后,点击【数据预览】,可查看数据是否正常写入。
备注:待预览的 Kafka 和 Topic 为创建 Topic 时选择的数据类型和数据源。

查看 Agent 列表/采集明细

点击任务列表的【采集明细】,可查看每个 Agent 的具体情况,并进行:暂停、恢复、停止、升级、删除等操作。

操作名称 说明
暂停/恢复 暂停后,采集任务暂时中断,可点击“恢复”重启采集任务。
停止 停止后,页面无法重启任务,需通过 Agent 重新启动。
升级 采集任务有升级/更新时,可点击“升级”对 Agent 配置文件进行升级。(采集任务的 Agent 信息有修改时,才会出现“升级”按钮并支持更新操作)。
备注 自定义 source 类型的任务,不能进行暂停、恢复、升级操作。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

  • 内容不全,不深入
  • 内容更新不及时
  • 描述不清晰,比较混乱
  • 系统或功能太复杂,缺乏足够的引导
  • 内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈