点击页面的新建采集按钮,在弹出的抽屉中,点击流式数据采集 > Agent采集创建采集任务。
1.在弹出的窗口中填写新建采集任务的基本信息,必填参数说明如下:
参数名称 | 说明 |
---|---|
采集名称 | 支持中文、英文、数字、下划线,最大50字符。 |
目标 Topic | 待采集数据需要写入的Topic,支持下拉选择,可选择该项目下有权限的所有Topic。 |
异常数据 Topic | 当指定错误队列时,格式异常的数据会写入异常Topic下,支持下拉选择,可选择该项目下有权限的所有Topic(异常 Topic 不能和目标Topic选择同一个)(备注:异常Topic在创建时,只需要指定一个string类型的字段即可) |
2.选择 Topic 时,支持对 Topic 字段信息进行预览。
3.配置完毕后,点击下一步,进行Agent信息配置。
流式Agent采集支持采集文件、文件夹、Kafka、自定义source四种类型的数据。
支持同时采集多个文件,配置参数说明如下:
参数名称 | 说明 |
---|---|
待采集文件 | 待采集的数据路径及文件名,点击页面上的“+”号,可添加多个路径,实现多文件的采集。 |
待采集文件:待采集的数据路径及文件名,点击页面上的“+”号,可添加多个路径,实现多文件的采集。
可以采集文件夹下的所有文件,配置参数说明如下:
参数名称 | 说明 |
---|---|
待采集文件夹 | 待采集的文件夹的完整路径。 |
支持同时采集多个 Topic 的数据,配置参数说明如下:
参数名称 | 说明 |
---|---|
Kafka 地址 | 即 Kafka 的 IP:端口号,多个时使用“,”分隔。 |
Topic 名称 | 支持采集多个 Topic,点击“+”新增。 |
自定义 source 需要在依赖线下开发的 JAR 包,通过 source 类路径名称实现采集任务和 JAR 包的关联:
参数名称 | 说明 |
---|---|
Source 类路径 | 填写Kafka的IP:端口号,多个时使用“,”分隔。 |
高级选项,包括缓存配置和传输配置,一般情况下,使用默认配置即可,如用户有特殊需求,可以自行修改默认配置。下面对高级配置的各项属性进行说明。
1.缓存配置
点击类型选择后面的下拉框,弹出memory和file两个选项。
参数名称 | 说明 |
---|---|
Memory | 表示 Agent 的 channel 组件配置为 MemoryChannel,此时 Agent 采集的 Event 被缓存在内存中。 |
File | 表示 Agent 的 channel 组件配置为 File Channel,此时 Agent 采集的 Event 被缓存在文件中。 |
根据类型选择的不同,有不同的缓存参数需要配置,下面具体说明。
(1)选择 memory 时,可以对【最大容量】和【事物容量】进行配置。下表对这两个配置项进行了说明:
配置项 | 配置项说明 |
---|---|
最大容量 | 存储在 channel 中的 event 的最大数量。 |
事务容量 | 从 source 中取得或者发送给 sink 时,单个事务中允许的 event 最大数量。 |
(2)选择 file 时,可以对【最大容量】、【事务容量】、【checkpoint 目录】和【缓存目录】进行配置。下表对这四个配置项进行说明:
配置项 | 配置项说明 |
---|---|
最大容量 | 缓存在 channel 中的 event 的最大数量。 |
事务容量 | 从 source 中取得或者发送给 sink 时,单个事务中的 event 最大数量。 |
checkpoint目录 | 采集游标的存储目录,使得 agent 重启后仍可以从中断的位置开始采集任务。 |
缓存目录 | 数据缓存在本地磁盘的目录,即 File Channel 的物理存储位置。 |
2.传输配置
缓存配置下方是传输配置。点击传输配置右侧展开按钮,可以列出传输配置的配置项,如下图所示。
在传输配置中,可以设置 Agent 上传流式数据时,每个批次的最大、最小数据量以及并发线程数量。下表对这三个配置项进行了说明:
配置项 | 配置项说明 |
---|---|
最大数据量/批 | 传输数据按批次进行,该参数设置每个批次传输 event 的最大数量。 |
最小数据量/批 | 每个批次传输 event 的最小数量。 |
并发线程数 | 单个 agent 中 sink 组件的数量,每个 sink 组件对应一个传输数据线程。 |
完成 Agent 配置后,点击下一步,即可生成 Agent 部署包。
未采集任务创建结束的页面下载 Agent 的,也可以在采集任务列表上方的公共部分:【下载通用采集工具及接口规范】处,下载采集任务的 Agent。
下载采集工具后,上传至各个采集节点,进入解压缩后的目录下,执行start.sh
,即可在本地启动 agent,开始采集流式任务。
备注:采集开发页面的任务运行在测试环境中。
启动成功后,若采集任务执行正常,可在数据管理中进行数据预览(数据管理支持预览 10 条数据,可简单验证数据情况),验证任务执行是否成功。
点击数据管理 > 数据地图 > 数据目录 > 技术元数据 > Kafka ,推送目标的具体 Topic,选择环境后,点击数据预览,可查看数据是否正常写入。
备注: 待预览的 Kafka 和 Topic 为创建 Topic 时选择的数据类型和数据源。
点击任务列表的采集明细,可查看每个 Agent 的具体情况,并进行:暂停、恢复、停止、升级、删除等操作。
操作名称 | 说明 |
---|---|
暂停/恢复 | 暂停后,采集任务暂时中断,可点击“恢复”重启采集任务。 |
停止 | 停止后,页面无法重启任务,需通过 Agent 重新启动。 |
升级 | 采集任务有升级/更新时,可点击“升级”对 Agent 配置文件进行升级。(采集任务的 Agent 信息有修改时,才会出现“升级”按钮并支持更新操作)。 |
备注 | 自定义 source 类型的任务,不能进行暂停、恢复、升级操作。 |
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!