金山云-文档中心-流式Agent采集

大数据云平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

大数据云平台

数据采集

操作指南

流式采集-流式Agent采集

最近更新时间：2023-06-16 11:46:58

新建流式Agent采集

创建采集任务

点击页面的新建采集按钮，在弹出的抽屉中，点击流式数据采集 > Agent采集创建采集任务。

配置基本信息

1.在弹出的窗口中填写新建采集任务的基本信息，必填参数说明如下：

参数名称	说明
采集名称	支持中文、英文、数字、下划线，最大50字符。
目标 Topic	待采集数据需要写入的Topic，支持下拉选择，可选择该项目下有权限的所有Topic。
异常数据 Topic	当指定错误队列时，格式异常的数据会写入异常Topic下，支持下拉选择，可选择该项目下有权限的所有Topic（异常 Topic 不能和目标Topic选择同一个）（备注：异常Topic在创建时，只需要指定一个string类型的字段即可）

2.选择 Topic 时，支持对 Topic 字段信息进行预览。
3.配置完毕后，点击下一步，进行Agent信息配置。

配置Agent信息

流式Agent采集支持采集文件、文件夹、Kafka、自定义source四种类型的数据。

文件采集

支持同时采集多个文件，配置参数说明如下：

参数名称	说明
待采集文件	待采集的数据路径及文件名，点击页面上的“+”号，可添加多个路径，实现多文件的采集。

待采集文件：待采集的数据路径及文件名，点击页面上的“+”号，可添加多个路径，实现多文件的采集。

文件夹采集

可以采集文件夹下的所有文件，配置参数说明如下：

参数名称	说明
待采集文件夹	待采集的文件夹的完整路径。

Kafka采集

支持同时采集多个 Topic 的数据，配置参数说明如下：

参数名称	说明
Kafka 地址	即 Kafka 的 IP：端口号，多个时使用“，”分隔。
Topic 名称	支持采集多个 Topic，点击“+”新增。

自定义source

自定义 source 需要在依赖线下开发的 JAR 包，通过 source 类路径名称实现采集任务和 JAR 包的关联：

参数名称	说明
Source 类路径	填写Kafka的IP：端口号，多个时使用“，”分隔。

高级配置

高级选项，包括缓存配置和传输配置，一般情况下，使用默认配置即可，如用户有特殊需求，可以自行修改默认配置。下面对高级配置的各项属性进行说明。

1.缓存配置
点击类型选择后面的下拉框，弹出memory和file两个选项。

参数名称	说明
Memory	表示 Agent 的 channel 组件配置为 MemoryChannel，此时 Agent 采集的 Event 被缓存在内存中。
File	表示 Agent 的 channel 组件配置为 File Channel，此时 Agent 采集的 Event 被缓存在文件中。

根据类型选择的不同，有不同的缓存参数需要配置，下面具体说明。
（1）选择 memory 时，可以对【最大容量】和【事物容量】进行配置。下表对这两个配置项进行了说明：

配置项	配置项说明
最大容量	存储在 channel 中的 event 的最大数量。
事务容量	从 source 中取得或者发送给 sink 时，单个事务中允许的 event 最大数量。

（2）选择 file 时，可以对【最大容量】、【事务容量】、【checkpoint 目录】和【缓存目录】进行配置。下表对这四个配置项进行说明：

配置项	配置项说明
最大容量	缓存在 channel 中的 event 的最大数量。
事务容量	从 source 中取得或者发送给 sink 时，单个事务中的 event 最大数量。
checkpoint目录	采集游标的存储目录，使得 agent 重启后仍可以从中断的位置开始采集任务。
缓存目录	数据缓存在本地磁盘的目录，即 File Channel 的物理存储位置。

2.传输配置
缓存配置下方是传输配置。点击传输配置右侧展开按钮，可以列出传输配置的配置项，如下图所示。

在传输配置中，可以设置 Agent 上传流式数据时，每个批次的最大、最小数据量以及并发线程数量。下表对这三个配置项进行了说明：

配置项	配置项说明
最大数据量/批	传输数据按批次进行，该参数设置每个批次传输 event 的最大数量。
最小数据量/批	每个批次传输 event 的最小数量。
并发线程数	单个 agent 中 sink 组件的数量，每个 sink 组件对应一个传输数据线程。

下载并启动 Agent

完成 Agent 配置后，点击下一步，即可生成 Agent 部署包。

未采集任务创建结束的页面下载 Agent 的，也可以在采集任务列表上方的公共部分：【下载通用采集工具及接口规范】处，下载采集任务的 Agent。

下载采集工具后，上传至各个采集节点，进入解压缩后的目录下，执行start.sh，即可在本地启动 agent，开始采集流式任务。
备注：采集开发页面的任务运行在测试环境中。

数据预览

启动成功后，若采集任务执行正常，可在数据管理中进行数据预览（数据管理支持预览 10 条数据，可简单验证数据情况），验证任务执行是否成功。
点击数据管理 > 数据地图 > 数据目录 > 技术元数据 > Kafka ，推送目标的具体 Topic，选择环境后，点击数据预览，可查看数据是否正常写入。
备注： 待预览的 Kafka 和 Topic 为创建 Topic 时选择的数据类型和数据源。

查看 Agent 列表/采集明细

点击任务列表的采集明细，可查看每个 Agent 的具体情况，并进行：暂停、恢复、停止、升级、删除等操作。

操作名称	说明
暂停/恢复	暂停后，采集任务暂时中断，可点击“恢复”重启采集任务。
停止	停止后，页面无法重启任务，需通过 Agent 重新启动。
升级	采集任务有升级/更新时，可点击“升级”对 Agent 配置文件进行升级。（采集任务的 Agent 信息有修改时，才会出现“升级”按钮并支持更新操作）。
备注	自定义 source 类型的任务，不能进行暂停、恢复、升级操作。

文档导读

上一篇：流式采集

下一篇：流式采集-API采集

纯净模式常规模式

纯净模式

点击可全屏预览文档内容

计算

消息队列

人工智能

应用中间件

其它

网络

大数据

合作与生态

合规性

数据库

云安全

管理与审计

存储与云分发

视频云服务

云监控

游戏服务

开发者工具

应用服务

用户中心