流式采集配置

最近更新时间:2019-12-20 14:15:47

流式采集任务可将文件、外部Kafka、文件夹、oracle数据库、MySQL数据库等数据,实时采集至大数据云平台的Kafka中,采集页面支持:新增、修改、删除、查看Agent、下载接口规范/Agent等操作。

创建采集任务

点击页面的【新建采集】按钮,在弹出的抽屉中,点击“流式数据采集-Agent采集”创建采集任务。

  1. 配置基本信息 在弹出的窗口中填写新建采集任务的基本信息,必填参数说明如下:

    • 采集名称:支持中文、英文、数字、下划线,最大50字符
    • Topic名称:下拉选择,可选择该项目下有权限的所有Topic
    • 选择Topic时,支持对Topic字段信息进行预览,如下图所示 配置完毕后,点击“下一步”,进行Agent信息配置。
  2. 配置Agent信息 流式Agent采集支持采集文件、文件夹、Kafka三种类型的数据。

(1) 文件采集 支持同时采集多个文件,配置参数说明如下:

  • 待采集文件:待采集的数据路径及文件名,点击页面上的“+”号,可同时采集同个文件
  • AccessID:Access KEY ID,此ID在“租户控制台-访问控制-Ak密钥管理”中获取
  • SK文件路径:即accessKey文件路径,需保证SK密钥在SK文件的首行

备注:AccessID获取方法如下:

  • 在“平台概览”-“访问控制”-“Ak密钥管理”中新建密钥
  • 创建完成之后,会提示下载SK秘钥到本地的弹窗,下载到本地后,文件里面的内容就是AK/SK,对应访问秘钥和私有访问秘钥。

(2) 文件夹采集 可以采集文件夹下的所有文件,配置参数说明如下:

  • 待采集文件夹:待采集的文件夹的完整路径
  • AccessID:Access KEY ID,此ID在“租户控制台-访问控制-Ak密钥管理”中获取
  • SK文件路径:即accessKey文件路径,需保证SK密钥在SK文件的首行

(3) Kafka采集 支持同时采集多个Topic的数据,配置参数说明如下:

  • Kafka地址:即Kafka的IP:端口号,多个时使用“,”分隔
  • Topic名称:支持采集多个Topic,点击“+”新增
  • AccessID:Access KEY ID,此ID在“租户控制台-访问控制-Ak密钥管理”中获取
  • SK文件路径:即accessKey文件路径,需保证SK密钥在SK文件的首行

(4) 高级配置 高级选项,包括缓存配置和传输配置,一般情况下,使用默认配置即可,如用户有特殊需求,可以自行修改默认配置。下面对高级配置的各项属性进行说明。

1) 缓存配置 点击“类型选择”后面的下拉框,会弹出“memory”和“file”两个选项:

  • Memory:表示Agent的channel组件配置为MemoryChannel,此时Agent采集的Event被缓存在内存中。
  • File:表示Agent的channel组件配置为File Channel,此时Agent采集的Event被缓存在文件中。 根据类型选择的不同,有不同的缓存参数需要配置,下面具体说明。
  • 选择memory时,可以对“最大容量”和“事物容量”进行配置。

  • 选择file时,可以对“最大容量”、“事务容量”、“checkpoint目录”和“缓存目录”进行配置。

2) 传输配置 缓存配置下方是传输配置。点击“传输配置”右侧的“展开”按钮,可以列出传输配置的配置项。 在传输配置中,可以设置Agent上传流式数据时,每个批次的最大、最小数据量以及并发线程数量。

  1. 下载并启动Agent 完成Agent配置后,点击下一步,即可生成Agent部署包。 未采集任务创建结束的页面下载Agent的,也可以在采集任务列表的:操作-下载Agent处,下载采集任务的Agent。 下载部署包后,部署到各个采集节点,就会开始采集流式数据,不同的部署包会将采集到的流式数据根据Topic的属性发送到测试或生产环境的Topic中。将dg_agent.zip上传至客户端主机,进入解压缩后的dg_agent目录下,执行start.sh,即可在本地启动agent。

  2. 数据预览 启动成功后,若采集任务执行正常,可在数据管理中进行数据预览(数据管理支持预览10条数据,可简单验证数据情况),验证任务执行是否成功。 点击“数据管理”→“元数据管理”→“数据目录”→“Kafka” →推送目标的具体Topic,选择环境后,点击“数据预览”,可查看数据是否正常写入。 备注:待预览的Kafka和Topic为创建Topic时选择的数据类型和数据源。

  3. 查看Agent列表 点击任务列表的“查看Agent”,可查看每个Agent的具体情况,并进行:暂停、恢复、停止、更新、删除等操作。
    • 暂停/恢复:暂停后,采集任务暂时中断,可点击“恢复”重启采集任务
    • 停止:停止后,页面无法重启任务,需通过Agent重新启动
    • 删除:任务停止后,可删除任务
    • 更新:采集任务有更新时,可点击“更新”对Agent配置文件进行更新(采集任务的Agent信息有修改时,才会出现“更新”按钮并支持更新操作)

流式API采集

  1. 创建采集任务 点击页面的【新建采集】按钮,在弹出的抽屉中,点击“流式数据采集-API采集”创建采集任务。

  2. 配置基本信息 在弹出的窗口中填写新建采集任务的基本信息,必填参数说明如下:

    • 采集名称:支持中文、英文、数字、下划线,最大50字符
    • Topic名称:下拉选择,可选择该项目下有权限的所有Topic
    • 选择Topic时,支持对Topic字段信息进行预览,如下图所示 配置完毕后,点击“下一步”,完成采集任务创建。
  3. 下载接口规范 API采集任务创建成功后,可在“下载接口规范”页面下载《接口规范及接口使用说明。 通过API采集的任务,可参考上文《接口规范及接口使用说明》的内容通过API启动采集任务,API出入参信息可点击任务列表的“查看参数”获取。

流式数据库采集

  1. 创建采集任务 点击页面的【新建采集】按钮,在弹出的抽屉中,点击“流式数据库采集”创建采集任务。

  2. 配置基本信息

    • 在弹出的窗口中填写新建采集任务的基本信息,必填参数说明如下:
    • 采集名称:支持中文、英文、数字、下划线,最大50字符
    • Topic名称:下拉选择,可选择该项目下有权限的所有Topic
    • 选择Topic时,支持对Topic字段信息进行预览 配置完毕后,点击“下一步”,完成采集任务创建。
  3. 配置Agent信息 流式数据库采集支持采集MySQL、Oracle的数据。

(1) MySQL采集说明 流式数据库MySQL采集使用的是 Canal+Flume 的方式采集数据,配置Agent信息后,下载对应Agent后,在本地部署启动。

(2) Oracle采集说明 流式数据库MySQL采集使用的是 OGG+Flume 的方式采集数据,配置Agent信息后,下载对应Oracle源端OGG、目标端OGG、Agent后,在本地部署启动。

  1. 下载并部署Agent (1) MySQL数据库采集

(2) Oracle数据库采集

  1. 特别说明 MySQL数据库采集的投递目标Topic,字段必须严格按照以下格式创建。

  2. 查看Agent列表 点击任务列表的“查看Agent”,可查看每个Agent的具体情况,并进行:暂停、恢复、停止、更新、删除等操作。
  • 暂停/恢复:暂停后,采集任务暂时中断,可点击“恢复”重启采集任务

  • 停止:停止后,页面无法重启任务,需通过Agent重新启动

  • 删除:任务停止后,可删除任务

  • 更新:采集任务有更新时,可点击“更新”对Agent配置文件进行更新(MySQL数据库采集,不支持Agent更新)

金山云,开启您的云计算之旅

免费注册