全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

批量采集配置

最近更新时间:2023-06-16 11:46:58

批量采集可将外部数据(支持结构化、半结构化、非结构化数据)批量推送至KS3中。采集方式支持:文件推送、文件拉取、页面文件上传等方式。

文件推送任务配置

点击批量采集,在弹出的窗口中选择文件推送,进入文件推送任务编辑页面。
在新弹出的窗口中点击添加文件推送任务进行采集任务创建,支持手动创建多个文件采集任务。
image.png
创建采集任务时,需要填写:

参数名称 说明
采集名称 支持中文、英文、数字、下划线,最大 50 字符。
目标ks3名称 下拉选择,需要在数据管理中预先创建。
目标bucket 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的bucket。
数据交换接口 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的数据交换接口。

选择数据交换接口后,可点击下方数据交换接口预览查看数据交换接口的 schema 信息。
image.png
配置完毕后,点击下一步,完成本条采集任务的创建,重复以上步骤,可一次性创建多个采集任务。
完成采集任务创建后,可点击下载文件上传工具包、API或SDK,在用户的客户端启动文件推送任务。

文件推送(Excel批量上传)配置

在页面下载 Excel 模板,汇总待新增的任务信息,并按照规范填写:采集任务名称、目标KS3名称、目标bucket、数据交换接口和采集说明后,将 Excel 上传至大数据云平台,进行批量创建操作。
按照模板填写并上传 Excel 后,Excel 中的内容会在页面预览出来,确认无误后,点击下一步完成批量创建。
image.png

运行批量采集任务

批量采集任务可以通过:
1.文件上传工具包。
2.SDK 启动。
关于文件上传工具包、SDK 的的具体使用方法,可在【批量采集-通用下载】页面下载。
image.png
image.png

文件拉取

1.点击文件拉取按钮,进入文件拉取配置页面,文件拉取支持从 FTP 拉取数据投递至KS3。
2.点击下一步,进行具体拉取配置。
image.png
3.文件拉取支持【周期执行】和【单次执行】两种方式,两种方式均需指定推送的目标KS3、bucket、数据交换接口和具体推送路径。其中,周期执行的任务,需要额外配置【执行周期】。具体如下图所示:
image.png

查看批量采集运行实例

点击采集明细按钮,会弹出表单,查看批量采集的运行实例,并且可以查看目标数据路径。
备注:当离线计算的作业依赖批量采集任务(一般依赖文件拉取任务)时,【目标-路径】页面的处理事件名字段,可作为离线计算的依赖监听值。

通过页面进行文件上传

除以上方式外,对于文件数较少的临时数据采集需求,还可以通过:批量采集 > 页面上传文件功能,进行文件的上传。点击页面上传文件按钮后,选择待上传的文件(可支持多个)和上传的目标地址(KS3)即可。
image.png
页面文件上传的任务默认展示在任务列表的首行,点击操作列中的采集明细,可查看每次文件上传的信息。

任务上线申请

文件推送任务上线

  • 在批量采集任务列表点击申请上线,可申请将采集任务发布至生产环境。
  • 申请上线后,需项目管理员在发布管理 > 发布审批中进行审批。

文件拉取任务上线

文件拉取需要先把任务发布到测试进行测试验证以后,才可以申请上线。
点击批量采集列表中的发布测试,并按需选择资源后,可对文件拉取作业进行在测试环境运行。

任务上线审核

从屏幕左下角进入【发布管理】模块,点击发布审批进入页面,可在【未审批】列表中,对申请上线的任务进行审核,审核时,可选择审核通过或审核拒绝。
审批通过后,可在【已发布列表】中,查看任务信息,或进行下线操作。

任务上线启动

  • 文件推送任务在上线审核通过后,就已经发布到生产环境了,可直接在运维中心 > 数据采集 > 生产任务 > 任务管理 > 批量采集中查看。
  • 文件拉取上线审核通过后,可在运维中心 > 任务运维 > 数据采集任务中查看任务列表。对于文件拉取任务,点击上线启动,可启动。

任务生产运行

上线启动后,可在运维中心 > 数据采集 > 生产任务中查看任务列表。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈