批量采集配置

最近更新时间:2021-03-23 15:05:06

查看PDF

批量采集可将外部数据(支持结构化、半结构化、非结构化数据)批量推送至ks3中。采集方式支持:文件推送、文件拉取、页面文件上传等方式。

文件推送任务配置

点击【批量采集】按钮,在弹出的窗口中选择【文件推送】,进入文件推送任 务编辑页面。
在新弹出的窗口中点击【添加文件推送任务】进行采集任务创建,支持手动创 建多个文件采集任务。
image.png
创建采集任务时,需要填写:

参数名称 说明
采集名称 支持中文、英文、数字、下划线,最大 50 字符。
目标ks3名称 下拉选择,需要在数据管理中预先创建。
目标bucket 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的bucket。
数据交换接口 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的数据交换接口。

选择数据交换接口后,可点击下方【数据交换接口预览】查看数据交换接口的 schema 信息。
image.png
配置完毕后,点击【下一步】,完成本条采集任务的创建,重复以上步骤,可一次 性创建多个采集任务。
完成采集任务创建后,可点击下载文件上传工具包、或 API、或 SDK,在用户的客户端启动文件推送任务。

文件推送(Excel批量上传)配置

在页面下载 Excel 模板,汇总待新增的任务信息,并按照规范填写:采集任务名称、目标ks3名称、目标bucket、数据交换接口和采集说明后,将 Excel 上传
至大数据云平台,进行批量创建操作。
按照模板填写并上传 Excel 后,Excel 中的内容会在页面预览出来,确认无误后,点击下一步完成批量创建。
image.png

运行批量采集任务

批量采集任务可以通过:
1.文件上传工具包。
2.SDK 启动。
关于文件上传工具包、SDK 的的具体使用方法,可在“批量采集 通用下载”页面下载。
image.png
image.png

文件拉取

1.点击文件拉取按钮,进入文件拉取配置页面,文件拉取支持从 FTP 拉取数据投递至ks3。
2.点击下一步,进行具体拉取配置
image.png
3.文件拉取支持【周期执行】和【单次执行】2 种方式,两种方式均需指定推送的目标ks3、bucket、数据交换接口和具体推送路径。其中,周期执行的任务,需要额外配置【执行周期】。具体如下图所示:
image.png

查看批量采集运行实例

点击【采集明细】按钮,会弹出表单,查看批量采集的运行实例,并且可以查 看目标数据路径。
备注:当离线计算的作业依赖批量采集任务(一般依赖文件拉取任务)时,“目标 路径”页面的处理事件名字段,可作业离线计算的依赖监听值。

通过页面进行文件上传

除以上方式外,对于文件数较少的临时数据采集需求,还可以通过:批量采集>页面上传文件功能,进行文件的上传。点击【页面上传文件】按钮后,选择待上传的文件(可支持多个)和上传的目标地址(ks3)即可。
image.png
页面文件上传的任务默认展示在任务列表的首行,点击【操作】中的【采集明细】,可查看每次文件上传的信息。

任务上线申请

文件推送任务上线

  • 在批量采集任务列表点击“申请上线”,可申请将采集任务发布至生产环境。
  • 申请上线后,需项目管理员在【发布管理】-【发布审批】中进行审批。

文件拉取任务上线

文件拉取需要先把任务发布到测试进行测试验证以后,才可以申请上线。
点击批量采集列表中的【发布测试】,并按需选择资源后,可对文件拉取作业进行在测试环境运行。

任务上线审核

从屏幕左下角的进入【发布管理】模块,点击进入【发布审批】页面,可在【未审批】列表中,对申请上线的任务进行审核,审核时,可选择审核通过或审核拒绝。
审批通过后,可在【已发布列表】中,查看任务信息,或进行下线操作。

任务上线启动

  • 文件推送任务在上线审核通过后,就已经发布到生产环境了,可直接在【运维中心】>【数据采集】>【生产任务】>【任务管理】>【批量采集】中查看。
  • 文件拉取上线审核通过后,可在【运维中心】>【任务运维】>【数据采集任务】中查看任务列表。对于文件拉取任务,点击【上线启动】,可启动。

任务生产运行

上线启动后,可在【运维中心】>【数据采集】>【生产任务】中查看任务列表。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

  • 内容不全,不深入
  • 内容更新不及时
  • 描述不清晰,比较混乱
  • 系统或功能太复杂,缺乏足够的引导
  • 内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈