批量采集可将外部数据(支持结构化、半结构化、非结构化数据)批量推送至KS3中。采集方式支持:文件推送、文件拉取、页面文件上传等方式。
点击批量采集,在弹出的窗口中选择文件推送,进入文件推送任务编辑页面。
在新弹出的窗口中点击添加文件推送任务进行采集任务创建,支持手动创建多个文件采集任务。
创建采集任务时,需要填写:
参数名称 | 说明 |
---|---|
采集名称 | 支持中文、英文、数字、下划线,最大 50 字符。 |
目标ks3名称 | 下拉选择,需要在数据管理中预先创建。 |
目标bucket | 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的bucket。 |
数据交换接口 | 下拉选择,需要在数据管理中预先创建,可选择项目下有权限的数据交换接口。 |
选择数据交换接口后,可点击下方数据交换接口预览查看数据交换接口的 schema 信息。
配置完毕后,点击下一步,完成本条采集任务的创建,重复以上步骤,可一次性创建多个采集任务。
完成采集任务创建后,可点击下载文件上传工具包、API或SDK,在用户的客户端启动文件推送任务。
在页面下载 Excel 模板,汇总待新增的任务信息,并按照规范填写:采集任务名称、目标KS3名称、目标bucket、数据交换接口和采集说明后,将 Excel 上传至大数据云平台,进行批量创建操作。
按照模板填写并上传 Excel 后,Excel 中的内容会在页面预览出来,确认无误后,点击下一步完成批量创建。
批量采集任务可以通过:
1.文件上传工具包。
2.SDK 启动。
关于文件上传工具包、SDK 的的具体使用方法,可在【批量采集-通用下载】页面下载。
1.点击文件拉取按钮,进入文件拉取配置页面,文件拉取支持从 FTP 拉取数据投递至KS3。
2.点击下一步,进行具体拉取配置。
3.文件拉取支持【周期执行】和【单次执行】两种方式,两种方式均需指定推送的目标KS3、bucket、数据交换接口和具体推送路径。其中,周期执行的任务,需要额外配置【执行周期】。具体如下图所示:
点击采集明细按钮,会弹出表单,查看批量采集的运行实例,并且可以查看目标数据路径。
备注:当离线计算的作业依赖批量采集任务(一般依赖文件拉取任务)时,【目标-路径】页面的处理事件名字段,可作为离线计算的依赖监听值。
除以上方式外,对于文件数较少的临时数据采集需求,还可以通过:批量采集 > 页面上传文件功能,进行文件的上传。点击页面上传文件按钮后,选择待上传的文件(可支持多个)和上传的目标地址(KS3)即可。
页面文件上传的任务默认展示在任务列表的首行,点击操作列中的采集明细,可查看每次文件上传的信息。
文件拉取需要先把任务发布到测试进行测试验证以后,才可以申请上线。
点击批量采集列表中的发布测试,并按需选择资源后,可对文件拉取作业进行在测试环境运行。
从屏幕左下角进入【发布管理】模块,点击发布审批进入页面,可在【未审批】列表中,对申请上线的任务进行审核,审核时,可选择审核通过或审核拒绝。
审批通过后,可在【已发布列表】中,查看任务信息,或进行下线操作。
上线启动后,可在运维中心 > 数据采集 > 生产任务中查看任务列表。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!