金山云-文档中心-数据处理

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

训推平台

数据准备

数据处理

创建数据处理任务

最近更新时间：2026-05-20 16:38:29



星流平台数据处理模块预置了Spark、Ray等计算框架，支持分布式执行大规模的自定义数据处理任务，提升用户开发效率。

前提条件

已创建相应资源配置。
- 自运维资源：1个及以上通用类型的资源组和队列，且资源组内须安装数据处理组件。具体操作参见资源组和队列。
- Serverless计算引擎：提前创建可用的工作空间。
建议您在资源组中开启关联托管Prometheus、Klog服务，以便后续查看任务监控及日志。

操作步骤

登录金山云星流训推平台控制台。
在顶部导航栏，选择数据准备 > 数据处理。
在数据处理页，单击+新建，选择提交的任务类型。目前支持Spark任务、Ray任务、Flink任务和数据同步任务。
参考以下参数说明，完成参数配置，单击确定，提交运行。

任务参数

Ray任务

分类	参数	是否必须	说明
基础信息	任务名称	是	1-64个字符，允许字母、中文、数字-_、/（）。
	优先级	是	任务的优先级，支持高优先级、中优先级、低优先级，默认中优先级。对于同一队列中所有排队的负载（包括开发任务、训练任务、数据处理任务），平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行，同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下，先提交的任务先调度。
	描述	否	描述信息，长度0-200个字符。
任务配置	AK/SK	是	访问ks3资源需要填写AK/SK进行授权，同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。点击查看获取方式：获取AK/SK 。
	Entrypoint.cmd	是	任务的启动命令。如：python long-run.py
	镜像	否	支持用户使用自定义镜像。用户可在开发机中编写数据处理相关逻辑后保存为镜像，再通过该参数使用Ray分布式执行，操作步骤参见操作与使用开发任务；也可使用用户镜像仓库中的镜像具体操作参见：镜像管理。
	Head核数	否	Ray任务Head节点核数。
	Head内存	否	Ray任务Head节点内存。
	Worker数量	否	Ray任务Worker节点数量。
	Worker核数	否	Ray任务Worker节点核数。
	Worker内存	否	Ray任务Worker节点内存。
	WorkerGPU数量	否	Ray任务使用的GPU卡数。
	Entrypoint.resource	否	Ray任务的程序文件路径。用户可将任务脚本打包压缩为ZIP包后上传至KS3，通过该参数指定运行，上传操作参见：文件上传。注意：ks3路径需填写为：s3://xxx/xxxx/xxx.zip
	Runtime_env	否	Ray任务运行环境配置，如依赖、环境配置、工作目录等，需填写为json格式。如：{ "working_dir": "s3://bigdata/job/ksyun-ray-demo.zip" }
	Conf	否	Ray任务的其他参数配置，key1=value1形式填写，支持添加添加多个。
	Juice Fs	否	JuiceFs配置，Ray head节点挂载，juiceFs存储卷。
	MountPath	否	挂载路径。
资源配置	资源类型	是	支持使用自运维资源或Serverless计算引擎资源。选择自运维资源，相应的资源组需配置组件。 Serverless计算引擎资源：适用于波动性数据处理需求，该资源按使用量收费，不使用不收费，使用方式参见：创建Serverless 计算引擎工作空间；若使用子账号需完成授权，具体操作参见：子账号授权；
权限配置	是否队列内公开可见	否	默认仅创建者可见，开启队列内公开可见后全队列可见。

Spark任务

分类	参数	是否必须	说明
基础信息	任务名称	是	1-64个字符，允许字母、中文、数字-_、/（）。
	优先级	是	任务的优先级，支持高优先级、中优先级、低优先级，默认中优先级。对于同一队列中所有排队的负载（包括开发任务、训练任务、数据处理任务），平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行，同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下，先提交的任务先调度。
	描述	否	描述信息，长度0-200个字符。
任务配置	AK/SK	是	访问ks3资源需要填写AK/SK进行授权，同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。点击查看获取方式：获取AK/SK 。
	AppResource	否	任务的程序文件路径。KS3路径形如：`ks3://<存储空间名>` 用户可将任务脚本打包压缩为ZIP包后上传至KS3，通过该参数指定运行，上传操作参见：文件上传。
	Class	是	Java任务的主类，其中包含启动的main函数。
	镜像	否	支持用户使用自定义镜像。用户可在开发机中编写数据处理相关逻辑后保存为镜像，再通过该参数使用Ray分布式执行，操作步骤参见操作与使用开发任务；也可使用用户镜像仓库中的镜像具体操作参见：镜像管理。
	Driver核数	否	任务的Driver核数。
	Driver内存	否	任务的Driver内存。
	Executor数量	否	任务的Executor数量。
	Executor核数	否	任务的Executor核数。
	Executor内存	否	任务的Executor内存。
	ExtraArgs	否	额外参数组，支持添加多条。
	Conf	否	任务的其他参数配置，key1=value1形式填写，支持添加添加多个。
	Jars	否	任务需要引用的Jar包资源，需要上传至KS3，填写KS3路径。
	Files	否	任务需要引用的资源文件，需要上传至KS3，填写KS3路径。。
	PyFiles	否	任务需要引用的Python脚本，需要上传至KS3，填写KS3路径。
	Archives	否	任务需要引用的Archives包资源，需要上传至KS3，填写KS3路径。
	Packages	否	任务需要引用的外部依赖包，需要上传至KS3，填写KS3路径。
	CacheFile	否	用于缓存加速archive资源。
	ProxyUser	否	设置代理用户，实现用户直接的资源隔离和安全授权。
资源配置	资源类型	是	支持使用自运维资源或Serverless计算引擎资源。选择自运维资源，相应的资源组需配置组件。 Serverless计算引擎资源：适用于波动性数据处理需求，该资源按使用量收费，不使用不收费，使用方式参见：创建Serverless 计算引擎工作空间；若使用子账号需完成授权，具体操作参见：子账号授权；
权限配置	是否队列内公开可见	否	默认仅创建者可见，开启队列内公开可见后全队列可见。

数据同步任务

目前仅支持KS3、KPFS（容量型、性能型）之间数据同步。

分类	参数	是否必须	说明
基础信息	任务名称	是	1-64个字符，允许字母、中文、数字-_、/（）。
	优先级	是	任务的优先级，支持高优先级、中优先级、低优先级，默认中优先级。对于同一队列中所有排队的负载（包括开发任务、训练任务、数据处理任务），平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行，同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下，先提交的任务先调度。
	描述	否	描述信息，长度0-200个字符。
任务配置	同步源	是	数据同步的源地址，支持KS3、KPFS。源地址需在星流平台创建为存储配置，具体操作参见存储配置。
任务配置	同步目标	是	同上。
资源配置	资源类型	是	支持使用自运维资源或Serverless计算引擎资源。 Serverless计算引擎资源：适用于波动性数据处理需求，该资源按使用量收费，不使用不收费，使用方式参见：创建Serverless 计算引擎工作空间；若使用子账号需完成授权，具体操作参见：子账号授权；
权限配置	是否队列内公开可见	否	默认仅创建者可见，开启队列内公开可见后全队列可见。

文档导读

上一篇：数据处理

下一篇：管理数据处理任务

纯净模式常规模式

纯净模式

点击可全屏预览文档内容