全部文档
当前文档

共搜索到 0 条结果

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

创建数据处理任务

最近更新时间:2026-05-20 16:38:29

星流平台数据处理模块预置了Spark、Ray等计算框架,支持分布式执行大规模的自定义数据处理任务,提升用户开发效率。

前提条件

  • 已创建相应资源配置。

    • 自运维资源:1个及以上通用类型的资源组队列,且资源组内须安装数据处理组件。具体操作参见资源组队列

    • Serverless计算引擎:提前创建可用的工作空间

  • 建议您在资源组中开启关联托管Prometheus、Klog服务,以便后续查看任务监控及日志。

操作步骤

  1. 登录金山云星流训推平台控制台

  2. 在顶部导航栏,选择数据准备 > 数据处理

  3. 在数据处理页,单击+新建,选择提交的任务类型。目前支持Spark任务Ray任务Flink任务数据同步任务

  4. 参考以下参数说明,完成参数配置,单击确定,提交运行。

任务参数

Ray任务

分类

参数

是否必须

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。

优先级

  • 任务的优先级,

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。

任务配置

AK/SK

  • 访问ks3资源需要填写AK/SK进行授权,同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。

  • 点击查看获取方式:获取AK/SK 。

Entrypoint.cmd

  • 任务的启动命令。

  • 如:python long-run.py

镜像

  • 支持用户使用自定义镜像。

  • 用户可在开发机中编写数据处理相关逻辑后保存为镜像,再通过该参数使用Ray分布式执行,操作步骤参见操作与使用开发任务;也可使用用户镜像仓库中的镜像具体操作参见:镜像管理

Head核数

Ray任务Head节点核数。

Head内存

Ray任务Head节点内存。

Worker数量

Ray任务Worker节点数量。

Worker核数

Ray任务Worker节点核数。

Worker内存

Ray任务Worker节点内存。

WorkerGPU数量

Ray任务使用的GPU卡数。

Entrypoint.resource

  • Ray任务的程序文件路径。

  • 用户可将任务脚本打包压缩为ZIP包后上传至KS3,通过该参数指定运行,上传操作参见:文件上传

  • 注意:ks3路径需填写为:s3://xxx/xxxx/xxx.zip

Runtime_env

  • Ray任务运行环境配置,如依赖、环境配置、工作目录等,需填写为json格式。

  • 如:{

"working_dir": "s3://bigdata/job/ksyun-ray-demo.zip"

}

Conf

Ray任务的其他参数配置,key1=value1形式填写,支持添加添加多个。

Juice Fs

JuiceFs配置,Ray head节点挂载,juiceFs存储卷。

MountPath

挂载路径。

资源配置

资源类型

支持使用自运维资源Serverless计算引擎资源

  • 选择自运维资源,相应的资源组需配置组件

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。

Spark任务

分类

参数

是否必须

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。

优先级

  • 任务的优先级,

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。

任务配置

AK/SK

  • 访问ks3资源需要填写AK/SK进行授权,同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。

  • 点击查看获取方式:获取AK/SK 。

AppResource

  • 任务的程序文件路径。KS3路径形如:ks3://<存储空间名>

  • 用户可将任务脚本打包压缩为ZIP包后上传至KS3,通过该参数指定运行,上传操作参见:文件上传

Class

  • Java任务的主类,其中包含启动的main函数。

镜像

  • 支持用户使用自定义镜像。

  • 用户可在开发机中编写数据处理相关逻辑后保存为镜像,再通过该参数使用Ray分布式执行,操作步骤参见操作与使用开发任务;也可使用用户镜像仓库中的镜像具体操作参见:镜像管理

Driver核数

任务的Driver核数。

Driver内存

任务的Driver内存。

Executor数量

任务的Executor数量。

Executor核数

任务的Executor核数。

Executor内存

任务的Executor内存。

ExtraArgs

额外参数组,支持添加多条。

Conf

任务的其他参数配置,key1=value1形式填写,支持添加添加多个。

Jars

任务需要引用的Jar包资源,需要上传至KS3,填写KS3路径。

Files

任务需要引用的资源文件,需要上传至KS3,填写KS3路径。。

PyFiles

任务需要引用的Python脚本,需要上传至KS3,填写KS3路径。

Archives

任务需要引用的Archives包资源,需要上传至KS3,填写KS3路径。

Packages

任务需要引用的外部依赖包,需要上传至KS3,填写KS3路径。

CacheFile

用于缓存加速archive资源。

ProxyUser

设置代理用户,实现用户直接的资源隔离和安全授权。

资源配置

资源类型

支持使用自运维资源Serverless计算引擎资源

  • 选择自运维资源,相应的资源组需配置组件

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。

数据同步任务

目前仅支持KS3、KPFS(容量型、性能型)之间数据同步。

分类

参数

是否必须

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。

优先级

  • 任务的优先级,

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。

任务配置

同步源

  • 数据同步的源地址,支持KS3、KPFS。

  • 源地址需在星流平台创建为存储配置,具体操作参见存储配置

同步目标

同上。

资源配置

资源类型

  • 支持使用自运维资源或Serverless计算引擎资源。

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈