全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

数据处理

最近更新时间:2025-09-16 12:08:47

星流平台数据处理模块预置了Spark、Ray等计算框架,支持分布式执行大规模的自定义数据处理任务,提升用户开发效率。

前提

  1. 已创建1个及以上通用类型的资源池,资源池具体操作参见资源池,资源池内需安装数据处理组件

  2. 资源池中已创建1个及以上的队列,具体操作参见队列

  3. 建议您在资源池中开启关联托管Prometheus、Klog服务,以便后续查看任务监控及日志。

操作步骤

  1. 登录金山云星流训推平台控制台

  2. 在左侧导航栏,选择数据处理。

  3. 在数据处理页,单击新建,选择提交的任务类型。

  4. 完成参数配置,单击确认,提交运行。

任务参数

Ray任务

分类

参数

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。必填

优先级

  • 任务的优先级,必填

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。选填

任务配置

AK/SK

  • 访问ks3资源需要填写AK/SK进行授权,同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。必填

  • 点击查看获取方式:获取AK/SK 。

Entrypoint.cmd

  • 任务的启动命令。必填

  • 如:python long-run.py

镜像

  • 支持用户使用自定义镜像。选填

  • 用户可在开发机中编写数据处理相关逻辑后保存为镜像,再通过该参数使用Ray分布式执行,操作步骤参见操作与使用开发任务;也可使用用户镜像仓库中的镜像具体操作参见:镜像管理

Head核数

Ray任务Head节点核数。选填

Head内存

Ray任务Head节点内存。选填

Worker数量

Ray任务Worker节点数量。选填

Worker核数

Ray任务Worker节点核数。选填

Worker内存

Ray任务Worker节点内存。选填

WorkerGPU数量

Ray任务使用的GPU卡数。选填

Entrypoint.resource

  • Ray任务的程序文件路径。选填

  • 用户可将任务脚本打包压缩为ZIP包后上传至KS3,通过该参数指定运行,上传操作参见:文件上传

  • 注意:ks3路径需填写为:s3://xxx/xxxx/xxx.zip

Runtime_env

  • Ray任务运行环境配置,如依赖、环境配置、工作目录等,需填写为json格式。选填

  • 如:{

    "working_dir": "s3://bigdata/job/ksyun-ray-demo.zip"

    }

Conf

Ray任务的其他参数配置,key1=value1形式填写,支持添加添加多个。选填

Juice Fs

JuiceFs配置,Ray head节点挂载,juiceFs存储卷。选填

MountPath

挂载路径。选填

资源配置

资源类型

  • 支持使用星流通用资源或Serverless计算引擎资源。必填

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。选填

Spark任务

分类

参数

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。必填

优先级

  • 任务的优先级,必填

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。选填

任务配置

AK/SK

  • 访问ks3资源需要填写AK/SK进行授权,同时需要确保输入的AK/SK拥有对应KS3 Bucket的读写权限。必填

  • 点击查看获取方式:获取AK/SK 。

AppResource

  • 任务的程序文件路径。选填

  • 用户可将任务脚本打包压缩为ZIP包后上传至KS3,通过该参数指定运行,上传操作参见:文件上传

Class

  • Java任务的主类,其中包含启动的main函数。必填

镜像

  • 支持用户使用自定义镜像。选填

  • 用户可在开发机中编写数据处理相关逻辑后保存为镜像,再通过该参数使用Ray分布式执行,操作步骤参见操作与使用开发任务;也可使用用户镜像仓库中的镜像具体操作参见:镜像管理

Driver核数

任务的Driver核数。选填

Driver内存

任务的Driver内存。选填

Executor数量

任务的Executor数量。选填

Executor核数

任务的Executor核数。选填

Executor内存

任务的Executor内存。选填

ExtraArgs

额外参数组,支持添加多条。选填

Conf

任务的其他参数配置,key1=value1形式填写,支持添加添加多个。选填

Jars

任务需要引用的Jar包资源,需要上传至KS3,填写KS3路径。选填

Files

任务需要引用的资源文件,需要上传至KS3,填写KS3路径。选填。。

PyFiles

任务需要引用的Python脚本,需要上传至KS3,填写KS3路径。选填

Archives

任务需要引用的Archives包资源,需要上传至KS3,填写KS3路径。选填

Packages

任务需要引用的外部依赖包,需要上传至KS3,填写KS3路径。选填

CacheFile

用于缓存加速archive资源。选填

ProxyUser

设置代理用户,实现用户直接的资源隔离和安全授权。选填

资源配置

资源类型

  • 支持使用星流通用资源或Serverless计算引擎资源。必填

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。选填

数据同步任务

目前仅支持KS3、KPFS(容量型)之间数据同步。

分类

参数

说明

基础信息

任务名称

1-64个字符,允许字母、中文、数字-_、/()。必填

优先级

  • 任务的优先级,必填

  • 支持高优先级、中优先级、低优先级,默认中优先级。

  • 对于同一队列中所有排队的负载(包括开发任务、训练任务、数据处理任务),平台会尝试根据优先级从高到低、创建时间从早到晚的顺序调度运行,同时结合实际的资源情况决定最终的调度顺序。基本保证在资源充足、相同优先级下,先提交的任务先调度。

描述

描述信息,长度0-200个字符。选填

任务配置

同步源

  • 数据同步的源地址,支持KS3、KPFS(容量型)。必填

  • 源地址需在星流平台创建为存储配置,具体操作参见存储配置

同步目标

同上。

资源配置

资源类型

  • 支持使用星流通用资源或Serverless计算引擎资源。必填

  • Serverless计算引擎资源:适用于波动性数据处理需求,该资源按使用量收费,不使用不收费,使用方式参见:创建Serverless 计算引擎工作空间;若使用子账号需完成授权,具体操作参见:子账号授权

权限配置

是否队列内公开可见

  • 默认仅创建者可见,开启队列内公开可见后全队列可见 。选填

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈