最近更新时间:2025-09-16 12:08:47
星流平台数据处理模块预置了Spark、Ray等计算框架,支持分布式执行大规模的自定义数据处理任务,提升用户开发效率。
已创建1个及以上通用类型的资源池,资源池具体操作参见资源池,资源池内需安装数据处理组件。
资源池中已创建1个及以上的队列,具体操作参见队列。
建议您在资源池中开启关联托管Prometheus、Klog服务,以便后续查看任务监控及日志。
登录金山云星流训推平台控制台。
在左侧导航栏,选择数据处理。
在数据处理页,单击新建,选择提交的任务类型。
完成参数配置,单击确认,提交运行。
分类 | 参数 | 说明 |
|---|---|---|
基础信息 | 任务名称 | 1-64个字符,允许字母、中文、数字-_、/()。必填。 |
优先级 |
| |
描述 | 描述信息,长度0-200个字符。选填。 | |
任务配置 | AK/SK |
|
Entrypoint.cmd |
| |
镜像 | ||
Head核数 | Ray任务Head节点核数。选填。 | |
Head内存 | Ray任务Head节点内存。选填。 | |
Worker数量 | Ray任务Worker节点数量。选填。 | |
Worker核数 | Ray任务Worker节点核数。选填。 | |
Worker内存 | Ray任务Worker节点内存。选填。 | |
WorkerGPU数量 | Ray任务使用的GPU卡数。选填。 | |
Entrypoint.resource |
| |
Runtime_env |
| |
Conf | Ray任务的其他参数配置,key1=value1形式填写,支持添加添加多个。选填。 | |
Juice Fs | JuiceFs配置,Ray head节点挂载,juiceFs存储卷。选填。 | |
MountPath | 挂载路径。选填。 | |
资源配置 | 资源类型 |
|
权限配置 | 是否队列内公开可见 |
|
分类 | 参数 | 说明 |
|---|---|---|
基础信息 | 任务名称 | 1-64个字符,允许字母、中文、数字-_、/()。必填。 |
优先级 |
| |
描述 | 描述信息,长度0-200个字符。选填。 | |
任务配置 | AK/SK |
|
AppResource |
| |
Class |
| |
镜像 | ||
Driver核数 | 任务的Driver核数。选填。 | |
Driver内存 | 任务的Driver内存。选填。 | |
Executor数量 | 任务的Executor数量。选填。 | |
Executor核数 | 任务的Executor核数。选填。 | |
Executor内存 | 任务的Executor内存。选填。 | |
ExtraArgs | 额外参数组,支持添加多条。选填。 | |
Conf | 任务的其他参数配置,key1=value1形式填写,支持添加添加多个。选填。 | |
Jars | 任务需要引用的Jar包资源,需要上传至KS3,填写KS3路径。选填。 | |
Files | 任务需要引用的资源文件,需要上传至KS3,填写KS3路径。选填。。 | |
PyFiles | 任务需要引用的Python脚本,需要上传至KS3,填写KS3路径。选填。 | |
Archives | 任务需要引用的Archives包资源,需要上传至KS3,填写KS3路径。选填。 | |
Packages | 任务需要引用的外部依赖包,需要上传至KS3,填写KS3路径。选填。 | |
CacheFile | 用于缓存加速archive资源。选填。 | |
ProxyUser | 设置代理用户,实现用户直接的资源隔离和安全授权。选填。 | |
资源配置 | 资源类型 |
|
权限配置 | 是否队列内公开可见 |
|
目前仅支持KS3、KPFS(容量型)之间数据同步。
分类 | 参数 | 说明 |
|---|---|---|
基础信息 | 任务名称 | 1-64个字符,允许字母、中文、数字-_、/()。必填。 |
优先级 |
| |
描述 | 描述信息,长度0-200个字符。选填。 | |
任务配置 | 同步源 |
|
同步目标 | 同上。 | |
资源配置 | 资源类型 |
|
权限配置 | 是否队列内公开可见 |
|
纯净模式
