金山云-文档中心-训练任务快速入门

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

快速入门

训练任务快速入门

最近更新时间：2026-06-16 10:53:18



以训练Llama3模型为例，本文主要介绍如何快速使用星流平台的训练任务。

前提条件

已完成星流平台前置操作指引，相关依赖资源，如VPC网络、子网、对象存储KS3等，已创建完成。

准备工作

创建资源组

登录星流平台，在顶部导航栏，选择 训推与仿真 > 资源管理 > 资源组。
在资源组管理界面，点击 +新建。
根据以下要求配置各项参数，点击 立即购买。
- 资源组名称：用户自定义，根据实际情况填写。
- 资源配置：本示例中需选择GPU资源的机型或集群，以便后续操作。
- 其他参数根据实际情况进行选择即可。

创建队列

在左侧导航栏，选择队列。
在队列管理页面，点击 +新建。
根据以下要求配置各项参数，点击确定。
- 队列名称：用户自定义，根据实际情况填写。
- 资源池：选择上述步骤中已创建好的资源组。
- 资源规格：GPU类型，选择可用的GPU，设置卡数为16，以便后续训练模型使用，CPU核数和内存，根据实际情况设定即可。此处，GPU的卡数要大于等于实际任务所需的总GPU数。
- 其他参数根据实际情况进行选择即可。

创建存储配置（可选）

若需要开启TensorBoard，则需配置相应存储。

在左侧导航栏，选择 公共资产管理 > 存储配置。
选择 KS3存储配置 页签，点击 +新建，根据以下要求配置各项参数。
- 存储配置名称：用户自定义，根据实际情况填写。
- 存储类型：选择 KS3。
- AK/SK：填写当前账号的密钥信息，具体获取方式可参考访问控制相关内容。
- 选择KS3实例：选择平台上已有的实例即可，若无，可点击 新建KS3 进行创建。
- KS3路径：根据实际情况填写，本示例 /TensorBoard。
- 挂载路径：后续训练任务配置实验记录时，TensorBoard查看相关训练指标的路径，本示例使用 /mnt/tensorboard 与后续训练任务的环境变量的设置保持一致。
- 其他参数根据实际情况进行填写。
点击确定，完成存储配置的创建。

操作步骤

新建训练任务

在左侧导航栏，选择 训练任务。
在训练任务管理页面，点击 +新建。
根据如下要求配置各项参数，点击确定，等待训练任务状态转为运行中。
- 任务名称：用户自定义，根据实际情况填写。
- 镜像类型：选择 官方镜像。
- 镜像：选择名为 llama3-train-demo，Python版本为3.10，CUDA版本为12.3的镜像。
- 启动命令：按照如下内容填写。
```
#指令样例
cd /workspace/Pai-Megatron-Patch-240405/
export PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python 
bash /workspace/Pai-Megatron-Patch-240405/examples/llama3/run_kai.sh.wl 8B 3 128 1 1 16 INFO None bond0 4  2>&1 | tee /mnt/Pai-Megatron-Patch-240405/task_$PET_NODE_RANK.log
```
- 环境变量：按照以下内容配置。
```
ENV_TENSORBOARD_DIR=/mnt/tensorboard #设置tensorboard
NCCL_DEBUG=WARN
NCCL_DEBUG_SUBSYS=ALL
NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1,
NCCL_SOCKET_IFNAME=bond0
UCX_NET_DEVICES=bond0
NCCL_IB_GID_INDEX=3
NCCL_DEBUG_FILE=/mnt/Pai-Megatron-Patch-240405/nccl_debug_file.%h.%p
```
- 资源组：选择准备工作中提前创建好的资源组。
- 队列：选择准备工作中提前创建好的队列。
- 训练框架：选择 pytorch。
- 任务资源：Master副本数默认为1，设置Worker副本数为1，GPU卡数设置为8，其他资源数根据实际情况设置。
  当前任务所需的总GPU数=（Master数+Worker数）x GPU卡数
- 挂载配置（可选）：若准备工作中，创建了存储配置，则可勾选开启 TensorBoard，并选择 对象存储KS3，选择前文操作中提前创建的KS3，并设置挂载路径为 /mnt/tensorboard，即与环境变量参数中设置的一样。
- 其他参数根据实际情况进行设置或保持默认。