最近更新时间:2026-04-01 11:56:52
以训练Llama3模型为例,本文主要介绍如何快速使用星流平台的训练任务。
已完成星流平台前置操作指引,相关依赖资源,如VPC网络、子网、对象存储KS3等,已创建完成。
登录星流平台,在顶部导航栏,选择 训推与仿真 > 资源管理 > 资源组。
在资源组管理界面,点击 +新建。
根据以下要求配置各项参数,点击 立即购买。
资源组名称:用户自定义,根据实际情况填写。
资源配置:本示例中需选择GPU资源的机型或集群,以便后续操作。
其他参数根据实际情况进行选择即可。
在左侧导航栏,选择 队列。
在队列管理页面,点击 +新建。
根据以下要求配置各项参数,点击 确定。
队列名称:用户自定义,根据实际情况填写。
资源池:选择上述步骤中已创建好的资源组。
资源规格:GPU类型,选择可用的GPU,设置卡数为16,以便后续训练模型使用,CPU核数和内存,根据实际情况设定即可。此处,GPU的卡数要大于等于实际任务所需的总GPU数。
其他参数根据实际情况进行选择即可。
若需要开启TensorBoard,则需配置相应存储。
在左侧导航栏,选择 公共资产管理 > 存储配置。
选择 KS3存储配置 页签,点击 +新建,根据以下要求配置各项参数。
存储配置名称:用户自定义,根据实际情况填写。
存储类型:选择 KS3。
AK/SK:填写当前账号的密钥信息,具体获取方式可参考访问控制相关内容。
选择KS3实例:选择平台上已有的实例即可,若无,可点击 新建KS3 进行创建。
KS3路径:根据实际情况填写,本示例 /TensorBoard。
挂载路径:后续训练任务配置实验记录时,TensorBoard查看相关训练指标的路径,本示例使用 /mnt/tensorboard 与后续训练任务的环境变量的设置保持一致。
其他参数根据实际情况进行填写。
点击确定,完成存储配置的创建。
在左侧导航栏,选择 训练任务。
在训练任务管理页面,点击 +新建。
根据如下要求配置各项参数,点击 确定,等待训练任务状态转为运行中。
任务名称:用户自定义,根据实际情况填写。
镜像类型:选择 官方镜像。
镜像:选择名为 llama3-train-demo,Python版本为3.10,CUDA版本为12.3的镜像。
启动命令:按照如下内容填写。
#指令样例
cd /workspace/Pai-Megatron-Patch-240405/
export PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python
bash /workspace/Pai-Megatron-Patch-240405/examples/llama3/run_kai.sh.wl 8B 3 128 1 1 16 INFO None bond0 4 2>&1 | tee /mnt/Pai-Megatron-Patch-240405/task_$PET_NODE_RANK.log环境变量:按照以下内容配置。
ENV_TENSORBOARD_DIR=/mnt/tensorboard #设置tensorboard
NCCL_DEBUG=WARN
NCCL_DEBUG_SUBSYS=ALL
NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1,
NCCL_SOCKET_IFNAME=bond0
UCX_NET_DEVICES=bond0
NCCL_IB_GID_INDEX=3
NCCL_DEBUG_FILE=/mnt/Pai-Megatron-Patch-240405/nccl_debug_file.%h.%p资源组:选择准备工作中提前创建好的资源组。
队列:选择准备工作中提前创建好的队列。
训练框架:选择 pytorch。
任务资源:Master副本数默认为1,设置Worker副本数为1,GPU卡数设置为8,其他资源数根据实际情况设置。
当前任务所需的总GPU数=(Master数+Worker数)x GPU卡数
挂载配置(可选):若准备工作中,创建了存储配置,则可勾选开启 TensorBoard,并选择 对象存储KS3,选择前文操作中提前创建的KS3,并设置挂载路径为 /mnt/tensorboard,即与环境变量参数中设置的一样。
其他参数根据实际情况进行设置或保持默认。
若前文步骤中的所有可选操作均已完成,则可查看相应训练任务的TensorBoard。
纯净模式
