金山云-文档中心-训练任务（Llama3）

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

实践教程

Llama3 大语言模型的训练

最近更新时间：2026-01-23 16:27:37



背景介绍

Llama（Large Language Model Meta AI）是由 Meta 公司推出的开源大语言模型，Llama3 是 Llama 系列的最新版本。本文将介绍如何使用星流平台完成一个 Llama3 模型的训练。

前置准备

确认已有可用的资源池和队列

模型训练

新建训练任务

选择有资源的可用区，点击新建训练任务

配置任务参数

选择镜像

在官方镜像中找到 llama3-train-demo 这个示例专用镜像

设置启动命令

注意：如果用户需要重定向任务输出到自定义存储目录，建议使用`tee `指令，避免由于重定向导致平台无法收集日志

任务启动命令支持多行输入，需要与在宿主机执行相同任务脚本的指令保持一致
支持用户手动记录日志参数（如tee /log/task_$PET_NODE_RANK.log）
- 此处task_$PET_NODE_RANK.log使用了平台预设环境变量，会在用户指定目录下每个Rank创建一个独立的日志
在平台中执行pytorch分布式任务需要使用以下环境变量，请在训练脚本中配置
- PET_MASTER_PORT 当前任务Master节点的端口
- PET_MASTER_ADDR 当前任务Master节点的地址
- PET_NODE_RANK 当前节点在所有节点中排序
- PET_NNODES 当前任务使用节点总数
- PET_NPROC_PER_NODE 当前任务容器GPU数

#指令样例
cd /workspace/Pai-Megatron-Patch-240405/
export PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python 
bash /workspace/Pai-Megatron-Patch-240405/examples/llama3/run_kai.sh.wl 8B 3 128 1 1 16 INFO None bond0 4  2>&1 | tee /mnt/Pai-Megatron-Patch-240405/task_$PET_NODE_RANK.log

挂载存储（可选）

为了简化流程，本示例内置了数据集和代码，不需要挂载存储。在真实生产场景中，通常会将数据集、代码、checkpoint 等数据都以存储配置的方式挂载。

如需挂载存储，请确保启动命令中使用的脚本执行目录与存储配置中的挂载路径保持一致，避免路径错误导致脚本执行失败。如果任务执行失败可通过日志查看原因，如果挂载失败会提示路径找不到。

项目目录可通过高级设置/代码挂载框进行挂载
选择预先在AI资产管理/存储配置中完成创建的存储配置
存储配置中的项目目录会挂载到预先设置的挂载路径下

设置环境变量

环境变量用于控制训练任务执行期间相关库的执行行为（如输出NCCL通讯库的日志信息）

ENV_TENSORBOARD_DIR=/mnt/tensorboard #设置tensorboard
NCCL_DEBUG=WARN
NCCL_DEBUG_SUBSYS=ALL
NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1,
NCCL_SOCKET_IFNAME=bond0
UCX_NET_DEVICES=bond0
NCCL_IB_GID_INDEX=3
NCCL_DEBUG_FILE=/mnt/Pai-Megatron-Patch-240405/nccl_debug_file.%h.%p