全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

训练任务快速入门

最近更新时间:2026-04-01 11:56:52

以训练Llama3模型为例,本文主要介绍如何快速使用星流平台的训练任务。

前提条件

已完成星流平台前置操作指引,相关依赖资源,如VPC网络、子网、对象存储KS3等,已创建完成。

准备工作

创建资源组

  1. 登录星流平台,在顶部导航栏,选择 训推与仿真 > 资源管理 > 资源组

  2. 在资源组管理界面,点击 +新建

  3. 根据以下要求配置各项参数,点击 立即购买

    • 资源组名称:用户自定义,根据实际情况填写。

    • 资源配置:本示例中需选择GPU资源的机型或集群,以便后续操作。

    • 其他参数根据实际情况进行选择即可。

创建队列

  1. 在左侧导航栏,选择 队列

  2. 在队列管理页面,点击 +新建

  3. 根据以下要求配置各项参数,点击 确定

    • 队列名称:用户自定义,根据实际情况填写。

    • 资源池:选择上述步骤中已创建好的资源组。

    • 资源规格GPU类型,选择可用的GPU,设置卡数为16,以便后续训练模型使用,CPU核数和内存,根据实际情况设定即可。此处,GPU的卡数要大于等于实际任务所需的总GPU数。

    • 其他参数根据实际情况进行选择即可。

创建存储配置(可选)

若需要开启TensorBoard,则需配置相应存储。

  1. 在左侧导航栏,选择 公共资产管理 > 存储配置

  2. 选择 KS3存储配置 页签,点击 +新建,根据以下要求配置各项参数。

    • 存储配置名称:用户自定义,根据实际情况填写。

    • 存储类型:选择 KS3

    • AK/SK:填写当前账号的密钥信息,具体获取方式可参考访问控制相关内容

    • 选择KS3实例:选择平台上已有的实例即可,若无,可点击 新建KS3 进行创建

    • KS3路径:根据实际情况填写,本示例 /TensorBoard

    • 挂载路径:后续训练任务配置实验记录时,TensorBoard查看相关训练指标的路径,本示例使用 /mnt/tensorboard 与后续训练任务的环境变量的设置保持一致。

    • 其他参数根据实际情况进行填写。

  3. 点击确定,完成存储配置的创建。

操作步骤

新建训练任务

  1. 在左侧导航栏,选择 训练任务

  2. 在训练任务管理页面,点击 +新建

  3. 根据如下要求配置各项参数,点击 确定,等待训练任务状态转为运行中。

    • 任务名称:用户自定义,根据实际情况填写。

    • 镜像类型:选择 官方镜像

    • 镜像:选择名为 llama3-train-demoPython版本3.10CUDA版本12.3的镜像。

    • 启动命令:按照如下内容填写。

      #指令样例
      cd /workspace/Pai-Megatron-Patch-240405/
      export PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python 
      bash /workspace/Pai-Megatron-Patch-240405/examples/llama3/run_kai.sh.wl 8B 3 128 1 1 16 INFO None bond0 4  2>&1 | tee /mnt/Pai-Megatron-Patch-240405/task_$PET_NODE_RANK.log
    • 环境变量:按照以下内容配置。

      ENV_TENSORBOARD_DIR=/mnt/tensorboard #设置tensorboard
      NCCL_DEBUG=WARN
      NCCL_DEBUG_SUBSYS=ALL
      NCCL_IB_HCA=mlx5_0:1,mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1,mlx5_5:1,mlx5_6:1,mlx5_7:1,
      NCCL_SOCKET_IFNAME=bond0
      UCX_NET_DEVICES=bond0
      NCCL_IB_GID_INDEX=3
      NCCL_DEBUG_FILE=/mnt/Pai-Megatron-Patch-240405/nccl_debug_file.%h.%p
    • 资源组:选择准备工作中提前创建好的资源组。

    • 队列:选择准备工作中提前创建好的队列。

    • 训练框架:选择 pytorch

    • 任务资源:Master副本数默认为1,设置Worker副本数为1,GPU卡数设置为8,其他资源数根据实际情况设置。

      当前任务所需的总GPU数=(Master数+Worker数)x GPU卡数

    • 挂载配置(可选):若准备工作中,创建了存储配置,则可勾选开启 TensorBoard,并选择 对象存储KS3,选择前文操作中提前创建的KS3,并设置挂载路径为 /mnt/tensorboard,即与环境变量参数中设置的一样。

    • 其他参数根据实际情况进行设置或保持默认。

查看训练结果

  1. 在训练任务列表界面,点击相应的任务名称,进入其详情页面。

  2. 概览 页签,下拉页面至实例区域,点击指定实例操作列中的 进入容器

  3. 执行如下命令可查看相关日志。

查看TensorBoard(若开启)

若前文步骤中的所有可选操作均已完成,则可查看相应训练任务的TensorBoard

  1. 在训练任务列表界面,点击相应的任务操作列中的 TensorBoard,进入相应看板。

  2. 即可查看当前任务中的监控数据。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈