全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

星流平台前置操作指引

最近更新时间:2025-08-27 19:27:30

首次使用星流平台必读,当您使用关联KCE集群方式创建资源池,请参考本文内容进行创建任务前的权限与资源准备流程

Step1:授予子用户系统策略权限

星流平台权限

  1. 主账号:主账号可以进行所有操作,无须额外授权。

  2. 子账号:需要主账号授予必要的权限才可以执行相应操作,您可以根据业务权限管控需求,为子账号授予以下可选权限。

权限类型

描述

AICPFullAccess

包含AICP、KCE、KEC、EPC、VPC等所有权限,适合授予平台管理员。

AICPMemberAccess

包含星流平台业务开发所需权限,适合授予开发人员。

AICPConsoleReadOnlyAccess

包含星流平台控制台的只读权限,适合授予协作观察者。

其他服务权限

在星流平台中会用到如下关联产品,您可在后续创建对应资源的流程中完成对应服务授权。

关联产品

是否必须

产品用途

虚拟私有网络(VPC)

必须

用于为资源池节点、训推任务、关联服务划分私有网段

裸金属服务器

可选

您可选择裸金属服务器作为底层算力资源

GPU云服务器

可选

您可选择GPU云服务器作为底层算力资源

容器服务(KCE)

必须

星流平台中任务编排调度、可观测性、故障自愈等能力在容器集群之上构建

容器镜像服务(KCR)

建议

用于保存用户自定义镜像,以及开发任务自动保存镜像将存至个人版仓库实例

文件存储(KPFS)

可选

您可选择使用文件存储存放数据集/代码/模型等数据

对象存储(KS3)

可选

您可选择使用对象存储存放数据集/代码/模型等数据

日志服务(Klog)

建议

用于持久化存储任务日志

托管prometheus

建议

用于任务监控数据存储与展示

服务角色授权,账号开启MFA认证的情况下授权需要MFA验证。

Step2:创建依赖资源

一、【必须】创建VPC

详情参考创建虚拟私有网络

二、【必须】创建子网

  1. 创建云服务器子网

  2. 创建裸金属子网

  3. 创建终端子网

  4. 创建安全组,根据实际需求修改安全组配置,可参考容器服务推荐安全组配置

如使用GM402/403等机型,需创建禁止访问公网的裸金属子网

三、【可选】创建裸金属服务器

若您使用裸金属服务器作为底层算力资源,请创建裸金属服务器资源;详情参考创建GPU裸金属服务器

1、若您有自定义镜像需求,请提前联系金山云相关人员

2、若您使用自定义镜像装机,装机镜像cuda版本尽量保证在12.4及以上

3、创建裸金属时,需勾选开启云监控和容器Agent

四、【可选】创建GPU云服务器

若您使用GPU云服务器作为底层算力资源,请创建GPU云服务器资源;详情参考创建GPU云服务器实例

五、【必须】创建容器集群

详情参考创建集群

配置Pod CIDR/Service CIDR时,请保证所选网段与您所用的其他私有网段不冲突

六、【必须】添加节点至集群

集群创建完成后,将所用裸金属服务器/云服务器添加至集群中,具体操作可参考添加裸金属服务器,添加已有节点

1、若您使用的云服务器镜像中未包含GPU驱动,可在GPU云服务器加入集群后,再登录GPU云服务器安装所需驱动

六、【建议】创建容器镜像服务

若您在进行开发任务时有自动保存镜像需求,或需使用自定义镜像进行任务拉起,请先创建容器镜像仓库实例。

您可按需选择使用个人版或企业版仓库实例,两种仓库差异可参考 镜像服务产品概述,完成仓库实例创建后即可进行自定义镜像上传。

Tips:

  • 初次使用个人版镜像仓库时,需在对应region配置用户名密码

  • 完成个人版镜像仓库配置后,可在星流平台AI资产管理-镜像管理中配置或更新用户名密码,用于后续保存自定义镜像及自动保存镜像

  • 自定义镜像上传常用操作:

  • 若使用企业版镜像仓库,需创建内网访问链路,详情参考配置内网访问

七、【可选】创建KPFS

详情参考创建文件系统

Tips:

使用KPFS性能型时,需进行如下准备工作

  • 性能型文件系统需要登录裸金属服务器安装posix客户端,详情参考KPFS快速上手

  • 在KPFS控制台为文件系统配置sroce ip授权,详情参考客户端访问授权

  • 性能型KPFS需登录机器,挂载文件系统后创建文件目录

八、【可选】创建KS3

详情参考开通KS3服务创建存储空间

九、【建议】创建Klog工程

Klog用于任务日志持久化存储,便于您排查任务运行异常的详细原因;详情参考创建工程

十、【建议】创建托管prometheus

托管prometheus用于任务监控,便于您观察任务对应的GPU资源使用情况;详情参考实例管理

Step3:使用星流平台

一、创建资源池

通过资源池关联上述资源,开始在星流平台使用对应产品能力,运行训推任务。

二、创建队列

通过队列分配资源配额与子用户权限,为多用户创建任务进行资源划分。

三、创建存储配置

通过存储配置将存储系统内目录注册至平台并授予子用户合理权限,便于在平台任务中进行挂载和权限限制。

  1. 创建KPFS存储配置

  2. 创建KS3存储配置

四、创建自定义镜像

通过镜像管理将仓库中上传的镜像注册至平台并配置镜像可用范围,详情参考镜像管理。

完成上述准备工作后,即可开始在星流平台的任务管理。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈