最近更新时间:2025-08-27 19:27:30
首次使用星流平台必读,当您使用关联KCE集群方式创建资源池,请参考本文内容进行创建任务前的权限与资源准备流程
主账号:主账号可以进行所有操作,无须额外授权。
子账号:需要主账号授予必要的权限才可以执行相应操作,您可以根据业务权限管控需求,为子账号授予以下可选权限。
权限类型 | 描述 |
AICPFullAccess | 包含AICP、KCE、KEC、EPC、VPC等所有权限,适合授予平台管理员。 |
AICPMemberAccess | 包含星流平台业务开发所需权限,适合授予开发人员。 |
AICPConsoleReadOnlyAccess | 包含星流平台控制台的只读权限,适合授予协作观察者。 |
在星流平台中会用到如下关联产品,您可在后续创建对应资源的流程中完成对应服务授权。
关联产品 | 是否必须 | 产品用途 |
|---|---|---|
虚拟私有网络(VPC) | 必须 | 用于为资源池节点、训推任务、关联服务划分私有网段 |
裸金属服务器 | 可选 | 您可选择裸金属服务器作为底层算力资源 |
GPU云服务器 | 可选 | 您可选择GPU云服务器作为底层算力资源 |
容器服务(KCE) | 必须 | 星流平台中任务编排调度、可观测性、故障自愈等能力在容器集群之上构建 |
容器镜像服务(KCR) | 建议 | 用于保存用户自定义镜像,以及开发任务自动保存镜像将存至个人版仓库实例 |
文件存储(KPFS) | 可选 | 您可选择使用文件存储存放数据集/代码/模型等数据 |
对象存储(KS3) | 可选 | 您可选择使用对象存储存放数据集/代码/模型等数据 |
日志服务(Klog) | 建议 | 用于持久化存储任务日志 |
托管prometheus | 建议 | 用于任务监控数据存储与展示 |
服务角色授权,账号开启MFA认证的情况下授权需要MFA验证。
详情参考创建虚拟私有网络
创建云服务器子网
创建裸金属子网
创建终端子网
创建安全组,根据实际需求修改安全组配置,可参考容器服务推荐安全组配置
如使用GM402/403等机型,需创建禁止访问公网的裸金属子网
若您使用裸金属服务器作为底层算力资源,请创建裸金属服务器资源;详情参考创建GPU裸金属服务器
1、若您有自定义镜像需求,请提前联系金山云相关人员
2、若您使用自定义镜像装机,装机镜像cuda版本尽量保证在12.4及以上
3、创建裸金属时,需勾选开启云监控和容器Agent
若您使用GPU云服务器作为底层算力资源,请创建GPU云服务器资源;详情参考创建GPU云服务器实例
详情参考创建集群
配置Pod CIDR/Service CIDR时,请保证所选网段与您所用的其他私有网段不冲突
集群创建完成后,将所用裸金属服务器/云服务器添加至集群中,具体操作可参考添加裸金属服务器,添加已有节点
1、若您使用的云服务器镜像中未包含GPU驱动,可在GPU云服务器加入集群后,再登录GPU云服务器安装所需驱动
若您在进行开发任务时有自动保存镜像需求,或需使用自定义镜像进行任务拉起,请先创建容器镜像仓库实例。
您可按需选择使用个人版或企业版仓库实例,两种仓库差异可参考 镜像服务产品概述,完成仓库实例创建后即可进行自定义镜像上传。
Tips:
自定义镜像上传常用操作:
若使用企业版镜像仓库,需创建内网访问链路,详情参考配置内网访问
详情参考创建文件系统
Tips:
使用KPFS性能型时,需进行如下准备工作
性能型文件系统需要登录裸金属服务器安装posix客户端,详情参考KPFS快速上手
在KPFS控制台为文件系统配置sroce ip授权,详情参考客户端访问授权
性能型KPFS需登录机器,挂载文件系统后创建文件目录
Klog用于任务日志持久化存储,便于您排查任务运行异常的详细原因;详情参考创建工程
托管prometheus用于任务监控,便于您观察任务对应的GPU资源使用情况;详情参考实例管理
通过资源池关联上述资源,开始在星流平台使用对应产品能力,运行训推任务。
通过队列分配资源配额与子用户权限,为多用户创建任务进行资源划分。
通过存储配置将存储系统内目录注册至平台并授予子用户合理权限,便于在平台任务中进行挂载和权限限制。
通过镜像管理将仓库中上传的镜像注册至平台并配置镜像可用范围,详情参考镜像管理。
完成上述准备工作后,即可开始在星流平台的任务管理。
纯净模式
