全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

组件概述

最近更新时间:2025-09-17 15:53:34

云原生AI套件基于KCE容器服务,提供独立的组件管理页面,支持统一管理 AI 套件相关组件的配置更新、卸载、升级等操作。本文介绍云原生AI套件的配置项及配置项对应的核心组件。

使用前提

已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。

组件介绍

您可以登录容器服务管理控制台,在云原生AI页面,单击一键部署,然后在部署页面,按需选中相应的组件。

组件名称

作用

相关文档

异构资源管理

GPU-Device-Plugin

AI 套件中的 GPU 设备管理组件,为面向 AI 业务的 IaaS 层的 NVIDIA GPU 资源,提供统一的 Kubernetes 原生接入和管理能力。

仅支持容器独占单GPU卡。

-

HAMi-vGPU

AI套件中负责GPU虚拟化的组件,支持单GPU节点多容器间的显存、算力隔离能力。

需配合KCE-Volcano组合使用。

-

RDMA-Shared-Device-Plugin

AI套件中的RDMA(Remote Direct Memory Access)设备管理组件,提供容器间通过跨主机RDMA网络传输数据的能力。

-

KCE-RoCE

AI套件中负责CNI插件的部署、配置与维护,实现Pod间通信可使用RoCE网络,提升AI场景中任务间通信效率,KCE-RoCE提供以下两种CNI:

  • MacVlan-CNI:在物理网卡上创建虚拟接口分配给容器使用,在宿主机和容器内均可见对应接口;物理网卡可同时被多个容器使用,存在一定扰邻问题,适合提升资源利用率且对网络性能较高共享物理网卡的多Pod场景。

  • HostDevice-CNI:将物理网卡透传至容器内,在宿主机上已分配的网卡将不可见且无法使用;使用HostDevice-CNI后,物理网卡仅会被一个容器使用,适合对网络性能有极高要求场景使用(如AI训练、高性能计算任务)。

需配合RDMA-Shared-Device-Plugin组合使用。

-

资产加速

Fluid

AI套件中负责数据加速的组件,基于Fluid+Alluxio将远端存储数据(KS3)缓存至集群内,利用规格较大机器剩余的磁盘或内存进行数据缓存,避免因并发访问同一远端存储受带宽带来的限流影响。

-

P2P-Accelerator

AI套件中负责镜像加速的组件,基于P2P技术解决集群环境中并发拉取大型容器镜像时遇到的镜像仓库负载过高、拉取速度慢、网络带宽瓶颈等痛点,提升容器启动效率,加快 AI 训练、推理任务的整体交付速度。

-

AI任务调度

KCE-Volcano

基于开源Volcano二次开发的调度组件,除完全兼容Volcano支持的调度策略外,额外支持RDMA与GPU拓扑亲和性调度、任务自愈按任务时间/优先级调度策略。

-

智能运维

KCE-GPU-Error-Rescue

由金山云容器服务自研的GPU节点故障自愈组件,可感知GPU节点140+ Xid Error、20+硬件故障信息,并结合驱逐、排水、重启、热备机替换、健康监测等自愈原子,对故障GPU节点进行修复。

-

推理组件

LeaderWorkerSet

LeaderWorkerSet(LWS)是Kubernetes为AI/大模型推理场景设计的一种工作负载类型,它允许以副本(Replica)为单位,将多Pod协作组成一个逻辑整体,实现复杂分布式推理任务的统一生命周期管理。LWS极大简化了AI推理服务(如vLLM、SGLang等)的弹性部署和高效运维。

-

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈