最近更新时间:2025-04-29 17:05:18
云原生 AI 套件是部署在金山云容器服务(KCE)上用于支撑星流训推平台(AICP)或是在KCE上轻量化训练/推理的套件服务。本文主要介绍云原生 AI 套件的特点及组件概览。
云原生 AI 套件是由金山云容器服务(KCE)提供的支撑大规模 AI训练、推理业务的服务套件。以 KCE容器集群作为底座,针对 AI 业务基础设施的特性,提供一系列资源监控运维、编排调度、性能加速的能力。
云原生 AI 套件的所有能力均通过 Kubernetes 原生的组件化方式提供,在 Kubernetes 定义的标准接口中实现可插拔,支持用户进行灵活选择以及与开源方案混合使用。
云原生 AI 套件中目前提供的组件及其说明如下所示。
组件名称 | 组件类型 | 组件介绍 |
|---|---|---|
gpu-device-plugin | GPU设备管理组件 | nvdia设备驱动,支持在容器里使用GPU显卡设备的管理组件。 |
kce-gpu-error-rescue | GPU自愈组件 | kce-gpu-error-rescue是金山云自研的K8s GPU故障感知及自愈插件,实时监测并修复Xid Error,保障集群稳定性。 |
p2p-accelerator | P2P容器镜像加速组件 | 镜像加速下载服务,主要目的是加快镜像下载以及提高内网流量使用效率。 |
AI调度引擎组件 | 基于k8s构建的高性能AI批处理调度引擎,提供了丰富的调度策略及异构资源混合调度能力 | |
GPU虚拟化组件 | 基于CUDA劫持方案的GPU虚拟化,支持算力与显存的灵活调度和限制隔离,降低GPU使用成本 |
纯净模式
