全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

AI套件概述

最近更新时间:2025-04-29 17:05:18

云原生 AI 套件是部署在金山云容器服务(KCE)上用于支撑星流训推平台(AICP)或是在KCE上轻量化训练/推理的套件服务。本文主要介绍云原生 AI 套件的特点及组件概览。

套件特点

  • 云原生 AI 套件是由金山云容器服务(KCE)提供的支撑大规模 AI训练、推理业务的服务套件。以 KCE容器集群作为底座,针对 AI 业务基础设施的特性,提供一系列资源监控运维、编排调度、性能加速的能力。

  • 云原生 AI 套件的所有能力均通过 Kubernetes 原生的组件化方式提供,在 Kubernetes 定义的标准接口中实现可插拔,支持用户进行灵活选择以及与开源方案混合使用。

组件概览

云原生 AI 套件中目前提供的组件及其说明如下所示。

组件名称

组件类型

组件介绍

gpu-device-plugin

GPU设备管理组件

nvdia设备驱动,支持在容器里使用GPU显卡设备的管理组件。

kce-gpu-error-rescue

GPU自愈组件

kce-gpu-error-rescue是金山云自研的K8s GPU故障感知及自愈插件,实时监测并修复Xid Error,保障集群稳定性。

p2p-accelerator

P2P容器镜像加速组件

镜像加速下载服务,主要目的是加快镜像下载以及提高内网流量使用效率。

kce-volcano

AI调度引擎组件

基于k8s构建的高性能AI批处理调度引擎,提供了丰富的调度策略及异构资源混合调度能力

HAMi-vGPU

GPU虚拟化组件

基于CUDA劫持方案的GPU虚拟化,支持算力与显存的灵活调度和限制隔离,降低GPU使用成本

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈