全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

AI套件概述

最近更新时间:2025-09-16 19:51:15

云原生AI套件是金山云容器服务(KCE)针对AI & Machine Learning推出的产品解决方案。通过云原生AI套件,可快速、按需在Kubernetes集群内搭建AI平台所依赖的基础能力。本文主要介绍云原生 AI 套件的特点、架构、优势以及适用场景。

AI套件介绍

云原生AI套件是金山云容器服务用于支撑大模型训练、推理业务的服务套件,以KCE容器服务为底座,涵盖AI负载调度、资产加速、智能运维、资源监控等开箱即用的云原生组件,提供大模型场景场景下全链路能力。

云原生 AI 套件具备以下特点:

  • 云原生组件

    云原生 AI 套件的所有能力均通过 Kubernetes 原生的组件化方式提供,在 Kubernetes 定义的标准接口中实现可插拔,支持用户进行灵活选择以及与开源方案混合使用。

  • 平台化支撑

    云原生AI套件作为星流训推平台(KSP)底层能力支撑,提供高效、灵活、易用的一站式AI平台。一方面,使用星流训推平台提供的训练与推理、AI数据管理、AI资产管理等服务降低大模型场景下多模块协同复杂度,实现“开箱即用”的AI开发体验;另一方面,使用KCE标准OpenAPI可对接自建AI平台,实现更灵活的集成与扩展。关于星流训推平台KSP的更多信息,请参见星流训推平台产品概述

  • 大规模实践

    云原生AI套件的能力沉淀自金山云容器平台服务的大量AI业务实践,并历经多家客户与复杂场景的千锤百炼。其作为AI基础设施技术底座,稳定可靠,久经考验。

云原生AI套件的产品架构如下图所示。

AI套件核心能力

  • 异构资源统一管理和运维

    统一接入和管理AI场景所需的复杂基础设施资源,包括GPU、DPU、RDMA、高性能文件存储等,云原生AI套件提供多维度监控及故障发现自愈能力,增强对底层资源状态感知、减轻运维压力。

  • AI资产加速

    通过数据加速(Fluid)+镜像加速(P2P镜像加速、镜像懒加载)提升AI应用的部署效率,避免因部署过程中因长时间拉取(镜像、数据)导致GPU空转,带来计算资源的浪费。

  • 丰富AI任务调度策略

    针对AI分布式训练等典型批量任务类型,云原生AI套件完全兼容原生Volcano,并额外支持RDMA与GPU亲和性拓扑调度、任务自愈优先级调度、严格FIFO等高阶调度策略,确保提升任务间通信效率、减少GPU资源碎片。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈