全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

产品概述

最近更新时间:2025-10-10 15:04:55

金山云星流训推平台为机器学习场景开发者和运维人员提供云原生AI算力和全流程管理能力支持,由基础资源管理、算力管理工具、训推任务管理、资产与权限管理等模块构成,包含任务编排调度、任务可观测性等核心特性,旨在为用户提供一站式训推任务管理平台,保障训推任务稳定高效运行,提升算力使用效率。

产品架构

核心优势

  • 一站式全流程管理能力
    提供从模型开发、训练到推理的完整生命周期管理,打通基础资源调度、算力优化、任务编排、权限管控全链路,降低多模块协同复杂度,实现“开箱即用”的AI开发体验

  • 异构资源高效调度
    通过动态任务编排算法与算力管理工具,智能匹配异构算力资源与任务需求,保障GPU资源利用率,显著降低算力闲置成本

  • 高性能存储与网络加速
    集成分布式存储系统与高速RDMA网络架构,实现训练数据高速提取、模型参数高吞吐传输,支撑大规模分布式训练任务并行效率提升

  • 任务全生命周期可观测
    任务级可观测能力覆盖开发、训练、推理全流程,结合监控、日志、事件信息及硬件维度监控指标,快速定位异常点,缩短排障时间

  • 智能运维保障稳定性
    GPU故障自愈技术结合任务可观测性设计,实时监控硬件健康状态与任务进程,自动触发故障迁移与任务重调度,降低算力中断风险,保障长周期训练任务稳定运行

  • 企业级安全管控体系
    深度整合资产权限管理与访问控制体系,提供细粒度角色权限控制、任务隔离及资产隔离功能,满足多用户权限控制场景的合规性要求

使用说明

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈