最近更新时间:2026-05-20 16:38:13
弹性算力调度:支持CPU、GPU、NPU等多种异构计算资源的统一纳管,按需动态分配算力,支持秒级扩容与缩容,满足突发性高负载任务需求。
队列管理:支持基于队列划分资源并进行权限控制,提供资源借用、任务占用查询及闲置资源清理能力。
GPU资源监控:提供细粒度GPU资源监控面板,实时展示算力卡利用率、显存占用等关键指标及使用趋势。
RoCE网络监控与性能保障:针对高性能计算(HPC)及分布式训练场景,集成RDMA over Converged Ethernet(RoCE)网络监控功能,实时追踪网络带宽、延迟、丢包率等指标,确保低延迟、高吞吐的通信性能。
多环境支持:集成了Notebook、VSCode两种开发环境,提供代码编写、调试及运行的沉浸式体验。
生命周期管理:支持实例的生命周期管理。
自定义镜像构建:支持将开发环境保存为自定义镜像并复用于后续开发或训练任务。
GPU故障自愈:支持在GPU异常时自动重调度任务,减少训练中断并提升资源利用率。
高性能训练引擎:支持多机多卡分布式训练、混合精度计算与自动梯度优化,显著提升大规模模型训练速度。
训练监控与容错:实时展示训练任务指标(如Loss曲线、GPU利用率),支持任务异常中断后自动恢复,减少资源浪费。
节点自愈与自动化运维:对接KCE自愈组件KCE自愈组件介绍,支持硬件故障(如GPU卡异常)场景的自动隔离、重启或资源迁移,减少人工干预;提升集群整体可用性与稳定性。
自定义部署:支持用户对训练出的模型进行部署。
内置大模型一键部署:内置若干主流大模型,支持一键快速部署。
调试与调用:支持WebUI模式调用与在线调试。
模型注册及管理:支持对接存储和训练任务,实现模型的元数据管理。
管理关联在线服务:支持查看模型所关联的在线服务。
快速部署:支持对模型进行快速部署
数据集广场:提供内置行业优质数据集,支持用户快速获取与下载。
数据处理:支持基于Serverless或专属资源运行多种数据处理与计算任务。
数据标注:支持多种数据类型及多模态场景的数据标注能力。
存储配置:支持对接多种存储服务并提供统一的权限控制能力。
镜像管理:支持镜像的统一管理与权限控制,满足多用户协作需求。
工作流:支持通过构建工作流的方式,打通算法、数数据、工程壁垒,实现 AI 研发的规范化、高效化与可复用。
模型调用即服务:提供即开即用的模型推理服务能力,支持在线推理及批量推理,支持多种调用协议与标准化API接口,可通过API Key快速集成至现有应用或服务体系。
中立且灵活的模型生态:通过自建开源模型+模型服务商合作的方式构建混合资源池,集成多种主流大模型,涵盖文本生成、视觉理解、多模态生成等典型AI应用场景,助力企业灵活构建多样化智能应用,快速响应不同业务需求
AgentEngine:AI Agent构建、部署、运行的开发工具平台,帮助您降低高代码Agent开发门槛,为Agent提供快捷、弹性、稳定的运行时环境与观测、评测能力。
知识库:面向企业级AI应用打造的一站式知识管理与检索引擎,为检索增强生成(RAG)、智能问答、Agent开发等AI场景提供标准化、可扩展的知识底座。
记忆库:解决大模型上下文有限、无状态遗忘、记忆管理复杂的问题,补足Agent 原生能力的核心短板,实现Agent从 “单次交互工具” 升级为 “具备持续认知能力的智能体”。
Skills 中心:为智能体提供统一的 skills 集成与调用入口
纯净模式
