最近更新时间:2025-05-07 11:35:20
弹性算力调度:支持CPU、GPU、NPU等异构计算资源的统一纳管,按需动态分配算力,支持秒级扩容与缩容,满足突发性高负载任务需求。
GPU资源监控:提供细粒度GPU资源监控面板,实时展示算力卡利用率、显存占用等关键指标及使用趋势。
RoCE网络监控与性能保障:针对高性能计算(HPC)及分布式训练场景,集成RDMA over Converged Ethernet(RoCE)网络监控功能,实时追踪网络带宽、延迟、丢包率等指标,确保低延迟、高吞吐的通信性能。
节点自愈与自动化运维:对接KCE自愈组件KCE自愈组件介绍,支持硬件故障(如GPU卡异常)场景的自动隔离、重启或资源迁移,减少人工干预;提升集群整体可用性与稳定性。
多环境支持:集成了Notebook、VSCode两种开发环境,提供代码编写、调试及运行的沉浸式体验。
生命周期管理:支持实例的生命周期管理。
高性能训练引擎:支持多机多卡分布式训练、混合精度计算与自动梯度优化,显著提升大规模模型训练速度。
训练监控与容错:实时展示训练任务指标(如Loss曲线、GPU利用率),支持任务异常中断后自动恢复,减少资源浪费。
模型注册及管理:支持对接存储和训练任务,实现模型的元数据管理。
管理关联在线服务:支持查看模型所关联的在线服务。
快速部署:支持对模型进行快速部署
自定义部署:支持用户对训练出的模型进行部署。
内置大模型一键部署:内置若干主流大模型,支持一键快速部署。
纯净模式
