全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

功能总览

最近更新时间:2025-05-07 11:35:20

资源池管理

  1. 弹性算力调度:支持CPU、GPU、NPU等异构计算资源的统一纳管,按需动态分配算力,支持秒级扩容与缩容,满足突发性高负载任务需求。

  2. GPU资源监控:提供细粒度GPU资源监控面板,实时展示算力卡利用率、显存占用等关键指标及使用趋势。

  3. RoCE网络监控与性能保障针对高性能计算(HPC)及分布式训练场景,集成RDMA over Converged Ethernet(RoCE)网络监控功能,实时追踪网络带宽、延迟、丢包率等指标,确保低延迟、高吞吐的通信性能。

  4. 节点自愈与自动化运维:对接KCE自愈组件KCE自愈组件介绍支持硬件故障(如GPU卡异常)场景的自动隔离、重启或资源迁移,减少人工干预;提升集群整体可用性与稳定性。

开发任务

  • 多环境支持集成了Notebook、VSCode两种开发环境,提供代码编写、调试及运行的沉浸式体验。

  • 生命周期管理:支持实例的生命周期管理。

训练任务

  • 高性能训练引擎:支持多机多卡分布式训练、混合精度计算与自动梯度优化,显著提升大规模模型训练速度。

  • 训练监控与容错:实时展示训练任务指标(如Loss曲线、GPU利用率),支持任务异常中断后自动恢复,减少资源浪费。

模型管理

  • 模型注册及管理:支持对接存储和训练任务,实现模型的元数据管理。

  • 管理关联在线服务:支持查看模型所关联的在线服务。

  • 快速部署:支持对模型进行快速部署

模型在线服务

  • 自定义部署:支持用户对训练出的模型进行部署。

  • 内置大模型一键部署:内置若干主流大模型,支持一键快速部署。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈