全部文档

当前文档

热搜词推荐

云服务器虚拟私有网络边缘节点计算对等连接

暂无内容

如果没有找到您期望的内容，请尝试其他搜索词

星流平台

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

产品更新动态

未找到含该关键词的产品

文档中心

星流平台

产品简介

功能总览

功能总览

最近更新时间：2026-05-20 16:38:13



资源与算力管理

弹性算力调度：支持CPU、GPU、NPU等多种异构计算资源的统一纳管，按需动态分配算力，支持秒级扩容与缩容，满足突发性高负载任务需求。
队列管理：支持基于队列划分资源并进行权限控制，提供资源借用、任务占用查询及闲置资源清理能力。
GPU资源监控：提供细粒度GPU资源监控面板，实时展示算力卡利用率、显存占用等关键指标及使用趋势。
RoCE网络监控与性能保障：针对高性能计算（HPC）及分布式训练场景，集成RDMA over Converged Ethernet（RoCE）网络监控功能，实时追踪网络带宽、延迟、丢包率等指标，确保低延迟、高吞吐的通信性能。

开发与训练任务

多环境支持：集成了Notebook、VSCode两种开发环境，提供代码编写、调试及运行的沉浸式体验。
生命周期管理：支持实例的生命周期管理。
自定义镜像构建：支持将开发环境保存为自定义镜像并复用于后续开发或训练任务。
GPU故障自愈：支持在GPU异常时自动重调度任务，减少训练中断并提升资源利用率。
高性能训练引擎：支持多机多卡分布式训练、混合精度计算与自动梯度优化，显著提升大规模模型训练速度。
训练监控与容错：实时展示训练任务指标（如Loss曲线、GPU利用率），支持任务异常中断后自动恢复，减少资源浪费。
节点自愈与自动化运维：对接KCE自愈组件KCE自愈组件介绍，支持硬件故障（如GPU卡异常）场景的自动隔离、重启或资源迁移，减少人工干预；提升集群整体可用性与稳定性。

模型在线服务

自定义部署：支持用户对训练出的模型进行部署。
内置大模型一键部署：内置若干主流大模型，支持一键快速部署。
调试与调用：支持WebUI模式调用与在线调试。

模型管理

模型注册及管理：支持对接存储和训练任务，实现模型的元数据管理。
管理关联在线服务：支持查看模型所关联的在线服务。
快速部署：支持对模型进行快速部署

数据管理

数据集广场：提供内置行业优质数据集，支持用户快速获取与下载。
数据处理：支持基于Serverless或专属资源运行多种数据处理与计算任务。
数据标注：支持多种数据类型及多模态场景的数据标注能力。

资产管理

存储配置：支持对接多种存储服务并提供统一的权限控制能力。
镜像管理：支持镜像的统一管理与权限控制，满足多用户协作需求。
工作流：支持通过构建工作流的方式，打通算法、数数据、工程壁垒，实现 AI 研发的规范化、高效化与可复用。

模型API服务

模型调用即服务：提供即开即用的模型推理服务能力，支持在线推理及批量推理，支持多种调用协议与标准化API接口，可通过API Key快速集成至现有应用或服务体系。
中立且灵活的模型生态：通过自建开源模型+模型服务商合作的方式构建混合资源池，集成多种主流大模型，涵盖文本生成、视觉理解、多模态生成等典型AI应用场景，助力企业灵活构建多样化智能应用，快速响应不同业务需求

模型应用服务

AgentEngine：AI Agent构建、部署、运行的开发工具平台，帮助您降低高代码Agent开发门槛，为Agent提供快捷、弹性、稳定的运行时环境与观测、评测能力。
知识库：面向企业级AI应用打造的一站式知识管理与检索引擎，为检索增强生成（RAG）、智能问答、Agent开发等AI场景提供标准化、可扩展的知识底座。
记忆库：解决大模型上下文有限、无状态遗忘、记忆管理复杂的问题，补足Agent 原生能力的核心短板，实现Agent从 “单次交互工具” 升级为 “具备持续认知能力的智能体”。
Skills 中心：为智能体提供统一的 skills 集成与调用入口

文档导读

上一篇：产品概述

下一篇：名词解释

纯净模式常规模式

纯净模式

点击可全屏预览文档内容

文档反馈