金山云-文档中心-在线推理

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

星流平台

模型API服务

操作指南

在线推理

最近更新时间：2026-06-16 10:53:40



在AI应用的完整生命周期中，推理服务的流量治理与调度管理始终是企业面临的核心痛点。当多业务线复用底层推理集群时，极易产生算力争抢与服务性能抖动；同时，由于缺乏精细化的访问控制与隔离机制，各业务模块的实际算力消耗往往成为“黑盒”，难以进行准确的调用追溯与成本核算。

推理接入点通过为不同业务提供独立的调用入口，在共享后端模型服务配额的基础上，实现按接入点维度的流量治理与用量统计。用户可基于接入点配置独立的 TPM/RPM限流规则，并对流量、Token 消耗、监控指标及账单进行精细化管理。

预置推理接入点
由平台基于已开通并产生调用的模型服务自动生成，用户无需额外配置即可直接使用，适用于快速接入和通用场景调用，为模型提供默认的调用入口，便于统一管理与使用。
自定义推理接入点
由用户按业务需求自主创建，可灵活绑定模型并配置限流、权限及用量管理规则，适用于多业务并行、流量隔离及精细化运营场景，例如为不同业务分别配置调用入口，并设置独立的限流与成本控制策略。

参考以下说明，配置各项参数后，点击确定，即可完成自定义推理接入点的创建。

字段	内容	描述
接入点名称	用户定义的服务名称	必填项，且该账号下的所有接入点名称不可重复。
所属项目	用户管理的项目	必选项，同一项目下，自定义推理点默认限额为3个。
描述	用户定义的接入点描述	非必填。
模型来源	用户指定接入点绑定的模型服务	必选项，目前支持模型广场。
接入点限流	支持用户设置该接入点的流控	根据需要开启，默认为服务限流，支持设置独立的流控上限（不可超过服务总配额）。
接入点限额	支持用户设置该接入点的周期内调用总额	根据需要开启，达到限额后接入点自动禁用。
统计周期	用户指定的Token调用量统计周期	限额开启后必填，支持每月、每周、每日或自定义周期。
Token用量额度	周期内该接入点的Token用量限额	限额开启后必填，下限为1。

调用方式与标准API一致，仅需将请求参数中的model字段替换为对应的接入点ID，具体操作如下。

在接入点列表中，点击目标接入点操作列中的API调用。
进入相应接入点详情页面，即可查看对应的API调用示例。
KSC_API_KEY需替成平台中已有的API Key，您可在API Key管理页面进行创建。
model为当前接入点的ID。

针对文本模型，平台支持直接使用模型体验功能，进行使用。

在接入点列表页，点击接入点名称进入详情页。
选择监控页签，首次启用监控功能时，需先绑定 Prometheus 实例，并开通 Grafana 看板。
监控开启成功后，即可查看接入点在指定时间范围内的调用数据及各项监控指标，包括调用次数、失败次数和推理缓存等信息，全面了解服务的使用情况与性能变化，从而更高效地进行调用管理、问题定位、故障排查及性能优化。