最近更新时间:2026-03-26 12:26:41
在AI应用的完整生命周期中,推理服务的流量治理与调度管理始终是企业面临的核心痛点。当多业务线复用底层推理集群时,极易产生算力争抢与服务性能抖动;同时,由于缺乏精细化的访问控制与隔离机制,各业务模块的实际算力消耗往往成为“黑盒”,难以进行准确的调用追溯与成本核算。
推理接入点通过为不同业务提供独立的调用入口,在共享后端模型服务配额的基础上,实现按接入点维度的流量治理与用量统计。用户可基于接入点配置独立的 TPM/RPM限流规则,并对流量、Token 消耗、监控指标及账单进行精细化管理。
预置推理接入点
由平台基于已开通并产生调用的模型服务自动生成,用户无需额外配置即可直接使用,适用于快速接入和通用场景调用,为模型提供默认的调用入口,便于统一管理与使用。
自定义推理接入点
由用户按业务需求自主创建,可灵活绑定模型并配置限流、权限及用量管理规则,适用于多业务并行、流量隔离及精细化运营场景,例如为不同业务分别配置调用入口,并设置独立的限流与成本控制策略。
预置推理接入点的名称默认与所开通的模型名称保持一致,并沿用模型的默认限流配置,其余配置及使用方式与自定义推理接入点一致。
登录星流平台API服务控制台,在左侧导航栏,选择在线推理 > 自定义推理接入点。
在自定义推理接入点页面,点击+新建。
参考以下说明,配置各项参数后,点击确定,即可完成自定义推理接入点的创建。
字段 | 内容 | 描述 |
|---|---|---|
接入点名称 | 用户定义的服务名称 | 必填项,且该账号下的所有接入点名称不可重复。 |
所属项目 | 用户管理的项目 | 必选项,同一项目下,自定义推理点默认限额为3个。 |
描述 | 用户定义的接入点描述 | 非必填。 |
模型来源 | 用户指定接入点绑定的模型服务 | 必选项,目前支持模型广场。 |
接入点限流 | 支持用户设置该接入点的流控 | 根据需要开启,默认为服务限流,支持设置独立的流控上限(不可超过服务总配额)。 |
接入点限额 | 支持用户设置该接入点的周期内调用总额 | 根据需要开启,达到限额后接入点自动禁用。 |
统计周期 | 用户指定的Token调用量统计周期 | 限额开启后必填,支持每月、每周、每日或自定义周期。 |
Token用量额度 | 周期内该接入点的Token用量限额 | 限额开启后必填,下限为1。 |
调用方式与标准API一致,仅需将请求参数中的model字段替换为对应的接入点ID,具体操作如下。
在接入点列表中,点击目标接入点操作列中的API调用。
进入相应接入点详情页面,即可查看对应的API调用示例。
KSC_API_KEY需替成平台中已有的API Key,您可在API Key管理页面进行创建。
model为当前接入点的ID。
针对文本模型,平台支持直接使用模型体验功能,进行使用。
在接入点列表中,点击目标接入点操作列中的模型体验。
直接进入模型体验界面,且默认使用当前接入点配置的文本模型,您可直接进行对话体验。
在接入点列表页,点击接入点名称进入详情页。
选择 监控页签,首次启用监控功能时,需先绑定 Prometheus 实例,并开通 Grafana 看板。
监控开启成功后,即可查看接入点在指定时间范围内的调用数据及各项监控指标,包括调用次数、失败次数和推理缓存等信息,全面了解服务的使用情况与性能变化,从而更高效地进行调用管理、问题定位、故障排查及性能优化。
在自定义推理接入点列表页面,点击目标接入点操作列中的更多,选择停止。
弹出的提示窗口中,点击停止即可。
已停止的接入点,API调用将失败。若需再次使用,可点击目标接入点操作列中的更多,选择启动,重新启用该接入点。
仅已停止状态的自定义接入点支持删除操作。
在自定义推理接入点列表页面,点击已停止状态的接入点操作列中的更多,选择删除。
在弹出提示窗口中,勾选“我已知悉风险,继续删除”,点击删除即可。
纯净模式
