最近更新时间:2025-04-14 18:27:15
模型在线服务MOS(Model Online Service),帮助用户快速将一个或多个模型部署为在线服务,通过API接口调用的方式将AI集成到自身业务应用中,而无需关心底层IT基础设施的管理和维护。平台提供了丰富的资源供给、灵活的计费方式以及各种开发和调试工具,使得模型在线服务变得既强大又易于管理,从而更好地满足业务创新对AI的需求。
简单易用,降低技术门槛:内置常用的模型和镜像,用户可以快速部署;支持自定义镜像和自定义模型,同时支持模型文件从阿里云对象存储/金山云对象存储一键导入。
实例级别调度,避免资源浪费:按照实例级别管理和调度资源,丰富的实例规格,支持GPU虚拟化,帮助企业找到兼顾成本和性能的经济算力资源。
丰富功能,降低运维成本:一键扩缩容、实时监控、报警、日志分析等丰富的功能,帮助企业提升研发效率,免除或降低运维成本,专注业务创新。
准备镜像:用户需配置基础运行环境,包括操作系统(如Linux)、推理框架(如PyTorch/TensorFlow)、HTTP服务器等,并通过自定义镜像的方式推送到私有云仓库。
准备模型文件和数据:将模型文件、代码、数据集上传至文件共享服务,或通过金山云对象存储、阿里云对象存储一键导入到文件共享服务,为后续部署提供基础数据。
镜像拉取与配置:系统拉取预定义的公共镜像(包含基础运行环境)或用户自定义镜像,完成环境初始化。通过安装三方库(如Python依赖)、设置环境变量(如文件路径)等,定制化运行环境。
资源挂载:模型和数据集通过文件共享服务存储服务挂载至运行环境,实现持久化存储与动态加载。分配计算资源(CPU/GPU资源组),确保服务运行的算力需求。
双路径访问:支持内网访问方式和公网访问方式。内网访问方式可直接通过服务名称进行访问;公网方式方式可通过服务域名进行访问。
请求接入:通过负载均衡接收用户请求,自动分配至可用服务节点,保障高并发稳定性。
模型在线服务提供不低于99.9%的服务可用性
名词 | 描述 |
---|---|
模型在线服务 | 模型在线服务MOS(Model Online Service),帮助用户快速将一个或多个模型部署为在线服务,通过API接口调用的方式将AI集成到自身业务应用中,而无需关心底层IT基础设施的管理和维护。平台提供了丰富的资源供给、灵活的计费方式以及各种开发和调试工具,使得模型在线服务变得既强大又易于管理,从而更好地满足业务创新对AI的需求。 |
服务 | 将客户的模型、镜像结合算力所提供的在线服务。服务将定义好的镜像、模型、数据集等数据,直接部署到计算资源上(面向中小型企业,提供共享资源,按量计费),或者创建专属的资源组进行部署(面向大型企业,提供独享资源,包年包月)。 |
服务实例 | 服务进程。每个服务可以部署多个服务实例以提高能够支持的并发请求数。 |
模型 | 模型是您基于数据集和算法代码通过训练任务产出的结果,可以预测新数据。通常是一堆静态文件。分为公共模型和自定义模型。公共模型由官方提供和维护。自定义模型由用户提供和维护。 |
镜像 | 即 Docker 镜像,是运行大模型服务必备的运行环境,一般包含操作系统、推理框架、Python、类库等。分为公共公共镜像和自定义镜像。公共镜像由官方提供和维护。自定义镜像由用户提供和维护。 |
计算资源 | 是一个算力单元,是由CPU、内存、GPU、存储等组成。用户为计算资源付费。计算资源支持包年包月,也支持按量付费。 |
资源组 | 是由一个或多个的计算资源组成,是资源池的概念,有区域属性。资源组分为公共资源组和专属资源组。公共资源面向所有客户均可使用,暂只支持按量付费。专属资源组面向大型企业,提供独享资源,专属资源组暂只支持包年包月。用户可以创建多个专属资源组。 |
模型在线服务暂只支持日峰值月结(后付费)。
模型在线服务详细计费规则请前往模型在线服务购买与计费
前往文件共享服务页面创建文件共享服务,注意文件共享服务需要和模型在线服务同节点,且同属经典网络。
前往公共模型列表将目标公共模型导入到文件共享服务,或者自行将模型文件上传至文件共享服务,或者通过自定义模型功能注册模型将金山云/阿里云对象存储上的模型文件一键导入到文件共享服务。
服务部署时,选择公共镜像、已导入的模型、计算资源进行部署。也支持将私有云镜像通过自定义镜像的方式推到私有云仓库,部署时选择自定义镜像即可。
通过调用信息查看外网域名(http|https://{服务名称}.ksymos.com)进行访问。
资源组创建成功后不支持更改
模型在线服务暂只支持厦门电信41节点
用于模型在线服务的文件共享服务实例要求节点为厦门电信41和网络为经典网络
模型配置暂只支持3个,不过可以通过输入上一级目录来把所有相关数据进行加载
一次实例数量最多可选20个,如果有更多实例需求请提交工单(产品选择边缘节点计算)进行申请
纯净模式