最近更新时间:2025-03-11 22:46:56
模型在线服务 MOS(Model Online Service),帮助用户快速将一个或多个模型部署为在线服务,通过 API 接口调用的方式将 AI 集成到自身业务应用中,而无需关心底层IT基础设施的管理和维护。平台提供了丰富的资源供给、灵活的计费方式以及各种开发和调试工具,使得模型在线服务变得既强大又易于管理,从而更好地满足业务创新对 AI 的需求。
本教程将带你体验基于 MOS 实现 5 分钟内部署 ChatGLM3-6B 部署为在线服务。
已创建过文件共享服务请略过(多个服务只需要开通一次文件共享服务)。
前往地址 https://kenc.console.ksyun.com/#/simple/fileShare
创建文件共享服务,节点选择 厦门电信41 节点,网络选择 经典网络 选项,其他按需,点击【确认订单】。
前往地址 https://mos.console.ksyun.com/#/modelManage
在公共模型列表找到 chatglm-3-6b,点击【导入】按钮。
选择刚才创建的文件共享服务,点击【确认】即可。
点击右上角【导入历史】
查看模型文件导入进度,不同的模型耗时差异很大,主要看模型文件的大小,本次部署的模型大概会2分钟左右的时间即可导入成功。
前往地址 https://mos.console.ksyun.com/#/serverManage
点击左上角【部署服务】
资源部署信息选择如下
属性 | 属性值 | 备注 |
---|---|---|
资源类型 | 公共资源组 | |
地域 | 厦门电信41 | |
算力类型 | GPU | |
算力规格 | MOS.N1IN.4C16G.1A9 |
模型服务信息,配置如下
属性 | 属性值 | 备注 |
---|---|---|
服务名称 | chatglm | 字母开头,支持数字、小写字母以及中横线(-),不得以中横线开始或者结尾,长度位 3~63 位 |
镜像 | 公共镜像 library/chatglm-inference:v1.0 | |
模型配置 | NFS:上述导入模型的文件共享服务实例 NFS源路径(导入成功后可下拉选择):chatglm-3-6b/ 挂载路径:/data/model/chatglm3-6b/ | |
运行命令 | streamlit run basic_demo/web_demo_streamlit.py | |
端口号 | 8501 | |
环境变量 | key1:MODEL_PATH value1:/data/model/chatglm3-6b |
实例数量为 1 即可。点击【部署】。
一般 1 分钟内即可部署完成。
点击 MOS 左侧菜单【服务】或前往服务列表 https://mos.console.ksyun.com/#/serverManage
点击服务列表或详情【调用信息】,获取服务域名,例如 http://chatglm.ksymos.com
浏览器打开 http://chatglm.ksymos.com 即可
该镜像里面包含了web服务,所以可以直接通过浏览器查看到chat页面,但并非所有的模型都支持这样,取决于镜像是否支持。
纯净模式