最近更新时间:2025-05-16 18:11:22
vLLM 部署提供支持,适用于高性能大语言模型的推理和微调任务,支持DeepSeek系列模型运行,详细环境如下:
Python: conda环境下3.12.8,可指定3.10.12
vLLM: 0.6.6
PyTorch: 2.5.1
CUDA: 12.4
miniconda3:24.11.1
模型 | 推荐配置云服务器规格 | 显卡数 |
DeepSeek-R1-Distill-Qwen-1.5B | GPU计算型GN7I.16C1 | 1卡 |
DeepSeek-R1-Distill-Qwen-32B | GPU计算型GN7I.16C4 | 4卡 |
DeepSeek-R1-Distill-Qwen-1.5B:
推荐配置1卡
vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --port 8000
DeepSeek-R1-Distill-Qwen-32B:
推荐配置4卡
vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -tp 4 --max-model-len 40016
低成本模型体验与学习:若您希望以最小成本体验DeepSeek模型的完整部署流程,或用于个人学习/教学演示,云服务器CPU实例可满足基础需求。相较于GPU实例,其无需额外硬件投入,且通过多核并行计算能力可支持轻量化推理,显著降低学习与实验成本。
开发环境快速搭建与调试:在模型开发调试阶段,使用CPU实例可规避GPU驱动、CUDA版本依赖等复杂环境配置问题,简化开发流程。尤其适用于代码逻辑验证、接口测试等非性能密集型场景,减少因环境兼容性导致的调试时间损耗。
轻量级生产任务处理:对于低频调用或小批量数据处理,云服务器CPU实例凭借多核资源与高内存带宽,可高效完成任务。典型场景包括企业内部知识库问答、周期性报表生成等轻量级AI应用。
1.进入root模式
sudo su2.启动 vLLM api 服务
vllm serve <大模型路径> --port 8000显示“INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)”表示模型运行成功
注:使用镜像内置deepseek模型的路径是/model/HuggingFace/deepseek-ai/模型名
创建测试脚本test.sh,大模型服务启动后执行“sh test.sh”
curl -X POST http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
"model": "/model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
"prompt": "找出2,3,5,7,11,13,15中特殊的一个<think>\n",
"max_tokens": 1024,
"temperature": 0
}'推理结果
纯净模式
