最近更新时间:2025-02-24 17:49:08
vLLM 部署提供支持,适用于高性能大语言模型的推理和微调任务,支持DeepSeek系列模型运行,详细环境如下:
Python: conda环境下3.12.8,可指定3.10.12
vLLM: 0.6.6
PyTorch: 2.5.1
CUDA: 12.4
miniconda3:24.11.1
模型 | 推荐配置云服务器规格 | 显卡数 |
DeepSeek-R1-Distill-Qwen-1.5B | GPU计算型GN7I.16C1 | 1卡 |
DeepSeek-R1-Distill-Qwen-32B | GPU计算型GN7I.16C4 | 4卡 |
DeepSeek-R1-Distill-Qwen-1.5B:
推荐配置1卡
vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --port 8000
DeepSeek-R1-Distill-Qwen-32B:
推荐配置4卡
vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -tp 4 --max-model-len 40016
1.进入root模式
sudo su
2.启动 vLLM api 服务
vllm serve <大模型路径> --port 8000
显示“INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)”表示模型运行成功
注:使用镜像内置deepseek模型的路径是/model/HuggingFace/deepseek-ai/模型名
创建测试脚本test.sh,大模型服务启动后执行“sh test.sh”
curl -X POST http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{
"model": "/model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
"prompt": "找出2,3,5,7,11,13,15中特殊的一个<think>\n",
"max_tokens": 1024,
"temperature": 0
}'
推理结果
纯净模式