全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

内置deepseek模型的使用方法

最近更新时间:2025-05-16 18:11:22

镜像环境介绍

vLLM 部署提供支持,适用于高性能大语言模型的推理和微调任务,支持DeepSeek系列模型运行,详细环境如下:

Python: conda环境下3.12.8,可指定3.10.12

vLLM: 0.6.6

PyTorch: 2.5.1

CUDA: 12.4

miniconda3:24.11.1

针对A10机型推荐配置

模型

推荐配置云服务器规格

显卡数

DeepSeek-R1-Distill-Qwen-1.5B

GPU计算型GN7I.16C1

1卡

DeepSeek-R1-Distill-Qwen-32B

GPU计算型GN7I.16C4

4卡

DeepSeek-R1-Distill-Qwen-1.5B:

推荐配置1卡

vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --port 8000

DeepSeek-R1-Distill-Qwen-32B:

推荐配置4卡

vllm serve /model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -tp 4 --max-model-len 40016

使用场景

  • 低成本模型体验与学习:若您希望以最小成本体验DeepSeek模型的完整部署流程,或用于个人学习/教学演示,云服务器CPU实例可满足基础需求。相较于GPU实例,其无需额外硬件投入,且通过多核并行计算能力可支持轻量化推理,显著降低学习与实验成本。

  • 开发环境快速搭建与调试:在模型开发调试阶段,使用CPU实例可规避GPU驱动、CUDA版本依赖等复杂环境配置问题,简化开发流程。尤其适用于代码逻辑验证、接口测试等非性能密集型场景,减少因环境兼容性导致的调试时间损耗。

  • 轻量级生产任务处理:对于低频调用或小批量数据处理,云服务器CPU实例凭借多核资源与高内存带宽,可高效完成任务。典型场景包括企业内部知识库问答、周期性报表生成等轻量级AI应用。

使用方法

1.进入root模式

sudo su

2.启动 vLLM api 服务

vllm serve <大模型路径> --port 8000

显示“INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)”表示模型运行成功

注:使用镜像内置deepseek模型的路径是/model/HuggingFace/deepseek-ai/模型名

验证

创建测试脚本test.sh,大模型服务启动后执行“sh test.sh”

curl -X POST http://localhost:8000/v1/completions      -H "Content-Type: application/json"      -d '{
           "model": "/model/HuggingFace/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B",
           "prompt": "找出2,3,5,7,11,13,15中特殊的一个<think>\n",
           "max_tokens": 1024,
           "temperature": 0
         }'

推理结果

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈