最近更新时间:2026-03-13 13:15:00
本文介绍如何开启并使用GPU虚拟化,开启后支持多任务共享同一张卡的显存和算力资源,降低GPU使用成本。
GPU虚拟化为白名单能力,如需使用请先提交工单开白。
本功能仅支持在开发任务和模型在线服务中使用。
新建开发任务,勾选虚拟化GPU(开白后可见该勾选项),输入小数卡GPU(卡数范围:0.1-0.9的一位小数),以0.5卡为例创建开发任务
创建完成后,可以看到开发任务进入运行中状态,GPU配置为0.5卡
登录开发机,输入nvidia-smi命令, 可见显存为16GB,等于V100整卡显存32G的一半
在开发机中执行训练任务,任务正常运行
新建模型在线服务
部署类型选择自定义部署(“模型部署”仅支持部署内置模型,暂不支持虚拟化)
勾选虚拟化GPU,输入小数卡GPU(卡数范围:0.1-0.9的一位小数),以0.5卡为例创建服务,部署Qwen2.5-0.5B模型
在列表页可以看到服务的GPU配置为0.5卡,待服务变为运行中状态后,点击服务名称进入详情页
在详情页的在线调用tab输入request body
{
"model": "/mnt/Qwen2.5-0.5B-Instruct",
"messages": [
{"role": "user", "content": "解释一下什么是大语言模型"}
]
}点击调试查看模型返回结果
response返回示例:
{
"id": "chatcmpl-b91b0db650fec2b264df1d8441f2297e",
"object": "chat.completion",
"created": 1768973568,
"model": "/mnt/Qwen2.5-0.5B-Instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "当然,我来为您解释一下什么是大语言模型(Large Language Model)。\n\n大语言模型是一种人工智能技术,它能够生成、理解、表达和使用人类语言的能力。这些模型通常由大规模的计算资源和支持神经网络等复杂技术实现,旨在模拟人类的语言处理能力。它们被广泛应用于自然语言处理、机器翻译、文本生成等领域,以帮助解决实际问题或创造新的语言功能。\n\n大语言模型的特点包括:\n1. **高精度**:能够生成高质量的文本,甚至可以达到人类水平。\n2. **多模态学习**:能理解和生成多种类型的数据输入,如图像、音频、视频等。\n3. **跨语言支持**:对于不同语言的文本具有很好的适应性。\n4. **泛化能力强**:在不同的任务上表现得更好,如问答系统、情感分析等。\n\n随着深度学习和算力的提升,大语言模型正在逐渐成为人工智能领域的重要组成部分,并且在许多实际应用中发挥了重要作用。",
"refusal": null,
"annotations": null,
"audio": null,
"function_call": null,
"tool_calls": [],
"reasoning_content": null
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"service_tier": null,
"system_fingerprint": null,
"usage": {
"prompt_tokens": 35,
"total_tokens": 243,
"completion_tokens": 208,
"prompt_tokens_details": null
},
"prompt_logprobs": null,
"kv_transfer_params": null
}纯净模式
