最近更新时间:2026-02-28 19:47:55
金山云容器服务KCE vGPU服务是基于社区HAMI-vGPU方案提供的GPU虚拟化解决方案,支持单卡多容器共享,在保障业务稳定的前提下实现GPU资源的精细化切分,打破传统GPU“一任务一卡”的资源孤岛模式,帮助您最大化复用硬件资源,显著降低GPU算力成本。
兼容性强:完全兼容Kubernetes原生API,提供标准一致的容器化体验
灵活分配资源粒度:物理GPU的资源可以进行任意划分,算力支持最小1%粒度划分,现存支持按MB或百分比分配内存
支持域广:基于Cuda劫持实现GPU虚拟化,支持市面上绝大部分的Nvidia 消费级及数据中心级的GPU卡
开箱即用:按需部署,可通过Helm完成一键安装卸载
创建集群 | 已创建KCE1.0/KCE2.0容器服务集群,且集群处于运行中状态。详细操作,请参见创建集群。 |
支持K8s版本 | KCE K8s version ≥ 1.23 |
组件依赖 | 云原生AI组件管理已安装kce-volcano组件 |
支持的 GPU 卡架构 | 几乎所有主流消费级和数据中心 GPU |
支持的CUDA版本 | CUDA版本推荐12.1-12.6 |
设备资源名 | nvidia.com/gpu-{GPU卡型号}-number: "" # 申请的GPU卡的数量 nvidia.com/gpu-{GPU卡型号}-cores-percentage: "" # 申请的总算力比例 nvidia.com/gpu-{GPU卡型号}-memory-percentage:"" # 申请总显存比例 |
调度器名称 | 调度器需要指定为 |
登录容器服务控制台。
在左侧导航栏中选择 集群,单击需要配置的目标集群。
在集群管理页面的左侧导航栏中,选择 云原生AI-组件管理。
将鼠标移动到HAMi-vGPU组件上,点击右下角 安装。
需已安装kce-volcano组件。
HAMi-vGPU组件安装后,可进行 卸载,卸载后,基于 CUDA劫持方案 的 GPU 虚拟化将不可用!
apiVersion: apps/v1
kind: Deployment
metadata:
name: qwen2.5-7b
namespace: default
labels:
app: qwen2.5-7b
spec:
replicas: 1
selector:
matchLabels:
app: qwen2.5-7b
template:
metadata:
labels:
app: qwen2.5-7b
spec:
schedulerName: volcano # 调度器为Volcnao
volumes:
- name: shm
emptyDir:
medium: Memory
sizeLimit: "20Gi"
- name: model # 将模型文件放在主机的/root/model目录
hostPath:
path: /root/model
containers:
- name: qwen25-7b
image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
command: ["/bin/sh", "-c"]
args: [
"python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
]
ports:
- containerPort: 8000
resources:
limits:
cpu: "10"
memory: 50G
nvidia.com/gpu-{GPU卡型号}-number: "2" # 申请的GPU卡的数量
nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200" # 申请的总算力比例
nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200" # 申请总显存比例
requests:
cpu: "2"
memory: 20G
nvidia.com/gpu-{GPU卡型号}-number: "2" # 申请的GPU卡的数量
nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200" # 申请的总算力比例
nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200" # 申请总显存比例
volumeMounts:
- mountPath: /root/.cache/huggingface
name: model
mountPropagation: HostToContainer
- name: shm
mountPath: /dev/shmapiVersion: apps/v1
kind: Deployment
metadata:
name: qwen2.5-7b
namespace: default
labels:
app: qwen2.5-7b
spec:
replicas: 1
selector:
matchLabels:
app: qwen2.5-7b
template:
metadata:
labels:
app: qwen2.5-7b
spec:
schedulerName: volcano # 调度器为Volcnao
volumes:
- name: shm
emptyDir:
medium: Memory
sizeLimit: "20Gi"
- name: model # 将模型文件放在主机的/root/model目录
hostPath:
path: /root/model
containers:
- name: qwen25-7b
image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
command: ["/bin/sh", "-c"]
args: [
"python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
]
ports:
- containerPort: 8000
resources:
limits:
cpu: "10"
memory: 50G
nvidia.com/gpu-{GPU卡型号}-number: "2" # 申请的GPU卡的数量
nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40" # 申请的总算力比例
nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40" # 申请总显存比例
requests:
cpu: "2"
memory: 20G
nvidia.com/gpu-{GPU卡型号}-number: "2" # 申请的GPU卡的数量
nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40" # 申请的总算力比例
nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40" # 申请总显存比例
volumeMounts:
- mountPath: /root/.cache/huggingface
name: model
mountPropagation: HostToContainer
- name: shm
mountPath: /dev/shm
纯净模式