最近更新时间:2025-08-13 11:27:49
HAMi-vGPU是基于CUDA劫持的GPU虚拟化方案,支持GPU卡算力与显存的灵活调度与隔离限制,降低GPU使用成本。
已创建KCE1.0容器服务集群,且集群处于运行中状态。详细操作,请参见创建集群。
KCE1.0容器服务k8s版本需要为v1.25.15/v1.27.7 。
云原生AI组件管理已安装kce-volcano组件。
登录容器服务控制台。
在左侧导航栏中选择 集群,单击需要配置的目标集群。
在集群管理页面的左侧导航栏中,选择 云原生AI-组件管理。
将鼠标移动到HAMi-vGPU组件上,点击右下角 安装。
需已安装kce-volcano组件。
安装完成HAMi-vGPU组件后,可进行GPU虚拟化的使用。使用须知如下:
项目 | 要求 |
|---|---|
Kubernetes 版本 | KCE容器服务1.0 Kubernetes 版本为v1.23/v1.25/v1.27。 |
依赖组件 | kce-volcano需要已安装。 |
调度器 | 调度器需要指定为 |
CUDA版本 | CUDA版本推荐12.1-12.6。 |
GPU 卡类型 | 不限制GPU卡类型。 |
设备资源名 |
|
yaml使用示例:
apiVersion: apps/v1
kind: Deployment
metadata:
name: qwen2.5-7b
namespace: default
labels:
app: qwen2.5-7b
spec:
replicas: 1
selector:
matchLabels:
app: qwen2.5-7b
template:
metadata:
labels:
app: qwen2.5-7b
spec:
schedulerName: volcano # 调度器为Volcnao
volumes:
- name: shm
emptyDir:
medium: Memory
sizeLimit: "20Gi"
- name: model # 将模型文件放在主机的/root/model目录
hostPath:
path: /root/model
containers:
- name: qwen25-7b
image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
command: ["/bin/sh", "-c"]
args: [
"python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
]
ports:
- containerPort: 8000
resources:
limits:
cpu: "10"
memory: 50G
nvidia.com/gpu-h800-8-number: "2"
nvidia.com/gpu-h800-8-memory-percentage: "70"
nvidia.com/gpu-h800-8-cores: "100"
requests:
cpu: "2"
memory: 20G
nvidia.com/gpu-h800-8-number: "2" # 申请2块GPU设备
nvidia.com/gpu-h800-8-memory-percentage: "70" # (可选)每个vGPU使用35%的显存
nvidia.com/gpu-h800-8-cores: "100" # (可选)每个vGPU使用50%的算力
volumeMounts:
- mountPath: /root/.cache/huggingface
name: model
mountPropagation: HostToContainer
- name: shm
mountPath: /dev/shmHAMi-vGPU组件安装后,可进行 卸载,卸载后,基于 CUDA劫持方案 的 GPU 虚拟化将不可用!
纯净模式