金山云-文档中心-vGPU虚拟化

云原生AI套件

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

云原生AI套件

用户指南

GPU资源管理

HAMi-vGPU

最近更新时间：2026-02-28 19:47:55



金山云容器服务KCE vGPU服务是基于社区HAMI-vGPU方案提供的GPU虚拟化解决方案，支持单卡多容器共享，在保障业务稳定的前提下实现GPU资源的精细化切分，打破传统GPU“一任务一卡”的资源孤岛模式，帮助您最大化复用硬件资源，显著降低GPU算力成本。

功能优势

兼容性强：完全兼容Kubernetes原生API，提供标准一致的容器化体验
灵活分配资源粒度：物理GPU的资源可以进行任意划分，算力支持最小1%粒度划分，现存支持按MB或百分比分配内存
支持域广：基于Cuda劫持实现GPU虚拟化，支持市面上绝大部分的Nvidia 消费级及数据中心级的GPU卡
开箱即用：按需部署，可通过Helm完成一键安装卸载

前提条件

创建集群	已创建KCE1.0/KCE2.0容器服务集群，且集群处于运行中状态。详细操作，请参见创建集群。
支持K8s版本	KCE K8s version ≥ 1.23
组件依赖	云原生AI组件管理已安装kce-volcano组件
支持的 GPU 卡架构	几乎所有主流消费级和数据中心 GPU
支持的CUDA版本	CUDA版本推荐12.1-12.6
设备资源名	nvidia.com/gpu-{GPU卡型号}-number : "" # 申请的GPU卡的数量 nvidia.com/gpu-{GPU卡型号}-cores-percentage : "" # 申请的总算力比例 nvidia.com/gpu-{GPU卡型号}-memory-percentage :"" # 申请总显存比例
调度器名称	调度器需要指定为`schedulerName:volcano`

操作步骤

登录容器服务控制台。
在左侧导航栏中选择集群，单击需要配置的目标集群。
在集群管理页面的左侧导航栏中，选择 云原生AI-组件管理。

安装及卸载

将鼠标移动到HAMi-vGPU组件上，点击右下角安装。

需已安装kce-volcano组件。

HAMi-vGPU组件安装后，可进行卸载，卸载后，基于 CUDA劫持方案的 GPU 虚拟化将不可用！

部署YAML示例

独占任务：使用整张GPU卡

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: "20Gi"
        - name: model # 将模型文件放在主机的/root/model目录
          hostPath:
            path: /root/model
      containers:
        - name: qwen25-7b
          image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
          command: ["/bin/sh", "-c"]
          args: [
            "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
          ]
          ports:
            - containerPort: 8000
          resources:
            limits:
              cpu: "10"
              memory: 50G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200"  # 申请总显存比例
            requests:
              cpu: "2"
              memory: 20G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200"  # 申请总显存比例
          volumeMounts:
            - mountPath: /root/.cache/huggingface
              name: model
              mountPropagation: HostToContainer
            - name: shm
              mountPath: /dev/shm

共享任务：使用两张卡，各 20% 的算力和显存

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: "20Gi"
        - name: model # 将模型文件放在主机的/root/model目录
          hostPath:
            path: /root/model
      containers:
        - name: qwen25-7b
          image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
          command: ["/bin/sh", "-c"]
          args: [
            "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
          ]
          ports:
            - containerPort: 8000
          resources:
            limits:
              cpu: "10"
              memory: 50G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40"  # 申请总显存比例
            requests:
              cpu: "2"
              memory: 20G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40"  # 申请总显存比例
          volumeMounts:
            - mountPath: /root/.cache/huggingface
              name: model
              mountPropagation: HostToContainer
            - name: shm
              mountPath: /dev/shm

文档导读

上一篇：GPU资源管理

下一篇：实践教程

纯净模式常规模式

纯净模式

点击可全屏预览文档内容

计算

办公云

人工智能

其它

网络

云安全

合规性

数据库

大数据

开发者工具

合作与生态

用户中心

存储与云分发

视频云服务

云监控

消息队列

应用服务

管理与审计

HAMi-vGPU

功能优势

前提条件

操作步骤

安装及卸载

部署YAML示例

独占任务：使用整张GPU卡

共享任务：使用两张卡，各 20% 的算力和显存