全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

HAMi-vGPU

最近更新时间:2026-02-28 19:47:55

金山云容器服务KCE vGPU服务是基于社区HAMI-vGPU方案提供的GPU虚拟化解决方案,支持单卡多容器共享,在保障业务稳定的前提下实现GPU资源的精细化切分,打破传统GPU“一任务一卡”的资源孤岛模式,帮助您最大化复用硬件资源,显著降低GPU算力成本。

功能优势

  • 兼容性强完全兼容Kubernetes原生API,提供标准一致的容器化体验

  • 灵活分配资源粒度物理GPU的资源可以进行任意划分,算力支持最小1%粒度划分,现存支持按MB或百分比分配内存

  • 支持域广:基于Cuda劫持实现GPU虚拟化,支持市面上绝大部分的Nvidia 消费级及数据中心级的GPU卡

  • 开箱即用:按需部署,可通过Helm完成一键安装卸载

前提条件

创建集群

已创建KCE1.0/KCE2.0容器服务集群,且集群处于运行中状态。详细操作,请参见创建集群

支持K8s版本

KCE K8s version ≥ 1.23

组件依赖

云原生AI组件管理已安装kce-volcano组件

支持的 GPU 卡架构

几乎所有主流消费级和数据中心 GPU

支持的CUDA版本

CUDA版本推荐12.1-12.6

设备资源名

nvidia.com/gpu-{GPU卡型号}-number: "" # 申请的GPU卡的数量

nvidia.com/gpu-{GPU卡型号}-cores-percentage: "" # 申请的总算力比例

nvidia.com/gpu-{GPU卡型号}-memory-percentage:"" # 申请总显存比例

调度器名称

调度器需要指定为schedulerName:volcano

操作步骤

  1. 登录容器服务控制台

  2. 在左侧导航栏中选择 集群,单击需要配置的目标集群。

  3. 在集群管理页面的左侧导航栏中,选择 云原生AI-组件管理

安装及卸载

将鼠标移动到HAMi-vGPU组件上,点击右下角 安装

需已安装kce-volcano组件。

HAMi-vGPU组件安装后,可进行 卸载卸载后,基于 CUDA劫持方案 的 GPU 虚拟化将不可用!

部署YAML示例

独占任务:使用整张GPU卡

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: "20Gi"
        - name: model # 将模型文件放在主机的/root/model目录
          hostPath:
            path: /root/model
      containers:
        - name: qwen25-7b
          image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
          command: ["/bin/sh", "-c"]
          args: [
            "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
          ]
          ports:
            - containerPort: 8000
          resources:
            limits:
              cpu: "10"
              memory: 50G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200"  # 申请总显存比例
            requests:
              cpu: "2"
              memory: 20G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "200"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "200"  # 申请总显存比例
          volumeMounts:
            - mountPath: /root/.cache/huggingface
              name: model
              mountPropagation: HostToContainer
            - name: shm
              mountPath: /dev/shm

共享任务:使用两张卡,各 20% 的算力和显存

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: "20Gi"
        - name: model # 将模型文件放在主机的/root/model目录
          hostPath:
            path: /root/model
      containers:
        - name: qwen25-7b
          image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
          command: ["/bin/sh", "-c"]
          args: [
            "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
          ]
          ports:
            - containerPort: 8000
          resources:
            limits:
              cpu: "10"
              memory: 50G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40"  # 申请总显存比例
            requests:
              cpu: "2"
              memory: 20G
              nvidia.com/gpu-{GPU卡型号}-number: "2"     # 申请的GPU卡的数量
              nvidia.com/gpu-{GPU卡型号}-cores-percentage: "40"    # 申请的总算力比例
              nvidia.com/gpu-{GPU卡型号}-memory-percentage: "40"  # 申请总显存比例
          volumeMounts:
            - mountPath: /root/.cache/huggingface
              name: model
              mountPropagation: HostToContainer
            - name: shm
              mountPath: /dev/shm

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈