全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

HAMi-vGPU

最近更新时间:2025-08-13 11:27:49

HAMi-vGPU是基于CUDA劫持的GPU虚拟化方案,支持GPU卡算力与显存的灵活调度与隔离限制,降低GPU使用成本。

前提条件

  1. 已创建KCE1.0容器服务集群,且集群处于运行中状态。详细操作,请参见创建集群

  2. KCE1.0容器服务k8s版本需要为v1.25.15/v1.27.7 。

  3. 云原生AI组件管理已安装kce-volcano组件。

操作步骤

  1. 登录容器服务控制台

  2. 在左侧导航栏中选择 集群,单击需要配置的目标集群。

  3. 在集群管理页面的左侧导航栏中,选择 云原生AI-组件管理

安装

将鼠标移动到HAMi-vGPU组件上,点击右下角 安装

需已安装kce-volcano组件。

使用

安装完成HAMi-vGPU组件后,可进行GPU虚拟化的使用。使用须知如下:

项目

要求

Kubernetes 版本

KCE容器服务1.0 Kubernetes 版本为v1.23/v1.25/v1.27。

依赖组件

kce-volcano需要已安装。

调度器

调度器需要指定为schedulerName:volcano

CUDA版本

CUDA版本推荐12.1-12.6。

GPU 卡类型

不限制GPU卡类型。

设备资源名

  • nvidia.com/gpu-h800-8-number: "2" # 容器申请的vGPU个数,申请数量不能超过单个机器上GPU的数量

  • nvidia.com/gpu-h800-8-memory-percentage: "70" # (可选)每个vGPU使用显存,当前表示每张GPU卡使用70/2=35%的显存

  • nvidia.com/gpu-h800-8-cores: "100" # (可选)每个vGPU使用算力,当前表示每张GPU卡使用100/2=50%的算力

yaml使用示例:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: "20Gi"
        - name: model # 将模型文件放在主机的/root/model目录
          hostPath:
            path: /root/model
      containers:
        - name: qwen25-7b
          image: hub-cn-northwest-3.kce.ksyun.com/inference-models/vllm/vllm-openai:v0.7.2
          command: ["/bin/sh", "-c"]
          args: [
            "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
          ]
          ports:
            - containerPort: 8000
          resources:
            limits:
              cpu: "10"
              memory: 50G
              nvidia.com/gpu-h800-8-number: "2"
              nvidia.com/gpu-h800-8-memory-percentage: "70"
              nvidia.com/gpu-h800-8-cores: "100"
            requests:
              cpu: "2"
              memory: 20G
              nvidia.com/gpu-h800-8-number: "2" # 申请2块GPU设备
              nvidia.com/gpu-h800-8-memory-percentage: "70" # (可选)每个vGPU使用35%的显存
              nvidia.com/gpu-h800-8-cores: "100" # (可选)每个vGPU使用50%的算力
          volumeMounts:
            - mountPath: /root/.cache/huggingface
              name: model
              mountPropagation: HostToContainer
            - name: shm
              mountPath: /dev/shm

卸载

HAMi-vGPU组件安装后,可进行 卸载卸载后,基于 CUDA劫持方案 的 GPU 虚拟化将不可用!

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈