全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

HAMi-vGPU

最近更新时间:2025-04-29 17:05:13

HAMi-vGPU是基于CUDA劫持的GPU虚拟化方案,支持GPU卡算力与显存的灵活调度与隔离限制,降低GPU使用成本。

前提条件

  1. 已创建KCE1.0容器服务集群,且集群处于运行中状态。详细操作,请参见创建集群

  2. KCE1.0容器服务k8s版本需要为v1.23.17/v1.25.15/v1.27.7 之一。

  3. 云原生AI组件管理已安装kce-volcano组件。

操作步骤

  1. 登录容器服务控制台

  2. 在左侧导航栏中选择 集群,单击需要配置的目标集群。

  3. 在集群管理页面的左侧导航栏中,选择 云原生AI-组件管理

安装

将鼠标移动到HAMi-vGPU组件上,点击右下角 安装

需已安装kce-volcano组件。

使用

安装完成HAMi-vGPU组件后,可进行GPU虚拟化的使用。使用须知如下:

项目

要求

Kubernetes 版本

KCE容器服务1.0 Kubernetes 版本为v1.23/v1.25/v1.27。

依赖组件

kce-volcano需要已安装。

调度器

调度器需要指定为schedulerName:volcano

CUDA版本

CUDA版本推荐12.1-12.6。

GPU 卡类型

不限制GPU卡类型。

设备资源名

  • volcano.sh/vgpu-number:容器申请的vGPU个数,申请数量不能超过单个机器上GPU的数量

  • volcano.sh/vgpu-memory:容器申请的vGPU中,单个GPU的显存使用上限。默认单位为GB

  • volcano.sh/vgpu-cores:容器申请的vGPU百分比,单个GPU的算力资源使用上限

yaml使用示例:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen2.5-7b
  namespace: default
  labels:
    app: qwen2.5-7b
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen2.5-7b
  template:
    metadata:
      labels:
        app: qwen2.5-7b
    spec:
      schedulerName: volcano # 调度器为Volcnao
      volumes:
      - name: shm
        emptyDir:
          medium: Memory
          sizeLimit: "20Gi"
      - name: model
        hostPath:
          path: /root/model
      containers:
      - name: qwen25-7b
        image: hub.kce.ksyun.com/ksyun/vllm-openai:0.6.6 # 部署qwen2.5-7b 的推理服务
        command: ["/bin/sh", "-c"]
        args: [
          "python3 -m vllm.entrypoints.openai.api_server --model /root/.cache/huggingface/Qwen2.5-7B --tensor-parallel-size 4 --trust-remote-code --enforce-eager --max-model-len 22560 --port 8000 --api-key token-abc123"
        ]
        ports:
        - containerPort: 8000
        resources:
          limits:
            cpu: "10"
            memory: 50G
            volcano.sh/vgpu-number: "4" # 申请4块GPU设备
            volcano.sh/vgpu-memory: "10" # (可选)每个vGPU使用10G设备内存,默认为独占GPU
            volcano.sh/vgpu-cores: "50" # (可选)每个vGPU使用50%的算力
          requests:
            cpu: "2"
            memory: 20G
            volcano.sh/vgpu-number: "4" # 申请4块GPU设备
            volcano.sh/vgpu-memory: "10" # (可选)每个vGPU使用10G设备内存,默认为独占GPU
            volcano.sh/vgpu-cores: "50" # (可选)每个vGPU使用50%的算力
        volumeMounts:
        - mountPath: /root/.cache/huggingface
          name: model
          mountPropagation: HostToContainer
        - name: shm
          mountPath: /dev/shm

卸载

HAMi-vGPU组件安装后,可进行 卸载卸载后,基于 CUDA劫持方案 的 GPU 虚拟化将不可用!

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈