容器集群支持GPU调度

最近更新时间:2018-12-27 21:12:09

若您的业务有运行机器学习、图像处理的等高运算密度的场景,您可以通过金山云容器集群+GPU快速开始使用GPU容器,无需手动安装nvidia driver和CUDA

使用指南

创建GPU集群

1、登录容器控制台,点击左侧导航栏的【集群】,进入集群列表页面

2、点击【创建集群】,进入新建集群的流程,在节点配置流程中,选择云服务器系列为GPU系列,选择对应的GPU机型,创建GPU集群

image.png

通过kubectl创建GPU服务

不同于CPU和内存,您需要在yaml文件中显式申明你打算使用的GPU的数量,通过在container的resources.limits中设置nvidia.com/gpu,申明你想要使用的GPU数量

示例:

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vector-add
spec:
  restartPolicy: OnFailure
  containers:
    - name: cuda-vector-add
      image: hub.kce.ksyun.com/ksyun/cuda-vector-add:0.1
      resources:
        limits:
          nvidia.com/gpu: 1   # 指定调用nvida gpu的数量

使用限制

1、仅在创建时间为2018年12年27日之后的集群支持GPU调度,若您的集群创建时间早于上述时间且需要使用GPU容器,请提交工单申请

2、目前容器集群中GPU机型仅支持CentOS操作系统

3、GPU资源申请仅需要在容器资源的 limits 中配置

4、容器之间不支持共享GPU,每个容器可以申请一个或者多个GPU

5、GPU必须以整数为单位被申请使用

金山云,开启您的云计算之旅

注册有礼