全部文档
当前文档

共搜索到 0 条结果

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

GPU驱动升级实践教程

最近更新时间:2026-06-17 15:51:32

本实践介绍在 Linux 系统上安装 GPU 驱动的具体操作,涵盖卸载旧驱动、安装新驱动及 CUDA 的完整流程,提供图文安装(交互式)和静默安装(自动化)两种方式。

约束限制

  • 卸载旧驱动后需要重启设备,以确保旧模块完全释放。

  • 重启后需确认 nvidianouveau 相关内核模块未加载,否则安装会失败。

  • 若重启后仍有模块残留,需通过 blacklist 方式禁用 nouveau 模块。

  • 静默安装场景下,nvidia-fabricmanager 版本必须与新装驱动版本保持一致,安装驱动后需重新安装对应版本的 fabricmanager

准备工作

根据系统版本和所需驱动版本,提前下载以下安装包:

操作步骤

方法一:图文安装(交互式安装)

适用于单机或有交互终端的场景,安装过程需手动确认选项。

步骤一:卸载旧驱动
  1. 执行驱动卸载脚本:

    sudo /usr/bin/nvidia-uninstall
  2. 按交互提示完成卸载:直接回车 → 选择 OK 回车 → 等待进度条至 100% → 再次选择 OK 完成。

步骤二:卸载 nouveau 模块与 CUDA
  1. 卸载 nouveau 内核模块:

    rmmod nouveau
  2. 卸载 CUDA:

    sudo cuda-uninstaller
步骤三:重启设备并检查模块状态

卸载完毕后需要重启设备,重启后确认相应模块没有加载即可开始安装。

  1. 重启设备。

  2. 重启后确认以下模块未加载:

    lsmod | grep -i nvidia
    lsmod | grep nou
步骤四:禁用 nouveau 模块(如有残留)

若重启后仍有 nouveau 模块加载,需执行以下操作。

Ubuntu 系统:

  1. 创建或编辑 /etc/modprobe.d/blacklist-nouveau.conf,添加以下内容:

    blacklist nouveau
    options nouveau modeset=0
  2. 重新生成 initramfs:

    sudo update-initramfs -u

RHEL/CentOS 系统:

  1. 创建或编辑 /etc/modprobe.d/blacklist-nouveau.conf,添加以下内容:

    blacklist nouveau
    options nouveau modeset=0
  2. 重新生成 initramfs:

    sudo dracut --force
步骤五:安装 GPU 驱动

以下以 Ubuntu 系统安装 535.104.05 版本为例。

  1. 点击相应版本信息,下载驱动安装包到目标目录。

  2. 执行驱动安装:

    sudo ./cuda-12.2.2_535.104.05_linux.run
  3. 按交互提示操作:

    • 输入 accept 回车。

    • 光标下移至 Install 回车。

    • 出现内核连接文件更新提示时,选择 Yes

  4. 等待安装完成。

步骤六:验证驱动

执行如下命令,若正常输出 GPU 信息,表明驱动安装成功。

sudo nvidia-smi

方法二:静默安装(自动化安装)

适用于批量部署或脚本化场景,无需人工交互。

步骤一:停止相关服务
systemctl stop nvidia-fabricmanager
systemctl stop nvidia-persistenced
systemctl stop elfin-epc.service
systemctl stop categraf.service
步骤二:卸载内核模块
rmmod nvidia_uvm
rmmod nvidia_drm
rmmod nvidia_modeset
rmmod nvidia
步骤三:卸载驱动

此操作会卸载 fabricmanager,重新安装驱动后需要安装对应版本的 fabricmanager

/usr/bin/nvidia-uninstall --no-questions --ui=none
/usr/bin/systemctl daemon-reload
apt-get --purge remove nvidia*
步骤四:卸载 CUDA(可选)

若不更新 CUDA 可跳过此步骤及后续 CUDA 相关操作。

rm -rf /usr/local/cuda*
步骤五:检查环境

执行以下命令确认无残留。若均无输出即可安装驱动。若仍有输出,请参考方法一:禁用 nouveau 模块的步骤进行操作。

lsof /dev/nvidia*
fuser -v /dev/nvidia*
lsmod | grep -i nvi
lsmod | grep nou
步骤六:安装驱动与 CUDA
  1. 安装驱动:

    ./NVIDIA-Linux-x86_64-550.163.01.run
  2. 安装 CUDA(仅安装 Toolkit,不重复安装驱动):

    安装 CUDA 时需增加 --toolkit 参数,确保仅安装 CUDA Toolkit 而不安装驱动。

    ./cuda_12.4.1_550.54.15_linux.run --silent --toolkit
步骤七:配置 CUDA 环境变量
export PATH=/usr/local/cuda-12.4/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH
步骤八:安装 fabricmanager

此步骤非常重要,fabricmanager 版本必须与新装驱动版本严格匹配。

确保 fabricmanager 版本与驱动版本一致:

dpkg -i nvidia-fabricmanager-550_550.163.01-1_amd64.deb
步骤九:启动相关服务
systemctl start nvidia-fabricmanager
systemctl start nvidia-persistenced
systemctl start elfin-epc.service
systemctl start categraf.service

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈