全部文档
当前文档

共搜索到 0 条结果

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

XID 119和XID 120错误处理方法

最近更新时间:2026-06-16 17:51:51

问题描述

GPU 系统处理器(GSP)在预期时间内没有响应驱动发出的 RPC 请求,通常对应 GPU 初始化或管理任务超时。出现该错误时,系统往往会伴随"掉卡"现象,日志里可看到 XID 119 或 XID 120 错误信息。

可能原因

GPU GSP(GPU System Processor)组件未能在预期时间内响应驱动的 RPC 请求,导致 GPU 初始化或管理任务超时。

排查步骤

登录GPU实例,执行以下命令查看 Xid 相关报错,若输出中包含 XID 119 或 XID 120,即可确认该错误。

dmesg | grep -i xid

解决方案

方案一:升级驱动

  1. 如果使用 535 版本驱动,可以更新驱动至 535.216.01 及以上版本。

  2. 如果使用 550 版本驱动,可以更新驱动至 550.144.03 及以上版本。

    新版本驱动对 GPU GSP 引发的 XID 119 错误问题进行了修复。具体升级操作可参考GPU驱动升级实践教程

  3. 或者降级驱动版本至 470 的最新稳定版本 470.223.02。

    该版本驱动默认不会开启 GSP,不会触发 XID 119 错误。

方案二:禁用 GSP 功能

如果您想了解更多关于 GSP 功能的影响详情,请参见:开启或关闭 GSP 功能的影响

  1. 执行以下命令,关闭 GPU 的 GSP 组件。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf

    更多相关详细信息,请参阅官方指导-关闭 GSP 方式。

  2. 重启 GPU 实例。

  3. 再次登录 GPU 实例。

  4. 执行以下命令,查看 EnableGpuFirmware 参数值。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware
    • 如果返回结果是 EnableGpuFirmware: 0,则表示 GPU 的 GSP 组件关闭,问题已修复。

    • 如果返回结果不是 EnableGpuFirmware: 0,则表示 GSP 组件没有关闭,请继续执行下一步确认GPU是否正常。

  5. 执行命令 nvidia-smi,确认GPU 卡是否正常。

    如果返回结果异常,表示GPU 卡仍然存在问题,请联系金山云处理。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈