最近更新时间:2026-06-16 17:51:51
GPU 系统处理器(GSP)在预期时间内没有响应驱动发出的 RPC 请求,通常对应 GPU 初始化或管理任务超时。出现该错误时,系统往往会伴随"掉卡"现象,日志里可看到 XID 119 或 XID 120 错误信息。
GPU GSP(GPU System Processor)组件未能在预期时间内响应驱动的 RPC 请求,导致 GPU 初始化或管理任务超时。
登录GPU实例,执行以下命令查看 Xid 相关报错,若输出中包含 XID 119 或 XID 120,即可确认该错误。
dmesg | grep -i xid如果使用 535 版本驱动,可以更新驱动至 535.216.01 及以上版本。
如果使用 550 版本驱动,可以更新驱动至 550.144.03 及以上版本。
新版本驱动对 GPU GSP 引发的 XID 119 错误问题进行了修复。具体升级操作可参考GPU驱动升级实践教程。
或者降级驱动版本至 470 的最新稳定版本 470.223.02。
该版本驱动默认不会开启 GSP,不会触发 XID 119 错误。
如果您想了解更多关于 GSP 功能的影响详情,请参见:开启或关闭 GSP 功能的影响。
执行以下命令,关闭 GPU 的 GSP 组件。
sudo su
echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf更多相关详细信息,请参阅官方指导-关闭 GSP 方式。
重启 GPU 实例。
再次登录 GPU 实例。
执行以下命令,查看 EnableGpuFirmware 参数值。
cat /proc/driver/nvidia/params | grep EnableGpuFirmware如果返回结果是 EnableGpuFirmware: 0,则表示 GPU 的 GSP 组件关闭,问题已修复。
如果返回结果不是 EnableGpuFirmware: 0,则表示 GSP 组件没有关闭,请继续执行下一步确认GPU是否正常。
执行命令 nvidia-smi,确认GPU 卡是否正常。
如果返回结果异常,表示GPU 卡仍然存在问题,请联系金山云处理。
纯净模式
