最近更新时间:2026-06-16 17:51:51
Xid 消息表示发生了一般的 GPU 错误,通常是由于驱动程序错误地编程或者发送给 GPU 的命令被损坏所导致的。GPU 硬件、软件问题或者用户应用程序出现问题时都有可能产生 Xid 消息。这些消息提供的诊断信息可供用户使用,以帮助调试和解决报告的问题。
Xid 错误的常见产生原因包括:
驱动程序错误地编程或发送给 GPU 的命令被损坏。
GPU 硬件故障。
软件问题。
用户应用程序错误(如数组越界、非法地址访问等)。
遇到 Xid 错误时,建议按以下步骤排查:
从系统日志中确认具体的 Xid 错误代码。
根据错误代码判断所属类别:
尝试自行解决:Xid 13、31、43、45、68
联系平台处理:Xid 32、38、48、61、62、63、64、74、79、92、94、95
参照对应的处理建议进行操作。
Xid | 说明 |
13 | Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问题。 |
31 | GPU memory page fault。通常是应用程序的非法地址访问,极小概率是驱动或者硬件问题。 |
43 | GPU stopped processing。通常是用户应用自身错误,而非硬件问题。 |
45 | Preemptive cleanup, due to previous errors。通常是您手动退出或者其他故障(硬件、资源限制等)导致的 GPU 应用退出,Xid 45 只提供一个结果,具体原因通常需要进一步分析日志。 |
68 | NVDEC0 Exception。通常是硬件或驱动问题。 |
处理步骤:
尝试重新提交负载并观察 Xid 错误是否消失。若错误仍有发生,则尝试自检代码或分析日志,确认是否因用户代码导致的 Xid 错误。
尝试重置 GPU 并观察 Xid 错误是否消失。
尝试重启服务器并观察 Xid 错误是否消失。
若确认代码无误且问题仍然发生,请联系金山云工程师进行处理。
当遇到以下 Xid 错误时,建议用户直接通过 在线支持(金山云)联系技术支持人员解决。
Xid | 说明 | 处理建议 |
32 | Invalid or corrupted push buffer stream。事件由 PCIE 总线上管理驱动和 GPU 之间通信的 DMA 控制器上报,通常是 PCI 质量问题导致,而非用户的程序产生。 | PCI 质量问题,联系金山云进行硬件基础性能压测定位。 |
38 | Driver firmware error。通常是驱动固件错误而非硬件问题。 | 驱动固件问题用户自行更新可能存在风险,不要自行进行重置 GPU 或重启节点操作,以免造成数据丢失或其他问题,可联系金山云根据具体情况提供合适的驱动固件更新方案。 |
48 | Double Bit ECC Error(DBE)。当 GPU 发生不可纠正的错误时,会记录此事件,该错误也会同时反馈给用户的应用程序。通常需要重置 GPU 或重启节点来清除这个错误。 | 不要自行进行重置 GPU 或重启节点操作,以免造成数据丢失或其他问题,应联系金山云技术支持人员进行处理。 |
61 | Internal micro-controller breakpoint/warning。GPU 内部引擎停止工作,用户的业务已经受到影响。 | GPU 设备故障严重,用户难以自行修复,应联系金山云技术支持对 GPU 进行全面检查和修复。 |
62 | Internal micro-controller halt。与 Xid 61 的触发场景类似。 | 同 Xid 61,及时联系金山云技术支持人员处理。 |
63 | ECC page retirement or row remapping recording event。当应用程序遭遇到 GPU 显存硬件错误时,自纠错机制会将错误的内存区域 retire 或者 remap,retirement 和 remapped 信息需记录到 infoROM 中才能永久生效。 | 硬件错误和信息记录到 infoROM 的操作,联系金山云技术支持人员尝试重启是否可恢复。 |
64 | ECC page retirement or row remapper recording failure。与 Xid 63 的触发场景类似。但 Xid 63 代表 retirement 和 remapped 信息成功记录到了 infoROM,Xid 64 代表该记录操作失败。 | 由于记录操作失败,可能需要专业人员进行进一步的排查和修复,联系金山云技术支持处理。 |
74 | NVLink Error。NVLink 硬件错误产生的 Xid,表明 GPU 已经出现严重硬件故障,需要下线维修。 | 出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。 |
79 | GPU has fallen off the bus。GPU 硬件检测到掉卡,总线上无法检测该 GPU,表明该 GPU 已经出现严重硬件故障,需要下线维修。 | 出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。 |
92 | High single-bit ECC error rate。硬件或驱动故障。 | 由于无法确定是硬件还是驱动问题,且自行处理可能会导致问题恶化,建议联系金山云技术支持人员进行排查和解决。 |
94 | Contained ECC error。当应用程序遭遇到 GPU 不可纠正的显存 ECC 错误时,错误抑制机制会尝试将错误抑制在发生硬件故障的应用程序,避免该错误影响 GPU 节点上运行的其他应用程序。当抑制机制成功抑制错误时,会产生该事件,仅出现不可纠正 ECC 错误的应用程序受到影响。 | 虽然错误被抑制,但仍需要专业人员进行检查和处理,联系金山云技术支持人员。 |
95 | Uncontained ECC error。与 Xid 94 的触发场景类似。但 Xid 94 代表抑制成功,而 Xid 95 代表抑制失败,表明运行在该 GPU 上的所有应用程序都已受到影响。 | 出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。 |
纯净模式
