全部文档
当前文档

共搜索到 0 条结果

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

常见Xid事件处理方法

最近更新时间:2026-06-16 17:51:51

问题描述

Xid 消息表示发生了一般的 GPU 错误,通常是由于驱动程序错误地编程或者发送给 GPU 的命令被损坏所导致的。GPU 硬件、软件问题或者用户应用程序出现问题时都有可能产生 Xid 消息。这些消息提供的诊断信息可供用户使用,以帮助调试和解决报告的问题。

可能原因

Xid 错误的常见产生原因包括:

  • 驱动程序错误地编程或发送给 GPU 的命令被损坏。

  • GPU 硬件故障。

  • 软件问题。

  • 用户应用程序错误(如数组越界、非法地址访问等)。

排查步骤

遇到 Xid 错误时,建议按以下步骤排查:

  1. 从系统日志中确认具体的 Xid 错误代码。

  2. 根据错误代码判断所属类别:

    • 尝试自行解决:Xid 13、31、43、45、68

    • 联系平台处理:Xid 32、38、48、61、62、63、64、74、79、92、94、95

  3. 参照对应的处理建议进行操作。

解决方案

尝试自行解决的 Xid 错误

Xid

说明

13

Graphics Engine Exception。通常是数组越界、指令错误,小概率是硬件问题。

31

GPU memory page fault。通常是应用程序的非法地址访问,极小概率是驱动或者硬件问题。

43

GPU stopped processing。通常是用户应用自身错误,而非硬件问题。

45

Preemptive cleanup, due to previous errors。通常是您手动退出或者其他故障(硬件、资源限制等)导致的 GPU 应用退出,Xid 45 只提供一个结果,具体原因通常需要进一步分析日志。

68

NVDEC0 Exception。通常是硬件或驱动问题。

处理步骤:

  1. 尝试重新提交负载并观察 Xid 错误是否消失。若错误仍有发生,则尝试自检代码或分析日志,确认是否因用户代码导致的 Xid 错误。

  2. 尝试重置 GPU 并观察 Xid 错误是否消失。

  3. 尝试重启服务器并观察 Xid 错误是否消失。

  4. 若确认代码无误且问题仍然发生,请联系金山云工程师进行处理。

需联系平台处理的 Xid 错误

当遇到以下 Xid 错误时,建议用户直接通过 在线支持(金山云)联系技术支持人员解决。

Xid

说明

处理建议

32

Invalid or corrupted push buffer stream。事件由 PCIE 总线上管理驱动和 GPU 之间通信的 DMA 控制器上报,通常是 PCI 质量问题导致,而非用户的程序产生。

PCI 质量问题,联系金山云进行硬件基础性能压测定位。

38

Driver firmware error。通常是驱动固件错误而非硬件问题。

驱动固件问题用户自行更新可能存在风险,不要自行进行重置 GPU 或重启节点操作,以免造成数据丢失或其他问题,可联系金山云根据具体情况提供合适的驱动固件更新方案。

48

Double Bit ECC Error(DBE)。当 GPU 发生不可纠正的错误时,会记录此事件,该错误也会同时反馈给用户的应用程序。通常需要重置 GPU 或重启节点来清除这个错误。

不要自行进行重置 GPU 或重启节点操作,以免造成数据丢失或其他问题,应联系金山云技术支持人员进行处理。

61

Internal micro-controller breakpoint/warning。GPU 内部引擎停止工作,用户的业务已经受到影响。

GPU 设备故障严重,用户难以自行修复,应联系金山云技术支持对 GPU 进行全面检查和修复。

62

Internal micro-controller halt。与 Xid 61 的触发场景类似。

同 Xid 61,及时联系金山云技术支持人员处理。

63

ECC page retirement or row remapping recording event。当应用程序遭遇到 GPU 显存硬件错误时,自纠错机制会将错误的内存区域 retire 或者 remap,retirement 和 remapped 信息需记录到 infoROM 中才能永久生效。

硬件错误和信息记录到 infoROM 的操作,联系金山云技术支持人员尝试重启是否可恢复。

64

ECC page retirement or row remapper recording failure。与 Xid 63 的触发场景类似。但 Xid 63 代表 retirement 和 remapped 信息成功记录到了 infoROM,Xid 64 代表该记录操作失败。

由于记录操作失败,可能需要专业人员进行进一步的排查和修复,联系金山云技术支持处理。

74

NVLink Error。NVLink 硬件错误产生的 Xid,表明 GPU 已经出现严重硬件故障,需要下线维修。

出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。

79

GPU has fallen off the bus。GPU 硬件检测到掉卡,总线上无法检测该 GPU,表明该 GPU 已经出现严重硬件故障,需要下线维修。

出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。

92

High single-bit ECC error rate。硬件或驱动故障。

由于无法确定是硬件还是驱动问题,且自行处理可能会导致问题恶化,建议联系金山云技术支持人员进行排查和解决。

94

Contained ECC error。当应用程序遭遇到 GPU 不可纠正的显存 ECC 错误时,错误抑制机制会尝试将错误抑制在发生硬件故障的应用程序,避免该错误影响 GPU 节点上运行的其他应用程序。当抑制机制成功抑制错误时,会产生该事件,仅出现不可纠正 ECC 错误的应用程序受到影响。

虽然错误被抑制,但仍需要专业人员进行检查和处理,联系金山云技术支持人员。

95

Uncontained ECC error。与 Xid 94 的触发场景类似。但 Xid 94 代表抑制成功,而 Xid 95 代表抑制失败,表明运行在该 GPU 上的所有应用程序都已受到影响。

出现严重硬件故障,用户不要自行处理,应联系金山云技术支持人员安排下线维修。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈