全部文档
当前文档

共搜索到 0 条结果

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

GPU内存(ECC)故障处理方法

最近更新时间:2026-06-16 17:51:58

ECC 概述

ECC(Error Correcting Code)是一种用于检测和纠正内存中位错误的机制。在 GPU 计算中,ECC 对于确保数据完整性、防止计算错误和系统崩溃至关重要,特别是在数据中心、HPC 和 AI 训练场景。

现阶段消费级 GPU(GeForce/RTX 系列)不支持 ECC
ECC 启用会占用约 6.25% 的显存容量。

问题描述

当云监控出现以下情况时,表明 GPU 内存可能出现 ECC 故障:

告警配置操作,可参考云监控相关内容

可能原因

GPU ECC 内存可能出现以下异常类型:

  • SRAM Uncorrectable:SRAM 不可纠错错误

  • SRAM Correctable:SRAM 可纠错错误

  • DRAM Uncorrectable:DRAM 不可纠错错误

  • DRAM Correctable:DRAM 可纠错错误

  • SRAM Threshold Exceeded:SRAM 阈值超限

  • Remapping Failure Occurred:重映射失败

排查步骤

  1. 登录到云监控报出异常的设备。

  2. 执行以下命令查看 ECC 状态:

    • 若设备有多张 GPU 卡,需要逐一查看每张卡的状态。

    • 重点关注以下字段:DRAM UncorrectableSRAM UncorrectableUncorrectable Error

    nvidia-smi -q -d ECC,ROW_REMAPPER
    • 回显正常示例:

    • 回显异常示例:

  3. 出现 ECC 异常后,优先重启实例。

  4. 重启完成后,执行以下命令快速获取当前 ECC 状态:

    nvidia-smi --query-gpu=index,serial,ecc.errors.corrected.aggregate.total,gpu_name,gpu_bus_id,vbios_version --format=csv

解决方案

以下为不同 ECC 异常信号的阈值与对应处理方式:

具体查看关键字

阈值

处理方式

SRAM Uncorrectable

> 0

1. 优先重启设备;

2. 重启后再次查看 ECC 状态;

3. 若未恢复,通过 在线支持 联系技术支持人员解决

SRAM Correctable

> 0

DRAM Uncorrectable

> 0

DRAM Correctable

> 0

SRAM Threshold Exceeded

No

Pending

No

Remapping Failure Occurred

No

若重启后依旧出现以下任一情况,请直接通过 在线支持 联系技术支持人员解决:

  • SRAM Threshold Exceeded:Yes

  • Pending:No 且 Remapping Failure Occurred:Yes

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈