最近更新时间:2026-06-16 17:51:58
ECC(Error Correcting Code)是一种用于检测和纠正内存中位错误的机制。在 GPU 计算中,ECC 对于确保数据完整性、防止计算错误和系统崩溃至关重要,特别是在数据中心、HPC 和 AI 训练场景。
现阶段消费级 GPU(GeForce/RTX 系列)不支持 ECC。
ECC 启用会占用约 6.25% 的显存容量。
当云监控出现以下情况时,表明 GPU 内存可能出现 ECC 故障:
告警配置操作,可参考云监控相关内容。
云监控报出 XID 63 / 64 / 94 / 95 报错,但设备未掉卡。
云监控报出 GpuMemError 事件,具体可参看裸金属服务器事件列表-GPU故障相关内容。
GPU ECC 内存可能出现以下异常类型:
SRAM Uncorrectable:SRAM 不可纠错错误
SRAM Correctable:SRAM 可纠错错误
DRAM Uncorrectable:DRAM 不可纠错错误
DRAM Correctable:DRAM 可纠错错误
SRAM Threshold Exceeded:SRAM 阈值超限
Remapping Failure Occurred:重映射失败
登录到云监控报出异常的设备。
执行以下命令查看 ECC 状态:
若设备有多张 GPU 卡,需要逐一查看每张卡的状态。
重点关注以下字段:DRAM Uncorrectable、SRAM Uncorrectable、Uncorrectable Error。
nvidia-smi -q -d ECC,ROW_REMAPPER出现 ECC 异常后,优先重启实例。
重启完成后,执行以下命令快速获取当前 ECC 状态:
nvidia-smi --query-gpu=index,serial,ecc.errors.corrected.aggregate.total,gpu_name,gpu_bus_id,vbios_version --format=csv以下为不同 ECC 异常信号的阈值与对应处理方式:
具体查看关键字 | 阈值 | 处理方式 |
|---|---|---|
| > 0 | 1. 优先重启设备; 2. 重启后再次查看 ECC 状态; 3. 若未恢复,通过 在线支持 联系技术支持人员解决 |
| > 0 | |
| > 0 | |
| > 0 | |
| No | |
| No | |
| No |
若重启后依旧出现以下任一情况,请直接通过 在线支持 联系技术支持人员解决:
SRAM Threshold Exceeded:Yes
Pending:No 且 Remapping Failure Occurred:Yes
纯净模式
