金山云-文档中心-GPU内存（ECC）故障处理方法

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

云服务器(KEC)

故障处理

GPU内存（ECC）故障处理方法

最近更新时间：2026-06-16 17:51:58



ECC（Error Correcting Code）是一种用于检测和纠正内存中位错误的机制。在 GPU 计算中，ECC 对于确保数据完整性、防止计算错误和系统崩溃至关重要，特别是在数据中心、HPC 和 AI 训练场景。

现阶段消费级 GPU（GeForce/RTX 系列）不支持 ECC。
ECC 启用会占用约 6.25% 的显存容量。

当云监控出现以下情况时，表明 GPU 内存可能出现 ECC 故障：

告警配置操作，可参考云监控相关内容。

GPU ECC 内存可能出现以下异常类型：

重启完成后，执行以下命令快速获取当前 ECC 状态：

nvidia-smi --query-gpu=index,serial,ecc.errors.corrected.aggregate.total,gpu_name,gpu_bus_id,vbios_version --format=csv

以下为不同 ECC 异常信号的阈值与对应处理方式：

具体查看关键字	阈值	处理方式
`SRAM Uncorrectable`	> 0	1. 优先重启设备； 2. 重启后再次查看 ECC 状态； 3. 若未恢复，通过在线支持联系技术支持人员解决
`SRAM Correctable`	> 0
`DRAM Uncorrectable`	> 0
`DRAM Correctable`	> 0
`SRAM Threshold Exceeded`	No
`Pending`	No
`Remapping Failure Occurred`	No

若重启后依旧出现以下任一情况，请直接通过在线支持联系技术支持人员解决：

文档导读

纯净模式常规模式

纯净模式

点击可全屏预览文档内容