报错 RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED
表示在调用 cuDNN 库(CUDA 深度神经网络加速库)时,出现了执行失败的问题。这个问题通常与 CUDA 环境、cuDNN 库的版本不匹配、GPU 显存不足或其他硬件配置问题有关。
------------------
最终禁用cudnn之后有用,但是禁用后跑的很慢,需要进一步探讨怎么解决cudnn的问题
-------------------
解决步骤:
1. 检查 GPU 显存是否不足:
CUDNN_STATUS_EXECUTION_FAILED
常常是由于显存不足导致的。你可以通过命令检查 GPU 的显存使用情况:nvidia-smi
- 如果显存不足,可以尝试减小
batch_size
参数,例如将批量大小从 24 减小为 16 或 8:python train_classification.py --model pointnet_cls --log_dir pointnet_cls --batch_size 16
2. 更新或重装 CUDA 和 cuDNN:
- 确保安装的 CUDA 版本与 PyTorch 和 cuDNN 版本兼容。你可以使用以下命令检查当前的 CUDA 和 PyTorch 版本:
import torch print(torch.version.cuda)