TensorFlow-GPU版本安装各种问题及心得(2025年超具体)

        大家在用深度学习框架调用GPU来加速训练时,通常都会选择Pytorch与TensorFlow,对于新手来说,网上的安装教程非常多,也存在一些发布时间较长导致信息错误的教程,我是在读研究生,课题涉及到了医学图像的处理,不可避免需要GPU来加速训练,我在安装Pytorch及TensorFlow等框架时也遇到了各种各样的问题,因此想将这些问题记录下来,同时也对如何安装这些框架做出了一些教程,希望可以帮到大家或者提供一些思路。

目录

0. 引言

一、安装TensorFlow-gpu遇到的问题

1.1 Tensorflow与cuda版本对应问题

1.2 是非需要手动安装cuda与cudnn

1.3 cuda与显卡对应问题


0. 引言

        ·在安装Tensorflow前,建议大家先安装anaconda来用创建不同的虚拟环境来方便使用不同的环境代码(比如不同的python版本、Pytorch版本等),非常的方面且操作简单,具体的安装可以参考Anaconda安装,Anaconda的安装与后续IDE的下载安装基本不会出现问题,大家也可以直接搜索安装即可,本人配置:Anaconda+Pycharm,Anaconda里面也有一些IDE也可以满足大家的日常使用开发,大家进入主页面可以在Home页面往下拉有很多可以下载的工具,同时在Environments中可以看到已经创建的虚拟环境。

        至于如何创建虚拟环境,直接打开Anaconda Prompt来使用命令来创建非常方便。一下列举了一些常用的命令。下面的命令都是在base环境下输入的(安装Anaconda版本时对应的python环境),大家不需要管base环境。

(1)查看conda版本

conda --version

(2)创建虚拟环境

conda create -n env_name python=3.8

        其中,env_name是虚拟环境的名称,可以直接随便修改,python=3.8是指定的环境python版本,大家要安装深度学习框架的时候一定要对应框架与创建的python版本是非支持。

(3)查看已经创建的虚拟环境

conda env list

        通过这一条命令,已经输出了全部创建的环境。

        这是我已经创建的全部环境,*号表示现在所激活的环境

(4)激活虚拟环境

conda activate env_name

        其中env_name是自己创建虚拟环境时定义的名称。

(5)退出激活的虚拟环境

conda deactivate

        通过这一条命令就可以回到base环境

(6)删除虚拟环境

conda remove --name env_name --all

        同理,env_name就是自己定义的环境名称,这条命令可以删除这个虚拟环境的全部包。

一、安装TensorFlow-gpu遇到的问题

        在完成上述的一些准备工作后就可以开始搭建合适的深度学习开发环境了,Tensorflow与Pytorch是使用较多的框架,但是Tensorflow-gpu版本的安装会遇到很多问题,下面是本人在无数次安装过程中总结的一些问题。

1.1 Tensorflow与cuda版本对应问题

        大家如果是想复现开源的Tensorflow代码,在安装Tensorflow时一定要确认Tensorflow的版本是1.x版本还是2.x版本,1.x版本建议换成2.x版本,因为GitHub上开源了大量的1.x版本代码,复现难度很大,且会遇到下面1.2的问题。

        对应Tensorflow与cuda、cudnn、python对应表,大家可以参考版本对应这一篇文章,我在这里不做过多介绍,严格按照对应表来安装就好。

1.2 是非需要手动安装cuda与cudnn

        这个问题同样困惑了我很久,既然有命令直接安装为什么需要直接来手动安装和配环境,这不是多此一举嘛?经过我的不断尝试,直接用conda或pip在虚拟环境中下载cudatoolkit和cudnn都无法调用gpu,只有手动安装才有效,不知道是不是命令安装还需要什么路径的配置,我也一直没有找到什么好的解决方法,所以只能手动安装cuda和cudnn,这样操作其实可以不用conda虚拟环境了,因为如果换了tensorflow版本也需要跟换cuda与cudnn来调用gpu,这就涉及到了双cuda 的安装,大家可以参考这篇文章双cuda安装,核心就是不断的切换环境变量,虽然麻烦但是可以解决问题,大家如果有什么解决的方法,欢迎一起讨论。

1.3 cuda与显卡对应问题

        这个问题是我最无语的一个问题,网上的安装教程都是基于tensorflow-gpu安装的各种教程,直到我需要复现一个tensorflow1.x版本的代码时遇到了这个问题。通过手动安装好了cuda与cudnn,测试gpu显示True,我已经没什么问题了,但在运行代码中各种dll文件找不到还有各种报错,问了问AI核心原因还是环境不匹配,这一点我试了很多版本的tensorflow环境,1.13.1、1.15.1与2.x的一些环境,均无法解决,直到我想到有没有可能教程是争对与linux版本的,对于windows是不是有一些差异,我一搜索果然有问题,windows版本的cuda版本有限制,好像最高到哪一个版本,大家可以搜一下,也给大家提供一个思路。当我意识到这个问题时,我的cuda版本是10.1,这并不会产生问题,经过大量的阅读,我突然发现我的显卡是不是不适配这个版本的cuda,我的显卡是4060,而需要安装的cuda是10.1,我搜到了一些文章说30系的显卡都需要11.0及以上的cuda,大家可以参考30系显卡安装tensorflow,但是这个是针对Linux的重构的tensorflow包。至此,我虽然安装好了gpu版本的tensorflow,但是一直有错,只能将divice设置成-1,即用cpu来跑模型才可以正常运行。

        我总结了安装tensorflow-gpu版本的一些主要问题如上,综上,Tensorflow对于比较新的显卡没有什么好的教程,如果你的显卡比较新,可以争对以上问题来搜索一些怎么安装,这里强烈建议大家将tensorflow的代码转换成pytorch的代码,我就是这样解决了问题,训练速度大幅提升。pytorch-gpu安装只需要一条命令就可以了,根本没有那么多的问题,非常友好,大家安装pytorch可以随便搜一下,基本不会出现什么环境上的配置问题,强烈建议大家不要浪费时间在安装环境上。

        综上,我对Tensorflow的代码十分反感,环境问题真的浪费了我很多时间,如果你不知道怎么重构代码,看见Tensorflow的代码就不要想着去复现了,会出现非常多的坑,当然租一些显卡来训练可以避免配置环境的问题,如果有这个需求可以尝试。

        如果大家在安装过程还遇到了问题可以评论交流,我也可以帮助大家来解决问题(如果我可以,哈哈哈),第一篇博客,希望可以帮助到大家。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值