公司里的服务器那天跑着python代码突然坏了,ssh也连接不上,报如下的错。而且重启系统也卡在红色的界面进不去,重启了好几次都是这样。
周一早上找了公司IT来看,也看不出是什么问题,本来想机器返厂维修了,但是我还是推测是系统的问题,于是决定重装系统,过程中采了很多坑,比如重装系统后的ssh配置,ubuntu桌面版系统竟然只有客户端的ssh,没有服务端的ssh,可是我们的这个服务器是作为开发服务器的,于是需要安装服务端的ssh。然后由于公司的内网限制,apt-get自然安装不了包,联系IT,说可以配置软件源,于是配置了软件源还有dns,没想到配置了一直不生效,推测是没配对,期间还重新把之前的14.04版本又重装成了18.04版本。联系了另一个IT,这才把dns配对。然后就开始装软件呗,把ssh装好了,然后利用samb把和windows的共享服务也开了。
最后还需要安装英伟达驱动和cuda,然后费了九牛二虎之力把英伟达驱动装好,这下好了,重启系统卡在登录界面了。网上一查这个问题别人也遇到过,最后试了很多方法,也不知道是哪个方法奏效了。反正忠告就是不要轻易在ubuntu系统上执行apt-get uograde这个命令,因为这个命令是升级软件,同时也会升级系统内核,升级成功还好说,要是升级失败,这个系统内核就不能用,你用这个系统内核去登录系统会进不去,需要进入ubuntu高级选项选低版本的内核登录。过程中我还手欠把系统的grub启动项选的内核改了,结果没改对,直接进了ubuntu的内存测试模式,这下gg了,只有通过带有ubuntu系统的u盘进入“试用ubuntu”,然后在这里把原有系统的grub选的内核改回去,这下才行。在这个过程中我渐渐想到,原来的系统重启进不去可能也是因为内核的原因,可能需要使用低版本的内核才能进去,不过现在环境也破坏乐,也无从查证了。
现在通过高级选项能进去了,但是我还是不满足,想开机直接进去,这就需要把高版本的内核直接删除,网上查了一下,还真有人遇到一样的问题,于是通过命令把高版本的内核删除了,这下才可以开机直接进去。
然后就是装cuda,装cudnn,caffe等环境。cudnn好像现在的深度学习都不是必须了,我装了一下好像会使得原来的apt-get install命令报错,于是我干脆把cudnn删除了。然后装caffe,找了一下原来遗留代码里面的caffe,因为我们的caffe和原生的caffebu不太一样,都是做过修改的,所以不能编译原生的caffe,终于废了九牛二虎之力把caffe装好了,原来的caffe模型也能训练了。
至于pytorch环境,另一个同事利用conda装好了,也省了我的一部分心力。