高性能服务器配置经验指南3——安装服务器可能遇到的问题及解决方法


在完成 服务器基本配置深度学习环境准备后,大家应该就可以正常使用服务器了,推荐使用VScode远程连接使用,比较稳定方便,Pycharm不好用,VScode远程连接方法网上有很多,这里推荐一篇: https://blog.csdn.net/qq_64634610/article/details/146102837?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522b54799962faa5aee9ad20c1e4f2eb0f1%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=b54799962faa5aee9ad20c1e4f2eb0f1&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2alltop_click~default-2-146102837-null-null.142v102pc_search_result_base6&utm_term=vscode%E8%BF%9C%E7%A8%8B%E8%BF%9E%E6%8E%A5linux%E6%AD%A5%E9%AA%A4&spm=1018.2226.3001.4187

本文的主要目的是记录笔者遇到的一些小问题和解决方法,以后尽量持续更新遇到的问题。

1、重装系统后VScode远程连接失败问题

重装系统后可能SSH连接会出现类似这样的问题:

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@    WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
Someone could be eavesdropping on you right now (man-in-the-middle attack)!
It is also possible that the RSA host key has just been changed.
The fingerprint for the RSA key sent by the remote host is
50:e6:cb:58:bc:b7:a3:f6:e8:8f:46:a7:c1:5f:c2:df.
Please contact your system administrator.
Add correct host key in /home/cobyeah/.ssh/known_hosts to get rid of this message.
Offending key in /home/cobyeah/.ssh/known_hosts:7
RSA host key for 192.168.0.4 has changed and you have requested strict checking.
Host key verification failed.

解决方法:直接找到自己电脑上"C:\Users\username\.ssh"文件夹,把里面的东西全删了再重连就可以连上。

2、XRDP连接黑屏问题

我一般使用xrdp连接linux的远程桌面,但有时刚安装好时,连接总是黑屏,解决方法如下:

1. 打开文件

sudo vim /etc/xrdp/startwm.sh

2. 添加配置

unset DBUS_SESSION_BUS_ADDRESS
unset XDG_RUNTIME_DIR

3. 重启xrdp服务

sudo systemctl restart xrdp.service

3、VScode远程免密连接问题

在使用VScode远程连接服务器时,每次重新连接都要输密码,如果是为了安全密码设的很复杂,每次输密码就显得过于繁琐,所以可以考虑通过公钥/密钥对进行连接,这样不仅更方便,相比于密码连接也更安全,除非两台设备的密钥同时泄露,否则这种连接很难被攻破。
首先打开终端,输入:

sudo vim /etc/ssh/sshd_config

打开ssh的配置文件后,找到PasswordAuthentication,确保它的值为yes,打开服务器的ssh密码登录权限:
在这里插入图片描述
然后重启ssh服务:

sudo service sshd restart

如果公钥连接中出现这个错误提示:Permission denied (publickey).可能就是ssh密码登陆权限没有打开,可以回来排查下。
打开windows中的终端,以管理员身份运行:
在这里插入图片描述
输入命令:ssh-keygen -t rsa生成密钥文件,可以给私钥设置密码,也可以直接回车免密:
在这里插入图片描述
在C:\Users"用户名".ssh文件夹下,会生成如下配置文件:
在这里插入图片描述
红框框出的就是密钥文件,其他三个是VScode远程连接成功后生成的配置文件,主要记录服务器ip、用户名等信息。
这里的id_rsa.pub是公钥,在服务器端使用,id_rsa是私钥,在用户端使用。
把id_rsa.pub拷贝在服务器的任意路径下,记住这个路径。
在服务器路径下创建.ssh文件夹:

# 创建目录
mkdir ~/.ssh
# 进入.ssh目录
cd ~/.ssh
# 创建公钥存储文件
touch authorized_keys

进入终端,输入以下命令:

echo "xxxx" >> ~/.ssh/authorized_keys

其中,xxxx就是id_rsa.pub的路径。
打开VScode,使用Ctrl + Shift + P,打开命令窗口,输入重启窗口命令reload window:
在这里插入图片描述
回车后,没有提示输入密码的窗口,即代表免密成功。

4、Vim编辑文件时出现不同用户冲突编辑的问题

在用Vim编辑文件时,有时会出现以下错误提示信息:

E325: 注意
发现交换文件 "/etc/ssh/.sshd_config.swp"
            所有者: root    日期: 2025-04-22 17:41:00

这个消息是由Vi或Vim编辑器产生的,提示你当前正在尝试编辑的文件(在这个例子中是/etc/ssh/sshd_config)有一个已存在的交换文件(.swp文件)。交换文件是Vim在编辑过程中自动创建的临时文件,用于恢复未保存的更改和防止数据丢失。当编辑会话非正常终止时(比如系统崩溃或者Vim被强制关闭),这些交换文件可能不会被自动删除。
在这种情况下,想要解决这个问题,如果你确定之前没有未保存的工作,或者你不关心丢失那些潜在的未保存更改,你可以选择删除交换文件:

sudo rm /etc/ssh/.sshd_config.swp

然后重新打开文件进行编辑即可。
如果存在未保存的更改, 应该选择恢复那个交换文件。
当出现上述E325错误信息时,Vim通常会提供几个选项供你选择,包括恢复、删除交换文件等。
输入 r 来恢复交换文件中的内容到当前编辑的文件中,或者输入 O 打开只读模式查看文件而不做任何修改。

5、服务器连接有线网时出现无法识别的问题

有时服务器连接有线网使用时,虽然显示有线网已连接,但是无法正常上网,目前有两种解决方法:
(1)关闭代理:https://blog.csdn.net/qq_33412312/article/details/135460006
(2)重新插拔网线:硬件的问题通过重启可以解决80%,可以先试试插拔服务器上的网线,没用的话可以插拔一下路由器的,说不定有惊喜。

6、代码识别不到cuda

在运行深度学习代码时,有时如果运行时间过长,可能会出现服务器死机的问题,此时,重启之后重新运行代码,可能会出现代码识别不到cuda的问题,报错信息类似:

ValueError: Invalid CUDA 'device=1' requested. Use 'device=cpu' or pass valid CUDA device(s) if available, i.e. 'device=0' or 'device=0,1,2,3' for Multi-GPU.

torch.cuda.is_available(): False
torch.cuda.device_count(): 0
os.environ['CUDA_VISIBLE_DEVICES']: None
See https://pytorch.org/get-started/locally/ for up-to-date torch install instructions if no CUDA devices are seen by torch.

例如以上的报错信息:

  • torch.cuda.is_available() 返回 False,这意味着当前系统上没有可用的CUDA支持,或者PyTorch安装版本不支持CUDA。
  • torch.cuda.device_count() 返回 0,这表示系统没有检测到任何CUDA兼容的GPU设备。
  • os.environ['CUDA_VISIBLE_DEVICES'] 为 None,意味着没有设置环境变量来限制可见的CUDA设备。

遇到类似的报错,可能是因为电脑的显卡驱动掉了,使用命令nvidia-smi测试一下:
在这里插入图片描述
如果出现上图中所示情况,说明显卡驱动出错了,需要重新安装,安装过程参考:
https://blog.csdn.net/weixin_51418895/article/details/147475453?spm=1001.2014.3001.5501

在这里放一个NVIDIA官方驱动下载链接,方便大家下载:https://www.nvidia.cn/drivers/lookup/
选择好自己的显卡型号和操作系统后,点击查找,进入下载界面后下载得到驱动的安装文件,Linux下的安装文件后缀为.run:
在这里插入图片描述在这里插入图片描述
下载后的文件名和图标如下图所示,为了避免每次出现类似问题都要重新下载,建议大家把这个文件一直放在自己的文件夹下不要删除:
在这里插入图片描述
在安装包所在路径下运行终端,输入命令:

sudo bash NVIDIA-Linux-x86_64-570.144.run

注意此处文件名换成自己下载的驱动的文件名!!

开始下载:
在这里插入图片描述
选择 NVIDIA Proprietary
在这里插入图片描述
选择 Continue installation
在这里插入图片描述
选择 Continue installation
在这里插入图片描述
安装中。。。。。。
在这里插入图片描述
选择 Yes
在这里插入图片描述
安装中。。。。。。
在这里插入图片描述
选择 Yes
再测试下nvidia-smi
在这里插入图片描述
可以继续使用喽。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值