(nohup,ssh,screen,tensorboard,jupy...)服务器上跑深度学习代码的常用操作

最新推荐文章于 2024-07-25 01:17:36 发布

Tiám青年

最新推荐文章于 2024-07-25 01:17:36 发布

阅读量1.7k

点赞数 1

分类专栏： Pytorch 深度学习

原文链接：http://www.360doc.com/content/17/1228/08/7669533_717027772.shtml

版权

深度学习同时被 2 个专栏收录

7 篇文章

订阅专栏

Pytorch

6 篇文章

订阅专栏

1.如何连上远程服务器

2.如何让代码在后台运行

3.服务器上tensorboard的使用

4.远程服务器上jupyter notebook的使用

1.如何连上远程服务器

连上服务器

首先，当然得是要用自己的PC连接上服务器。如果你的PC是linux系统，那么可以直接通过ssh指令进行远程访问，这里不详细说明。接下来我们主要说PC是windows上的操作。首先，我们要下一个用于ssh连接的工具，个人推荐的是MobaXterm。其打开后的界面如下图所示：

然后我们依次文件->新建得到下图：

配置好后直接ssh命令登录即可

对于上传文件推荐WinSCP，上传十分棒，支持断点续传。

截图如下：

2.如何让代码在后台运行

由于实验室的网实在是不稳定，所以经常遇到跑了好几个小时的代码快要出结果的时候却断网了，导致与服务器的连接中断，代码也就自然而然的停止运行了（至于其中的具体原因可以自行百度）。这点真的让人很苦恼。同时，当你的ssh在执行一个代码时，你如果不新建一个连接，你在这个连接中是无法干其他的事情的，这一点也很不好。于是，考虑可以把代码放到服务器后台运行。

第一种 nohup

最开始的做法是

$ nohup python test.py

这样执行的时候会将代码放在服务器后台执行，你的终端是看不到运行过程的，期间运行的结果（代码运行过程中打印出来的）会在一个生成的nohup.out文件中保存。

第二种 screen

后来接触到了screen命令，觉得着实好用，在这里极力推荐。

可以简单的认为用这个命令你可以为不同的任务开不同的窗口，这个窗口之间是可以切换的，同时，窗口和你的会话连接基本上没有任何区别，这样你可以在开一个连接的时候同时干多件事情，并且在终端看得到运行过程的同时而不会由于断网而导致代码停止运行。其常用命令如下：

创建一个窗口

screen -S name #创建一个窗口，并且为这个窗口命名$screen -S yolo
当你执行完以上命令后,就会自动跳入名为yolo的窗口，在这个窗口里可以干你想干的事情。

当你不想呆在这个窗口时，你可以通过快捷键Ctrl+a+D断开这个窗口的连接而回到连接会话界面。即显示如下

[detached from 28113.yolo]user@ubuntu-Super-Server:~/code$

说明从yolo这个窗口断开回到了会话界面。但是这个断开只是不显示那个窗口，而窗口对应的任务是在后台运行的。

查看已创建的所有窗口

$screen -ls #可以查看已创建的所有窗口
执行上述指令后，出现如下结果，说明创建了两个窗口，可以看到窗口的名字和id，Detached说明窗口是断开的，再次强调这里的断开是指没有让他显示，其对应的任务是在后台执行的。

user@ubuntu-Super-Server:~/code$ screen -lsThere are screens on:	28475.ssd	(2017年11月27日 20时07分41秒)	(Detached)	28113.yolo	(2017年11月27日 19时57分26秒)	(Detached)

重新连接Detached的窗口

如果想看其中一个窗口任务的执行状态，可以通过如下指令：

$screen -r ssd #重新连接到yolo窗口，显示其运行过程

杀死某个窗口

如果想直接停止某个窗口任务的运行，可以直接通过杀死id的方式 $kill -9 28475
#终止ssd窗口对应任务的运行，同时杀死该窗口执行完以上指令再看存在的窗口时后会发现只剩名为yolo的窗口了
在该窗口内敲exit,就可以彻底删除该窗口以及窗口内的作业
-wipe 　检查目前所有的screen作业，并删除已经无法使用的screen作业。

窗口连接不上的情况

用 screen -ls, 显式当前状态为Attached，但当前没有用户登陆些会话。screen此时正常状态应该为(Detached)

此时用screen -r ，怎么也登不上。最后找到解决方法：screen -D -r ＜session-id>

-D -r 先踢掉前一用户，再登陆。
user@ubuntu-Super-Server:~/code$ screen -lsThere is a screen on: 28113.yolo (2017年11月27日 19时57分26秒) (Detached)

保持会话退出

这样退出的话，以后还可以通过screen -r （name）再次进入，快捷键命令：先同时按Ctrl+A+D键

总结一下，screen可以实现代码在后台运行时的可视化，同时，能在开一个会话连接时创建多个窗口处理不同的任务。用起来也很方便。

3.服务器上tensorboard的使用

对于使用tensorflow的同学，tensorboard是个很好的工具。通过以下的命令可以打开tensorboard，这个port可以自己改，默认的是6006。

$tensorboard --logdir=log --port=6006

尴尬的是，当你在服务器上执行上段指令时，他会给你个地址让你在浏览器上打开。但是，使用服务器上的浏览器基本是件不可能的事情！我怎么将服务器上的信息转到自己的电脑上呢？这时就需要用到端口转发。我们最近实现这个有两种方式：

第一种针对win10用户

想必大家都知道2017年win10系统内嵌了一个linux的子系统。首先我们要启用这个子系统。具体步骤是：打开所有设置->更新与安全->针对开发人员然后选择下图中的开发人员模式。

执行完上述步骤win10会自动下载相关库和包，下载完后在控制面板中找到程序和功能然后选择启用或关闭Windows功能，出现下图菜单：

勾选适用于Linux的Windows子系统（Beta），然后重启电脑。

重启电脑后win+R输入cmd，然后在dos界面输入bash之后就会下载对应的组件，这个时间可能比较长需要耐心等待。下载完成后，输入相应的用户名和密码就好了。这样，我们就完成了win10上的linux子系统的安装。下次打开时，直接通过win+R输入bash即可。

接下来就是用自己电脑的linux与服务器进行ssh连接并进行端口转发。具体步骤是：

首先win+R 输入bash打开win10自带的linux的子系统，在命令行输入以下指令

$ ssh -L 16006:127.0.0.1:6006 usr@192.168.1.115

解释下上面的指令，127.0.0.1是自己PC的本地地址(localhost),16006代表的本地的16006端口，192.168.1.115是服务器的ip地址（同样服务器和PC在一个局域网下）usr是在服务器上想登陆的用户名，6006是服务器上的6006端口，上面的指令就可以实现将服务器上6006端口的信息转发到本地主机的16006端口上。

当你建立了以上连接后，在你的xshell建立的会话连接中输入打开tensorboard的指令后，我们在自己的电脑浏览器上输入127.0.0.1:16006或者localhost:16006就可以访问到服务器上的tensorboard的信息了。

第二种依然是使用xshell

具体做法是当你用xshell建立好连接后，点击下图红框中的属性按钮

然后点击属性中的SSH下的隧道，得到如下界面

点击添加：

将侦听端口改为16006（当然也可以是其他的,就是本机的端口），目标主机和源主机保持localhost不变，目标端口就是服务器上打开tensorboard对应的端口6006然后点击确定之后，就建立好了服务器端口16006与自己电脑端口6006的转发。然后按之前的步骤打开tensorboard，在本地浏览器中输入127.0.0.1:16006或者localhost:16006就可以访问到服务器上的tensorboard的信息了，所以说xshell真的特别好用！

4.远程服务器上jupyter notebook的使用

在服务器上jupyter notebook也是经常被用到的，一般输入如下命令便可以打开

$ jupyter notebook --port=8888
这里的port默认是8888。同样，在不能使用服务器浏览器的情况下想本地PC能读到服务器8888端口的信息，也需要建立端口转发。整个过程同tensorboard的设置类似，不过是把端口号更改就好。当端口转发建立后。我们在服务器输入上述指令，会得到以下输出：

[I 23:17:08.227 NotebookApp] Writing notebook server cookie secret to /run/user/1002/jupyter/notebook_cookie_secret[I 23:17:08.275 NotebookApp] JupyterLab alpha preview extension loaded from /home/yuwei/anaconda3/lib/python3.6/site-packages/jupyterlabJupyterLab v0.27.0Known labextensions:[I 23:17:08.277 NotebookApp] Running the core application with no additional extensions or settings[I 23:17:08.280 NotebookApp] Serving notebooks from local directory: /home/yuwei[I 23:17:08.280 NotebookApp] 0 active kernels [I 23:17:08.280 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/?token=d4846a751b41bb288ac8c38b1da7976c0677b6aa51430705[I 23:17:08.280 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).[C 23:17:08.280 NotebookApp] Copy/paste this URL into your browser when you connect for the first time, to login with a token: http://localhost:8888/?token=d4846a751b41bb288ac8c38b1da7976c0677b6aa51430705

需要做的只是将最后一行的地址复制到本地浏览器然后将8888（服务器端口）改为转发的本地端口（如：16006或8888）就可以了。这样我们在自己的电脑上也可以使用服务器上的jupyter notebook了，如下图所示。

当然还有一种方法，详细见这篇文章吧。

如何在window访问ubuntu服务器的jupyter notebook

5.其他常用命令

使用如下指令的前提是安装好了NVIDIA的驱动（cuda。。）。

$ CUDA_VISIBLE_DEVICES=2 python test.py
在使用gpu版本的tensorflow时，跑对应的代码（如果代码中没有明确指定用哪个gpu跑）默认会调用所有的gpu，使用如上命令后可以指定所使用的gpu。

$ nvidia-smi
执行上述指执行上述指执行上述指执行上述指执行上述指令可以查看服务器上gpu的使用状况。

Tue Nov 28 09:20:42 2017 ±----------------------------------------------------------------------------+| NVIDIA-SMI 384.90 Driver Version: 384.90 ||-------------------------------±---------------------±---------------------+| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. ||=++==============|| 0 GeForce GTX TIT… Off | 00000000:05:00.0 On | N/A || 22% 45C P8 17W / 250W | 443MiB / 12204MiB | 0% Default |±------------------------------±---------------------±---------------------+| 1 GeForce GTX TIT… Off | 00000000:06:00.0 Off | N/A || 22% 46C P8 16W / 250W | 2MiB / 12207MiB | 0% Default |±------------------------------±---------------------±---------------------+| 2 GeForce GTX TIT… Off | 00000000:09:00.0 Off | N/A || 22% 42C P8 15W / 250W | 2MiB / 12207MiB | 0% Default |±------------------------------±---------------------±---------------------+| 3 GeForce GTX TIT… Off | 00000000:0A:00.0 Off | N/A || 22% 35C P8 14W / 250W | 2MiB / 12207MiB | 0% Default |±------------------------------±---------------------±---------------------+
总结一下，上述的种种操作是我反复使用的操作，还是比较实用的。但是本文中的关于ssh和端口转发的内容都有一个前提是自己的PC和服务器都在同一个局域网下，如果不在同一个局域网里上述的操作可能不太适用，需要进行其他的操作，这些是本文中没有提到的。

以上纯属经验之谈，如有错误之处，望大家批评指正。