RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:6021 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:6021 (errno: 98 - Address already in use).
报错是说我的服务器无法监听到我的本地网络地址,6021是我的本地端口号。
出现这个错误的原因:
我通过
oarsub -p "host in ('byta6000i0')" -l "cpu=1/gpuset=1/host=1",walltime=168:00:00 "bash exp.sh"
这句指令在服务器的passive mode 上执行了我的train.py任务,我发现结果不太对,于是我就又重新修改了网络结构,想再跑一下,但是我不想停止我之前的训练,于是又执行了上述指令,而没有修改代码里指定的端口号6021
解决办法:
parser.add_argument('--port_num', type=str, default='6021',help='port selection for code')
把这句代码里的 --port_num 修改为6022
看了网上有相似的错误,也有一些解决办法,但是感觉还是有点麻烦。
如果我的不能帮助到你,可以参考:
https://github.com/microsoft/DeepSpeed/issues/3916
torchrun (Elastic Launch) — PyTorch 2.1 documentation