在学习tensorflow分布式的过程中遇到一些错误,多方查找之后终于解决,在此记录,希望能帮助其他遇到该问题的人解决问题。
前提描述:
在同一服务器下的三台虚拟机上进行实验tensorflow分布式,其中一台用作参数保存,另外两台用作计算,如下:
{"ps":"192.168.0.163,"worker","192.168.0.164,192.168.0.165}
错误1:
在192.168.0.163节点运行以下代码:
python distributed.py --job_name=ps --task_index=0
报错提示:tensorflow.python.framework.errors_impl.UnknownError: Could not start gRPC server
解决方法:出现该问题是由于在第一次运行该程序后,后台仍保留进程,可通过"ps -aux|grep python"命令,查找进程,并kill掉后台进程,再次运行,即可解决;如果还是出现该错误,可重新启动虚拟机,再次运行,即可。
错误2:
依次在三台虚拟机上运行,
python distributed.py --job_name=ps --task_index=0<