k8s
半路小神仙
这个作者很懒,什么都没留下…
展开
-
python加载数据集卡住 dmesg报错Nvidia xid31
在一次运维中发现客户加载数据集会卡住,物理机总共是4块显卡。使用k8s独占显卡进行任务训练,其中有三块显卡在跑任务训练加载数据集时卡住,同时查看dmesg报错 (xid 31)。[Tue Apr 13 09:45:31 2021] NVRM: Xid (PCI:0000:3b:00): 31, pid=3659, Ch 00000010, intr 00000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_GCC faulted @ 0x7fe1_d6f54000. F原创 2021-04-15 14:28:08 · 2659 阅读 · 3 评论 -
dind can‘t create unix socket /var/run/docker.sock
今天在k8s集群里看到了一个报错,在集群内存在一个容器docker in docker,发生了故障没有启动成功,查看日志显示 gateone-dind容器报错docker.sock应该是个文件,而在物理机的/apps/dind/run内确是个文件夹。在gateone-dind.yml写的需要将run文件夹挂载到容器内的·/var/run·,同时也把docker.sock挂载进入了pod容器内,所以会报错提示文件类型错误,只需要将宿主机/apps/dind/run内的docker.sock删除或者移走再重新原创 2021-03-02 11:01:18 · 694 阅读 · 0 评论