背景:
gpu服务器的显卡坏了,导致机器重启,需要找出坏卡禁掉。
操作流程:
一、使用dmest -T先查看系统日志,找出报错显卡的id
dmesg -T
[五 5月 5 21:16:09 2023] NVRM: GPU 0000:0b:00.0: RmInitAdapter failed! (0x26:0xffff:1227)
[五 5月 5 21:16:09 2023] NVRM: GPU 0000:0b:00.0: rm_init_adapter failed, device minor number 5
[五 5月 5 21:17:05 2023] NVRM: Xid (PCI:0000:0b:00): 32, pid=0, Channel ID 00000000 intr 80004000
[五 5月 5 21:17:05 2023] NVRM: GPU 0000:0b:00.0: RmInitAdapter failed! (0x26:0xffff:1227)
[五 5月 5 21:17:05 2023] NVRM: GPU 0000:0b:00.0: rm_init_adapter failed, device minor number 5
[五 5月 5 21:18:04 2023] NVRM: Xid (PCI:0000:0b:00): 32, pid=0, Channel ID 00000000 intr 80004000
[五 5月 5 21:18:04 2023] NVRM: GPU 0000:0b:00.0: RmInitAdapter failed! (0x26:0xffff:1227)
[五 5月 5 21:18:04 2023] NVRM: GPU 0000:0b:00.0: rm_init_adapter failed, device minor number 5
[五 5月 5 21:18:08 2023] NVRM: Xid (PCI:0000:0b:00): 32, pid=0, Channel ID 00000000 intr 80004000
[五 5月 5 21:18:08 2023] NVRM: GPU 0000:0b:00.0: RmInitAdapter failed! (0x26:0xffff:1227)
[五 5月 5 21:18:08 2023] NVRM: GPU 0000:0b:00.0: rm_init_adapter failed, device minor number 5
二、找到坏卡对应的id后,使用nvidia-smi命令禁止坏卡。
#禁卡命令:
sudo nvidia-smi drain -p 0000:0b:00.0 -m 1ps:不行就lspci |grep VGA看所有显卡的bus id,轮流把一半显卡禁掉看能正常运行不。