IDC服务器硬件方向运维工程师常见面试问题(附带自己的心得)

1、如何进单用户模式,单用户模式如何附加权限

     开机按E, 进入编辑模式找到linux或者linux16开头的启动行,在末尾添加single或者init=/bin/bash。按ctrl+X确认并启动,进入单用户模式。

 

2、单用户模式或者卡在某些节点如何解决

查看显示器的报错信息,按照提示进行操作。观察是否是磁盘损坏或是xfs文件损坏,用fsck -y /dev/sdx 进行修复或者xfs-repair进行修复。

3、服务器配置进BIOS按键,如何进BIOS (跟进问题,BIOS和BMC的区别)

     开机看提示,一般是Esc ,DEL,F2,F9等等。

     BIOS全称 Basic I/O system ,是server加电后第一个启动项。

4、如何搭远程环境,让远程使用者配置交换机

     在笔记本上安装todesk软件,连入WIFI,机房内无WIFI覆盖可使用手机热点接入,讲console线网线端接入交换机的consloe口,USB断插入笔记本的USB口,打开我的电脑--设备管理器,重新插拔下USB,确认下com口。在CRT中选中对应的com口,端口选择9600,回车,CRT界面显示操作界面。 然后点开todesk软件,将账和密码分享给网络组同事。

5、交换机更换流程

     此过程一般是涉及变更即 CR,变更流程需要前期沟通确定变更时间和影响范围,设备型号和是否需要预布网线/光纤。起CR变更:1.为什么去做(why to do)2.如何去做(how to do)都由谁来做(具体到谁去做,什么时间点去做,具体内容要详细,最好精确到分钟)3.割接的时间点 4.回滚计划即rollback 5.验证(这点非常重要,如何验证成功或失败),由谁来验证,验收标准要写清。

经过不懈的努力,CR审批通过,开干,开干前,确认线签和线缆的对应关系准确无误。备份即将替换交换机配置文件,确认即将替换的交换机无告警,网络是否正常(交换机的层级分为S0 S1 S2 S3 SX数值越高下联牵涉的设备越多,一般来说S1下面有多达40+的S0交换机,变更前一定确认好),变更前再一次和同事们(如安全,监控)确认,变更开始,将机柜中的交换机断电,网线拔出,上架新交换机,加电并连接console线,将配置的事情交给网络组同事(如需远程,参考问题4),配置好后,将网线按照原端口插回。开始验证,和各部门的负责人确认下设备是否正常。无问题关单。变更结束。总的来讲,更换交换机的操作很简单,就是断电,插拔网线,替换交换机,导入配置,插回网线。重点是前期的准备工作比较繁琐。

6、网络整替,配置管理口,让远程能登陆的命令?

     配置管理口即BMC带外IP,开机看显示器的提示“set up”需要按哪个,就按哪个。目的是进入BIOS,进入之后选择BMC management,配置IP 掩码和网关,配置user的权限。

    远程登陆服务器:需要以管理员身份进入系统,# ip addr 或 #ifconfig查询对应网卡名称  ,#vim /etc/sysconfig/network-scripts/网卡名, 进行编辑配置。配置好后重启网络 #systemctl restart network 。配置好后PING下外网查看是否通,如需要配置LACP,还需要分别配置三个网卡,两个物理端口,一个bond0。

#ssh user@serverhostname   user@192.168.1.1

7、如何通过笔记本测试交换机连通性?

 若交换机已经并网,客户端 ping 交换机上面的网关, ping服务器的带外IP,业务IP。

8、机房运维红线说几条?

   *未经授权的工单 *忽视安全*违反变更流程*错误操作导致设备宕机/业务终端***忽视日志记录和报告,导致时间无法追溯***物理安全违规***应急相应不当,导致问题扩大化。

9、光纤类型区别,光纤接口类型,如何区分单模多模?

    接口类型:LC FC SC FC等。

    单模 :线缆一般为黄色,不可见光,长波,波长大于1310nm,包装袋上标记为SMF,对应模块为型号有LM标识。多用于交换机之间互联,即网络设备之间。

   多模:线缆一般为绿色,可见光,短波,波长约为850nm,包装袋上标记为MMF,对应模块为型号有SM标识。多用于server之间,或者server和SW之间直连。

   二者所用的光模块可通过模块上写的波长(850,1310,1550),型号(SM,LM)区分。

   MPO线:分为8芯,12芯,24芯。具体样子打开手机淘宝自己搜下。多用于长距离传输,跨机房,跨楼宇,一般起步50m,几百米的也见过。

10、机柜单路掉电处理流程?

    启动紧急流程,先查看影响范围,使用备用PDU或电源恢复,同事通告上级,内容:发生事件,地点(机房号,机柜号),影响范围,现场紧急处理的结果。后续跟进故障原因和解决办法。最后别忘了总结!!

11、服务器到货上架流程?

   收到工单并打印出来,设备到货后拆箱检查设备外观并核对设备SN,无误后将设备拉入机房按照工单要求进行上架,绑电源线,加电,接入网线。核对设备的上架位置是否准确,网线是否正确,设备是否有告警,电源插入PDU部分是否遵循负载均衡的原则,确认没有问题后,关单,并更新资产表(如果有权限的话)。

 若设备为新服务,加电后需要接显示器进行软件,抽查CPU型号,内存和硬盘型号和大小等。若由厂商来上架,需要提前办理人员入室登记,宣贯机房注意事项,检查电源线是否整洁,光纤的弯折度是否过大。

12、收货和验收标准

 外观无磕碰,软检与工单型号 数量 大小一致,电源线绑的美观,设备加电后无告警,光纤网线美观且弯折度适当,线缆接入准确无误(与标签一致),电源负载遵循负载均衡的原则。

13、服务器的故障维修流程

   确认设备的SN和位置,建立incident工单,检查设备是否在保,若在保,打厂商客服电话,收集日志,发送给厂商,确认故障原因。和设备的owner确认设备的维护时间(什么时间可以停机维修),和厂商确认维修时间,创建CR,维修后,验证,和owner确认,皆OK,关单。若为新故障最好更新下知识库。

14、内存UE和CE的区别

故障描述里会看到,CE是可纠正错误,UE是无法纠正的错误,不可修正错误需要更换故障内存。

可修正错误,重启服务器或者进BMC清空下故障日志,重启BMC即可。

15、raid的级别,以及各级别优缺点

raid0 并行,最少需要两块盘,读写时同时写入,特点是速度快,但是缺乏冗余,硬盘一坏,数据全嘎,适用于对性能(速度)有要求高,对数据安全要求低的场景。

raid1镜像,最少需要两块盘或者硬盘数量为偶数,一份数据写入a盘的同时也写入b盘(但不是一起写入哈,不同于raid0),有冗余,坏一两块盘没影响,用新盘替换故障盘后,数据会重新写入新盘,常用于系统盘。

raid5,奇偶校验,最少需要三块盘。有冗余,最多可以坏一块盘。以三块盘为例,一份数据会写入a,b,c三块盘,a盘故障用新盘d替换掉,bc盘中a的数据通过奇偶校验,会同步到d盘。性价比高,多用于对读写速度不高,对数据安全高,预算又比较紧张的场景。

raid10,土豪版!!最少四块盘,注意“10”是1和0的意思,对磁盘先做raid1镜像,再做raid0并行,也就是说raid10兼具raid1和0的特点。保证数据安全的同时(有冗余),读写速度也快。就是成本太高,适合不差钱的企业和个人。

16、主板的更换流程?

位置,核对SN,双人核对,确定服务器是否可以关机,下架安全性,根据工单要求,BIOS BMC FRU

17、服务器开机无显示,应该如何排查故障并维修

最小化测试,拆除cpu1和对应内存和外接设备如网卡,保留cup0和对应的内存(最好就留1根)。

陷阱!!!注意一定要保留cup0,一般来说cpu0是主通道,如果留1去0,即便设备都正常,server也开不了机的。

18、linux常用命令以及用途,查看硬件信息的一些命令

ls 查看当前目录下的文件  cd 切换目录 cp 拷贝 mv移动文件 mount 挂在

df -h 查看磁盘  free -m查看内存 

查一切的命令是 dmidecode -t  可查看所有的硬件信息 包括型号和sn

19、服务器BMC不通,如何帮把这台机器解决?

   开机按 del,进BIOS,找到里面的BMC配置,配上IP 掩码 网关,和user的权限

20、业务口ip ping不通 怎么排查故障

    在客户端 ping网关,不通,1.物理链路问题 2.SW或服务器端配置问题

    在客户端 ping网关,通,ping隔壁的同网段的服务器的IP,不通 ,可断定是交换机配置问题

    在客户端 ping网关,通,ping隔壁的同网段的服务器的IP,通,ping不同网段的服务器IP不  通,一般是交换机的配置问题,端口没有配置vlan

   在客户端 ping网关,通,ping隔壁的同网段的服务器的IP,通,ping不同网段的服务器IP,  通,ping外网,不通,排查防火墙的问题,一般是防火墙策略问题。

网关同网段IP不同网段IP外网结果/分析
客户端不通1.物理链路2.配置
客户端不通交换机配置问题
客户端不通交换机端口未配置vlan
客户端不通防火墙策略问题

21、更换CPU和主板注意事项

      换CPU注意拆装的方向,防止异物掉到CPU的卡槽中。

     换主板注意记录下跳线的顺序,别接错。更换完主板,一般还需要刷固件并更新主板SN。

22、更换cpu换内存如何确定换好了,怎么判断识别到了

       1.进BMC看   2,进BIOS里面看 3.进系统看  dmidecode -t (实际上这个命令就是同步BIOS的硬件信息)

23、服务器如何做最小化测试

24、如何注释硬盘?

在/etc/fstab上面添加

25、机房巡检主要看哪些内容?

     温湿度,设备是否告警,列头柜的电源负载是否正常

26、机房温湿度范围?22-25   45-55

27、重启网卡的命令? systemctl restart network  

28、硬盘常见接口有哪些?SAS, SATA,NVME, M.2

29、交换机服务器常见品牌和型号都有哪些?

30、GPU设备带宽异常排查思路?

    刷固件,互换法,替换法,放电重启大法,做完进行压测

31、硬盘掉盘排查思路?

32、linux系统类型有哪几种?

centOs  radhat  debian  ubantu Oracle

33、BMC的用途是什么?

远程管理服务器,收日志,刷固件等

34、设备开机卡自检界面如何排查?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值