大型网站排错的思路

大型网站排错(适用于网站访问不到,应用服务访问不到,设备宕机等等)

物理机

硬件级–系统级–应用服务级-网络级

服务器硬件问题
1.网线故障–丢包–失联 ==>更换网线 ethtool 网卡协商速率1000mb/s-100mb/s
speed
怎么样判断一个服务器是否丢包??
登陆服务器然后ping网关。(1k-5K次)
ping -t 10000 -i 0.01 x.x.x.1
ping的结果怎么计算出来的?

原理是这样的:利用网络上机器IP地址的唯

一性,给目标IP地址发送一个数据包,再要求对方返回一个同样大小的数据包来确定两台网络机器是

否连接相通,时延是多少?

网线线序:
橙白 橙 绿白 蓝 蓝白 绿 棕白 棕 568B
1 2 3 4 5 6 7 8

568A 1 3 26对调

测试一根网线是否正常。
使用测线仪

2.板载网卡故障---->更换主板(几率很小)

万兆网卡–外接的网卡–> 安装驱动–>重启机器
ixgbe

万兆—>万兆光模块–>光纤

使用光纤+模块
无光对有光,有光对无光(怎么插光纤)

万兆网卡协商速率是 10000m/s
inter原厂万兆网卡只识别原厂inter万兆光模块,不识别oem(白牌)(a货)

如果上完万兆的机器不通,怎么处理?
1 首先现场ip a 看看网卡起没起来,有没有IP地址
2 登陆交换机去看看VLAN划没划错
3 让现场再次确认光纤是不是插错了, 是不是物理链路有问题
4 换个模块试试,有时候模块故障率非常高
先系统在硬件的方式去排查

3.CPU (机器里有几个CPU) 1个CPU 机器宕机 2个CPU 报错
CPU1 ERROR OR CPU2 ERROR

CPU的右上角有一个三角形缺口,和服务器的CPU槽位相对应,防止CPU放错方向。

4 .服务器品牌 DELLR 710 IBM hp INSPUR GD LENOVO [h3c] 了解基本配置–>几U的?几块磁盘?磁盘容量?磁盘转速?10k rpm
内存容量?多少根? 4G 8根 32G
广联达
5. 内存报错MEM-(DIMM_A1) ERROR DIMM_B1 ERROR
free -m
1有一些应用服务起不来。一定要看看是不是机器没有内存了。

2内存如果出现故障会导致什么现象:自动重启。

无缘无故自动重启–>

crontab---->rc.local—>开机启动的脚本—>看看内存
现象2:卡在F1界面要按F1才能过去,进入系统。
please press F1 to
解决方法 更换内存 或者插拔内存 (同型号 同容量)
DIMM

6 电源问题–>1单电 2双电 -->冗余工作方式 不同型号及品牌的服务器电源冗余工作方式是不一样的
电源1–>工作 电源1–>工作

电源2–> 工作 电源2–>备用 1坏2顶上

电源分为750W 500W 570W 650W 瓦特 根据旧的型号去换。不能随便换

判断电源故障:
1外观 灯(绿) (红)(不亮)故障
声音
2管理卡日志 PSU1 erro PSU2 erro(电源) 3 开机自检报错

故障灯–(红) 灭
psu1 error psu2 error

主板故障
现象:开机黑屏 开机死机
更换主板,不影响数据(这些操作由机房值守或者厂家来做)前提:a有值守 b服务器在保修期内(专业点:在保)
raid1+ssdraid5
RAID卡故障(阵列卡)
现象: 无法显示硬盘 (所有)及不能CTRL+R进入RAID卡
解决方法更换 raid卡 或者首先插拔RAID卡

硬盘背板故障
现象:硬盘灯全部不亮

解决方法:更换硬盘背板及SAS线

如单个硬盘灯不亮或者为红 为硬盘故障。

风扇
现象 不转了

管理卡日志:fan1 error fan3 error
解决方法:更换

远程管理卡(板载) 如果想要使用必须进入bios配置管理卡远程管理IP地址。
如果出现故障,可以忽略。所有操作现场弄
只要通电管理卡即可使用

管理卡有管理卡的ip地址
实现无人值守机房的故障处理,
可实现设备重装操作,重启操作,等任何操作, 不依赖内外网 网络,依靠自己的管理卡网络,需提前划分


系统问题
----->系统级别参数优化(系统优化)(网络优化)
(内核参数调优) —>自行查看

账号问题(sudo)

升级内核失败(内核调参)(内核可以选择)
内核调参是系统优化里的东西
升级内核,不要删除其他内核,防止内核升级失败,可以用其他内核启动机器。
网卡配置文件问题
ping ip
解决方法 查看及修改和重启网络 /etc/sysconfig/-----
ifcfg-eth0-----ifcfg-eth3

ifcfg-eth0 ifcfg-eth0.bak
bak backup

eth0 eth1
systemctl restart network eth0 eth1

ifdown eth0
ifup eth0 单独开启和关闭一个网卡的命令

这是经过修改的。如果直接使用centos镜像安装网卡名字是 ifcfg-im
是否有IP地址
eth0 eth1 eth2
网络层VLAN,系统(IP),本地都没有问题,但是就是ping不通服务器。
a 95% 机器没有路由了,需要添加路由
b 防火墙过滤规则,不允许你的IP地址ping 服务器
添加路由2种方法
1种 临时添加(重启失效)

2种 永久添加(永久生效)
route -n 查看路由表

添加静态路由:
#route add -net 10.18.45.0 netmask 255.255.255.0 gw 10.18.45.1
删除静态路由:
#route del -net 10.18.45.0 netmask 255.255.255.0 gw 10.18.45.1

windows 192.168.22.232 IP
SERVER 10.10.12.243

路由 route -n 添加默认路由或者静态路由(重启就没了)
防火墙 (默认关闭) selinux(disabled)

1 临时添加及删除及查看本机路由
2 永久添加路由

如果做了bond 还要查看bond配置文件,eth0 eth1配置文件及模块加载文件 modpro~
交换机网口绑定。

系统丢失
显示: DHCP…

linux系统没了。

解决方案:重装系统
多发生于大批量自动安装系统,安装失败后。

PXE 网络自动化安装系统的瓶颈:

PXE最大的瓶颈就是网络带宽,千万不要同时大批量一起安装,会出现一批装上,一批装不上,非常麻烦。
建议 一次安装机器的数量:48台以内, 20台 20台一起装最好,
简单方法: 20台机器先统一做好RAID, 然后一起安装操作系统。

抓包tcpdump

文件系统损坏
现象: 卡在 control +d 界面让你输入ROOT密码

解决方法:输入root密码,如果没有请破解。输入密码
后 请执行fsck -y /dev/sda2
XFS_repire xfs

磁盘分区:
fdisk 4主 gdisk (2T) 128主

必须要有的3个分区 / /boot /swap

执行df -h 命令直接卡死是什么原因导致?
nfs 挂载问题 直接去umount掉挂载 重新查看

如果磁盘空间满了,我执行了rm -rf 命令,删除了没有用的文件。但是磁盘空间没有被释放,是什么原因?
这是进程原因,(deleted)进程,将进程杀死后空间释放。
ps aux 查看进程ID KILL -9

挂载问题
如果使用挂载的主目录,请去查看挂载,及NFS服务器及两边的NFS服务
nfs 起 /etc/exports 文件 selinux firewalld 共享目录 及IP地址段是否正确

server df -H

云服务器中使用公网IP地址连接,但是在系统下查看,只有eth0,不显示公网IP

在云服务器上搭建任何服务,必须要开放安全策略端口,否则所有服务不成功。购买的新云服务器默认只开启80 443 22等几个常用端口。

配置 8080 httpd lsof -i:8080 ps aux | grep http[d]
端口及进程OK 环境(包含selinux 包 防火墙 浏览器)也OK。
但是你就是访问不到你的8080端口的页面。

云服务器请经常创建快照(收费)(7月份收费)
尤其是在做任何大变更及升级前。

在搭建任何服务前,一定要在虚拟机环境先做一遍,不要上真机直接操作。(如果失败会导致机器不纯洁,无法快速排查出故障)

解析问题及yum失效问题

/etc/reso~.conf

GATEWAY=X.X.X.1


应用级服务问题
apache
源码编译安装,根据版本去安装依赖例如apr apr-util
环境
下包-- httpd-2.4.xx.el7.tar.gz
tar xf cd httpd-2.4 ./configure --prefix=/usr/local/httpd make && make install

web应用服务必须隐藏版本号

web应用一定注意环境及中间件(php java版本)

如果用浏览器做测试,切记浏览器缓存,建议使用curl命令查看http的状态返回码

如使用tomcat服务,切记–>内存要够–>企业中tomcat都是必须经过优化过的

nginx 优化 tomcat优化 后期会学!
必须记住参数(为什么要那么改)!面试必问

nginx
后期学了什么模块?做什么用的?
nginx进程原理
版本信息
平滑升级原理
加三方模块
nginx配置文件一定要熟悉

粘贴昨天讲的 项目遇到的问题。

mysql
源码编译过程–实验(主从复制,读写分离)
存储引擎

mysql备份与恢复

zabbix
熟记监控选项(不要单纯的只会监控CPU 内存 分区大小 机器联通性等,还要重点去监控业务,自动化脚本编写。

shell要求:每天写一个小脚本

jenkins重中之重
和开发合作实现企业级代码自动上线。

git 版本控制 github

等等======

云服务器搭建如果遇到问题,查看进程及端口都没问题,但安装后就是得不到想访问的页面,就是 云厂商的安全策略问题,所有在云服务器上搭建的服务,必须放行端口。在后台 安全策略中 调整。

在云服务器上搭建一些web服务(例如公司网站)
a 正常搭建支持http 协议—>80
网站安全升级成加密支持https协议—> 这个时候你在baidu搜索你的公司,跳转的页面还是http 而没有跳转到https加密页面,是什么原因??
1 你配错了
2 要联系baidu 你公司的页面对于baidu来说就是
一个网站快照,baidu没有更新baidu快照,所以导致用户不跳转,联系完baidu相关人员,问题马上解决。

云服务器,在进行任何版本回滚,版本升级,数据库升级-- 迁移— ===操作之前,切记:一定要先做快照,在操作。
快照是有风险的

1查看进程(killall) --> 进程有几种状态?–>端口 RS RSS重启服务:服务起不来 --> 80%
配置文件的问题(set list)—>进程用户–>查看系统日志–
查看端口,查看端口是否被占用

如果还起不来,将所有包含服务的进程杀死
更新 yum update

modb ng-gfs 3 nfs rpc bind

注意各个应用服务的启动顺序

最简单及最重要及最容易被忽略的问题:

搭建服务的环境问题及环境依赖包版本的问题。php(版本)

PHP版本如果过低会直接导致你页面是代码。
缺少中间健

在线上修改配置文件以前,一定要备份 包括网卡配置文件。

NFS—>网络共享存储出现问题—>如果是挂载页面代码 也访问不到。

mysql 遇到报错---->查看log日志

报错时间执行的命令–> erro bad wrong in used not exit

看应用服务级的问题尽量去看日志
/var/log/
systemctl status xxx.service -l

nginx ~~~~~~~~~~~~~~~~~~~~~~~~~~~

部署集群服务(应用服务)–>明确环境(操作系统版本,应用服务版本)—>现场环境(物理机–或者云主机)
—>明确集群关系---->画出拓扑图—>
细节:IP地址 主机名称
内网IP地址如果不够用,联系网络工程师去划分新网段。
公网IP地址不够用,向公司申请花钱购买

在公司里必须修改主机名称

源码安装(rpm安装)
机器之间的连通性测试 解析地址(/etc/res~.conf) nameserver
每个业务使用多少台机器,做什么架构,要根据你的业务量而定,没有死的规范。

a 企业中搭建负载均衡业务的服务器都是通过光纤+模块+万兆网卡 直连核心
在公司里只允许负载均衡(服务器) 这一类服务器直连核心。

b 负载均衡服务器必须有冗余(双数)。并且物理位置绝对不可以放到同一组机柜及同一个交换机下。

网络问题
ip a 确认系统没有问题。
ping 网关
服务器ping不通网关,除了服务器硬件问题,及系统,业务问题。
一定是
a交换机端口VLAN 划错了

b或者(端口没有开启)
c交换机本身问题
dVLAN仓库没有创建
f接入到核心的链路问题(和核心有关系的问题,请直接联系网络组)
g服务器到接入的链路问题
h 网络架构的问题
网关一般是 XXX.XXX.XXX.1 或者129(极少)

网络硬件问题及网络配置问题

服务器ping 网关

网络配置问题:
1端口是否开启 noshutdown
2是否划分正确的vlan 每一个IP地址段都有自己的
VLAN ID
192.168.31.X ----> VLAN ID 28
10.10.10.x-----> VLAN ID 30
3如配置bond 是否交换机端口也进行绑定配置。

从本地ping服务器—>1 ping通
—>2 ping不通

A意味着网络OK (交换机)
B服务器系统(包含路由route -n ,IP)ok
C 尝试SSH登陆----> 1 能登陆
----> 2 不能登陆
a1 ssh登陆服务器查看服务进程及端口占
用情况
a2 远程管理卡登陆或者机房现场登陆
都需要ROOT密码,如果没有需要破解
登陆机器后,【查看ssh服务(重启),让
我们能够正常登陆机器】(看看ssh的配置文件是否是改端口了)

二 ping不通
现场登陆或管理卡登陆
登陆后
1 ifconfig | grep “inet” 查看Ip地址
b1 有IP地址->ping 网关—c1 ping
网关通了–>意味着网络OK–>一定是
路由的问题
不是服务器ping通网关, 你在本地就一定能ping 通服务器的。
剔除掉(防火墙规则)
c2 ping 网关不通–>查看网口(网线)
连接关系及交换机硬件及交换机端口
问题
b2 没有IP地址
–网线是否插了 使用ethtool eth0
-查看及修改网卡配置文件并重启网络
服务—>网卡起不来(以外接网卡最多)
外接网卡查看驱动。
管理卡日志是在网页上查看。

云服务器:所有应用服务都是购买,自带高可用秒级恢复功能。遇到问题直接提工单,找阿里云(其他云供应商去解决)。
云服务器可以恢复快照,遇到重要数据丢失,请尽量联系客服恢复快照。

偶尔出现云服务器连不上,请检查本地网络,或者切换本地网络

1自己访问一下页面,确认不是别人本地网络问题
2 ping 服务器IP,看看是否能登陆
2.1不能登陆-> 现场是否有值守人员,是否有远程管理卡

lgoin 破解–ip a dns route -n 账号 ID ping 网关–通或者不通

网络问题解决方案:

核心路由出去的网络速度慢,有什么因素,请提供解决方案
1 首先查看接口带宽
2 查看是不是链路带宽打满了, 满了就会拥塞,拥塞就会访问慢,数据包就会进入队列排队
3 进行扩容,qos
QoS(Quality of Service,服务质量)指一个网络能够利用各种基础技术,为指定的网络通信提供更好的服务能力,是网络的一种安全机制, 是用来解决网络延迟和阻塞等问题的一种技术。QoS的保证对于容量有限的网络来说是十分重要的,特别是对于流多媒体应用,例如VoIP和IPTV等,因为这些应用常常需要固定的传输率,对延时也比较敏感。
4 检查设备性能瓶颈,设备CPU,内存使用率升高也会导致访问慢

公司里服务器IP变更流程
1 业务方确认需要变更服务器IP
2 将服务器跑的业务切走
3 向相关部门申请工单,写明需求(需要
哪一个段的几个IP地址)(公网IP?内网IP?)
4 相关部门(资源分配组)分发IP地址,创建子工单(给网络组),分配IP之后必须要做的一个事:请确认IP没有被占用。(确认不通)资源分配的子工单->自己留记录,看哪个IP在哪个机器被占用

5 ssh登陆服务器 修改IP地址,路由配置,重启网络服务
6 联系网络组同事(或者自己)更改VLAN
注意:先ssh修改IP,再修改网络。
因为先划分VLAN 你就登陆不上去了。
7 修改本公司系统中此服务器的新IP地址更新

8 联系资源分配组同事,回收旧IP地址。
注意:更换IP前 请先ping一下新的IP地址,确认地址不被占用(不通)

在公司中怎么登陆交换机和服务器
首先服务器和交换机都有不同的jumpserver(堡垒机,跳板机)

ssh 堡垒机IP —> ssh zhangsan@xxxxx 登录服务器

ssh 交换机堡垒机IP—> telnet x.x.x.x 登陆交换机

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值