总结一次系统宕机问题

@ 总结一次系统宕机问题(大神可以忽略,本篇文章给小白们指条明路)

问题简单描述:

2019年9月6号12点左右,在公司楼下吃饭,突然接到了公司运营的电话,反馈系统宕机,系统服务全部停止,别的不说上截图

在这里速度插入图片描述首先进入日志发现后台的dubbo服务全部阻塞,线程全部占满,导致系统全面宕机(系统架构 SpringBoot+mbs+dubbo+redis)首先查看系统快照以及cpu占用率查看问题,发现全部服务阻塞。排查时间大约10分钟左右,突然灵机一动,想查看一下生产数据库,查看cpu以及占用内存,

在这里插入图片描述突然吓傻了,cpu竟然以笔直的形式冲上了百分之100,所有的问题一刹那解开,初步排查问题:有一条或多条慢sql查询或者别的操作,将数据库cpu拉满,导致阻塞了除了用到redis之外的服务,数据库宕机是罪魁元首,导致所有关于数据库的操作全部等待响应,在控制台将所有sql进程kill掉,cpu直线下滑。。。jenkins重启双节点,服务重新运行。。。满身大汗。。。。

开始排查问题

将rds数据库上的慢sql全部导出,发现有一条sql运行了0.9秒左右,并且查询cpu以及该sql运行大致时间发现符合事故发生时间

在这里插入图片描述突然纳闷了,为什么一条update没有连表,竟然执行时间竟然会达到0.9秒,我蒙了,身为3年程序猿,竟然会在这个sql翻车???,仔细排查发现正常的单表update只需要0.03~0.05秒左右。。。为什么这个update会执行如此之久。。。

在这里插入图片描述排查后发现正常的update 是通过id 来进行的,但是我这条sql是通过用户的openId来修改用户的关注公众号状态,但是这个openId未建立索引。。竟然会运行0.9秒以上…果断增加数据库索引

在这里插入图片描述运行时间直接下滑到0.06秒,唉。。。。心累,
只怪当初偷懒,没加索引,导致系统宕机,以及扣除百分之40绩效。。。哭了

问题总结

1.除非是通过id进行update ,否则大批量数据表中,要在合适的地方新增索引增加查询以及修改速度!!!

2.想明白为什么通过该字段进行update操作,可不可以 通过表主键id进行查询以及修改操作。。。

3.最重要一点,遇到事情不要慌,昨天中午差点吓尿了,公司ceo直接拍我肩膀说怎么样。。留我一个人在风中凌乱。。。。

在这里插入图片描述
感谢大家观看,小弟献丑了,以后我会多多分享项目经验以及踩坑经验。还有关于阿里云iot以及java问题可以私信评论,我可以和大家一起解决。再次感谢。。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Linux系统原因可能有多种,常见的可能有以下几种: 1. 内存泄漏:程序无法正确释放内存,导致内存不足,最终导致系统。 2. 资源竞争:多个进程或线程争夺同一资源(如共享内存),导致系统无法正常工作。 3. 硬件故障:如CPU、内存、硬盘等硬件出现故障,导致系统无法正常工作。 4. 驱动程序错误:驱动程序可能存在bug,或者与某些硬件不兼容,导致系统无法正常工作。 5. 病毒攻击:恶意软件的攻击可能导致系统崩溃。 6. 软件缺陷:某些程序可能存在bug,或者与其他程序不兼容,导致系统无法正常工作。 对于Linux系统,应该首先考虑是否存在硬件故障,并检查系统日志、内核日志等信息,排查问题。同时,定期更新系统和软件,加强系统的安全性,减少软件缺陷和病毒攻击的风险。在使用第三方软件和驱动程序时,应谨慎选择,避免不必要的风险。 ### 回答2: 在Linux系统中,是指系统突然停止工作的现象,这种情况可能导致数据丢失和其他损失。系统是由多种原因导致的,可能是硬件故障、软件错误或其他问题。 硬件故障是导致Linux系统的最常见原因之一。硬件故障包括:内存问题,磁盘问题和处理器故障。当硬件发生故障时,内核可能无法访问到数据,从而导致系统。 软件错误也是导致Linux系统的常见原因。当软件发生错误时,它可能会导致系统无法响应,从而导致系统。例如,如果一个进程死锁,它可能会导致其他进程无法继续运行,从而导致系统。 其他可能导致Linux系统的原因包括:系统配置错误、网络问题、过热等。 面对Linux系统,我们可以采取以下措施来进行修复: 1.检查硬件是否正常。可以使用内存检测工具、磁盘检测工具、处理器诊断工具等进行检查。 2.检查系统配置是否正确。可能是配置文件被更改或删除,导致系统出现问题。 3.升级或回退软件版本,以便解决已知的软件问题。 4.监控系统运行状态,及时发现问题并进行修复。 5.保持系统安全,及时更新补丁,以减少安全漏洞的发生。 总之,Linux系统是一个很严重的问题,我们应该认真分析原因并及时采取措施来解决问题。在使用Linux系统时,需要具备相应的技能和知识,以便快速准确地诊断和解决问题。 ### 回答3: 作为一种稳定而高效的操作系统,Linux常常被用于企业级应用和科学研究中。但是,即使Linux系统出现的情况,也要对其进行深入分析,以便找到并解决问题,提升系统的稳定性和可靠性。 Linux系统出现的原因有多种,以下是其中的几种。 1.硬件问题: 硬件故障是各种操作系统最常见的原因,Linux系统也不例外。硬件故障包括CPU故障,硬盘故障,内存故障等等。这些故障会导致Linux系统崩溃或重启,无法正常工作。 2.操作系统问题: 操作系统问题可能是由于内核或操作系统软件的缺陷和错误引起的。例如,内核代码缺陷、系统文件损坏、软件安装错误等都可能导致Linux系统。 3.软件问题: Linux系统上运行的软件也存在故障的风险。本身存在的缺陷或其他不兼容问题都可能导致系统。例如,一个开发过程中可能遇到的指针错误可能会导致程序崩溃,并在此之后导致系统崩溃。 4.网络故障: 使用网络连接的设备或其他主,也可能造成Linux系统。例如,一个突然出现的全局网络故障可能会导致系统无法正常运行。 针对这些原因,解决方法各不相同。如果是硬件问题,需要及时更换或修复,而如果是软件问题,则需要升级或重新安装软件。如果是网络问题,我们需要检查网络设备或更改网络连接等方式解决。 总之,Linux系统虽然会对运作产生影响,但也不是大问题。针对不同的问题我们可以采用对应的办法解决,以确保系统的稳定性和高效性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值