如何让巡检从被动变主动

这是学习笔记的第 1968 篇文章


我们认知中的巡检设计大多是一种被动的方式,即你希望做什么,按照这个思路和流程来设计,如果希望巡检能够发挥出强有力的支撑,那么我们需要转化被动为主动,即思考巡检数据对我们有什么用处?

有的同学可能还不大理解,我们来举个例子,比如我们会每天收集数据库中的表信息(数据库,表名,表数据大小,索引大小,表结构变更时间,碎片情况等),这样一份看起来简单的数据如何发挥余热的,我来给出一个列表:

1)冷数据,一些长时间未操作的数据,可以通过数据量和时间维度进行权衡

2)库中的表过多,可以通过统计的方式得知哪些环境是属于不规范环境,这类问题通常感受不到,但是一出问题哪里都是问题

3)一些没有用到的表,临时表和备份表,这些表像牛皮癣一样,我们要对数据库做下清理。

4)周期表探测,如果一些业务存在周期表需求,那么通过反向的方式可以很轻松找出那些日报,月表等周期表

5)数据库的特性和业务类型不匹配,如果表数据写入过多,很可能是日志型业务,可以根据一个或多个维度来评估是否和现有的业务类型匹配

6)预测数据量变化,可以通过历史数据的变化建立模型预测近一段时间的数据量变化

7)数据生命周期管理,有了时间维度的信息,我们可以建立数据生命周期管理模型,来通过多个维度来进行表结构变更的追溯。

8)权限和安全隐患管理,我们可以通过全局的方式来评估现有环境存在的隐患,比如那些流程外创建出的表,流程外删除的表,可以做得统筹的管理。

以上只是抛砖引玉,主要想表达的就是巡检在一定阶段之后会产生数据分析的更大价值,让我们对更多的问题具有主动的管理方式,而从一开始就希望想全,想好也是不切实际的。

    此外,我需要补充的就是运维体系的建设中需要深入融合巡检。

在我们的运维体系中,其实一直有一块短板,那就是单纯依靠监控和报警模块,工作效率和质量是一种被动的方式。

我们可以假设一个场景,你在节假日的时候在外面游玩,刚在高速路上的时候,收到了一条报警,一个关键业务系统的磁盘空间超出阈值(假设是80%),这对你的旅游兴致来说是大受影响,虽然这样一件事情处理的难度不高,但是我们总是需要花费那么些额外的时间和精力去处理,这个代价对于个人来说是很高的。

如果我们能够有一种机制去缓解这个问题,比如我们马上收到巡检信息提示的一封邮件,可以看到这个磁盘空间的增长是平缓的,而不是那种业务增长导致的尖峰,那么这个问题处理的时间就可以适当后延,对于正常的生活和工作是收益很大的,按照这种机制,在不影响业务的前提下,我们可以把很多干扰我们的大量碎片时间,作为一种延迟处理的方式,这是一种运维信仰和工作理念。

以下是一个监控,报警,巡检的三体一体集成方案。

640?wx_fmt=png

我们来对这个图做下解释:

1)监控和报警,这是常规的运维体系,监控达到阈值触发报警

2)报警和巡检,通过报警能够异步调用巡检接口,对已有的数据库业务进行巡检,比如发送巡检可视化报告或者巡检提示信息,让巡检工作不再被动,而是因需而动

3)巡检和监控,通过巡检机制的完善,能够发现更多的问题,然后建立新的监控指标

4)监控和巡检,如果监控指标未达到报警阈值,并不一定意味着没问题,但是通过一些监控指标来触发巡检就可以把这块空白补上,比如一个系统的磁盘空间80%为阈值,在1:00~2:00,磁盘空间使用率从20%增长到70%,虽然不会触发报警,但是短时间的增量较多,我们可以设定70%的阈值为巡检模型所用,就可以通过巡检模型来识别出这类问题

640?

 本书针对中小规模网站集群的搭建、部署、优化进行了详细讲解,全书可分为三大部分,其中第一部分讲的是Linux相关的基础且重要的知识,第二部分针对当下流行的Web环境架构(LNMP)的搭建及企业级Web优化等进行了讲解,第三部分讲的是Web集群后端的数据存储和Web集群前端的负载均衡高可用。如果你是一名经验丰富的资深Linux用户,可以直接阅读第二部分内容。但如果你是一名Linux初学者,请一定从第1章的基础知识开始学习。   第一部分为基础篇(第1~4章),简单地介绍了Linux的历史沿革、Linux的企业级选型、学习环境的搭建、Linux的企业级系统安装、Linux系统的基础优化,以及远程连接Linux及客户端SSH的设置等,最后比较深入地讲解了HTTP协议和www服务相关知识,为读者搭建企业级Web集群环境做好了准备。   第二部分为Web服务篇(第5~8章),着重讲解了Linux、Nginx、MySQL、PHP(LNMP)等当下流行的Web环境架构的搭建、开源blog网站产品的安装部署、Web优化等知识。为读者搭建企业级完整的网站Web集群架构做好了准备。   第三部分为集群篇(第9~15章),着重讲解了Web集群后端的MySQL数据库、Web集群共享存储NFS、Nginx反向代理负载均衡、Keepalived高可用、Memcached缓存及session共享、Nagios企业级监控等技术实战,最后为读者规划了一个中等规模的网站集群架构解决方案。   老男孩的运维思想   决定战争胜负的不是战斗的瞬间,而是决战前的各种准备。准备工作做得越充分,取胜的几率就越大!映射到Linux运维就是要多未雨绸缪,多提前去思考、规划和准备,不要一上来就部署服务,遇到问题了再到处去找资料;更不要等出了故障才急急忙忙救火,而是要在故障发生前,就去排查潜在的问题隐患,尽可能做到提前预防!   IT运维及架构师要有捕捉知识的能力、发现问题的能力,然后用捕捉到的专业知识或方案来解决发现的各种问题。   技术细节学不完,掌握解决问题的思路和思想才是关键,技术能力的提升只是量的积累,思想的提升才是质的飞跃!   输入是被动学习的过程,知识的留存率很低(低于30%);输出是主动学习的过程,知识的留存率很高(可达90%以上),想忘都难。作为运维人员,多去解决实际问题,并把思路讲出来,会让你成长得更快。即使后面遇到技术难题,也能很快找到解决思路。 【电子版来自互联网,仅供预览及学习交流使用,不可用于商业用途,如有版权问题,请联系删除,支持正版,喜欢的 请购买正版书籍: https://item.jd.com/11891124.html】
相关推荐
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页