自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 谈谈监控告警体系建设—监控告警数据模型(三)

监控对象:承担生产运行的组成部分或者反应生产运行的某些情况,例如系统,组件,生产业务等等。监控:通过数据收集,观察或者检测某个监控对象的某段时间内健康状态或者运行状况的过程。告警:察觉监控对象运行异常并且通知给相应处理人的过程。指标:监控对象提供给监控系统的某类数据集合。阈值:判断监控对象运行异常的规则或者算法。告警模版:相同特征的阈值的合集。

2024-01-31 11:39:44 241

原创 谈谈监控体系建设—监控告警指标运营(二)

定义:从产生告警到通知到用户所需时间在告警规范的时间内的告警比例,告警及时率主要衡量告警时效的指标,根据公司的业务特性,可以设定告警规范时间,一般在一分钟左右,如果有一些特殊要求,比如需要告警收敛,那么这个时间可以适当延长。和告警通知及时率类似,首先要细分场景,有些告警处理时间需要很长,例如硬件故障等等,根据告警的优先级,哪些告警需要更加及时的处理,提升告警自动处理,也有助于这个指标的达成。1,流程驱动,在对象的上线或者下线流程,嵌入监控的环节,达到实时监控的目的,这是主要方式。

2023-04-18 16:40:16 955

原创 谈谈监控体系建设-引言(一)

本文希望解答:1,监控体系如何规划和建设,各层关注的核心点是什么?2,告警如何保障有效性,如何识别高优先级处理的告警,并做根因分析3,监控的流程和制度需要哪些?……本文是一系列文章,希望自己能尽快写完

2021-07-16 12:07:32 924

原创 SLA和运维指标运营

SLA是Service-Level Agreement的缩写,意思是服务等级协议,一般是协议双方做的彼此承诺,放在运维的领域,很重要的一个结果指标就是系统的SLA,这个是技术向业务做的一个承诺。系统SLA的定制方法一般有两种,一种是通过时间维度进行测算,另外一种是通过用户请求状态进行测算。

2021-07-14 11:52:56 10690

原创 运维故障处理指南

1.故障处理原则故障处理的原则只有两个:1,以恢复业务优先2,及时升级1.1. 恢复业务优先恢复业务优先是指,不管在任何情况下,也不管任何级别的故障,都要先做到恢复业务,这个和故障定位不同,也有很多人会产生歧义,觉得如果不找到问题的根源,如何能恢复业务,下面我举一个例子说明二者的差别:如果A应用调B应用时,调用失败,这时我们要怎么做?方法一,排查问题,寻找A到B之间会经过哪些环节,找...

2019-10-22 09:53:23 3683 1

原创 运维人故障定责甩锅话语指南

首先声明,本文章只在针对故障中那些不愿承担责任,而把锅甩给运维部门的人,如果讨论故障的是君子,那么本文并不建议使用,切记。故障,故障还是故障任何一个故障发生时,没有任何一个人是无辜的,开发的责任在于代码的bug,测试的责任在于测试用例不健全,运维的责任在于监控不到位或者故障处理不给力,一般在故障定责中,声音越大的一方,往往责任越大,所以在故障定责时,要学会察言观色,选择主攻点,不要广撒网,...

2019-09-16 16:01:43 2318 2

原创 Devops落地实践思路

【引言】Devops自2009年诞生以来,经过这么多年的摸索,开始逐步变成一种主流的运维模式。网上也有很多关于devops的讨论,但大多数都停留在思想层面,真正可落地的方法并不多,本文根据作者自己12年的从业经验和唯品会公司的落地实践,加以总结,希望给读者一定思考启发和帮助。在本文开始之前,需先明确几个概念,后文会用到。Itil:一种以流程为基础的运维模式,基本思想是PDCA。服务:能够独...

2019-09-05 10:05:00 1266 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除