运维流程
焦振清
这个作者很懒,什么都没留下…
展开
-
服务串讲标准提问内容
架构业界常见的架构有哪几种形式 有无异地多活/同城多活的实现方案 提供服务的架构图 介绍服务的数据流三板斧系列(要求严格排序第一就是要比第二重要)监控:三个最重要的监控指标和监控策略,以及分别的预案/处理措施 预案:三个最重要的预案是什么 问题定位:三个最重要的排查内容是什么部署集群的各类角色,用途,是否可选,角色之间相互依赖和互斥关系 集群运行还依赖于哪些服务(如缓存...原创 2018-12-04 16:17:33 · 171 阅读 · 0 评论 -
线上重大操作标准流程
重大调整的标准线上10%以上的机器或者模块可能会受到影响(如机器初始化策略,操作系统升级等) 线上流量可能受到影响(如数据库,缓存,DNS,接入层等的调整)标准流程责任明确:首先需要明确本次操作的最终负责人是谁?谁对操作失败的后果承担全部责任? 线下测试:在线下环境进行相关操作以及预案的模拟,确认影响面和风险 提前通告:提前邮件告知研发以及相关人员的邮件组,并且邮件正文需要明确说明...原创 2018-12-04 16:18:33 · 601 阅读 · 0 评论 -
运维工作中常见的一些定律
以下是我在工作中积累的,和运维工作相关的一些定律,接下来,我会对各个定律分别展开进行阐述,从而加深大家的理解一万小时定律,要在任何领域成为大师,一般需要约10年的艰苦努力 墨菲定律,如果事情有变坏的可能,不管这种可能性有多小,它总会发生 海恩法则,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患 因果连锁理论,一个最小的力量能够引起的或许只是察觉不到的渐...原创 2018-12-06 16:09:22 · 542 阅读 · 0 评论 -
服务变更如何做到高可用?这份指南请查收
作者:焦振清一个高可用的服务需要从部署、变更、预案、监控、安全等多方面考虑。如何做到99.99%服务高可用的要求,需要各个角色的工程师共同努力。本文介绍了高可用服务在变更方面的经验积累和最佳实践,以及一些配置变更的易错点,供大家参考近期,Cloudflare在更新WAF配置规则时,因其中一个规则包含了正则表达式,导致 Cloudflare 全球机器上的 CPU 使用率峰值达到 100...原创 2019-07-18 15:21:08 · 184 阅读 · 0 评论 -
服务部署如何做到高可用?这份“三级跳”秘籍送给你
作者:石文文一个高可用的服务需要从部署、变更、预案、监控、安全等多方面考虑。如何做到99.99%服务高可用的要求,需要各个角色的工程师共同努力。从部署的角度,本文介绍了高可用服务所需具备的规范,案例部分通过对Yum源服务架构的演变让读者更好的理解高可用服务部署,希望对大家有所帮助。高可用部署要求图1 高可用部署(*注:随着服务满足高可用要求的增多,服务的高可用能力就...原创 2019-07-18 15:22:45 · 250 阅读 · 0 评论