《SRE生存指南》金句分享

原创

于 2021-03-24 09:55:45 发布 · 337 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#后端

《SRE生存指南》由Nat Welch著，分享了如何最大化正常运营时间及应对系统中断。书中强调了SRE的重要性，涵盖事故响应流程、测试发布、角色职责、数据恢复测试和软件开发。SRE的目标包括编写代码、人际沟通和紧急情况处理。书中还提醒避免过度维护内部软件，重视用户体验，并提倡有效的团队协作和流程改进。

在这里插入图片描述

SRE生存指南—系统中断响应与正常运营时间最大化》一书其作者为美国人Nat Welch，他在谷歌做过四年SRE。之后，他在各种规模的公司工作过，并一直致力于提高网站的可靠性，以帮助开发人员构建可靠的系统。翻译者是冯文辉，他是知名软件设计公司ThoughtWorks的咨询顾问。
业内评价，此书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料；软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
看了这本书之后，我觉得书中有一些不错的段落，摘下来与大家分享下！

1、RE是一个令人兴奋的领域。为了定义这个领域，我们可以从它的全称“站点可靠性工程Site Reliability Engineering”中学到很多东西。

Site：一个网站。
Reliability：被定义为“值得信赖的质量或一贯可靠的质量”。
Engineering：被定义为“熟练地运用技巧以达到某种目的的行动”。
2、事故是指一些重要的事情发生，它迫使你改变正常的行为。例如，一杯咖啡洒在你身上，你需要去更换衣服；在通勤的路上发生了意外，使你不得不更换路线；你可能会摔断胳膊，不得不在接下来的三个月里打着石膏。所有这些事故都要求你立马做出应对，甚至往往使你的计划发生长期的改变。

3、事故响应通常包括以下几个动作：

关注，注意到有些东西不对劲。
交流，告诉别人哪些东西不对劲。
恢复，纠正不对劲的东西。
4、如果工程师知道他们每天早上三点肯定会被叫醒，那么可能会很快就离职了，或者只是把手机警报停掉，而不做任何响应。

5、测试和发布流程通常在项目早期建立，然后被逐步遗忘。

6、在大型组织中，你也可能会发现自己被限定在一个专门的角色上。你可能感觉测试不是你的责任。但请记住，不仅“灭火”是你的工作，“防