
SRE生存指南—系统中断响应与正常运营时间最大化》一书其作者为美国人Nat Welch,他在谷歌做过四年SRE。之后,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。翻译者是冯文辉,他是知名软件设计公司ThoughtWorks的咨询顾问。
业内评价,此书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
看了这本书之后,我觉得书中有一些不错的段落,摘下来与大家分享下!
1、RE是一个令人兴奋的领域。为了定义这个领域,我们可以从它的全称“站点可靠性工程Site Reliability Engineering”中学到很多东西。
Site:一个网站。
Reliability:被定义为“值得信赖的质量或一贯可靠的质量”。
Engineering:被定义为“熟练地运用技巧以达到某种目的的行动”。
2、事故是指一些重要的事情发生,它迫使你改变正常的行为。例如,一杯咖啡洒在你身上,你需要去更换衣服;在通勤的路上发生了意外,使你不得不更换路线;你可能会摔断胳膊,不得不在接下来的三个月里打着石膏。所有这些事故都要求你立马做出应对,甚至往往使你的计划发生长期的改变。
3、事故响应通常包括以下几个动作:
关注,注意到有些东西不对劲。
交流,告诉别人哪些东西不对劲。
恢复,纠正不对劲的东西。
4、如果工程师知道他们每天早上三点肯定会被叫醒,那么可能会很快就离职了,或者只是把手机警报停掉,而不做任何响应。
5、测试和发布流程通常在项目早期建立,然后被逐步遗忘。
6、在大型组织中,你也可能会发现自己被限定在一个专门的角色上。你可能感觉测试不是你的责任。但请记住,不仅“灭火”是你的工作,“防

《SRE生存指南》由Nat Welch著,分享了如何最大化正常运营时间及应对系统中断。书中强调了SRE的重要性,涵盖事故响应流程、测试发布、角色职责、数据恢复测试和软件开发。SRE的目标包括编写代码、人际沟通和紧急情况处理。书中还提醒避免过度维护内部软件,重视用户体验,并提倡有效的团队协作和流程改进。
最低0.47元/天 解锁文章
331

被折叠的 条评论
为什么被折叠?



