![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
SER指南笔记
文章平均质量分 81
系统管理员的主要工作在于应对系统中产生的各种需要人工干预的事件,以及来自业务部门的变更需求。随着系统变得越来越复杂,组件越来越多,用户流量不断上升,相关的 事件和变更需求也会越来越多。于是公司需要招聘更多的系统管理员,来应对日益增多 的事件。系统管理员的日常工作与研发工程师相差甚远,通常分属两个
砚上有墨
这个作者很懒,什么都没留下…
展开
-
SRE-Google运维解密随记-4
我们发现,最安全的方式是在服务收到新数据之后,仍然维持之前的。的容量百分比,以及每个阶段之间等待的时间应该由服务的规模、发布的规模,以及服。在处理数据之前,应该检查数据的语法,甚至在可能的情况下,检查数据语义的正。非紧急的发布过程应该是按阶段进行的。HTTP流量与带宽预估,发布时的峰值,流量的组成,6个月的预测。配置运行,直到某个人来批准采用新数据这些数据可能是无效的。接收到不合理的配置文件或者输入数据时,应该继续保持之前的。安全设计评审,安全代码评审,垃圾邮件风险,验证,SSL。原创 2023-01-04 18:44:27 · 425 阅读 · 1 评论 -
SRE-Google运维解密随记-3-分布式系统的监控
收集、处理、汇总,并且显示关于某个系统的实时量化数据,例如请求的数量和类型,另外一方面,针对那些还没有发生,但是即将发生的问题,黑盒监控通常是没。优化系统的时间,所以经常会牺牲一些短期内的可用性和性能问题,以换取未来系统性。这里的两个术语是可以互换的:指在物理机、虚拟机,或者容器内运行的某个实例。与白盒监控最简单的区别是:黑盒监控是面向现象的,代表了目前正在发生的而非。来说,他们看到的是网站缓慢,数据库读操作的缓慢则是原因。●该规则是否能够检测到一个目前检测不到的、紧急的、有操作性的,并且即将发。原创 2023-01-03 21:36:24 · 369 阅读 · 0 评论 -
SRE-Google运维解密随记-2-服务目标质量
这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。SLI:很明显,提供一个客观的方式来度量SLO是很重要的,否则大家就会产生分歧。数据经常是最直接的用户指标,但是由于条件限制可能只能监控服务器端的延迟数据。确的协议,描述了在达到或者没有达到SLO之后的后果。就可以将更多的力量投入到扩大服务规模的工程工作上去,或者是进行下一代的服务的。SLI中过于复杂的汇总模式可能会掩盖某种系统性能的变化,同时也更难以理解。虽然100%的“可用性”是不可能实现的,但是接近1。原创 2023-01-03 21:08:03 · 286 阅读 · 0 评论 -
SRE-Google运维解密随记-1
增加现有容量经常需要启动新的实例甚至是整个集群,这通常需要大幅度修改现有的集群配置(配置文件、负载均衡、网络等),同时还要执行一系列测试,确保新上线的容量可以正确地服务用户。虽然不论多么完备的“运维手册”也无法替代人的创新思维,但 是在巨大的时间压力和产品压力下,运维手册中记录的清晰调试步骤和分析方法对处理 问题的人是不可或缺的。、一个业务的容量规划,不仅仅要包括自然增长(随着用户 使用量上升,资源用量也上升),也需要包括一些非自然增长的因素(新功能的发布、商业推广,以及其他商业因素在内)。原创 2022-12-31 23:01:11 · 419 阅读 · 0 评论