【SRE】
文章平均质量分 89
记录、收集SRE领域相关知识、实践经验等
shaonbean
关注稳定性建设,SRE体系建设
展开
-
AWS-什么是站点可靠性工程(SRE)?
可观察性过程是指当软件为最终用户投入使用时,软件团队为不确定性所做的准备。站点可靠性工程 (SRE) 团队使用工具来检测软件中的异常行为,更重要的是,收集有助于开发人员了解问题原因的信息。可观察性涉及使用 SRE 工具收集以下信息。监控是指在应用程序中观察预定义指标的过程。开发人员决定哪些参数对于确定应用程序运行状况至关重要,并在监控工具中进行设置。站点可靠性工程 (SRE) 团队收集反映系统性能的关键信息,并在图表中进行可视化。在 SRE 中,软件团队监控这些指标,以深入了解系统可靠性。转载 2023-12-01 23:21:19 · 249 阅读 · 0 评论 -
SRE-架构框架-可靠性
对于面向用户的工作负载,请衡量用户体验。用户必须对您的服务的表现满意。例如,衡量用户请求的成功率,而不仅仅是查询 CPU 使用率等服务器指标。对于批量和流式工作负载,您可能需要衡量数据吞吐量的关键性能指标 (KPI),例如每个时间窗口扫描的行数,而不需要衡量服务器指标,如磁盘使用率。吞吐量 KPI 有助于确保用户需要的每日报告或季度报告按时完成。本文档是由两部分组成的系列中的第 1 部分,其中介绍了运营在线服务的团队如何使用服务等级目标 (SLO) 开始构建和采用站点可靠性工程 (SRE) 文化。原创 2023-12-01 19:21:56 · 1781 阅读 · 0 评论 -
SRE体系建设指南
拥抱风险:容忍风险、度量风险、管理风险、研究当前高频故障原因和主要风险;演进式、SLO目标内允许故障工作准则:专注改进设计、专注研发工作;把可靠性工作纳入软件各阶段、简单化、减少琐事。原创 2023-11-29 17:47:34 · 1466 阅读 · 0 评论