如何使用错误预算来保护服务可靠性

错误预算是衡量系统可以容忍的故障时间,与SLA和SLO结合使用。当错误预算耗尽,工程团队应转向错误修复和稳定性提升。错误预算帮助平衡创新和可靠性,防止频繁的SLA违约,保护业务不受影响。通过事件管理平台监控错误预算,确保服务的持续可靠性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
“错误预算”描述了系统在对您的业务产生实际影响之前可以离线的时间量。错误预算与服务水平协议 (SLA) 和服务水平目标 (SLO) 一起使用,以便在系统不可用性导致违约时通知企业。

将错误预算纳入您的应用程序可靠性策略为平衡风险承担和稳定性提供了一种有条不紊的方法。错误预算承认偶尔的中断、错误的部署和简单的错误是不可避免的。他们的作用是告诉您可以忍受多少此类事件。可用的错误预算还决定了您的下一个任务是构建新功能还是解决另一个错误修复。

什么是错误预算?

服务的错误预算只是衡量它可以处于失败状态而不招致合同、财务或监管处罚的最长时间。可用错误预算来自您在发送给客户的 SLA 中承诺的正常运行时间数据。通过将错误预算建立在 SLO 上,您可能会更加严格。

  • SLA – 您公开承诺的正常运行时间,例如 99.95%。如果服务的实际正常运行时间低于此数字,大多数使用 SLA的组织将有义务向客户提供补偿。
  • SLO – 您在内部设定的正常运行时间,例如 99.99%。这意味着 99.95% 和 99.99%之间的正常运行时间数字是不可取的,并且表明需要改进可靠性。但是,它不会让您有责任补偿客户。
  • 错误预算– SLA 或 SLO 允许的停机时间量的计算。

您可以使用简单的乘法计算错误预算。例如,说明您的服务在一年内将具有 99.99% 的可用性的 SLA 为您提供了 52 分 35 秒的总错误预算。持续 30 分钟的中断不会直接影响您的业务。持续一小时的错误将超出错误预算并需要对客户进行补偿。
以下是一些其他示例:

服务水平百分比 年度错误预算 每月错误预算
99.99% 52 分 35 秒 4分23秒

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

mikes zhang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值