统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

本文探讨了统信软件sysOM在系统可靠性与安全性方面的实践,包括SLI、SLO、SLA的定义与应用,监控的重要性,自动化运维平台的功能,以及系统安全的静态和动态检查。sysOM提供了主机管理、诊断中心、安全中心等功能,以提升系统可靠性并确保安全。未来,sysOM将面临事件现场保留、底噪问题和标准化修复依据等挑战。
摘要由CSDN通过智能技术生成

一、系统可靠性

SRE是判断系统是否可靠、可用、有效重要标准,它包括:

  • 服务水平指标SLI:衡量服务使用情况量化指标。 比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。
  • 服务水平目标SLO:一段时间、区间内的目标。 SLO的表达式通常为: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以为每个请求的平均延迟<=10ms。
  • 服务水平协议SLA:测量指标应与商业目标密切相关。

稳定性99.99% 和 99.999% 在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本。

基于时间的可用性=可用时间/总时间,但该指标通常意义不大。比如某订单系统在7天内有1小时不可用,其影响将是致命的。

基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承受能力,在创新和可靠性之间找到恰当的平衡。

度量建模首先需要对指标进行标准化,比如聚合间隔、聚合区域、测量频率、包括哪些请求、如何获取数据以及数据访问延迟。进行度量选择时,应关注用户关心的内容,而不是能够衡量的内容。关注标准化指标时,需关注SLI分布而不是平均值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值