中高级定义:对标阿里的P5-P6的岗位;百度t4-t5的岗位,一般工作3-4社招入职百度。
岗位要求是对运维已经有了初步的入门,对SRE和运维工程师有了自己的理解和思考。对于运维工程师除了扎实的基础技能之外,对于监控、变更、容量、预案等有一定的认知和思考。
一、监控篇
问题1:监控的目的是什么?
能不能发现?能不能快速发现?能不能快速定位问题?
问题2:如何添加监控?
监控添加的四个方向:
统一入口和门户
紧紧把握核心指标的准/召回率
深入业务链路加监控,比如你的上下游
完善基础监控和指标
问题3:核心指标如何选择?
第一个问题为什么一定要有核心指标,核心指标的目的是发现问题,是对全局稳定性的把控,核心指标管理越好对业务的掌控会越好。比如当有故障的时候如果去评估影响,那么核心指标的波动就是需要在第一时间去观察和判断的。
说一下我的理解和看法,一切核心指标一定要从业务需要去出发和选取。举个例子,比如是搜索系统,那么搜索的时间就是一个非常核心指标。如果是推荐系统,比如抖音和快手,那么时长就是一个非常核心的指标。如果是存储系统,比如网盘,那么上传文件数和存储文件数就是核心指标,比如电商的成交量,成交金额等。
链路监控:
什么是链路?链路就是一个功能,一个请求的完整流程,比如:cdn→Lvs→nginx→server→db。
如果一个人不了解这个业务如何快速判断问题呢,那么就必须有完整的链路监控,让每个人看到链路就可以对全局的链路有个完整的理