运维,或许是一个在 IT 技术岗中很尴尬的职位。其一,许多应届生都未曾接触过,对工作的职能界定非常模糊;其二,很多其他技术岗的往届生会觉得,『卧槽,这么 low 逼,只会重启推配置做发布』;其三,正在从事运维岗的往届生会觉得自己在公司的 KPI 很难体现。我在从事运维工作的前 2 年,也总是问自己:WTF,到底我的存在有啥意义?
运维并不是一个可以从校园里可以培养出来的职业,它完全需要从实践中去体会。当然,今天写这篇不是为了想告诉大家这两年我体会到的所谓运维存在的意义,而是就一件最近工作上的一件小事和大家谈谈生产线应该具备的运维意识。
一件小事以及引发的思考
事情呢是酱紫的,看到工作群有一个小伙A说需要重启服务器重做 raid,原话大概是:
『127.0.0.1 重做raid,告警忽略@同事B @同事C』
本来这个事情貌似没啥问题,鉴于近期公司出现了多次因生产故障产生的资损事件,我就单独找他聊了下,看似风平浪静的事情其实是波涛汹涌啊!
运维需要清楚【变更的需求背景】
我:A,你了解变更背景吗?
A:因为X哥告诉我需要重做 raid。
我:为什么需要重做 raid?
A:因为需要给线上生产环境部署一套 FTP,做 raid5,而原来是 none-raid。
这一点上,A同学是可以回答的上来的,但是