谈起运维工作,估计很多人会下意识的认为就是修电脑的、网管(上不去网,第一个被召唤的那种)。其实不能说这是错误的理解,IT运维人员的工作小到修电脑、理网线,大到部署整个数据中心。
负责运维的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如IBM的大型机Z13)。
从运维的工作层次来分,又分为硬件运维、桌面运维、系统运维、数据库运维和应用运维。几乎所有的和系统相关的问题,都与IT运维人员有关。
根据公司IT系统规模的不同,有的运维团队不到10人,有的甚至达到数百人。每晚通宵达旦,为IT系统保驾护航。
但是始终还是有很多的人和同事会质疑:为什么我的电脑还这么卡?网络速度还这么慢?某某系统还是上不去,很影响业务运营等等。
这些质疑让运维人员很尴尬也很无语,有些问题甚至类似客户没有插网线,抱怨上不去网。有时候甚至会胡思乱想,究竟运维的意义是什么?这么努力怎么还这么受气?
前段时间在群里和论坛上与运维方面的朋友一起交流的时候,大家总是时不时的诉苦,抱怨运维苦逼,没有成就感,甚至经常成为“窦娥”、“背锅侠”的代名词。种种抱怨和不满,也促使我更加的想表达一下如何做好IT运维方面的经验和个人见解(不一定对,欢迎拍砖),尤其是企业级的IT系统运维。因为其不但系统分支多,而且够复杂。业务频繁变更,要求IT系统必须随需应变。
运维的价值
多年的摸爬滚打,我对运维总结成了两句话“技术只是手段,业务才是王道”。运维的好坏评定标准其实就是你给公司及业务带来了哪些价值及哪些影响。
无论是小企业还是大企业,很多时候,运维人员的确做了很多的事情,处理了很多紧急的事件,甚至都是在凌晨才动手,确实非常辛苦,真所谓是“累成狗,起的比鸡早,睡得比猪晚”。但是这些事情真正为业务创造了多少价值呢?老板知道吗?可能这个就是运维人员该好好思考一下的了。
当然,我并不是否定我们运维在做的事情,毕竟我也是做运维出身的。这些事情的确是运维人员必须要做的,但是我的观点是不能陷在这个自我感觉良好的漩涡中——自认为运维做了很多的事情,非常的辛苦,甘做幕后英雄。
如果有这样的想法,那一定是运维人员自己的问题了。运维不光是需要技术上的不断改进与创新,更需要思维观念的改变,学会站在业务的角度思考问题。往往在这个改变的过程中,运维的价值就会逐步的得到体现。
在这里,我总结了一下多年来自己做运维的经验分享给大家,踩过的坑,背过的锅,还历历在目。希望大家可以避开这些问题,做好企业IT系统的运维,体现运维的真正价值给公司。
什么是运维
运维是一件对知识面要求很高的工作,它要求运维者不仅要懂得基本的系统与网络知识,还要对运维的业务系统有较深的理解,知道整套业务系统的工作模式与工作原理。这也是对运维人员学习能力的一种考验。
一听到故障描述,就可以大概知道问题的故障点所在。同时知道如何通过技术手段及清晰的逻辑方法去发现和解决问题。
运维是一件对自动化要求很高的工作,随着IT技术的不断发展,越来越多的方便运维的技术应运而生。
从互联网时代开始,业务系统的交付和迭代也变得越来越频繁,从每月的迭代一次,甚至到了每天迭代多次的场景。如果没有自动化的手段快速响应与处理,对用户的影响可想而知。自动化的主要目的个人认为主要是三个:
- 效率提升:
初期自动化主要解决的是和日常运维例行工作相关的操作。
比如各种平台的资源分配&回收、统一配置管理、CI&CD(持续集成&发布)、操作系统的部署、系统空间的扩容与缩容、简单应用部署、文件分发等等,这些都是运维最基础的工作,也是自动化最容易实现和集中的领域。
个人觉得凡是那些偏日常和重复的工作都应该自动化,解放运维的生产力,提升