文 | 阿里云弹性计算团队
这是最好的时代,运维向更专业的方向发展。
“Ops 之前不是一个专业,它只有经验,现在是在把经验变成专业,对外提供标准化服务。”—— 阿里云弹性计算稳定性负责人鹿棠
我的同事、阿里云弹性计算稳定性负责人鹿棠,他相信,这个是让运维真正走向专业化的时代。运维人员凭借着自身的技术和经验,为企业降本增效,而非人工救火队。
这是最坏的时代,不少运维人陷入了职业危机。
运维人员似乎也陷入了极致的内卷之中。最早凭几行脚本和深厚的经验就不愁就业,到如今各种学不完的运维工具,不仅需要上知业务架构和代码,还需下懂内核和硬件。随着云计算、DevOps 等技术趋势的普及,运维人员面临着越来越多的挑战,他们从前所面临的问题和工作方式,也在重新被定义。
本文将讨论以下三个方面 ↓
- 运维工作所面临的新变化新趋势
- 在云计算时代大潮下运维人员的工作边界与路径是如何被重新定义
- 一个好的运维体系应该具有什么特征
一,运维面临的新趋势
回顾历史,除去早期大企业内部的少量 IT 运维人员,中国运维行业的兴起应该是随着互联网行业上个世纪 90 年代的发展而来。因此,互联网行业的运维能力代表了最领先的水平,也引领着运维领域的趋势和方向。
如今,20 年过去了,互联网时代进入下半场,传统企业数字化升级深入。运维人员所面临的环境和挑战有了许多改变:
1、企业 IT 系统越发复杂,运维挑战更大,需要实现更高程度的自动化。
随着数字化升级的深入、业务的增长,企业的 IT 系统日趋复杂,林林总总的网络设备、服务器、中间件、以及业务系统微服务化等让 IT 运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因这样或那样的故障而导致业务的中断,严重影响业务的正常运行。
同时,市场竞争变得越来越激烈,企业业务迭代需提速,以抢占市场先机,互联网行业尤为明显。产品市场化或迭代的速度成为产品成功至关重要的一个条件,如何更好地支持业务的快速迭代就成了运维人员又一压力。显然,人工的运维方式难以为继,于是国内运维行业开始寻求自动化。
工欲善其事必先利其器。随着技术的发展和自动化运维工具的出现,包括事件监控预警、自动化部署、自动化编排以及自助诊断等工具,为运维效率的提升提供了可能。
2、云计算的诞生和大规模普及,带来了运维对象、运维工具甚至是技能的变化,DevOps 趋势引起关注。
一般,很多企业会把运维部门的工作分成两个层级:
一是基础设施运维,主要是针对企业 IT 基础设施的管理,包括服务器、交换机、网络等物理资源的监控、报警、维修上线等。
二是应用运维,主要是针对企业具体业务的运维,包括某些业务应用的上线下线、发布部署和扩缩容等。
从业务的维度来说,应用运维的效率提升能更直接地加快业务迭代的效率和增长速率;基础运维则是根基,自建数据中心的企业,其运维的主要工作侧重于基础设施。
云计算具有“软件(或服务)定义一切”的特点,云厂商基本承接了底层基础设施的维护与虚拟化的工作。上云之后,企业运维的主要对象则从