阿里10年:一个普通技术人的成长之路

摘要由CSDN通过智能技术生成

一 关于我

宋健,花名宋意,2008年开始参加工作,至今12年多一直专注在运维领域。2010年6月加入支付宝,做过监控、SRE、资源管理、运维产品等方面的工作,经历并参与了阿里运维从脚本到工具化再到自动智能化的演进过程,在阿里的10年根据部门变化有三个阶段:

  • 2010.6-2013.1,支付宝(系统运维部)
  • 2013.2-2015.12,技术保障(支付宝、阿里云、淘宝、B2B等运维部门统一后的新BU)
  • 2016.1-至今,天基(负责阿里全球数据中心和运维体系的“数字化、自动化、智能化”建设)

二 我的经历

1 支付宝

关键词:开源监控、监控值班、应急响应

入职后加入的团队是运维部的监控组,那个时候团队刚刚开始组建,所有的东西从零开始,好在有B2B的兄弟团队可以借鉴经验,利用nagios快速构建了支付宝第一代监控系统。过了几个月由于双11的原因,我们的上班地点由华星时代搬到了电信二枢纽机房,因为支付宝当时的核心机房在那里,我们需要7*24在现场以便快速处置紧急事件。当时小组应该是6个同学,一白班一晚班一正常班,我们一边值班一边维护监控系统。

随着业务的快速发展服务器不断增加,很快一台nagios已无法满足需求,调研后引入centreon解决了nagios的水平扩展问题。监控项的添加和维护以编辑nagios配置文件为主,没有办法开放所有人员,因此监控项的维护工作也是由监控团队负责,PE和DBA只要整理好需求发出邮件即可。但新建业务和扩容的频率越来越高,每天要花费大量时间编辑文件受理监控需求且经常出错,和需求方协商后确定了针对不同业务组件设定监控模板的方案,再想办法自动获取到服务器信息,那个时候还没有专门CMDB,后来总算实现了新机器上线自动匹配模板添加监控和告警。重要的告警都是通过短信发出,告警短信需要和线上业务的短信区分开避免相互影响,所以我们又采购了几十个短信猫,专门学习了如何通过服务器控制短信猫发送短信,再后来还演进出了利用短信猫接收短信关闭告警的能力。

这样的情况持续一年左右逐渐稳定下来,有了经验沉淀后我们开始尝试引入外包值班,然后开始招聘和培训外包同学,制定值班和应急标准,建设相应的流程系统。外包值班又持续了差不多一年时间,由于监控可以看到所有业务数据,出于安全考虑又进行了去外包化。目前监控值班的角色仍然存在,办公地点在西溪的全球运行指挥中心,有专门的办公室和门禁限制,里面全是各种酷炫大屏,整个经济体的业务由他们7*24小时守护着。

这两年就是不停的做事情,不停的遇到问题和解决问题,逢山开路遇水搭桥。

2 技术保障

关键词:监控统一、OD分离、资源管理

2013年我所在部门由支付宝调整至集团,到集团后参与的第一个项目是统一集团监控系统。原来淘宝、支付宝、阿里云、B2B等业务都是自建监控团队和系统,组织层面统一后必然要将系统进行整合,整合后的新系统叫alimonitor。当时项目主导方是在运维开发团队,我参与进来时项目已经启动,只有我一个人是在监控团队,这也是我第一次参与较大型的跨团队项目。因为刚调整到集团跟其它成员都不熟悉,所以跟大家合作起来阻力很大,但我还是积极参与到项目中,每天跑到开发团队参加晨会,直到有一次在晨会上被气哭,但神奇的是从那天后合作就变的非常顺畅,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值