数据库运维管理-运维平台建设思考

背景

最近经常和数据库运维管理平台打交道,同时也在搞这方面的内容建设,作为一个深度使用者,在工作中基本上每天都会使用到,也一直思考怎么让它提高自己的工作效率还能体现工作成果。

很多DBA会把运维管理平台看作一种工具,提升运维效率的工具,但是如果作为工具反而不能很好的发挥平台本身的能力。更应该按照一个业务系统的角度去管理使用它。我把我自己的实际经验分享一下,轻喷。

日常DBA的工作主要是:安装部署,日常巡检,监控优化,灾备切换,升级迁移,备份恢复,故障处理等,实际上也就是把日常的工作内容平台化。听起来是很简单,但是一旦涉及到平台化,可建设的内容会非常多,下面我从功能,管理,开发等方面说一下

功能方面

1:安装部署

比如针对开源国产数据库,原数据库厂商已经提供了很多一键安装部署的能力,该能力直接嵌入到平台中会比较容易,但是针对大型的商用数据库比如oracle,再去实现一键部署能力就会比较难,此时不如退而求其次,根据本公司的安装规范,提供标准化的,灵活的检查能力,并进行高亮识别,这样更能适应实际的工作环境,毕竟后期的检查工作非常繁琐。

2:日常巡检

巡检工作往往是一天工作的开始,但是很多平台的巡检报告,巡检项都做得非常好了,但是大部分都缺少对巡检结果的审核确认。试想一下,在一个DBA团队里面,大家早晨都在看巡检结果,几个人看同样的问题,是不是很浪费时间,如果在巡检结果做个审核确认,即可以节省大家的时间,提升工作效率,也可以做的工作进度的可视化,让同事,领导知道你正在处理此问题。

3:监控优化

此功能也是DBA工作中最主要的功能之一,使用最频繁的功能,如果做的好会是一大亮点。特别是在国产开源数据库中,比如基于mysql,pg开发的国产数据库,往往数据库本身缺少长期的性能监控数据,这个短板可以通过平台去补齐。当然还可以增加一些比如对比,自动识别异常风险sql,异常等待事件的功能。

4:灾备切换

此功能比较救命,使用体验上一定要简单方便稳定。切换过程中一定要迅速,可靠。可以的话可以做到批量切换等。特别是在金融行业每年都会有各种演练,此功能用的比较多

5:故障处理

故障处理这个是个综合技能,需要收集的信息会非常多,在平台建设上不会体现在单独某个功能上,会涉及到数据库日志信息,主机层监控,性能监控层等。当然在功能实现上不只是这些,还会有一些日常信息收集类,报表分析类,蜂窝大屏展示,工具箱,sql审核,数据库档案管理等等很多功能。每个数据库厂商都会有自己的一些思路和侧重点,在此不用多说,如果有需要可以再次讨论,下面讲一下在管理方面的心得

管理方面

作为一个平台的真正使用方,随着平台的不断完善,功能越来越多,采集到的数据也越来越多。基本可以把数据库运维管理平台当时一个数据库的数据中台。平台除了能够帮助DBA提升运维效率,自身安全性,稳定性,可维护性也要有一定的保障 ,从这个层面不得不考虑几个问题:

1:平台的稳定性

数据库运维管理平台除了辅助DBA提升运维工作效率,其本身收集到的数据也非常具备价值,可以提供给外部系统,一旦外部系统对接到数据库运维管理平台,在其他平台的视角,数据库运维管理平台本身也是一套业务系统,需要保障平台的稳定性。因此在建设平台阶段需要考虑平台功能稳定,做到平台核心功能的可监控,可观测,保障平台本身的稳定运行。

2:平台的高可用。

正如上面所说把平台看成业务系统去管理维护,因此也要考虑平台本身的高可用,在一些情况下,比如主机服务器宕机,平台需要具备高可用能力,才能保障依赖平台的第三方的数据正常。

3:平台的安全性

1:平台本身会在数据库里面运行大量的sql,脚本采集数据,因此所有执行的脚本要经过充分的压测,调优。

2:通过平台下发的任务要有记录。比如运维人员通过平台下发任务在数据库里面执行某个操作(增加表空间)需要审计记录,一旦出现问题,方便追溯排查问题。

3:除了平台自身下发的任务,通过人为下发的任务要有高危风险提示,中断等保护性动作。

开发方面

作为一个使用者并没有参与过开发,但是结合实际的使用体验,也有一些感觉操作性比较实际的想法。如果一个平台只能给DBA使用,简单的提升运维工作效率,不能给整个业务团队提供价值,作为客户,后期的投入可能会越来越少...。因此怎么发挥平台本身的潜力,也是需要思考的问题

1:平台功能接口化

正如上面所述,平台本身具备数据中台能力,一旦需要外部对接,可以迅速的提供接口化能力,能够很大的提升平台的横向扩展能力,更能体现出平台本身的价值。外部对接的系统越多,平台的价值越能凸显。

2:业务逻辑文档化

有这样的一个场景:客户需要把性能优化的数据提供给第三方,但是此时没有相关的接口。如果按照客户要求,需要重新提开发需求,不仅开发周期长,还要加钱,客户感觉不值得。此时怎么办。业务逻辑文档化即把客户的需求梳理清楚,提供性能优化的实现逻辑方案,有客户组织开发力量,既能大大的缩短交付周期,也能降低成本,很符合当下的降本增效的理念。

数据方面

在说管理上时,专门提到了平台的数据,但是平台数据怎么二次利用,并发挥出来价值,并把价值可视化也是一个很好的方向。在这里我们主要两个方面

1:业务数据

顾名思义是业务运维关心的数据,比如业务什么时候做的变更,变更的具体对象等。

2:运营数据

通过平台发现了多少问题,风险。化解了多少风险,今年上线了多少数据库做了多少建设内容等等。

当然以上的数据管理方面也是做到了可视化。可以看到每年的成果..

总之:以上管理,开发,数据方面都离不开功能内容的建设,好的功能才是根本。但是做好基本功的同时,也要让别人看到自己的成果。

  • 25
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值