理解百度整体运维技术,数据库运维技术,掌握效率云设计理念及实践
该部分分为3个部分,分别是数据库、效率云和运维,其中效率云有三个实验
数据库
百度数据库总述与最佳实践
数据库在百度发展阶段介绍:
百度数据库运维及Redis异地多活实践
➢DBA服务故障主要两类:
- 流量介入层故障: 多入口部署,识别与恢复较容易
- DB故障:单点,故障需将从库提升为主库
➢DB故障人工恢复时间为5min+,且受熟练程度限制
难点:
➢主库故障识别:
原因较多,表征也不同,难覆盖全,容易误判
➢故障恢复:
各个节点均带数据与状态
从库拉取执行主库二进制日志保持数据同步
除快速恢复外,还需保证数据一致、可靠
➢MySQL故障
●Down - 无法连接
●假死 - 无法操作
●反复故障 - 频繁切换
➢故障机器故障
●磁盘故障 - 内存正常
●机器Down - Standby异常
●机器假死 - Standby正常
➢网络故障
●批量机器故障 - 多机器故障
➢网络脑裂
●半同步、分布式:部署策略规避
●异步复制: 存在
➢思路
分布式-致性协议
➢解决方案:
第三方仲裁机制
机房级别检查
说明:此方案是让业务进行写入MQ通过DTS同步组件进行多地域数据同步,再基于MQ进行数据的分发
问题:需要业务进行改造,成本较高
说明:此方案架构是通过Reader对Redis进行两地的数据同步,每个需要同步的地域都需要有一个对应的Reader来接收数据
问题:可扩展性差,压力随着同步地域数增加而线性增加
处理方案:
引入消息中间件进行多地域数据分