背景
我们作为开发者都了解或熟悉后台系统,后台系统可以抽象为两个组成部分:一个是业务系统,该部分负责处理系统的业务逻辑,在现代化的架构中,该部分通常设计成可水平扩展的无状态节点;另一个是数据库系统,该部分负责存储系统的状态,这其中便包括最核心的业务数据。
站在数据库的视角,数据的流入包括两个部分,一个是业务系统的实时写入,这是核心数据来源的主要部分;另一个是从上游数据系统一次性或周期性导入的数据。因为这些核心数据在这里首次产生,所以这个数据库也被称为 SSOT(Single Source of Truth)。
SSOT 是后台系统中最重要的数据资产,那么随之便产生两个问题需要妥善处理。第一个问题是,作为最重要的资产,通常我们需要将这些数据实时同步到其他系统进行 BI 分析等进一步的处理,如果没有这样的实时同步机制,那么这份数据将成为数据孤岛。第二个问题是,这份数据可能因为各种原因遭到破坏,比如硬件故障或软件 Bug 导致的数据损坏、不当操作引起的数据损坏、错误 SQL 引起的数据错乱等,提供多种机制保障这份数据的安全显得非常必要。
全局 Binlog
PolarDB-X 是一款高度兼容 MySQL 生态的分布式数据库产品,所以我们首先来看下 MySQL 是如果解决数据孤岛问题的。
从 DB-Engines 排行榜可以看出,MySQL 的流行度比其他开源数据库的总和还要高,这意味着 MySQL 的生态非常繁荣,比如 MySQL 的下游系统有 Kafka、MySQL 备节点、Canal 多种数据同步工具、Pulsar 等等。MySQL 通过 Binlog 机制实现了与下游系统的实时增量数据同步。Binlog 可以看做是一个消息队列,队列中按顺序保存了 MySQL 中详细的增量变更信息,通过消费这个队列,下游系统或工具实现了与 MySQL 的实时数据同步,这样的机制也称为 CDC(Change Data Capture),即增量数据捕捉。