之前有找过一些关于CAP理论的文章,今天偶然看到下面对于CAP理论的描述,个人觉得还是写的比较简单易懂的,所以摘录下来分享。
什么是 CAP 理论呢?这是 2000 年University of California, Berkeley 的计算机教授Eric Brewer(也是谷歌基础设施 VP)提出的理论。所谓 CAP,是以下 3 个单词的首字母缩写,它们都是分布式系统最核心的特性:
Consistency 一致性
Availability 可用性
Partition tolerance 分区容错性
我们通过以下 3 张示意图,快速理解下这 3 个词的意义。下图中 N1、N2 两台主机上运行着 A 进程和 B 进程,它们操作着同一个用户的数据(数据的初始值是 V0),这里 N1 和 N2 主机就处于不同的 Partition 分区中,如下所示:
正常情况下,当用户请求到达 N1 主机上的 A 进程,并将数据 V0 修改为 V1 后,A 进程将会把这一修改行为同步到 N2 主机上的 B 进程,最终 N1、N2 上的数据都是 V1,这就保持了系统的 Consistency 一致性。
然而,一旦 N1 和 N2 之间网络异常,数据同步行为就会失败。这时,N1 和 N2 之间数据不一致,如果我们希望在分区间网络不通的情况下,N2 能够继续为用户提供服务,就必须容忍数据的不一致,此时系统的 Availability 可用性更高,系统的并发处理能力更强,比如 Cassandra 数据库。
反之,如果 A、B 进程一旦发现数据同步失败,那么 B 进程自动拒绝新请求,仅由 A 进程独立提供服务,那么虽然降低了系统的可用性,但保证了更强的一致性,比如 MySQL 的主备同步模式。