关于分布式的一些理论和概念
一、什么是分布式?(以下文字,纯属个人理解,很可能不靠谱)
简单来说,可分为分布式计算系统、分布式存储系统、分布式文件系统、分布式数据库系统、分布式邮件系统等一系列系统。
也就是说,分布式的概念就是将单机所能做的操作进行规模上的“放大” ,改成由一群单机组成的“ 抽象单机” 进行各种操作。
二、分布式的基础理论:
1、CAP理论:
一个分布式系统不能同时满足一致性,分区容错性,可用性。
一致性:在分布式环境中,一致性是指多个副本直接是否能够保持一致的特性。
可用性:指系统的服务必须一直处于可用的状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。
分区容错性:分布式系统在遭到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生故障。
对于分布式系统而言,分区容错性是必须要面对和解决的问题,因此往往需要把精力花在如何根据业务特点在一致性和可用性之间寻求平衡。
2、BASE理论:
BASE理论是BasicallyAvailable(基本可用),SoftState(软状态),EventuallyConsistent(最终一致性)三个短语的简写,其核心是即使无法做到强一致性,但是每个应用都可以根据业务自身的特点,采用适当的方式达到最终一致性。
基本可用:指系统出现不可预知的故障的时候,允许损失部分可用性。例如响应时间上的损失,功能上的损失。
软状态:允许系统中的数据存在中间状态,并认为中间状态的存在不影响系统的整体可用性。
最终一致性:系统的所有数据副本在经过一段时间的同步后,最终能够达到一个一致的状态。
3、二阶段提交:
在跨多个分布式节点的时候,为了保持事物处理的ACID特性,就需要一个称为协调者的组件来统一调度所有的分布式节点的执行逻辑,这些被调度的分布式节点称为参与者。
协调者负责参与者的行为,并最终决定这些参与者是否要把事物真正进行提交。
二阶段提交协议是讲事物提交的过程分成了两个阶段来进行处理:
阶段一:提交事物请求
1.事物询问
2.执行事物
3.各参与者向协调者反馈事物询问的响应。
阶段二:执行事物提交:
1.发送提交请求
2.事物提交
3.反馈事物提交结果
4.完成事物
中断事物
1.发送回滚请求
2.事物回滚
3.反馈事物回滚结果
4.中断事物
优点:原理简单,实现方便
缺点:同步阻塞,单点问题,数据不一致,太过保守
4、三阶段提交
三阶段提交是二阶段提交的改进版,将二阶段提交的提交事物请求过程一分为二,形成了CanCommmit,PreCommit,doCommit。
CanCommit
1.事物询问
2.各参与者向协调者反馈事物询问的响应
PreCommit
执行事物预提交
1.发送与提交请求
2.事物预提交
3.各参与者向协调者反馈事物执行的响应
中断事物
1.发送中断请求
2.中断事物
DoCommit
执行提交
1.发送事物提交请求
2.事物提交
3.反馈事物提交结果
4.完成事物
中断事物
1.发送中断请求
2.事物回滚
3.反馈事物回滚结果
4.中断事物
优点:降低了参与者的阻塞范围,并且能够在出现单点故障后达成一致
缺点:任然存在数据不一致性的情况
三、关于事物的简单概念:
所谓事务,它是一个操作序列,这些操作要么都执行,要么都不执行,它是一个不可分割的工作单位。例如,银行转帐工作:从一个帐号扣款并使另一个帐号增款,这两个操作要么都执行,要么都不执行。
数据库事务必须具备ACID特性,ACID是Atomic(原子性)、Consistency(一致性)、Isolation(隔离性)和Durability(持久性)的英文缩写。
原子性:指整个数据库事务是不可分割的工作单位。只有使据库中所有的操作执行成功,才算整个事务成功;事务中任何一个SQL语句执行失败,那么已经执行成功的SQL语句也必须撤销,数据库状态应该退回到执行事务前的状态。
一致性:指数据库事务不能破坏关系数据的完整性以及业务逻辑上的一致性。例如对银行转帐事务,不管事务成功还是失败,应该保证事务结束后ACCOUNTS表中Tom和Jack的存款总额为2000元。
隔离性:指的是在并发环境中,当不同的事务同时操纵相同的数据时,每个事务都有各自的完整数据空间。由并发事务所做的修改必须与任何其他并发事务所做的修改隔离。事务查看数据更新时,数据所处的状态要么是另一事务修改它之前的状态,要么是另一事务修改它之后的状态,事务不会查看到中间状态的数据。
持久性:指的是只要事务成功结束,它对数据库所做的更新就必须永久保存下来。即使发生系统崩溃,重新启动数据库系统后,数据库还能恢复到事务成功结束时的状态。
事务的(ACID)特性是由关系数据库管理系统(RDBMS,数据库系统)来实现的。数据库管理系统采用日志来保证事务的原子性、一致性和持久性。日志记录了事务对数据库所做的更新,如果某个事务在执行过程中发生错误,就可以根据日志,撤销事务对数据库已做的更新,使数据库退回到执行事务前的初始状态。
数据库管理系统采用锁机制来实现事务的隔离性。当多个事务同时更新数据库中相同的数据时,只允许持有锁的事务能更新该数据,其他事务必须等待,直到前一个事务释放了锁,其他事务才有机会更新该数据。