手写数据库轮子项目 MYDB 之六 | VersionManager (VM) 版本之记录的版本与事务隔离

最新推荐文章于 2024-07-20 20:04:43 发布

Jayfee11

最新推荐文章于 2024-07-20 20:04:43 发布

阅读量217

点赞数

分类专栏：手写一个数据库文章标签：数据库网络服务器

本文链接：https://blog.csdn.net/weixin_45634447/article/details/132597311

版权

手写一个数据库专栏收录该内容

10 篇文章 3 订阅

订阅专栏

一、两阶段锁协议与多版本并发控制

1. 两阶段锁协议 2PL

由两个阶段组成，加锁阶段和释放锁阶段。在加锁阶段，事务需要获取所需数据的锁，锁定数据防止其他事务对其进行修改；在释放锁阶段，事务需要释放已经获取的锁，使得其他事务可以访问该数据。事务在释放锁之后，不能再申请和获得任何其他封锁。

2PL 确实保证了调度序列的可串行化，但是不可避免地导致了事务间的相互阻塞，甚至可能导致死锁。MYDB 为了提高事务处理的效率，降低阻塞概率，实现了 MVCC。通过 MVCC 实现了类似共享锁和排他锁。

两阶段提交协议与两阶段锁协议不同，是针对主从数据库之间的同步。

2. 多版本并发控制 MVCC

MySQL 是通过 MVCC 实现读写并发控制，又通过 2PL 实现写写并发控制。

DM 层向上层提供了数据项（DataItem）的概念，VM 通过管理所有的数据项，向上层提供了记录（Entry）的概念。上层模块通过 VM 操作数据的最小单位，就是记录。VM 则在其内部，为每个记录，维护了多个版本（Version）。每当上层模块对某个记录进行修改时，VM 就会为这个记录创建一个新的版本。

MYDB 通过 MVCC，降低了事务的阻塞概率。譬如，T1 想要更新记录 X 的值，于是 T1 需要首先获取 X 的锁，接着更新，也就是创建了一个新的 X 的版本，假设为 X3。假设 T1 还没有释放 X 的锁时，T2 想要读取 X 的值，这时候就不会阻塞，MYDB 会返回一个较老版本的 X，例如 x2。这样最后执行的结果，就等价于，T2 先执行，T1 后执行，调度序列依然是可串行化的。如果 X 没有一个更老的版本，那只能等待 T1 释放锁了。所以只是降低了概率。

二、版本与记录

1. 记录的实现

对于一条记录来说，MYDB 使用 Entry 类维护了其结构。虽然理论上，MVCC 实现了多版本，但是在实现中，VM 并没有提供 Update 操作，对于字段的更新操作由后面的表和字段管理（TBM）实现。所以在 VM 的实现中，一条记录只有一个版本。

一条 Entry 中存储的数据格式如下

[XMIN] [XMAX] [DATA]

XMIN 是创建该条记录（版本）的事务编号，而 XMAX 则是删除该条记录（版本）的事务编号。

    public static byte[] wrapEntryRaw(long xid, byte[] data) {
        byte[] xmin = Parser.long2Byte(xid);
        byte[] xmax = new byte[8];
        return Bytes.concat(xmin, xmax, data);
    }

一个 Entry 类的成员变量如下

private long uid;
private DataItem dataItem;
private VersionManager vm;

如果要获取记录中持有的数据，也就需要按照这个结构来解析：

    public byte[] data() {
        dataItem.rLock();
        try {
            /// sa 得到的是 [ValidFlag] [DataSize] [Data] 中的 [Data]
            SubArray sa = dataItem.data();
            byte[] data = new byte[sa.end - sa.start - OF_DATA];
            System.arraycopy(sa.raw, sa.start+OF_DATA, data, 0, data.length);
            return data;
        } finally {
            dataItem.rUnLock();
        }
    }

    public long getXmin() {
        dataItem.rLock();
        try {
            /// sa 得到的是 [ValidFlag] [DataSize] [Data] 中的 [Data]
            SubArray sa = dataItem.data();
            return Parser.parseLong(Arrays.copyOfRange(sa.raw, sa.start+OF_XMIN, sa.start+OF_XMAX));
        } finally {
            dataItem.rUnLock();
        }
    }

    public long getXmax() {
        dataItem.rLock();
        try {
            SubArray sa = dataItem.data();
            return Parser.parseLong(Arrays.copyOfRange(sa.raw, sa.start+OF_XMAX, sa.start+OF_DATA));
        } finally {
            dataItem.rUnLock();
        }
    }

如果需要更改，还需调用 before() 和 after() 方法，before 向 dataItem 中的 oldRaw 拷贝一份数据，after 为 xid 生成 updata 日志，并向日志文件中写入。

    public void setXmax(long xid) {
        dataItem.before();
        try {
            SubArray sa = dataItem.data();
            System.arraycopy(Parser.long2Byte(xid), 0, sa.raw, sa.start+OF_XMAX, 8);
        } finally {
            dataItem.after(xid);
        }
    }

2. 隔离级别的实现

1). 读已提交

如果一个记录的最新版本被加锁，当另一个事务想要修改或读取这条记录时，MYDB 会返回一个较旧的数据。

这时就可以认为，最新的被加锁的版本，对于另一个事务来说，是不可见的。于是版本可见性的概念就诞生了。

版本的可见性与事务的隔离度是相关的。MYDB 支持的最低的事务隔离程度，是“读已提交”（Read Committed），即事务在读取数据时, 只能读取已经提交事务产生的数据。保证最低的读提交的好处，第四章中已经说明（防止级联回滚与 commit 语义冲突）。

为实现读已提交所维护的两个变量：

XMIN 应当在版本创建时填写，而 XMAX 则在版本被删除，或者有新版本出现时填写。

XMAX 这个变量，也就解释了为什么 DM 层不提供删除操作，当想删除一个版本时，只需要设置其 XMAX，这样，这个版本对每一个 XMAX 之后的事务都是不可见的，也就等价于删除了。

如此，在读已提交下，版本对事物 Ti 的可见性逻辑如下：

(XMIN == Ti and                             // 由 Ti 本身创建且
    XMAX == NULL                            // 还未被删除
)
or                                          // 或
(XMIN is commited and                       // 由一个已提交的事务创建且
    (XMAX == NULL or                        // 尚未删除或
    (XMAX != Ti and XMAX is not commited)   // 由一个未提交的事务删除
))

转换为代码如下：

    private static boolean readCommitted(TransactionManager tm, Transaction t, Entry e) {
        long xid = t.xid;
        long xmin = e.getXmin();
        long xmax = e.getXmax();
        if(xmin == xid && xmax == 0) return true;

        if(tm.isCommitted(xmin)) { /// 根据事物的三种状态 0 1 2 判断
            if(xmax == 0) return true;
            if(xmax != xid) {
                if(!tm.isCommitted(xmax)) {
                    return true;
                }
            }
        }
        return false;
    }

2). 可重复读

对于可重复度的规定是，事物只能读取它开始时, 就已经提交的那些事务产生的数据。那么事务需要忽略，在本事务后新开启的事务，本事物开启时还是 active 的事务。

对于第一条，只需要比较事务 ID，即可确定。而对于第二条，则需要在事务 Ti 开始时，记录下当前活跃的所有事务 SP(Ti)，如果记录的某个版本，XMAX 在 SP(Ti) 中，也应当对 Ti 不可见。

可重复读的判断逻辑如下：

(XMIN == Ti and                 // 由Ti创建且
 (XMAX == NULL or               // 尚未被删除
))
or                              // 或
(XMIN is commited and           // 由一个已提交的事务创建且
 XMIN < XID and                 // 这个事务小于Ti且
 XMIN is not in SP(Ti) and      // 这个事务在Ti开始前提交且
 (XMAX == NULL or               // 尚未被删除或
  (XMAX != Ti and               // 由其他事务删除但是
   (XMAX is not commited or     // 这个事务尚未提交或
XMAX > Ti or                    // 这个事务在Ti开始之后才开始或
XMAX is in SP(Ti)               // 这个事务在Ti开始前还未提交
))))

转换为代码如下：

    private static boolean repeatableRead(TransactionManager tm, Transaction t, Entry e) {
        long xid = t.xid;
        long xmin = e.getXmin();
        long xmax = e.getXmax();
        if(xmin == xid && xmax == 0) return true;

        if(tm.isCommitted(xmin) && xmin < xid && !t.isInSnapshot(xmin)) {
            if(xmax == 0) return true;
            if(xmax != xid) {
                if(!tm.isCommitted(xmax) || xmax > xid || t.isInSnapshot(xmax)) {
                    return true;
                }
            }
        }
        return false;
    }

于是，需要提供一个结构，来抽象一个事务，以保存快照数据（该事务创建时还活跃着的事务）：

    public static Transaction newTransaction(long xid, int level, Map<Long, Transaction> active) {
        Transaction t = new Transaction();
        t.xid = xid;
        t.level = level;
        if(level != 0) { /// 隔离级别为可重复读，需要保存快照数据
            t.snapshot = new HashMap<>();
            for(Long x : active.keySet()) {
                t.snapshot.put(x, true);
            }
        }
        return t;
    }

    public boolean isInSnapshot(long xid) {
        if(xid == TransactionManagerImpl.SUPER_XID) {
            return false;
        }
        return snapshot.containsKey(xid);
    }

3. 版本跳跃问题

考虑如下的情况，假设 X 最初只有 x0 版本，T1 和 T2 都是可重复读的隔离级别：

T1 begin
T2 begin
R1(X) // T1读取x0
R2(X) // T2读取x0
U1(X) // T1将X更新到x1
T1 commit
U2(X) // T2将X更新到x2
T2 commit

这种情况实际运行起来是没问题的，但是逻辑上不太正确。T1 将 X 从 x0 更新为了 x1，这是没错的。但是 T2 则是将 X 从 x0 更新成了 x2，跳过了 x1 版本。也就是此时的 x1 没有 Xmax。

读提交是允许版本跳跃的，而可重复读则是不允许版本跳跃的。

解决版本跳跃的思路：如果 Ti 需要修改 X，而 X 已经被 Ti 不可见的事务 Tj 修改了，那么要求 Ti 回滚。

MVCC 的实现，使得撤销或是回滚事务时：只需要将这个事务标记为 aborted 即可。根据前一章提到的可见性，每个事务都只能看到其他 committed 的事务所产生的数据，一个 aborted 事务产生的数据，就不会对其他事务产生任何影响了，也就相当于，这个事务不曾存在过。

if(Visibility.isVersionSkip(tm, t, entry)) {
      System.out.println("检查到版本跳跃，自动回滚");
      t.err = Error.ConcurrentUpdateException;
      internAbort(xid, true);
      t.autoAborted = true;
      throw t.err;
}

Ti 不可见的 Tj，有两种情况：

XID(Tj) > XID(Ti)，修改版本在 Ti 之后创建。

Tj in SP(Ti) ，Ti 创建时修改版本已经创建但是还未提交。

于是版本跳跃的检查也就很简单了，取出要修改的数据 X 的最新提交版本，并检查该最新版本的创建者对当前事务是否可见：

public static boolean isVersionSkip(TransactionManager tm, Transaction t, Entry e) {
    long xmax = e.getXmax();
    if(t.level == 0) {
        return false;
    } else {
        return tm.isCommitted(xmax) && (xmax > t.xid || t.isInSnapshot(xmax));
  }
}

、

Jayfee11

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
手写数据库轮子项目 MYDB 之六 | VersionManager (VM) 版本之记录的版本与事务隔离

由两个阶段组成，加锁阶段和释放锁阶段。在加锁阶段，事务需要获取所需数据的锁，锁定数据防止其他事务对其进行修改；在释放锁阶段，事务需要释放已经获取的锁，使得其他事务可以访问该数据。事务在释放锁之后，不能再申请和获得任何其他封锁。2PL 确实保证了调度序列的可串行化，但是不可避免地导致了事务间的相互阻塞，甚至可能导致死锁。MYDB 为了提高事务处理的效率，降低阻塞概率，实现了 MVCC。通过 MVCC 实现了类似共享锁和排他锁。两阶段提交协议与两阶段锁协议不同，是针对主从数据库之间的同步。
复制链接

扫一扫