BoltDB 源码分析

最新推荐文章于 2023-10-07 17:09:43 发布

杰特JET

最新推荐文章于 2023-10-07 17:09:43 发布

阅读量640

点赞数 1

分类专栏：数据结构数据库文章标签：数据库 B+Tree 数据结构

本文链接：https://blog.csdn.net/zxpoiu/article/details/117229291

版权

数据库同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

数据结构

1 篇文章 0 订阅

订阅专栏

BoltDB 源码分析

BoltDB直接使用mmap, 直接将所有的页, 也就是整个数据大文件, 全部映射到内存内，从而免去了自己实现pagecache等等，简化了实现，并且数据持久化没有编解码，因此也避免了序列化的开销。尽管Pavlo在15-445里教导我们千万不要在数据库领域用mmap代替page cache。

node

node为一个page在内存中的体现，也是数据插入的基本单元，每个node下存在innode，真正的存储kv

每个node都有children和innode（如果innode没有落盘，则不会分配pgid），并且有指针反指回parentNode

非leaf层的node节点至少要有2个inode元素

理论上，node中的元素，有一部分是mmap上来的指针地址，有一部分是新插入的元素。所以如果需要数据库需要resize重新mmap的时候，就需要将之前mmap的指针全部拷贝到内存中。因此数据库resize是个很重的操作。

CopyOnWrite解决读写冲突

一般的数据库需要考虑"写写冲突", “读写冲突”, 由于BoltDB只支持单写事务, 因此不存在"写写冲突";

现在考虑"读写冲突": 如果一个事务正在修改某个节点的数据, 但是还没提交, 那对于另一个读事务, 可能读到脏数据;

BoltDB使用了CopyOnWrite的方法, 对需要修改节点单保存一份（把之前的那个页的数据和增量数据都另存为到另外一个页上）;

当事务进行提交时, 将这些缓存的数据, 全部同步到磁盘;

Element

分为branchPageElement和leafPageElement其中：

branchPageElement指定了key的值和下一层的pgid，从而可以继续向下查找
leafPageElement通过flag指明当前leaf的内容
- bucketLeafFlag表明当前的leaf中存储的是其他的bucket，也就是bucket-root，一个blotDB存在唯一一个rootbucket
- flag==0说明每个leaf里面是按顺序存放的kv对，通过成员变量pos标明位置
leafPageElement

|page|leafPageElement|leafPageElement|leafPageElement|...|leaf key|leaf value|leaf key|leaf value|...|

branchPageElement

|page|branchPageElement|branchPageElement|branchPageElement|...|branch key|branch key|...|

上层branchnode存放下层node的第一个key

bucket

bucket是一些列的键值对的集合。一个bucket相当于一个命名空间，每个bucket中表示了一个完整的b+树，另外bucket可以嵌套。对数据的增删改查都基于bucket。

Bucket类比于mysql中的table，在boltdb中，meta页面中有一个成员bucket，其存储了整个数据库根bucket的信息，而一个数据库中存储的其他table的信息，则作为子bucket存储到Bucket中。其关系如下：

type DB struct {
  // ...
	meta0    *meta
	meta1    *meta  
}
type meta struct {
  // ...
	root     bucket	// 根bucket的信息，通过这个可以找到根bucket的page，根bucket中存放所有的其他root bucket
  // |bucket|bucket|bucket|bucket|...|
  // 每个子bucket中再保存各种映射信息
}
type Bucket struct {
	*bucket
  // ...
  buckets  map[string]*Bucket // 存储子bucket的对应关系
}
type bucket struct {
	// 根节点的page id
	root pgid // page id of the bucket's root-level page
	// 单调递增的序列号
	sequence uint64 // monotonically incrementing, used by NextSequence()
}

子bucket保存在leafPageElement中，通过其中的元素flag来标识其是否是一个bucket

// leafPageElement represents a node on a leaf page.
type leafPageElement struct {
	flags uint32
	pos   uint32
	ksize uint32
	vsize uint32
}

// key returns a byte slice of the node key.
func (n *leafPageElement) key() []byte {
	buf := (*[maxAllocSize]byte)(unsafe.Pointer(n))
	return (*[maxAllocSize]byte)(unsafe.Pointer(&buf[n.pos]))[:n.ksize:n.ksize]
}

// value returns a byte slice of the node value.
func (n *leafPageElement) value() []byte {
	buf := (*[maxAllocSize]byte)(unsafe.Pointer(n))
	return (*[maxAllocSize]byte)(unsafe.Pointer(&buf[n.pos+n.ksize]))[:n.vsize:n.vsize]
}

Bucket会有一个当前关联的事务Tx

综上，boltdb 支持嵌套的 Bucket，对于父 Bucket 而言，subbucket 只是特殊的 value 而已，设置 leafPageElement.flags = bucketLeafFlag 标记，而 subbucket 本身是一个完整的 B+ 树:

sububcket

cursor

我们创建了bucket之后，可以通过cursor进行递归查找，直到某个leaf node，cursor会维护一个栈，当找到时，栈顶元素就保存了对应的节点和位置（这个时候有两种可能，一是在内存中（node），二是在page中（持久化到磁盘））

内存分配

在一个bucket创建的时候，会创建与之对应的node。然后会开辟一片内存，存放存放bucketHeader和node的数据结构，具体代码在Bucket::write()函数中，内存分布如下：

内存中元素分布：
|bucketHeader||page header | leaf/branch element .... | kv pair ...  |

分布示意图：
|<--bucket-->|<--                  node...                        -->|

inline bucket

如果子Bucket中的数据量很少，就会造成磁盘空间的浪费。为了针对这类型Bucket进行优化，boltdb提供了inline page这个特殊的页面，将小的子Bucket数据存放在这里。

这类型的子Bucket需要满足以下两个条件：

该子Bucket再没有嵌套的子Bucket了。
整个子Bucket的大小不能超过page size/4。

inlineBucket

Cursor

由于数据在inodes是按顺序存放的，因此我们通过cursor进行二分，他会从rootbucket向下查找，并将路上的element放入stack中。最终，stack顶部的元素就是叶子节点，可以可以进行CRUD操作。

首先通过meta->root_找到root—bucket，然后cursor就会从这个地方为起点进行search

rebalance

由于CRUD操作是在内存中进行的，因此下刷磁盘的时候需要调整B+Tree结构。此时会涉及两个操作：

rebalance:删除操作会对node打上unbalanced标记，因为删除数据可能会引起page填充率不够，此时会对这些节点检查并进行合并。如果水位超过25%就不需要rebalance
1. 情况一、当前的parent node只有一个节点，将下层的节点提升
2. 情况二、当前node已经不存在任何inode了，需要移除
3. 情况三、本层的两个node合并，选择相邻的两个节点，将右边节点的内容移入左边
spill：添加操作会使得page填充率过高，需要对节点进行分裂。如果超过水位（默认50%）就需要进行spill
1. 实际spill的时候，首先在bucket层面进行spill自底向下spill（下一层分裂会影响到上面一层），在这个过程中spill node

简单来说，update操作涉及到的页都会新申请页，然后自底向上修改，在修改的同时将之前的页放回freeList，最后更新meta page，更新完成会后持久化各个节点。