Leveldb源码解析第二篇【Meta Block】

最新推荐文章于 2022-09-29 11:54:48 发布

AntonyXux

最新推荐文章于 2022-09-29 11:54:48 发布

阅读量2k

点赞数 2

分类专栏： leveldb 文章标签： leveldb c++

本文链接：https://blog.csdn.net/xuxuan_csd/article/details/72965499

版权

摘要由CSDN通过智能技术生成

版权声明：本文为博主原创文章，未经博主允许不得转载。

上一章中详细讲解了 table 中的 data block 的结构以及涉及的源码，本章中将讲解 table 结构中的 meta block

`table` 结构

    <beginning_of_file>
    [data block 1]
    [data block 2]
    ...
    [data block N]
    [meta block 1]
    ...
    [meta block K]
    [metaindex block]
    [index block]
    [Footer]        (fixed size; starts at file_size - sizeof(Footer))
    <end_of_file>

先说说 meta block 在 table 中的作用

一个meta block对应一个data block，meta block的作用是快速判断对应的data block中是否存在某个key，详情可以搜索“Bloom Filter”

原理是这样的，首先需要定义一个大的bitmap，实际就是一个字符串，bitmap中初始时每一位都是0，当往data block中添加key时，会根据这个key值算出一组hash值，hash值对bitmap位数取模后将bitmap中对应的位置设置为1；当需要查询data block中是否存在某个key时，只需通过这个key计算一组hash值，然后查看hash值在bitmap中对应的位置的值是否为1，只有有一个位置不为1，说明这个data block中不存在这个key

上面所说的算法中会存在hash冲突，如果bitmap中已经存了两个key

    key1 计算出的位置为 [1,3]
    key2 计算出的位置为 [2,4]

当我们要查询的 key3 计算出来的位置为[1,4]时，在 bitmap 中[1,4]两个位置都是1，这个只能说明data block中有可能存在key3，所以说bitmap是用来快速判断key不在data block中，我们需要做的是使出现误判的概率降到最低，可以得到一个公式

假设一个key要对应k个hash值，总共有n个key，bitmap的位数为m，那么出现误判的概率为

(1-(1-1/m)^(kn))^k

上面的公式是怎么得到的呢？

假设我们现在要在bitmap中判断某个key是否存在，先要算出k个hash值，而这k个hash值对应的位置上面恰恰都有1的概率是多少呢

假设一个位置上面恰恰为1的概率为p，那么k个位置上面都为1的概率为p^k

p要怎么得到呢？

p代表的是一个位置上面恰恰为1的概率，我们可以先得到这个位置不为1的概率为q，那么，p=（1-q）

q要怎么得到呢？

q代表的是一个位置上面不为1的概率，说明n个key在计算k个hash的时候都没有落在这个点上，一次没有落在这个点上的概率为1-1/m，kn次没有落在这个点上的概率为(1-1/m)^{(kn)，那么kn次落在这个点上的概率为1-(1-1/m)}(kn)，一共有k个点，k个点都是1的概率就为(1-(1-1/m)^(kn))k

好多年不搞数学，上面的公式解释的好痛苦（-_-!!!）

为了保证误判的概率最低，如果m和n固定的话，可以得到k的最优解为k=m/n*ln2，我也不知道怎么算出来的，网上抄的（-_-!!!）

上面说了这么多理论，接下来要开始撸代码啦

搞懂 meta block 需要阅读如下源码文件

1 table/filter_block.h             // [非常重要|难度:4  级] filter_block的结构
2 table/filter_block.cc

3 include/leveldb/filter_policy.h       // [重要|难度:2级] 过滤策略
4 util/bloom.cc                         // [重要|难度:2级] 过滤策略具体实现

filter_policy.h

先介绍 filter_policy，中文翻译为过滤策略，这个地方只是定义了一个接口，用户可以重写这个接口

class FilterPolicy {
 public:
  virtual ~FilterPolicy();
  virtual const char* Name() const = 0;       //返回当前策略的名字

  // dst就是上面讲的bitmap，n表示一个key在bitmap中占多少位，这个函数就是通过传进来的keys，来构建一个bitmap
  virtual void CreateFilter(const Slice* keys, int n, std::strin

最低0.47元/天解锁文章

AntonyXux

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
Leveldb源码解析第二篇【Meta Block】

版权声明：本文为博主原创文章，未经博主允许不得转载。上一章中详细讲解了 table 中的 data block 的结构以及涉及的源码，本章中将讲解 table 结构中的 meta blocktable 结构 <beginning_of_file> [data block 1] [data block 2] ... [data block N] [met
复制链接

扫一扫