The Logarithmic Dynamic Cuckoo Filter

The Logarithmic Dynamic Cuckoo Filter

大数据应用的出现使得大规模动态数据集的有效表示成为一个挑战。动态布谷鸟滤波器(DCF)采用一种新颖的链式数据结构,允许添加新的构建布谷鸟滤波器块,从而提供了可扩展的近似集合表示。然而,当集合规模增大时,这样的设计需要线性增加计算开销和存储空间。这使得它在处理大数据集时效率低下。提出了一种新的动态大数据集的数据结构,称为对数动态布谷鸟滤波器(LDCF)。LDCF采用一种新颖的多级树结构,将最差插入和最差成员测试次数从O(N)减少到O(1),其中N是集合的大小。同时,随着集合基数的增加,LDCF降低了DCF的内存开销。实验结果表明,与现有算法相比,LDCF算法在处理大规模数据集时显著降低了成员检查时间和存储空间开销

问题:1)新兴的大数据应用通常涉及大规模动态数据集。因此,设计一种灵活的集合表示结构来应对大规模动态数据集是一个具有挑战性的问题。

2)DCF由s 个CF构建块的链表组成。DCF通过在链表填满时向链表添加一个新的CF构建块来扩展其容量。然而,在最坏的情况下,根据DCF检查元素需要检查数据结构中的每个CF。

研究内容:

1. 解决CF使用一种链式结构导致查询过程中需要检测每个元素导致的低效,以及内存开销

使用方法:

1. 本文提出了一种适用于动态大数据集的近似集表示数据结构——对数动态布谷鸟滤波器(LDCF)。LDCF设计了一种新颖的可扩展多级树结构来组织CF构件。这种设计极大地降低了每个元素测试的计算开销和结构的存储开销。

2. 设计了一种紧凑的LDCF,在相同的内存开销规模下,将插入和隶属度测试时间降低到O(1)。紧致LDCF以f-l /f的比率降低DCF的总内存开销,其中f是fingerprint length长度,l是LDCF的层数 

 研究内容:

1.The Basic LDCF Design

 

 The Compacted LDCF Design

当LDCF被填满时,LDCF比DCF具有更高的空间效率和更短的插入和成员关系测试处理延迟。当我们扩展一个新层时,新层上的大多数cf的空间利用率都很低。

为了获得更高的空间效率,我们考虑对基本的LDCF结构进行压缩,将低层的CFs元素移动到高层,使高层的CFs具有更大的占用率。此外,我们可以删除较低层次上的所有空CFs。每当我们扩展一个新级别时,两个新的子CFs的容量是父CF的两倍。也就是说,空间足够将存储在父CF中的元素分离为两个新的子CFs。然后,父CF为空,可以从LDCF中移除以释放内存空间。

文中的创新点:1)文中很巧妙的将链式过滤器,改成一个树形结构的过滤器,这样可以有效的节省内存空间,同时对树形结构的过滤器实现压缩。当然这个过程也是很自然的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值