夜深人静写算法（十四）- 基数估计 (Cardinality Estimation)

最新推荐文章于 2023-05-18 22:21:26 发布

英雄哪里出来

最新推荐文章于 2023-05-18 22:21:26 发布

阅读量10w+

点赞数 6

分类专栏：《夜深人静写算法》文章标签：基数估计 HyperLogLog LogLog Linear Counting 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whereisherofrom/article/details/85753100

版权

《夜深人静写算法》专栏收录该内容

63 篇文章 312 订阅 ¥999.99 ¥99.90

订阅专栏

目录

一、概述
      1、最小值估值法
      2、哈希法
3、k-前缀法
二、Linear Counting
      1、算法思路
      2、算法证明
三、LogLog Counting
      1、算法思路
      2、算法证明
3、误差消减
四、HyperLogLog Counting
      1、算法思路
      2、并行化
五、参考资料

一、概述

基数估计算法是为了解决这样一个问题：设想你有一个巨大的含有重复项的数据集合，这个数据大到无法完全存储到内存中，但是你想知道这个数据集合中有多少不同的元素，这个不同元素的个数就叫基数（Cardinality）。
举个简单的例子：统计一个游戏所有服务器上的注册用户总数。传统的方法是给每个用户分配一个唯一标识，然后用一个数据结构（哈希表、平衡二叉树、红黑树等等）来维护这个唯一标识的插入，最后统计这个数据结构的元素个数。这种方法是最常用的，但是在大数据下，内存占用会随着玩家的增多呈线性增长。所以这种方法是不可行的。

1、最小值估计法
我们把问题简化一下，假设集合中的元素都是整数，数值上限为 M，x 为目前找到的数字的最小值，那么我们可以估计这个集合的基数为 M / x。
例如，一个集合的数值上限 100，找到最小的数是 2，那么估计

了解本专栏

英雄哪里出来

关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
夜深人静写算法（十四）- 基数估计 (Cardinality Estimation)

目录一、概述 1、最小值估值法 2、哈希法 3、k-前缀法二、Linear Counting 1、算法思路 2、算法证明三、LogLog Counting 1、算法思路 2、算法证明 3、误差消减四、HyperLogLog Counting 1、算法思路 2、并行化五...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

英雄哪里出来 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。