redis-HyperLogLog基数统计

最新推荐文章于 2024-04-21 11:54:15 发布

xiaohei_xiaobai

最新推荐文章于 2024-04-21 11:54:15 发布

阅读量181

点赞数 1

分类专栏：后台组件 redis

本文链接：https://blog.csdn.net/xiaohei_xiaobai/article/details/105520353

版权

后台组件同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

redis

7 篇文章 0 订阅

订阅专栏

redis在2.8.9 版本添加了 HyperLogLog 数据结构，用于统计非重复数据个数，这个功能利用redis的set也能实现，但是为什么还要提供HyperLogLog呢？原因在于如果有时我们只需要计算基数个数，不要存储具体的数据时，数据量很大，如果利用set会浪费很大的内存消耗，但是HyperLogLog的有点时，他所需要的内存空间不会随着数据量的增大而增大，当统计元素很少时，HyperLogLog占用的内存空间也很小，当统计的数据很大时，HyperLogLog最大只会占用12k的内存空间。

基数：不重复的元素

HyperLogLog提供三个函数：

PFADD：添加指定元素到 HyperLogLog 中

PFCOUNT：返回给定 HyperLogLog 的基数估算值

PFMERGE：将多个 HyperLogLog 合并为一个 HyperLogLog

talk is cheap，show code

PFADD和PFCOUNT演示：

127.0.0.1:6379> PFADD hyper 'red'
(integer) 1
127.0.0.1:6379> PFADD hyper 'bule'
(integer) 1
127.0.0.1:6379> PFADD hyper 'yellow'
(integer) 1
127.0.0.1:6379> PFADD hyper 'red'
(integer) 0
127.0.0.1:6379> PFCOUNT hyper
(integer) 3

PFMERGE演示：

127.0.0.1:6379> PFADD h1 'red'
(integer) 1
127.0.0.1:6379> PFADD h1 'blue'
(integer) 1
127.0.0.1:6379> PFADD h1 'red'
(integer) 0
127.0.0.1:6379> PFADD h2 'yellow'
(integer) 1
127.0.0.1:6379> PFADD h2 'black'
(integer) 1
127.0.0.1:6379> PFMERGE h3 h1 h2
OK
127.0.0.1:6379> PFCOUNT h3
(integer) 4