redis在2.8.9 版本添加了 HyperLogLog 数据结构,用于统计非重复数据个数,这个功能利用redis的set也能实现,但是为什么还要提供HyperLogLog呢?原因在于如果有时我们只需要计算基数个数,不要存储具体的数据时,数据量很大,如果利用set会浪费很大的内存消耗,但是HyperLogLog的有点时,他所需要的内存空间不会随着数据量的增大而增大,当统计元素很少时,HyperLogLog占用的内存空间也很小,当统计的数据很大时,HyperLogLog最大只会占用12k的内存空间。
基数:不重复的元素
HyperLogLog提供三个函数:
PFADD:添加指定元素到 HyperLogLog 中
PFCOUNT:返回给定 HyperLogLog 的基数估算值
PFMERGE:将多个 HyperLogLog 合并为一个 HyperLogLog
talk is cheap,show code
PFADD和PFCOUNT演示:
127.0.0.1:6379> PFADD hyper 'red'
(integer) 1
127.0.0.1:6379> PFADD hyper 'bule'
(integer) 1
127.0.0.1:6379> PFADD hyper 'yellow'
(integer) 1
127.0.0.1:6379> PFADD hyper 'red'
(integer) 0
127.0.0.1:6379> PFCOUNT hyper
(integer) 3
PFMERGE演示:
127.0.0.1:6379> PFADD h1 'red'
(integer) 1
127.0.0.1:6379> PFADD h1 'blue'
(integer) 1
127.0.0.1:6379> PFADD h1 'red'
(integer) 0
127.0.0.1:6379> PFADD h2 'yellow'
(integer) 1
127.0.0.1:6379> PFADD h2 'black'
(integer) 1
127.0.0.1:6379> PFMERGE h3 h1 h2
OK
127.0.0.1:6379> PFCOUNT h3
(integer) 4