滚雪球学Redis[2.6讲]：位图（Bitmap）与HyperLogLog

bug菌¹

于 2024-10-12 08:42:07 发布

阅读量539

点赞数 5

分类专栏： # 滚雪球学Redis 文章标签： redis 数据库缓存位图 HyperLogLog

本文链接：https://blog.csdn.net/weixin_43970743/article/details/142831540

版权

滚雪球学Redis 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

全文目录：

前言

在互联网技术的飞速发展中，数据量呈指数级增长。如何高效地存储、处理和分析大规模数据，成为了当下最重要的技术挑战之一。Redis作为一种高性能的键值数据库，因其丰富的数据结构和极高的操作效率，成为了解决大数据问题的核心工具之一。在上期【2.5 哈希（Hash）】中，我们介绍了Redis的哈希数据结构及其在存储对象属性中的使用。然而，在面对更为复杂的业务场景时，Redis的基础数据类型显得不够灵活或高效。为此，Redis还提供了一些特殊数据类型来满足更加复杂的需求，其中位图（Bitmap）和HyperLogLog是极具代表性的两个。

位图（Bitmap）：可以通过最低的存储成本高效记录用户的二进制状态，适用于海量用户行为的标记和统计。
HyperLogLog：专门用于大数据集的去重统计，以极少的内存占用实现快速、准确的基数估算。

在本期内容中，我们将围绕这两种特殊数据类型展开，逐步分析它们的应用场景、常用命令以及在实际项目中的最佳实践。通过这些内容，您将更全面地掌握Redis的数据结构，从而为应对复杂业务场景打下坚实的基础。此外，我们还将对下一期的内容【3.1 RDB持久化】进行展望，探讨如何将内存数据高效地持久化到磁盘，确保数据安全。

1. 位图（Bitmap）详解

1.1 位图简介

**位图（Bitmap）**并不是Redis中的独立数据结构，而是基于字符串（String）类型的一种位级别操作。与普通的字符串操作不同，位图允许我们将字符串当作一串连续的二进制位来处理，并可以对每个位进行单独的操作。每个位可以存储0或1，代表布尔状态。

由于位图是基于位的操作，其存储效率极高。举例来说，1字节可以存储8个位，因此通过1MB的内存，我们可以记录约8388608个布尔值（8×1024×1024=8388608），这在大规模布尔值状态记录中具有极高的优势。

1.2 使用场景

位图最适合用在那些需要对海量布尔值进行存储和操作的场景中。常见应用包括：

用户签到系统：记录用户每天是否签到。
用户活跃状态标记：记录用户是否在某个时刻或某个时间段内活跃。
A/B测试标记：记录用户是否参与了某个实验组。
广告曝光统计：记录某个用户是否已经看到某个广告。
权限控制：记录每个用户或设备是否具备某种权限。

1.3 常用命令详解

以下是位图操作的几个核心命令：

SETBIT key offset value：设置位图中指定位置的值为0或1。
GETBIT key offset：获取位图中某个位置的值。
BITCOUNT key [start end]：统计位图中值为1的位数，可以指定范围。
BITOP operation destkey key [key ...]：对一个或多个位图进行按位操作（AND、OR、XOR、NOT），并将结果存储在目标键。

这些命令为我们提供了强大的位级别操作能力，使得我们可以在存储和操作布尔值时，极大地减少内存开销。

1.4 使用实例

让我们通过具体的例子来进一步理解位图的应用。假设我们在设计一个签到系统，需要记录用户在某个月的签到情况。每个用户可以使用31个二进制位来代表每一天是否签到，1表示签到，0表示未签到。

# 用户1001在2024年10月的签到情况
SETBIT user:1001:sign_in 1 1  # 设置用户1001在第1天签到
SETBIT user:1001:sign_in 2 1  # 设置用户1001在第2天签到
SETBIT user:1001:sign_in 15 1 # 设置用户1001在第15天签到
GETBIT user:1001:sign_in 1    # 获取用户1001在第1天是否签到（结果为1）
GETBIT user:1001:sign_in 10   # 获取用户1001在第10天是否签到（结果为0）
BITCOUNT user:1001:sign_in    # 统计用户1001在2024年10月签到的天数（结果为3）

通过位图，我们可以用极少的内存记录大量用户的签到情况。假设系统中有数百万用户，这种节省内存的效果尤为显著。此外，BITCOUNT命令可以快速计算用户的签到天数，而无需遍历所有数据。

1.5 拓展：位图的其他应用

位图不仅可以用于签到系统，还可以应用于以下场景：

用户在线状态记录：
位图可以用来记录系统中每个用户的在线状态。每个用户对应一个位，1表示在线，0表示离线。通过BITCOUNT命令，可以快速统计当前在线用户的总数。
```
SETBIT user:online_status 1001 1  # 设置用户1001为在线
SETBIT user:online_status 1002 0  # 设置用户1002为离线
BITCOUNT user:online_status       # 统计在线用户数
```
权限系统：
对于系统中的每个用户或设备，位图可以用来标记其是否具备某项权限。例如，对于某个文件的访问权限，我们可以使用位图记录用户是否有读写权限。
流量统计和控制：
位图还可以用于记录广告曝光情况，确保每个用户只会看到广告一次，防止重复投放广告。

2. HyperLogLog详解

2.1 HyperLogLog简介

HyperLogLog是一种基于概率算法的近似数据结构，主要用于估算大数据集合中的不重复元素的基数（Cardinality）。它与位图不同，HyperLogLog的主要优势在于使用极少的内存（通常12KB左右）即可对大量数据进行去重统计，哪怕这些数据集有数十亿个元素。虽然HyperLogLog是一个近似算法，存在一定的误差，但其误差率仅为0.81%左右，这在许多业务场景中是可以接受的。

2.2 使用场景

HyperLogLog非常适合那些需要对海量数据进行基数统计的场景。例如：

网站UV统计：统计网站每日、每周或每月的独立访问用户数。
去重后的用户行为统计：统计去重后的用户点击、购买等行为数据。
广告系统：记录去重后的广告投放受众。
大型社交平台：统计某段时间内的独立用户活跃量。

2.3 常用命令详解

HyperLogLog的操作相对简单，主要使用以下三个命令：

PFADD key element [element ...]：将一个或多个元素添加到HyperLogLog中。
PFCOUNT key [key ...]：返回HyperLogLog中的不重复元素的近似基数。
PFMERGE destkey sourcekey [sourcekey ...]：将多个HyperLogLog合并为一个。

2.4 使用实例

假设我们运营一个大型网站，需要每天统计网站的独立访问用户数。通过HyperLogLog，可以在不消耗大量内存的前提下实现去重统计：

# 向2024年10月1日的日志添加3个用户
PFADD site:2024-10-01 user1 user2 user3  
# 再次添加重复的用户，HyperLogLog会自动去重
PFADD site:2024-10-01 user2 user4        
# 统计2024年10月1日的独立用户数（结果为4）
PFCOUNT site:2024-10-01

在这个示例中，虽然用户2被多次添加，HyperLogLog能够自动处理重复数据，并返回去重后的独立用户数。在大规模网站或高并发业务中，这种去重计数的效率极高。

2.5 拓展：HyperLogLog的误差控制与优化

HyperLogLog使用的内存非常固定，一般为12KB，因此即使处理数亿级的数据，内存消耗几乎不会增加。但正因其内存消耗小，HyperLogLog

的统计结果是近似值，存在一定误差（大约0.81%）。尽管如此，Redis提供了将多个HyperLogLog合并的能力，通过合并，可以跨多个时间段或场景进行全局去重统计，进一步提高统计的准确性。

例如，在广告系统中，我们可以对多个广告投放活动的数据进行合并，得到所有活动的去重用户总数：

PFMERGE total_users campaign1_users campaign2_users  # 合并两个活动的用户数据
PFCOUNT total_users                                  # 获取去重后的总用户数

3. 位图与HyperLogLog的最佳实践

3.1 位图的最佳实践

位图在存储布尔值方面具有不可替代的优势，但它并不适合存储复杂的数据信息。例如，位图只能记录用户是否签到，却无法记录具体的签到时间。因此，我们通常将位图与其他数据结构（如哈希、列表）结合使用，以更灵活地满足不同场景的需求。

与列表结合：在记录用户签到的同时，还可以将具体的签到时间记录在一个列表中。
与哈希结合：在记录用户活跃状态的同时，还可以通过哈希表存储用户的详细信息，如设备类型、地理位置等。

3.2 HyperLogLog的最佳实践

在处理大规模数据时，HyperLogLog是基数统计的理想选择，尤其是在内存资源紧张的情况下。它的主要应用场景是那些对精度要求不高但需要快速统计去重数据的业务。例如：

广告投放效果评估：通过HyperLogLog快速评估广告投放的独立用户数。
去重统计数据聚合：在大数据系统中，可以通过多个HyperLogLog实例的合并，对全局去重数据进行聚合分析。

4. 展望下一期内容：3.1 RDB持久化

在接下来的【3.1 RDB持久化】中，我们将深入探讨Redis的持久化机制。RDB（Redis Database File）通过周期性地将数据快照写入磁盘，从而保障数据的持久化存储。这对于防止数据丢失、确保系统崩溃后的快速恢复至关重要。我们将分析RDB的优缺点，并介绍如何配置和优化RDB以适应不同的业务需求。