「Redis」02 Redis中的数据类型（含Redis6.0：Bitmaps、HyperLogLog、Geospatial）

最新推荐文章于 2024-10-11 22:37:27 发布

小成同学_

最新推荐文章于 2024-10-11 22:37:27 发布

阅读量418

点赞数 2

分类专栏： Redis 文章标签： redis 数据库 nosql 缓存 java

本文链接：https://blog.csdn.net/weixin_53407527/article/details/128103783

版权

Redis 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

笔记整理自【尚硅谷】Redis 6 入门到精通超详细教程

Redis——Redis中的数据类型

0. 键 (key) 操作

keys *：查看当前库所有 key
exists key：判断某个 key 是否存在
type key：查看你的 key 是什么类型
del key ：删除指定的 key 数据
unlink key：根据 value 选择非阻塞删除，仅将 keys 从 keyspace 元数据中删除，真正的删除会在后续异步操作
expire key 10 ：为给定的 key 设置过期时间
ttl key：查看还有多少秒过期， $- 1$ 表示永不过期， $- 2$ 表示已过期
select：命令切换数据库
dbsize：查看当前数据库的 key 的数量
flushdb：清空当前库
flushall：通杀全部库

1. 五大常用数据类型

Ⅰ. String (字符串)

简介

String 类型是 Redis 最基本的数据类型，一个 key 对应一个 value，一个 Redis 中字符串 value 最多可以是 512M。
String 类型是二进制安全的。意味着 Redis 的 string 可以包含任何数据。比如 jpg 图片或者序列化的对象。

常用命令

set <key><value>：添加键值对
- $N X$ ：当数据库中 key 不存在时，可以将 key-value 添加数据库。
- $X X$ ：当数据库中 key 存在时，可以将 key-value 添加数据库，与 $N X$ 参数互斥。
- $E X$ ：key 的超时秒数。
- $P X$ ：key 的超时毫秒数，与 $E X$ 互斥。
get <key>：查询对应键值
append <key><value>：将给定的 <value> 追加到原值的末尾
strlen <key>：获得值的长度
setnx <key><value>：只有在 key 不存在时，设置 key 的值
incr <key>：将 key 中储存的数字值增 $1$ ，只能对数字值操作，如果 key 为空，新增 value 值为 $1$ （具有原子性）
decr <key>：将 key 中储存的数字值减 $1$ ，只能对数字值操作，如果 key 为空，新增 value 值为 $- 1$ （具有原子性）
incrby/decrby <key><步长>：将 key 中储存的数字值增减。自定义步长
- 原子性
- 所谓原子操作是指不会被线程调度机制打断的操作，这种操作一旦开始，就一直运行到结束，中间不会有任何 context switch （切换到另一个线程）。
- 在单线程中，能够在单条指令中完成的操作都可以认为是"原子操作"，因为中断只能发生于指令之间。
- 在多线程中，不能被其它进程（线程）打断的操作就叫原子操作。
- Redis单命令的原子性主要得益于Redis的单线程。
mset <key1><value1><key2><value2> ：同时设置一个或多个 key-value 对
mget <key1><key2><key3>...：同时获取一个或多个 value
msetnx <key1><value1><key2><value2>... ：同时设置一个或多个 key-value 对，当且仅当所有给定 key 都不存在
- 原子性，有一个失败则都失败
getrange <key><起始位置><结束位置>：获得值的范围（类似 java 中的 substring，前包，后包）
setrange <key><起始位置><value>：用 <value> 覆写 <key> 所储存的字符串值，从<起始位置>开始（索引从 $0$ 开始）
setex <key><过期时间><value>：设置键值的同时，设置过期时间，单位秒
getset <key><value>：以新换旧，设置了新值同时获得旧值

数据结构

String 的数据结构为简单动态字符串（Simple Dynamic String，缩写SDS）。是可以修改的字符串，内部结构实现上类似于 Java 的 ArrayList，采用预分配冗余空间的方式来减少内存的频繁分配。

内部为当前字符串实际分配的空间capacity一般要高于实际字符串长度len。当字符串长度小于 1M 时，扩容都是加倍现有的空间，如果超过 1M，扩容时一次只会多扩 1M 的空间。需要注意的是字符串最大长度为 512M。

Ⅱ. List (列表)

简介

单键多值
Redis 列表是简单的字符串列表，按照插入顺序排序。你可以添加一个元素到列表的头部（左边）或者尾部（右边）。
它的底层实际是个双向链表，对两端的操作性能很高，通过索引下标的操作中间的节点性能会较差。

常用命令

lpush/rpush <key><value1><value2><value3> ....：从左边/右边插入一个或多个值。

lpush k1 v1 v2 v3
lrange k1 0 -1
输出：v3 v2 v1

rpush k1 v1 v2 v3
rrange k1 0 -1
输出：v1 v2 v3

lpop/rpop <key>：从左边/右边吐出一个值。值在键在，值光键亡。
rpoplpush <key1><key2>：从 <key1> 列表右边吐出一个值，插到 <key2> 列表左边。
lrange <key><start><stop>：按照索引下标获得元素（从左到右）
- Ex：lrange mylist 0 -1： $0$ ：左边第一个， $- 1$ ：右边第一个，（ $0\ -1$ 表示获取所有）
lindex <key><index>：按照索引下标获得元素（从左到右）
llen <key>：获得列表长度
linsert <key> before/after <value><newvalue>：在 <value> 的前面/后面插入 <newvalue> 插入值
lrem <key><n><value>：从左边删除 n 个 value（从左到右）
lset<key><index><value>：将列表 key 下标为 index 的值替换成 value

数据结构

List 的数据结构为快速链表 quickList。
首先在列表元素较少的情况下会使用一块连续的内存存储，这个结构是 ziplist，也即是压缩列表。
它将所有的元素紧挨着一起存储，分配的是一块连续的内存。
当数据量比较多的时候才会改成 quicklist。
因为普通的链表需要的附加指针空间太大，会比较浪费空间。比如这个列表里存的只是 int 类型的数据，结构上还需要两个额外的指针 prev 和 next。
Redis 将链表和 ziplist 结合起来组成了 quicklist。也就是将多个 ziplist 使用双向指针串起来使用。这样既满足了快速的插入删除性能，又不会出现太大的空间冗余。

Ⅲ. 集合 (Set)

简介

Set 对外提供的功能与 List 类似列表的功能，特殊之处在于 Set 是可以 自动排重 的，当需要存储一个列表数据，又不希望出现重复数据时，Set 是一个很好的选择，并且 Set 提供了判断某个成员是否在一个 Set 集合内的重要接口，这个也是 List 所不能提供的。
Redis 的 Set 是 String 类型的无序集合。
它底层其实是一个 value 为 null 的 hash 表，所以添加，删除，查找的 复杂度都是 $O (1)$ 。
一个算法，随着数据的增加，执行时间的长短，如果是 $O (1)$ ，数据增加，查找数据的时间不变。

常用命令

sadd <key><value1><value2> ..... ：将一个或多个 member 元素加入到集合 key 中，已经存在的 member 元素将被忽略
smembers <key>：取出该集合的所有值。
sismember <key><value>：判断集合 <key> 是否为含有该 <value> 值，有返回 $1$ ，没有返回 $0$
scard<key>：返回该集合的元素个数。
srem <key><value1><value2> ....：删除集合中的某个元素
spop <key>：随机从该集合中吐出一个值
srandmember <key><n>：随机从该集合中取出 n 个值，不会从集合中删除
smove <source><destination>value：把集合中一个值从一个集合移动到另一个集合
sinter <key1><key2>：返回两个集合的交集元素
sunion <key1><key2>：返回两个集合的并集元素
sdiff <key1><key2>：返回两个集合的差集元素（key1 中的，不包含 key2 中的）

数据结构

Set 数据结构是字典，字典是用哈希表实现的。
Java 中 HashSet 的内部实现使用的是 HashMap，只不过所有的 value 都指向同一个对象。Redis 的 set 结构也是一样，它的内部也使用 hash 结构，所有的 value 都指向同一个内部值。

Ⅳ. 哈希 (Hash)

简介

Redis hash 是一个键值对集合。
Redis hash 是一个 string 类型的 field 和 value 的映射表，hash 特别适合用于存储对象。
类似 Java 里面的 Map<String, Object>

常用命令

hset <key><field><value>：给 <key> 集合中的 <field> 键赋值 <value>
hget <key1><field>：从 <key1> 集合 <field> 取出 value
hmset <key1><field1><value1><field2><value2>...：批量设置 hash 的值
hexists <key1><field>：查看哈希表 key 中，给定域 field 是否存在
hkeys <key>：列出该 hash 集合的所有 field
hvals <key>：列出该 hash 集合的所有 value
hincrby <key><field><increment>：为哈希表 key 中的域 field 的值加上增量 $1$ $- 1$
hsetnx <key><field><value>：将哈希表 key 中的域 field 的值设置为 value ，当且仅当域 field 不存在

数据类型

Hash 类型对应的数据结构是两种：ziplist（压缩列表），hashtable（哈希表）。
当 field-value 长度较短且个数较少时，使用 ziplist，否则使用 hashtable。

Ⅴ. 有序集合 (ZSet - Sorted Set)

简介

Redis 有序集合 zset 与普通集合 set 非常相似，是一个没有重复元素的字符串集合。
不同之处是有序集合的每个成员都关联了一个评分（score），这个评分（score）被用来按照从最低分到最高分的方式排序集合中的成员。集合的成员是唯一的，但是评分可以是重复的。
因为元素是有序的，所以可以很快的根据评分（score）或者次序（position）来获取一个范围的元素。
访问有序集合的中间元素也是非常快的，因此能够使用有序集合作为一个没有重复成员的智能列表。

常用命令

zadd <key><score1><value1><score2><value2>…：将一个或多个 member 元素及其 score 值加入到有序集 key 当中
zrange <key><start><stop> [WITHSCORES] ：返回有序集 key 中，下标在 <start><stop> 之间的元素
- 带 WITHSCORES，可以让分数一起和值返回到结果集
zrangebyscore key min max [withscores] [limit offset count]：返回有序集 key 中，所有 score 值介于 min 和 max 之间（包括等于 min 或 max ）的成员。有序集成员按 score 值递增（从小到大）次序排列。
zrevrangebyscore key max min [withscores] [limit offset count] ：同上，改为从大到小排列
zincrby <key><increment><value>：为元素的 score 加上增量
zrem <key><value>：删除该集合下，指定值的元素
zcount <key><min><max>：统计该集合，分数区间内的元素个数
zrank <key><value>：返回该值在集合中的排名，从 0 开始。

案例

如何利用 zset 实现一个文章访问量的排行榜？

数据结构

Sorted Set (zset) 是 Redis 提供的一个非常特别的数据结构，一方面它等价于 Java 的数据结构 Map<String, Double>，可以给每一个元素 value 赋予一个权重 score，另一方面它又类似于 TreeSet，内部的元素会按照权重 score 进行排序，可以得到每个元素的名次，还可以通过 score 的范围来获取元素的列表。
zset 底层使用了两个数据结构：
- hash，hash 的作用就是关联元素 value 和权重 score，保障元素 value 的唯一性，可以通过元素 value 找到相应的 score 值
- 跳跃表，跳跃表的目的在于给元素 value 排序，根据 score 的范围获取元素列表

跳跃表（跳表）

简介

有序集合在生活中比较常见，例如根据成绩对学生排名，根据得分对玩家排名等。对于有序集合的底层实现，可以用数组、平衡树、链表等。数组不便元素的插入、删除；平衡树或红黑树虽然效率高但结构复杂；链表查询需要遍历所有效率低。Redis 采用的是跳跃表。跳跃表效率堪比红黑树，实现远比红黑树简单。

实例

对比有序链表和跳跃表，从链表中查询出 $51$

有序链表

要查找值为 $51$ 的元素，需要从第一个元素开始依次查找、比较才能找到。共需要 $6$ 次比较。
跳跃表

从第 $2$ 层开始， $1$ 节点比 $51$ 节点小，向后比较。

$21$ 节点比 $51$ 节点小，继续向后比较，后面就是 NULL 了，所以从 $21$ 节点向下到第 $1$ 层

在第 $1$ 层， $41$ 节点比 $51$ 节点小，继续向后， $61$ 节点比 $51$ 节点大，所以从 $41$ 向下

在第 $0$ 层， $51$ 节点为要查找的节点，节点被找到，共查找 $4$ 次。

跳跃表在某些情况下比有序链表效率要高。

2. Redis6.0新增的数据类型

Ⅰ. Bitmaps

简介

现代计算机用二进制（位）作为信息的基础单位， 1个字节等于8位，例如“abc”字符串是由3个字节组成，但实际在计算机存储时将其用二进制表示， “abc”分别对应的ASCII码分别是97、 98、 99，对应的二进制分别是01100001、 01100010和01100011，如下图：

合理地使用操作位能够有效地提高内存使用率和开发效率。

Redis 提供了 Bitmaps 这个“数据类型”可以实现对位的操作：

Bitmaps 本身不是一种数据类型， 实际上它就是字符串（key-value），但是它可以对字符串的位进行操作。
Bitmaps 单独提供了一套命令，所以在 Redis 中使用 Bitmaps 和使用字符串的方法不太相同。可以把 Bitmaps 想象成一个以位为单位的数组，数组的每个单元只能存储 $0$ 和 $1$ ，数组的下标在 Bitmaps 中叫做偏移量。

常用命令

setbit<key><offset><value>：设置 Bitmaps 中某个偏移量的值（ $0$ 或 $1$ ）
- offset：偏移量从 $0$ 开始
- 实例
  
  每个独立用户是否访问过网站存放在 Bitmaps 中，将访问的用户记做 $1$ ，没有访问的用户记做 $0$ ，用偏移量作为用户的 id。
  
  设置键的第 offset 个位的值（从 $0$ 算起），假设现在有 $20$ 个用户， $u s e r i d = 1 ， 6 ， 11 ， 15 ， 19$ 的用户对网站进行了访问，那么当前 Bitmaps 初始化结果如图：
  
  unique:users:20201106 代表 2020-11-06 这天的独立访问用户的 Bitmaps
getbit<key><offset>：获取 Bitmaps 中某个偏移量的值
- 获取键的第 offset 位的值（从 $0$ 开始算）
- 实例
  
  获取 $i d = 8$ 的用户是否在 2020-11-06 这天访问过，返回 $0$ 说明没有访问过：
  
  注：因为 $100$ 根本不存在，所以也是返回 $0$ 。
bitcount<key>[start end]：统计字符串从 start 字节到 end 字节比特值为 $1$ 的数量
- 统计字符串被设置为 $1$ 的 bit 数。一般情况下，给定的整个字符串都会被进行计数，通过指定额外的 start 或 end 参数，可以让计数只在特定的位上进行。start 和 end 参数的设置，都可以使用负数值：比如 $- 1$ 表示最后一个位，而 $- 2$ 表示倒数第二个位，start、end 是指 bit 组的字节的下标数，二者皆包含。
- 注意：redis 的 setbit 设置或清除的是 bit 位置，而 bitcount 计算的是 byte 位置。
- 举例
  
  K1 [01000001 01000000 00000000 00100001]，对应 [0，1，2，3]
```
bitcount K1 1 2  ： 统计下标1、2字节组中bit=1的个数，即 01000000 00000000
=> bitcount K1 1 2 　　=> 1

bitcount K1 1 3  ： 统计下标1、2、3字节组中bit=1的个数，即 01000000 00000000 00100001
=> bitcount K1 1 3　　 => 3

bitcount K1 0 -2  ： 统计下标0到下标倒数第2，字节组中bit=1的个数，即 01000001 01000000 00000000
=> bitcount K1 0 -2　　=> 3
```
bitop and(or/not/xor) <destkey> [key…]：bitop 是一个复合操作，它可以做多个 Bitmaps 的 and（交集）、or（并集）、not（非）、xor（异或）操作并将结果保存在 destkey 中。
- 实例
  
  2020-11-04 日访问网站的 $u s e r i d = 1, 2, 5, 9$
```
setbit unique:users:20201104 1 1
setbit unique:users:20201104 2 1
setbit unique:users:20201104 5 1
setbit unique:users:20201104 9 1
```
  2020-11-03 日访问网站的 $u s e r i d = 0, 1, 4, 9$
```
setbit unique:users:20201103 0 1
setbit unique:users:20201103 1 1
setbit unique:users:20201103 4 1
setbit unique:users:20201103 9 1
```
  计算出两天都访问过网站的用户数量：
```
bitop and unique:users:and:20201104_03 unique:users:20201103 unique:users:20201104
```
  计算出任意一天都访问过网站的用户数量（例如月活跃就是类似这种），可以使用 or 求并集：

Bitmaps 与 set 对比

假设网站有1亿用户，每天独立访问的用户有5千万，如果每天用集合类型和 Bitmaps 分别存储活跃用户可以得到表

很明显，这种情况下使用 Bitmaps 能节省很多的内存空间，尤其是随着时间推移节省的内存还是非常可观的。

但 Bitmaps 并不是万金油，假如该网站每天的独立访问用户很少，例如只有10万（大量的僵尸用户），那么两者的对比如下表所示，很显然，这时候使用 Bitmaps 就不太合适了，因为基本上大部分位都是 $0$ 。

Ⅱ. HyperLogLog

简介

在工作当中，我们经常会遇到与统计相关的功能需求，比如统计网站 PV（PageView，页面访问量），可以使用 Redis 的 incr、incrby 轻松实现。

但像 UV（UniqueVisitor，独立访客）、独立 IP 数、搜索记录数等需要去重和计数的问题如何解决？这种求集合中不重复元素个数的问题称为基数问题。

解决基数问题有很多种方案：

数据存储在 MySQL 表中，使用 distinct count 计算不重复个数
使用 Redis 提供的 hash、set、bitmaps 等数据结构来处理

以上的方案结果精确，但随着数据不断增加，导致占用空间越来越大，对于非常大的数据集是不切实际的。

能否能够降低一定的精度来平衡存储空间？Redis 推出了 HyperLogLog。

Redis HyperLogLog 是用来做基数统计的算法，HyperLogLog 的优点是，在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。

在 Redis 里面，每个 HyperLogLog 键只需要花费 12KB 内存，就可以计算接近 $2^{64}$ 个不同元素的基数。这和计算基数时，元素越多耗费内存就越多的集合形成鲜明对比。

但是，因为 HyperLogLog 只会根据输入元素来计算基数，而不会储存输入元素本身，所以 HyperLogLog 不能像集合那样，返回输入的各个元素。

什么是基数?

比如数据集 ${1, 3, 5, 7, 5, 7, 8\}$ ，那么这个数据集的基数集为 ${1, 3, 5 ,7, 8\}$ ，基数（不重复元素数）为 $5$ 。
基数估计就是在误差可接受的范围内，快速计算基数。

常用命令

pfadd <key><element> [element ...]：添加指定元素到 HyperLogLog 中
- 将元素添加到指定HyperLogLog数据结构中。如果执行命令后 HLL 估计的近似基数发生变化，则返回 $1$ ，否则返回 $0$ 。
pfcount<key> [key ...]：计算 HLL 的近似基数，可以计算多个 HLL，比如用 HLL 存储每天的 UV，计算一周的 UV 可以使用 $7$ 天的 UV 合并计算即可
pfmerge<destkey><sourcekey> [sourcekey ...]：将一个或多个 HLL 合并后的结果存储在另一个 HLL 中，比如每月活跃用户可以使用每天的活跃用户来合并计算可得

Ⅲ. Geospatial

简介

Redis 3.2 中增加了对 GEO 类型的支持。GEO，Geographic，地理信息的缩写。该类型，就是元素的二维坐标，在地图上就是经纬度。redis基于该类型，提供了经纬度设置，查询，范围查询，距离查询，经纬度Hash等常见操作。

常用命令

geoadd<key><longitude><latitude><member> [longitude latitude member...]：添加地理位置（经度，纬度，名称）
- 实例
```
geoadd china:city 121.47 31.23 shanghai
geoadd china:city 106.50 29.53 chongqing 114.05 22.52 shenzhen 116.38 39.90 beijing
```
  两极无法直接添加，一般会下载城市数据，直接通过 Java 程序一次性导入。
  
  有效的经度从 $- 180$ 度到 $180$ 度。有效的纬度从 $- 85.05112878$ 度到 $85.05112878$ 度。
  
  当坐标位置超出指定范围时，该命令将会返回一个错误。
  
  已经添加的数据，是无法再次往里面添加的。
geopos <key><member> [member...]：获得指定地区的坐标值

geodist<key><member1><member2> [m|km|ft|mi]：获取两个位置之间的直线距离

实例

获取两个位置之间的直线距离

单位

m 表示单位为米[默认值]。
km 表示单位为千米。
mi 表示单位为英里。
ft 表示单位为英尺。
如果用户没有显式地指定单位参数， 那么 GEODIST 默认使用米作为单位

georadius<key><longitude><latitude>radius m|km|ft|mi：以给定的经纬度为中心，找出某一半径内的元素
- 实例

小成同学_

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录