Go 语言中的 Map的实现原理

GOER&&

已于 2024-03-20 12:00:08 修改

阅读量311

点赞数 2

分类专栏： GO 文章标签： golang

于 2024-03-19 21:14:27 首次发布

本文链接：https://blog.csdn.net/xbh9897/article/details/136855720

版权

GO 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

一、map原理

Go 语言中的 map 是使用哈希表（Hash Table）实现的。哈希表是一种通过键（Key）直接访问值（Value）的数据结构。在 Go 中，map 的实现包含了几个优化和特殊的设计选择，以提高性能和减少内存占用。下面是 Go map 实现的一些关键点：

动态数组（Bucket Array）：
Go 的 map 使用一个称为“桶（bucket）”的动态数组来存储键值对。每个桶可以存储多个键值对。
哈希函数：
键的哈希值是通过一个哈希函数计算得到的，该函数尽可能在桶间均匀分布键值对。
处理哈希冲突：
当两个或更多的键具有相同的哈希值（哈希冲突）时，它们会被存放在同一个桶里。Go 采用链地址法来解决冲突，即在同一个桶内部通过链接（通常是一个小数组或者溢出桶）存储所有冲突的键值对。
扩容（Rehashing）：
随着元素不断添加，map 将达到负载因子阈值，此时会发生扩容。在扩容过程中，原有的键值对会重新哈希到新的、更大的桶数组中。Rehashing 过程是渐进进行的，每次插入操作都会迁移一部分元素到新的桶数组。
无序性质：
由于哈希函数的特性和扩容机制，Go 的 map 是无序的，遍历 map 时不能期望按任何特定顺序读取到键值对。
运行时优化：
map 在 Go 语言的运行时实现中针对小 map 和大 map 做了优化，包括特殊的数据结构和算法来最小化内存开销和提高效率。
内存管理：
Go 运行时系统负责 map 的内存分配和释放，利用垃圾收集器自动回收不再被引用的 map 占用的内存。
类型安全：
虽然底层实现使用了通用的数据结构，但在 Go 代码级别，map 是强类型的，你需要在声明时指定键和值的类型。

Go 的 map 设计考虑了效率、易用性和类型安全等多方面因素，使其成为一种非常实用并广泛使用的数据结构。不过，需要注意的是，map 在 Go 中并不是线程安全的，如果需要在多个 goroutine 中并发地读写同一个 map，则必须使用某种形式的同步机制，比如 sync.Mutex 或者 sync.RWMutex。

二、并发使用 Map 除了加锁的其他方案

在 Go 语言中，并发使用 map 除了加锁之外，还有一些其他的方案可以确保线程安全：

使用 sync.Map:
- Go 语言标准库提供了一个专为并发使用场景设计的 sync.Map 类型。与普通的 map 不同，sync.Map 内部实现了必要的同步机制，支持无锁的并发读取和安全的写入操作。
- 它提供了特殊的方法，如 Load、Store、LoadOrStore、Delete 和 Range 来进行操作，而不是使用传统的 map 操作符。
分片 (Sharding):
- 将 map 分成多个较小的 map 分片，并为每个分片提供单独的锁或其他同步机制。这种方式被称为 sharding 或 partitioning。
- 当需要访问 map 中的数据时，根据某种策略（例如键的哈希值）来选择对应的分片和锁，从而降低锁的竞争程度，提高性能。
不可变数据结构:
- 使用不可变的数据结构来共享数据。每次更新都完整地复制一份 map 并应用修改，然后将引用切换到新的副本。
- 这种方法在读多写少的场合下效率较高，因为多个 goroutine 可以同时安全地读取 map 的旧版本，而无需任何同步机制。
通道 (Channels):
- 通过建立一个专门的 goroutine 来管理对 map 的访问，并使用 channels 来与该 goroutine 进行通信。
- 其他 goroutine 需要读取或修改 map 时，会发送消息给管理者 goroutine，并通过 channel 接收回复。这种方式也被称为 “actor model”。
优化使用模式:
- 在某些情况下，如果可以接受最终一致性，或者如果 map 的访问主要是只读的，可能允许无同步的并发读取。
- 对于只增不删的场景，可以考虑在只读阶段不加锁，只在增加元素时加锁，并通过适当的设计来避免数据竞争。
软件事务内存 (STM):
- 软件事务内存是一种抽象层，它允许开发人员将代码块作为原子事务执行。如果事务期间检测到冲突，STM 会自动重试事务。
- 虽然 Go 标准库中没有直接支持 STM，但社区有一些实现，你可以尝试使用它们作为替代方案。

选择哪种方案取决于具体的使用场景、性能要求和复杂性的权衡。在决定使用哪种策略之前，最好基于实际的工作负载和性能指标进行评估和测试。

三、map的扩容机制

Go 语言中的 map 是使用哈希表实现的。在哈希表中，当元素达到一定的数量（超过加载因子设定的比例），为了保持操作效率，需要对哈希表进行扩容。扩容通常涉及创建一个更大的哈希表，并将现有元素重新映射（rehash）到新表中。

以下是 map 扩容的基本步骤：

触发扩容：
- 当向 map 中添加新元素时，如果元素数量超过了当前哈希表容量和加载因子的乘积，就会触发扩容。加载因子是一个决定性能与内存使用之间平衡的阈值。
分配新表：
- Go 运行时会创建一个新的哈希表，其容量通常是原来的两倍。这样做可以减少再次扩容的可能，并提供足够空间来避免过多的哈希冲突。
迁移数据（Rehashing）：
- 接下来，旧哈希表中的现有元素需要被移到新表中。每个元素的哈希值将根据新表的大小重新计算，以确定它们在新表中的位置。
- 在 Go 1.8 版本之后，这个步骤是渐进式的：每次向 map 添加新元素或者进行查找操作时，都会迁移一小部分元素，而不是一次性迁移所有元素。这样可以避免长时间的暂停，特别是在 map 非常大的情况下。
更新引用：
- 当所有元素都迁移到新的哈希表中后，原来的哈希表将被丢弃，map 的内部引用将指向新表。

由于扩容需要重新计算所有键的哈希值并且将它们分配到新的桶中，所以它是一个相对来说较为昂贵的操作。因此，如果你预先知道 map 大约会存储多少数据，可以在创建 map 时通过提供合适的初始容量来减少扩容的次数，从而提高 map 的性能：

myMap := make(map[string]int, initialCapacity)

设置 initialCapacity 可以使得 map 有足够的容量来存储 initialCapacity 个元素而无需扩容，但请注意，这个参数只是一个提示，最终的容量可能会根据内部算法进行调整。

GOER&&

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Go 语言中的 Map的实现原理

简述Go 语言中的 Map 是如何实现的
复制链接

扫一扫

专栏目录