Python源码：Cpython中字典Dict的实现

然然然也

于 2023-06-06 00:18:01 发布

阅读量264

点赞数 1

分类专栏： Cpython源码解析文章标签： python 哈希算法开发语言

本文链接：https://blog.csdn.net/wy1764045114/article/details/131058516

版权

Cpython源码解析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CPython是Python的一种常见实现，它是使用C语言开发的。下面对CPython中字典的底层实现进行简要解析。

在CPython中，字典的底层数据结构由一个PyDictObject结构体表示，定义在Objects/dictobject.c文件中。该结构体包含了以下重要成员：

typedef struct _dictobject PyDictObject;

struct _dictobject {
    PyObject_HEAD
    Py_ssize_t ma_fill;      // 字典中已存储的键值对数量
    Py_ssize_t ma_used;      // 散列表中已被使用的槽位数量
    Py_ssize_t ma_mask;      // 散列表的掩码，用于计算索引位置
    PyDictEntry *ma_table;   // 散列表的槽位数组
    PyDictEntry *(*ma_lookup)(PyDictObject *mp, PyObject *key, long hash); // 查找键值对的函数指针
    PyDictEntry ma_smalltable[PyDict_MINSIZE];  // 较小的散列表，用于存储少量的键值对
};

ma_table是一个指向散列表槽位数组的指针，其中每个槽位（PyDictEntry）存储着键值对的信息。CPython中使用了开放定址法的线性探测来解决冲突。

ma_lookup是一个函数指针，用于查找键值对。对于小型字典，会使用ma_smalltable来存储键值对，而不使用散列表。

ma_fill表示字典中已存储的键值对数量，ma_used表示散列表中已被使用的槽位数量，ma_mask是散列表的掩码，用于计算索引位置。

在CPython的字典实现中，散列值（hash）是通过调用对象的__hash__()方法得到的。CPython使用除法散列（division hash）来将哈希值映射到散列表的索引位置。具体的过程包括：

1. 计算对象的哈希值。
2. 将哈希值与散列表的掩码进行按位与运算，得到散列表的索引位置。
3. 如果索引位置为空，将键值对存储在该位置。
4. 如果索引位置非空，则可能需要线性探测，通过查找下一个空槽位来存储键值对。

当字典中的键值对数量增加到一定阈值时，CPython会进行动态扩容。扩容操作涉及重新计算散列值、重新分配内存，并将原有的键值对重新插入到新的散列表中。

CPython中的字典实现还涉及到一些优化技术，如稀疏散列表和快速查找路径等。此外，还有一些特殊情况的处理：

小整数优化：CPython对小整数（通常范围在-5到256之间）进行了优化，将其预先创建并缓存起来，以便重复使用。这样可以减少内存消耗，并提高字典操作的性能。
删除操作的延迟：为了避免在删除键值对时造成内存的频繁分配和释放，CPython使用了延迟删除策略。在删除键值对时，并不会立即从散列表中移除，而是将其标记为已删除。当进行查找操作时，会检查键值对是否被删除，并在必要时进行清理。
缓冲机制：为了提高字典操作的效率，CPython使用了缓冲机制。当进行字典操作时，会先检查缓冲区中是否存在已经计算好的结果，以避免重复计算。

需要注意的是，CPython的字典实现是高度优化的，并且经过多年的发展和改进。以上只是对其底层实现的简要解析，实际的代码实现非常复杂，涉及到多个文件和数据结构的交互。

CPython字典的实现细节可以深入阅读CPython源码中与字典相关的文件，如Objects/dictobject.c、Include/dictobject.h等。