HashMap 完全解析
1. 基本特点
HashMap 是 java 中用于映射(键值对)处理的数据类型。基于哈希表的 Map 接口的实现。最多只允许一条记录的键为 null,允许多条记录的值为 null。
HashMap 不保证映射的顺序。特别是,它不能保证顺序会随着时间的推移保持恒定。
HashMap 根据键的 hashCode 值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度 O(1)。
2. 存储结构
从结构实现来讲,HashMap 是数组+链表+红黑树(JDK1.8增加了红黑树部分)实现的。
[图片上传失败…(image-7d8358-1576498907545)]
2.1 HashMap 数据底层具体存储的是什么?
通过查看 HashMap 的源码,它其中有一个非常重要的字段 Node<K,V>[] table
,即哈希桶数组,是一个Node的数组。
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;// 用来定位数组索引位置
final K key;
V value;
Node<K,V> next;// 链表的下一个元素
Node(int hash, K key, V value, Node<K,V> next) {
...}
public final K getKey() {
...}
public final V getValue() {
...}
public final String toString() {
...}
public final int hashCode() {
...}
public final V setValue(V newValue) {
...}
public final boolean equals(Object o) {
...}
}
Node 是 HashMap 中的一个内部类,实现了 Map.Entry 接口,本质是就是一个映射(键值对)。
我们在 HashMap 中存储的每一个值,都是一个 Node。
2.2 为什么要用单链表的方式?
哈希表为了解决冲突,一般有两种方式来解决,开放寻址法和链表法。
开放寻址法:如果出现了散列冲突,就重新探测一个空闲位置,将其插入。
链表法:就是数组加链表的结合。在每个数组元素上都一个链表结构,当数据被 Hash 后,得到数组下标,把数据放在对应下标元素的链表上。
[图片上传失败…(image-30a42a-1576498907545)]
即使负载因子和 Hash 算法设计的再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响 HashMap 的性能。
于是,在 JDK1.8 版本中,HashMap 做了进一步的优化,引入了红黑树。当链表长度太长(默认超过8)时,链表就转换为红黑树,利用红黑树快速增删改查的特点提高HashMap的性能。
3. HashMap 的成员变量
HashMap 中的成员变量,除了一些常量外,主要有以下几个。
int size;
int modCount;
final float loadFactor;
int threshold;
size 比较简单,就是 HashMap 中包含的映射的总数。
modCount 主要用来记录 HashMap 内部结构发生变化的次数,主要用于迭代的快速失败。强调一点,内部结构发生变化指的是结构发生变化,例如 put 新键值对,但是某个 key 对应的 value 值被覆盖不属于结构变化。
loadFactor 负载因子,默认值是0.75,负载因子越大,说明 map 中的元素越多,空闲位置越少,散列冲突的概率就越大。
threshold 阈值,是 HashMap 所能容纳的最大数据量的 Node (键值对)个数。
算法公式为:threshold = length * loadFactor
。其中 length 是 Node[] table 的长度(默认 16)。
threshold 就是在此 loadFactor 和 length 对应下允许的最大元素数目,超过这个数目就重新 resize (扩容),扩容后的 HashMap 容量是之前容量的两倍。
4. 确定数组索引位置的 hash 算法
不管是添加、删除还是查找,第一步首先是要确定当前元素在 HashMap 中的位置。
HashMap 中的 hash 采用的是取 key 的 hashCode 值,然后进行高位运算,再进行取模运算。
static final int hash(Object key) {
int