图文并茂-讲解HashMap引发的死循环
官方介绍文档上已经明确说过了,HashMap是线程不安全的,那么为啥会线程不安全?
首先是JDK1.7的HashMap上,在多线程环境下操作HashMap可能引起死循环。
原因是在HashMap扩容时,链表转移后,前后链表顺序倒置(头插法导致),在转移过程中修改了原来链表中节点的引用关系,导致链表结点互相引用,即形成了环,这种情况下,当我们使用get操作获取到环形链表处的数据,就会发生死循环。
在JDK1.8中,同样的前提下并不会引起这个死循环,原因是扩容转移后前后链表顺序不变,保持了之前节点的引用关系。
但是即使1.8不会出现死循环,但是由于put、get方法都没有加同步锁,多线程操作仍是不安全的。
例如,我们无法保证上一秒put的值,下一秒get的时候还是原值,这就是数据不一致的问题,所以线程安全仍无法保证。
那么我们下面就重点讲解死循环的问题,看看它是到底是怎么产生的。
下面我们进入JDK1.7的HashMap源码,看看它是如何扩容的:
Jdk1.7:
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
//如果旧容量已经达到了最大,将阈值设置为最大值,与1.8相同
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
//创建新哈希表
Entry[] newTable = new Entry[newCapacity];
//将旧表的数据转移到新的哈希表
transfer(newTable, initHashSeedAsNeeded(newCapacity));
table = newTable;
//更新阈值
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
resize方法的大致流程如下:
1、旧数组存入oldTable变量,旧容量大小存入oldCapacity变量
2、如果旧容量已经达到了最大,将阈值threshold设置为最大值,并且return,说明无法继续扩容了。与1.8相同
3、根据oldCapacity值创建新结点数组newTable
4、执行transfer
方法将旧数据转移到新的哈希表上
5、更新扩容阈值
下面重点来了,我们继续跟进transfer
方法:
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
//遍历旧表
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next;
//如果hashSeed变了,需要重新计算hash值
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
//得到新表中的索引
int i = indexFor(e.hash, newCapacity);
//将新节点作为头节点添加到桶中
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
1、先获取到新数组的大小
2、遍历旧的HashMap
3、每遍历到一个HashMap中的一个结点数组索引,就对该索引下的链表进行遍历
4、判断链表结点 e 是否需要重新计算hash值
5、计算得到链表结点 e 应该放在数组中的哪个索引处,即索引 i 处
6、将结点 e 以头插法的形式插入该数组索引下
好了,以上就是JDK1.7中HashMap的整个扩容过程。那么,它在多线程环节下是如何产生死循环的呢?
事实上,
造成死循环的关键因素是扩容后链表结点的引用形成了一个环,而形成环的主要代码在transfer
方法中:
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
//遍历旧表
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next;
//如果hashSeed变了,需要重新计算hash值
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
//得到新表中的索引
int i = indexFor(e.hash, newCapacity);
//将新节点作为头节点添加到桶中
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
下面我们就以图文并茂的方式模拟一下多线程下的扩容是怎样的,假设有两个线程:T1 T2,为了方便大家简单理解,我们就假设HashMap的当前数组容量是2,此时,HashMap中的存储结构如下:
可见,在索引1处的链表引用关系是 a -> b -> c -> d -> null。
现在,有线程T1和T2同时对该HashMap进行扩容,并且它们扩容后,都把结点元素全部移动到新数组的索引3处。
假设线程T1运行到Entry<K,V> next = e.next;
这行代码,时间片就用完,即当前T1已计算得出e=a,e.next=b
。
好了,现在线程T2开始执行并且完成了整个扩容操作,并把链表移到了索引3处,此时HashMap存储结构如下:
可见,由于头插法的缘故,在索引3处的链表引用关系是 d -> c -> b -> a -> null。
好了,线程线程T1拿到时间片了,继续执行Entry<K,V> next = e.next;
后面的代码,注意此时T1中e=a,e.next=b
,所以需要将结点a头插到索引3的位置,如下。
由于T2中扩容后得到的链表关系是 d -> c -> b -> a -> null,因此T1线程中此时链表结点引用关系实际上应是这样的:
然后,执e = next;
和Entry<K,V> next = e.next;
代码,对e变量以及e.next变量重新赋值,得到:e=b
,e.next=a。
所以,继续将b头插到索引3的位置,如下:
然后,执e = next;
和Entry<K,V> next = e.next;
代码,对e变量以及e.next变量重新赋值,得到:e=a
,e.next=null。
所以,继续将a头插到索引3的位置,如下:
由于e.next为null,因此T1线程中的循环就结束了,那么执行到这,已经可以看出,链表结点a和b互相引用了,即形成了一个环。当我们使用get方法,取到索引为3中的某元素时候,将会出现死循环,另外,由于d结点和c结点并没有其他结点指向它们,所以,d和c结点的数据也将会丢失。