HashMap第5讲——resize方法扩容源码分析及细节

put方法的源码和相关的细节已经介绍完了,下面我们进入扩容功能的讲解。

一、为什么需要扩容

这个也比较好理解。假设现在HashMap里的元素已经很多了,但是链化比较严重,即便树化了,查询效率也是O(logN),肯定没有O(1)好,所以需要扩容来降低Hash冲突的概率,提高性能。

二、触发扩容的临界

我们知道,当++size>threshold条件成立时,就会调用resize()方法进行扩容。

ps:不明白的可以去看看第2讲——put方法源码

三、扩容流程图

我们先看下扩容的流程图,更直观一点:

ps:图片看不清的可以把它下载到本地哦~

总结一下,扩容具体涉及以下三个部分:

  • 如果某桶节点没有形成链表,则直接rehash到其它桶中。

  • 如果桶中的链表已经形成红黑树,将原红黑树节点根据e.hash & oldCap==0条件将原红黑树分为两个红黑树,一部分放在原索引位置,另一部分放在原索引位置+原数组长度位置,且如果最后的结果节点个数小于等于6就转为链表。

  • 如果桶中形成链表,则将链表重新连接:也是根据e.hash & oldCap==0条件将原链表分为两个链表,一部分放在原索引位置,另一部分放在原索引位置+原数组长度位置。

ps:更具体的可以看下面的源码注释

四、源码注释

看之前先看几个重要的参数:

//临界值,当实际大小(容量*负载因子)超过这个值,会进行扩容
int threshold;
//最大长度为2^30
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认容量
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
 //默认的负载因子为0.75
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//加载因子,默认为0.75
final float loadFactor;
 //存储元素的数组,总是2^n
transient Node<K,V>[] table;

源码注释:

final Node<K,V>[] resize() {
    //原数组
    Node<K,V>[] oldTab = table;
    //原数组容量,为0说明是第一次初始化,反之扩容
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    //临界值,当实际大小(容量*负载因子)超过这个值,会进行扩容
    int oldThr = threshold;
    //newCap:新数组长度 newThr:新扩容阈值(threshlod)
    int newCap, newThr = 0;
    if (oldCap > 0) {
        //说明需要扩容
        if (oldCap >= MAXIMUM_CAPACITY) {
            //容量超过上限,无法再扩容,直接返回
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        //新数组为原来的2倍 newCap = oldCap << 1
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            //说明新数组长度小于Interger最大值,且原数组长度大于16
            //扩容阈值修改为原来的两倍
            newThr = oldThr << 1; // double threshold
    }
    //ps:下面的两个else说明是要初始化数组
    else if (oldThr > 0) // initial capacity was placed in threshold
        //说明new HashMap(length)时设置了长度
        //那么新数组长度就是threshold(这个可以看我文章的第4讲)
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        //这是没指定长度,新数组长度为16
        newCap = DEFAULT_INITIAL_CAPACITY;
        //扩容阈值为16*0.75=12
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        //说明初始化时指定了长度,但小于16(此时需要计算阈值)
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    //将计算好的新阈值赋给threshold
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
            //初始化新Node数组
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {
        //ps:这是要进行真正的扩容了
        for (int j = 0; j < oldCap; ++j) {
            //遍历老数组
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                //ps:当前位置有元素
                //将当前位置置空
                oldTab[j] = null;
                if (e.next == null)
                    //只有一个元素,说明还没链化。
                    //将该元素进行rehash
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    //ps:已经树化。这里就简单概括下
                    //把原tree一分为二,分别放到原数组位置和原数组长度+索引位置
                    //这两部分:如果元素数量小于等于6个就转为链表
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    //ps:链化
                    //也是一份为二,lo:原索引位置,hi:索引位置+原数组长度位置
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        //ps:根据e.hash & oldCap分类
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
​
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        //原数组位置
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        //原数组长度+索引 位置
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

五、为什么负载因子默认是0.75

我们知道当HashMap容量大于threshlod(阈值)时,会触发扩容操作,而threshlod=负载因子(loadFactory)*容量(capacity)。

loadFactory默认值为0.75(不会轻易修改),也就是当HashMap中元素个数达到容量的3/4时会进行自动扩容,那么为什么是负载因子为什么默认是0.75呢?

这里JDK官方文档中那个也给出了原因,大概意思是:

一般来说,默认负载因子(0.75)在时间和空间成本之间提供了很好的权衡。更高的值减少了空间开销,但增加了查找成本(在HashMap大多数操作中,包括get和put)。

我们可以逆向假设下:假设负载因子为1,也就是达到最大容量时再扩容,那么在HashMap中,最好的情况是这16个元素分别落在16个桶中,否则就必然会发生hash碰撞,而且元素越多,碰撞的几率就越大,查找速度也会越低,显然不合理。

所以负载因子不能太大,不然会导致大量的hash冲突,也不能太小,那样会浪费空间。

题外话:

Stack Overflor有一篇文章通过一个公式计算出负载因子值得最佳选择是在0.693,也就是0.7左右。

那为啥最终选择的是0.75呢?因为threshold=loadFactory*capacity,其中capacity永远是2^n,为了保证它俩乘积是个整数,因为0.75和任何2^n(n>1)乘积都是整数,所以才选择了0.75。

 End:希望对大家有所帮助,如果有纰漏或者更好的想法,请您一定不要吝啬你的赐教🙋。

  • 25
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

橡 皮 人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值