在HashMap中当数组长度到达64且链表长度大于8时,为什么链表转为红黑树

HashMap基于数组和链表实现,当元素超过容量的75%时会扩容。链表长度超过8时转为红黑树以优化查询效率。红黑树在大数据量下提供更快查询,但在小数据量时,链表更节省空间。阈值8和6的设定基于概率论和效率考虑。
摘要由CSDN通过智能技术生成

HashMap的结构

1.首先我们来看一下HashMap的结构,HashMap的底层是基于数组+链表+红黑树的原理。
在这里插入图片描述
2.数组特点:查询快,增删慢。
链表特点:查询慢,增删快。
红黑树特点:查询快,增删快,是一棵二叉排序树,有自平衡的特点,时间复杂度能控制到O(log(n))。

HashMap的扩容机制

HashMap的默认容量为16,默认的负载因子为0.75,当HashMap中元素个数超过容量乘以负载因子的个数时,就创建一个大小为前一次两倍的新数组,再将原来数组中的数据复制到新数组中。当数组长度到达64且链表长度大于8时,链表转为红黑树。
底层源码:

    //负载因子
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /**
     * The bin count threshold for using a tree rather than list for a
     * bin.  Bins are converted to trees when adding an element to a
     * bin with at least this many nodes. The value must be greater
     * than 2 and should be at least 8 to mesh with assumptions in
     * tree removal about conversion back to plain bins upon
     * shrinkage.
     */
     //链表长度阈值
    static final int TREEIFY_THRESHOLD = 8;

    /**
     * The bin count threshold for untreeifying a (split) bin during a
     * resize operation. Should be less than TREEIFY_THRESHOLD, and at
     * most 6 to mesh with shrinkage detection under removal.
     */

为什么数组长度达到64且链表长度大于8时,转为红黑树

每次遍历一个链表,平均查找的时间复杂度是 O(n),n 是链表的长度。红黑树有和链表不一样的查找性能,由于红黑树有自平衡的特点,可以防止不平衡情况的发生,所以可以始终将查找的时间复杂度控制在 O(log(n))。
最初链表还不是很长,所以可能 O(n) 和 O(log(n))的区别不大,但是如果链表越来越长,那么这种区别便会有所体现。所以为了提升查找性能,需要把链表转化为红黑树的形式。
那么问题来了,既然红黑树这么好用,为什么不直接使用红黑树呢?

为什么不直接用红黑树

这个问题其实在源码中已经给出了答案

Because TreeNodes are about twice the size of regular nodes,
use them only when bins contain enough nodes to warrant use
(see TREEIFY_THRESHOLD). And when they become too small (due 
removal or resizing) they are converted back to plain bins.

通过源码我们可以发现,系统默认的是链表长度达到8就转成红黑树,而当链表长度降到6就转换回链表,这体现了时间和空间平衡的思想。
我们也可以理解成最开始使用链表的时候,空间占用是比较少的,而且由于链表短,所以查询时间也没有太大的问题。可是当链表越来越长,需要用红黑树的形式来保证查询的效率。此时对于何时应该从链表转化为红黑树,就应该需要确定一个阈值,于是系统把这个阈值默认设置为8。
那么问题又来了,为什么这个阈值刚好是8呢?

为什么链表转成红黑树的阈值为8

这个问题在源码中也有解释

In usages with well-distributed user hashCodes, tree bins 
are rarely used.  Ideally, under random hashCodes, the 
frequency of nodes in bins follows a Poisson distribution 
(http://en.wikipedia.org/wiki/Poisson_distribution) with a 
parameter of about 0.5 on average for the default resizing 
threshold of 0.75, although with a large variance because 
of resizing granularity. Ignoring variance, the expected 
occurrences of list size k are (exp(-0.5) * pow(0.5, k) / 
factorial(k)). The first values are:
 
 0:    0.60653066
 1:    0.30326533
 2:    0.07581633
 3:    0.01263606
 4:    0.00157952
 5:    0.00015795
 6:    0.00001316
 7:    0.00000094
 8:    0.00000006
 more: less than 1 in ten million

上述代码的意思是如果 hashCode 分布的比较良好,也就是 hash 冲突比较少,那么红黑树这种形式是很少会被用到的,因为各个值都均匀分布,很少出现链表很长的情况。在理想情况下,链表长度符合泊松分布,各个长度的命中概率依次递减,当长度为8的时候,概率仅为0.00000006。这是一个小于千万分之一的概率,在实际情况中我们的 Map 里面是不会存储这么多的数据的,所以通常情况下,并不会发生从链表向红黑树的转换。
那么问题又来了,当数组长度小于64,但链表长度大于8时,链表还会转成红黑树吗?

数组长度小于64,链表长度大于8时

如果链表长度大于8,但是数组长度小于64时,还是会进行扩容操作,不会转换为红黑树。因为数组的长度较小,应该尽量避开红黑树。因为红黑树需要进行左旋,右旋,变色操作来保持平衡。
所以当数组长度小于64,使用数组加链表比使用红黑树查询速度要更快、效率要更高。

总结

一般情况下,HashMap底层使用数组+链表,当数据量非常大时,长度大的链表(大于8)自动转成红黑树,此时,HashMap底层使用数组+链表+红黑树。至于这个阈值是系统设置的。当链表长度降到6时就自动转换回链表。
通常情况下不会使用红黑树,当数据量较小时,如何强制使用红黑树,不但不能提高效率,反而耗费内存空间。只有当数据量非常大时,使用红黑树才能更好地提高效率。

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值