HashMap底层源码解析及红黑树分析

最新推荐文章于 2024-08-30 18:40:43 发布

weixin_44149903

最新推荐文章于 2024-08-30 18:40:43 发布

阅读量961

点赞数

分类专栏： Java集合文章标签： java

本文链接：https://blog.csdn.net/weixin_44149903/article/details/130400615

版权

Java集合专栏收录该内容

4 篇文章 0 订阅

订阅专栏

HashMap线程不安全，底层数组+链表+红黑树
面试重点是put方法，扩容

总结

put方法

HashMap的put方法，首先通过key去生成一个hash值，第一次进来是null，此时初始化大小为16，i = (n - 1) & hash计算下标值，第一次获取是null，直接放入一个Node节点，如果不是null，分成下面三种情况
1）如果发现hash和key相等，将原来的覆盖
2）不相等，就要用到链表，通过尾插法插入到尾部。超过8转成红黑树
3）如果是TreeNode，插入即可

扩容

首先，上面put方法每次都会计算大小
如果超过16*0.75，即12就会r调用resize方法
这里主要是老数组上面元素转到新数组上面去的逻辑
遍历，如果老数组上面元素不是null
这里又是几种情况
1）如果next下标是null，
说明只有一个元素，直接重新计算下标放入新数组
2）判断是否是TreeNode
对TreeNode树进行拆分，转到新数组，不一定在一起。拆分后不一定还是树，这里各种情况，看节点对应的是高位还是低位。判断低位个数如果不超过6，转成链表（TreeNode转成Node）。高位也一样。否则重新生成红黑树（根据是否有高地位判断是否需要重新生成红黑树）
3）否则说明是个链表，
将链表转到新数组上面去，扩容后重新计算hash后下标不一定还是相同的，所以不能直接转到新数组，但是扩容后下标是有规律的。扩容后只有两种情况，低位和高位。哪些节点是在低位链表上面，哪些节点是在高位链表上面。然后放到新数组即可。

源码如下：

/**
 * 默认的初始容量-必须是二的幂。2的4次方=16，
 */
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

/**
 * 如果隐式指定了更高的值，则使用最大容量由带有参数的构造函数中的任何一个执行。必须是二次方<=1<<30。
 */
static final int MAXIMUM_CAPACITY = 1 << 30;

/**
 * 在构造函数中未指定时使用的负载系数。
 */
static final float DEFAULT_LOAD_FACTOR = 0.75f;

/**
 * 使用树而不是列表作为存储箱的存储箱计数阈值。当向至少有这么多节点的bin添加元素时，bin会转换为树。该值必须大于2，并且应至少为8，以符合树木移除中关于收缩后转换回普通垃圾箱的假设。
 */
static final int TREEIFY_THRESHOLD = 8;

/**
 * 在调整大小操作期间取消尝试（拆分）垃圾箱的垃圾箱计数阈值。应小于TREEIFY_THRESHOLD，并且最多6个，以便在去除时进行收缩检测。
 */
static final int UNTREEIFY_THRESHOLD = 6;

/**
 * 可以将垃圾箱树化的最小桌子容量。（否则，如果一个bin中的节点太多，则会调整表的大小。）应至少为4*TREEIFY_THRESHOLD，以避免调整大小阈值和树化阈值之间的冲突。
 */
static final int MIN_TREEIFY_CAPACITY = 64;

/**
 * 基本hash bin节点，用于大多数条目。（TreeNode子类见下文，Entry子类见LinkedHashMap。）
 */
static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;//链表的实现

    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    public final K getKey()        { return key; }
    public final V getValue()      { return value; }
    public final String toString() { return key + "=" + value; }

    public final int hashCode() {
        return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }

    public final boolean equals(Object o) {
        if (o == this)
            return true;
        if (o instanceof Map.Entry) {
            Map.Entry<?,?> e = (Map.Entry<?,?>)o;
            if (Objects.equals(key, e.getKey()) &&
                Objects.equals(value, e.getValue()))
                return true;
        }
        return false;
    }
}

new HashMap，默认无参构造，负载因子0.75

public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // 这个是0.75f
    }
    /**
     * The number of times this HashMap has been structurally modified
     * Structural modifications are those that change the number of mappings in
     * the HashMap or otherwise modify its internal structure (e.g.,
     * rehash).  This field is used to make iterators on Collection-views of
     * the HashMap fail-fast.  (See ConcurrentModificationException).
     */
    transient int modCount;//记录修改次数

put方法

//put方法
public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }
/**
 * 计算key.hashCode（）并将哈希的高位扩展（XOR）到低位。因为该表使用了两个掩码的幂，所以仅在当前掩码之上以位为单位变化的哈希集总是会发生冲突。（已知的例子包括在小表中保存连续整数的浮点键集。）因此，我们应用了一种变换，将高位的影响向下扩展。比特扩展的速度、效用和质量之间存在权衡。由于许多常见的哈希集已经合理分布（因此不会从扩展中受益），并且因为我们使用树来处理箱中的大型冲突集，所以我们只需以最便宜的方式对一些移位的比特进行异或，以减少系统损失，并将最高比特的影响纳入其中，否则由于表绑定，这些比特将永远不会用于索引计算
 */
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

首先通过hash方法，传入key计算出一个int类型的hash值。

这里为什么不直接用key.hashCode()的值呢？

key.hashCode()计算出一个hash值，然后赋值给h，h右移16位，然后两个做异或运算
计算的值右移16位，右移之前和右移之后的值进行异或^运算，得到最终的hashcode，这个最终的值时通过低位和高位一起异或运算算出来的。这样高位也参加到了计算中，高位都是0.

下面还有计算数组下标的
i = (n - 1) & hash，第一次n=16，做&运算，何为&运算，即都为1则为1。
比方15的二进制时是 0000 1111 而上面计算得到的hash值和这个做&运算，值在0-15之间。这样(n - 1) & hash计算是为了使均匀分布。0-15出现频率都差不多。hash值比较均匀，最后计算的i就比较均匀。为啥要n-1，如果16的话，做&运算得到结果就两种

然后调用putVal方法，入参事key的hash值，key，value，false，true

这里是put的核心方法

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
                   //定义tab，p，n，i，初始化一些变量
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //这里为啥不直接用table？性能问题，我们自己初始化变量是属于栈中，而table是堆中，不用每次从堆中去拿table。
        //第一次进来是null
        if ((tab = table) == null || (n = tab.length) == 0)
        //这里调用resize，初始化及扩容，第一次返回16
            n = (tab = resize()).length;//那=16
        //下面这个i是如何来的？i = (n - 1) & hash，算出数组下标，如果没有值，是null，就放到这里。
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        //如果这个位置不是null，这里就涉及到链表
        else {
        //如果这个位置上不是null，说明这个位置有东西
            Node<K,V> e; K k;
            //如果发现hash和key相等
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                //直接赋值到e，下面不会走了
                e = p;
                //如果这个位置上的是TreeNode类型
            else if (p instanceof TreeNode)
            //进行红黑树的插入
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
            //不相等，就要用到链表，这里for循环，
            //如何加？通过Node对象的next属性
                for (int binCount = 0; ; ++binCount) {
                //binCount=0，有一个节点，所以下面要8-1=7，binCount=8
                //尾插法，找到尾节点，尾节点的next==null
                    if ((e = p.next) == null) {
                    //将新的节点给到next属性，完成链表插入
                        p.next = newNode(hash, key, value, null);
                        //如果bincount的大小>=8-1=7，binCount=7，链表有8个节点，但是你自己上面newNode还新增了一个，其实现在有9个节点
                        //为啥超过8个转红黑树，这个和红黑树的性能有关
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    //如果发现链表中有相等的，也是无需做什么了，直接覆盖值
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            //如果e不是null，
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                更新value
                    e.value = value;
                afterNodeAccess(e);
                //将原来老的value返回
                return oldValue;
            }
        }
        ++modCount;
        //统计++size，hashmap大小，和域值threshold（16*0.75）比较
        //不停往集合put，如果大于12（threshold）个，就会调用resize扩容
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

    /**
     * 初始化或加倍表大小。如果为null，则根据字段阈值中的初始容量目标进行分配。否则，因为我们使用的是二次幂展开，所以每个bin中的元素必须保持在同一索引，或者在新表中以二次幂偏移量移动。
     *
     * @return the table
     */
    transient Node<K,V>[] table;
    int threshold;
    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        //一开始时null
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                     //左移1位，翻倍
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        else {               // zero initial threshold signifies using defaults
        //一开始0，走到这里执行
            newCap = DEFAULT_INITIAL_CAPACITY;//默认16（1>>4）
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);//16*0.75=12这个和扩容有关系，扩容的一个域值
        }
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;//第一次将12赋值给threshold
        @SuppressWarnings({"rawtypes","unchecked"})
        //这里开始创建Node，第一次newCap=16，这里创建出一个16大小的node数组
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        //将16给到table，table=16
        table = newTab;
        //老数组上面元素转到新数组上面去
        if (oldTab != null) {
        //遍历老数组
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                //如果老数组这个元素不是null
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    //如果为null，说明只有一个元素
                    if (e.next == null)
                    //重新计算放到新数组中
                        newTab[e.hash & (newCap - 1)] = e;
                    //判断是不是TreeNode
                    else if (e instanceof TreeNode)
                    //对TreeNode树进行拆分，转到新数组，不一定在一起。拆分后不一定还是树，这里各种情况，看节点对应的是高位还是低位。判断低位个数如果不超过6，转成链表（TreeNode转成Node）。否则还是TreeNode，然后判断高位低位，如果低位，不用动，如果有高位，说明树进行了拆分，重新生成红黑树。
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { // preserve order
                    //是个链表，将链表转到新数组上面去，扩容后重新计算hash后下标不一定还是相同的，所以不能直接转到新数组，但是扩容后下标是有规律的。只有两种情况，低位和高位
                    //哪些节点是在低位链表上面，哪些节点是在高位链表上面
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //e.hash & oldCap==0判断在低位还是高位，等于0在低位
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        //低位链表放到newTab
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        //高位链表放到newTab
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;//第一次调用的最后返回16
    }

转红黑树的方法

final void treeifyBin(Node<K,V>[] tab, int hash) {
        int n, index; Node<K,V> e;
        //MIN_TREEIFY_CAPACITY=64，判断数组长度是否小于64
        if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
            resize();
        else if ((e = tab[index = (n - 1) & hash]) != null) {
            TreeNode<K,V> hd = null, tl = null;
            do {
            //将这个链表上面的Node节点遍历变成TreeNode节点，完成转换
                TreeNode<K,V> p = replacementTreeNode(e, null);
                if (tl == null)
                    hd = p;
                else {
                //将prev也赋值，改成双向链表，方便去拿前一个节点
                    p.prev = tl;
                    tl.next = p;
                }
                tl = p;
            } while ((e = e.next) != null);
            if ((tab[index] = hd) != null)
            //将TreeNode节点转成红黑树
                hd.treeify(tab);
        }
    }

红黑树查询删除等时间复杂度都是log（n），要快一点，提升查询性能
并不是超过8就一定转成红黑树，而是还要判断数组长度，64比较，小于64扩容
为啥要判断数组长度？和扩容有关，resize扩容，将链表拆分成两个短链表。

扩容，两个地方进行扩容
一个是计算hashmap大小大于12进行扩容
一个是链表长度大于8，不一定转成红黑树，而是通过判断数组长度是否小于64进行扩容

扩容先生成新数组，再把老数组上面元素放到新数组位置上

扩容，如果是TreeNode情况

final void split(HashMap<K,V> map, Node<K,V>[] tab, int index, int bit) {
            TreeNode<K,V> b = this;
            // Relink into lo and hi lists, preserving order
            //低位
            TreeNode<K,V> loHead = null, loTail = null;
            //高位
            TreeNode<K,V> hiHead = null, hiTail = null;
            int lc = 0, hc = 0;//低位和高位数量
            for (TreeNode<K,V> e = b, next; e != null; e = next) {
                next = (TreeNode<K,V>)e.next;
                e.next = null;
                if ((e.hash & bit) == 0) {
                    if ((e.prev = loTail) == null)
                        loHead = e;
                    else
                        loTail.next = e;
                    loTail = e;
                    ++lc;
                }
                else {
                    if ((e.prev = hiTail) == null)
                        hiHead = e;
                    else
                        hiTail.next = e;
                    hiTail = e;
                    ++hc;
                }
            }
//如果低位不是null
            if (loHead != null) {
            //如果低位数量不超过6
                if (lc <= UNTREEIFY_THRESHOLD)
                //将TreeNode转成Node，转成了链表
                    tab[index] = loHead.untreeify(map);
                else {
                //如果超过，说明要用红黑树，
                    tab[index] = loHead;
                    //如果高位不是null，说明有高位，此时需要重新生成红黑树，如果没有高位，就不用走到treeify方法，用之前的就行。不需要重新再生成红黑树。
                    if (hiHead != null) // (else is already treeified)
                        loHead.treeify(tab);
                }
            }
            if (hiHead != null) {
                if (hc <= UNTREEIFY_THRESHOLD)
                    tab[index + bit] = hiHead.untreeify(map);
                else {
                    tab[index + bit] = hiHead;
                    if (loHead != null)
                        hiHead.treeify(tab);
                }
            }
        }

红黑树

根节点是黑色的；
每个叶子节点都是黑色的空节点（NIL），也就是说，叶子节点不存储数据；
任何相邻的节点都不能同时为红色，红色节点是被黑色节点隔开的；
每个节点，从该节点到达其可达叶子节点的所有路径，都包含相同数目的黑色节点

static <K,V> TreeNode<K,V> balanceInsertion(TreeNode<K,V> root,
                                                    TreeNode<K,V> x) {
            x.red = true;
            for (TreeNode<K,V> xp, xpp, xppl, xppr;;) {
            //如果是null，父节点，返回
                if ((xp = x.parent) == null) {
                    x.red = false;
                    return x;
                }
                //如果父节点是黑色，不用调整，返回root
                else if (!xp.red || (xpp = xp.parent) == null)
                    return root;
                //父节点是红色的情况，
                //父节点正好是xpp的左节点
                if (xp == (xppl = xpp.left)) {
                	//开始变色
                    if ((xppr = xpp.right) != null && xppr.red) {
                    //父节点和叔叔节点变黑，祖父节点变红，
                        xppr.red = false;
                        xp.red = false;
                        xpp.red = true;
                        //最上面节点颜色变化，再次递归，继续进行调整
                        x = xpp;
                    }
                    else {
                        if (x == xp.right) {
                            root = rotateLeft(root, x = xp);
                            xpp = (xp = x.parent) == null ? null : xp.parent;
                        }
                        if (xp != null) {
                            xp.red = false;
                            if (xpp != null) {
                                xpp.red = true;
                                root = rotateRight(root, xpp);
                            }
                        }
                    }
                }
                else {
                    if (xppl != null && xppl.red) {
                        xppl.red = false;
                        xp.red = false;
                        xpp.red = true;
                        x = xpp;
                    }
                    else {
                        if (x == xp.left) {
                            root = rotateRight(root, x = xp);
                            xpp = (xp = x.parent) == null ? null : xp.parent;
                        }
                        if (xp != null) {
                            xp.red = false;
                            if (xpp != null) {
                                xpp.red = true;
                                root = rotateLeft(root, xpp);
                            }
                        }
                    }
                }
            }
        }

HashMap为什么用红黑树

R-B Tree。它是一种不严格的平衡二叉查找树
引入RB-Tree是功能、性能、空间开销的折中结果。
红黑是用非严格的平衡来换取增删节点时候旋转次数的降低，任何不平衡都会在三次旋转之内解决，而AVL是严格平衡树，因此在增加或者删除节点的时候，根据不同情况，旋转的次数比红黑树要多。
就插入节点导致树失衡的情况，AVL和RB-Tree都是最多两次树旋转来实现复衡rebalance，旋转的量级是O(1)
删除节点导致失衡，AVL需要维护从被删除节点到根节点root这条路径上所有节点的平衡，旋转的量级为O(logN)，而RB-Tree最多只需要旋转3次实现复衡，只需O(1)，所以说RB-Tree删除节点的rebalance的效率更高，开销更小！

hashmap使用红黑树的原因是：这样可以利用链表对内存的使用率以及红黑树的高效检索，是一种很有效率的数据结构。AVL树是一种高度平衡的二叉树，所以查找的效率非常高，但是，有利就有弊，AVL树为了维持这种高度的平衡，就要付出更多代价。每次插入、删除都要做调整，复杂、耗时。对于有频繁的插入、删除操作的数据集合，使用AVL树的代价就有点高了。而且红黑树只是做到了近似平衡，并不严格的平衡，所以在维护的成本上，要比AVL树要低。所以，hashmap用红黑树。

红黑树相比avl树，在检索的时候效率其实差不多，都是通过平衡来二分查找。但对于插入删除等操作效率提高很多。红黑树不像avl树一样追求绝对的平衡，他允许局部很少的不完全平衡，这样对于效率影响不大，但省去了很多没有必要的调平衡操作，avl树调平衡有时候代价较大，所以效率不如红黑树，在现在很多地方都是底层都是红黑树的天下啦。

java8不是用红黑树来管理hashmap，而是在hash值相同的情况下（且重复数量大于8），用红黑树来管理数据。红黑树相当于排序数据，可以自动的使用二分法进行定位，性能较高。一般情况下，hash值做的比较好的话基本上用不到红黑树。

AVL树用于自平衡的计算牺牲了插入删除性能，但是因为最多只有一层的高度差，查询效率会高一些。红黑树的高度只比高度平衡的AVL树的高度（log2n）仅仅大了一倍，在性能上却好很多。

HashMap为什么要转成树？为什么阈值是8？

当链表长度不断变长，肯定会对查询性能有一定的影响，所以才需要转成树。
选择8，是根据概率统计决定。

HashMap源码里有一段注解，大概意思是：
理想情况下使用随机的哈希码，容器中节点分布在hash桶中的频率遵循泊松分布(具体可以查看http://en.wikipedia.org/wiki/Poisson_distribution)，按照泊松分布的计算公式计算出了桶中元素个数和概率的对照表，可以看到链表中元素个数为8时的概率已经非常小，再多的就更少了，所以原作者在选择链表元素个数时选择了8，是根据概率统计而选择的。
在这里插入图片描述
这里看到8的时候概率小的可怜了。

空间和时间的权衡
TreeNodes占用空间是普通Nodes的两倍，所以只有当bin包含足够多的节点时才会转成TreeNodes，而是否足够多就是由TREEIFY_THRESHOLD的值决定的。当bin中节点数变少时，又会转成普通的bin。并且我们查看源码的时候发现，链表长度达到8就转成红黑树，当长度降到6就转成普通bin。

为什么不用B+Tree

B+树在数据库中被应用的原因是其“矮胖”的特点，B+树的非叶子结点不存储数据，所以每个结点能存储的关键字更多。所以B+树更能应对大量数据的情况。Mysql就是用的B+Tree。
jdk1.7中的HashMap本来是数组+链表的形式，链表由于其查找慢的特点，所以需要被查找效率更高的树结构来替换。如果用B+树的话，在数据量不是很多的情况下，数据都会“挤在”一个结点里面。这个时候遍历效率就退化成了链表。

结论：b+树不属于二叉树，因为二叉查找树的查找效率是最高的,如果内存能装下完整的树,最好使用二叉查找树，b+树是退而求其次的方式。

所以就是根据数据量去选择，HashMap数据量不大，，没有必要用B+Tree。