HashMap源码分析(一)之hash方法，put方法，resize方法

最新推荐文章于 2024-05-14 00:56:54 发布

莫失莫忘hh

最新推荐文章于 2024-05-14 00:56:54 发布

阅读量686

点赞数 2

分类专栏： Java基础 hashMap源码分析文章标签： hashmap

本文链接：https://blog.csdn.net/weixin_43732955/article/details/96293040

版权

Java基础同时被 2 个专栏收录

26 篇文章 2 订阅

订阅专栏

hashMap源码分析

3 篇文章 0 订阅

订阅专栏

1、什么是HashMap

HashMap是基于hash表的一个Map接口的实现。也就是数组+链表的存储方式。、

数组特点：查找快增删慢
链表的特点：增删快查找慢
数组链表将两个特性结合了

在这里插入图片描述

哈希表、

是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。（----百度百科）

什么是hash

hash(哈希)，也称作散列就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。相同的输入值，得到的散列值一定想同，不同的输入值可能得到相同的散列值，而出现这种情况也叫碰撞。而hash算法的目标就是尽可能降低发生碰撞的概率。

在hashmap当中，存在一个hash方法，这个方法就是将Key，经过计算返回一个hash值，与数组长度取模，就能得到在HashMap中的数组的位置，用于定位。不同jdk的版本里hashmap#hash()方法，略有不同，但都是一个目的，就使得元素分布更加均匀。HashMap为了提高效率使用位运算代替哈希，这又引入了哈希分布不均匀的问题，所以HashMap为解决这问题，又对hash算法做了一些改进，进行了扰动计算。

    static final int hash(Object key) {
        int h;
        //如果key==null 返回0
       // hashCode()的高16位异或低16位实现 扰动进可能让高位与低位混合在一起
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

得到hash值之后，在put方法中是通过p = tab[i = (n - 1) & hash]，获得到数组中的位置。这其实就是对hash和数组长度进行模运算，（但是这种位运算效率更高，因为这个是二进制直接对内存进行操作，并不需要转换成十进制。）

8&（16-1）与8%16的结果相同

但是这种成立是有一个前提的也就是数组长度必须是2的整数幂。HashMap也设计的符合这种条件，因为它的初始容量是16 ，每次扩容是x2.

hashmap里面的几个常量与变量（部分）

    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默认容量16
	static final int MAXIMUM_CAPACITY = 1 << 30;		//最大容量 2的30
    static final float DEFAULT_LOAD_FACTOR = 0.75f;		//装载因子 当存储到 容量*装载因子 进行扩容
    static final int TREEIFY_THRESHOLD = 8;				// 链表转红黑树转换的 阈值
     static final int UNTREEIFY_THRESHOLD = 6;			// 红黑树转链表的的 阀值
    transient int size;									// k-v的对数
	int threshold;										//进行扩容的临界值  = DEFAULT_LOAD_FACTOR *DEFAULT_INITIAL_CAPACITY 
	static final int MIN_TREEIFY_CAPACITY = 64; 		// 结构转化为红黑树对应的数组的最小 大小，如果当前容量小于它，
														//就不会将链表转化为红黑树，而是用resize()代替

1、Hash的构造方法

     
    public HashMap() {
    // 无参数的时候  设置默认装载因子 0.75
        this.loadFactor = DEFAULT_LOAD_FACTOR;
    }
    
    // 指定初始容量 	
    public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }

	//指定初始容量 和 装载因子（推荐使用默认的）
    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        //重点 会对传入的容量进行处理 并暂时存放到扩容临界值这个变量上
        this.threshold = tableSizeFor(initialCapacity);
    }

tableSizeFor(initialCapacity)设置初始化容量

jdk，并不一定一会用我们传入值，当做初始化的容量，而是经过下列计算得到一个新的值，也就是大于等于它的最小的2的整数幂。

如；1->1、3->4、6->8、10->16

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

上面这段代码很有魅力,通过位运算，获得到大于等于它的最小2的整数幂。（因为使用位运算，是直接对内存进行操作，效率更高）。
例如我们输入的值是10

int n = cap -1 //9
n = 1001 
1001>>>1=0100
0100 | 1001 = 1101   // n |= n >>> 1;
1101>>>2 = 0011
0011 | 1101 = 1111	//      n |= n >>> 2;
//因为已经是1111了 后面的  n |= n >>> 4;n |= n >>> 8; n |= n >>> 16;不会改变数值，就不写出来了
  return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
   n + 1 = 10000   // 16

为什么cap -1
因为如果出现输入的值就是2的整数幂，那按照位操作之后，得到的会是大于它的2的帧数幂。比如输入的是 4，得大的结果就会8.这并不是我们所希望的，但是通过int n = cap -1和最后的结果n + 1。这个巧妙的操作，就能避免这种情况。
为什么一定要是2的整数幂
因为，需要符合模运算用位运算代替的条件。

2、put方法

    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

在进行put方法之前会对key先进行hash算法，求出hash值（关于hash函数上文已经介绍过）

对key的hashCode 与hashCode的高16进行位进行异或运算，目的是为了将haCode的高位和低位混合一下，进行扰动，提高散列程度降低之后与table长度进行取模发生碰撞的概率。（上文也提到过了）

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

因为在执行put操作的时候，我们要进行table.length-1&hash操作。如果不进行hashcode的hash处理 length-1的初始值是1111与hashcode进行与处理之后，会发现高位的hashcode,不会对结果产生影响。下面举一个例子，两个高位相同的hashcode与length-1进行与运算
例如：key = jack
00100000 00001111 01010100 10101001 &
00000000 00000000 00000000 00001111
00000000 00000000 00000000 00001111 = 9
key=bob
00110100 00100101 0101000 10111001&
0000000 00000000 00000000 00001111
0000000 00000000 00000000 00001111 = 9
他们与length-1进行&运算，得到的结果相同，位了能让让高位也能影响到低位，从而影响最后的结果，要进行扰动运算，h = key.hashCode()) ^ (h >>> 16。下面进行扰动运算
key = jack 进行扰动
00100000 00001111 01010100 10101001 ^
00000000 00000000 00100000 00001111
00100000 00001111 01110100 10100110
key=bob 进行扰动
00110100 00100101 01010000 10111001 ^
00000000 00000000 00110100 00100101
00110100 00100101 01100100 10010100
进行扰动之后，之前高位的不同，就影响到了低位，这样再与length-1进行&运算，得到的值就不同，避免了高位不同低位相同的hashcode的取模的时候，而产生的碰撞。

接着看put方法具体的实现

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
    	// 判断长度为0  也就是一次put 并未创建table数组对象
        if ((tab = table) == null || (n = tab.length) == 0)
            //resize()方法 返回一个 数组容量为16的Node<K,V>[] newTab
            n = (tab = resize()).length;
    	//获取改hash对应位置的数组元素并且判断是否为null
        if ((p = tab[i = (n - 1) & hash]) == null)
            //不为空，直接插入该位置
            tab[i] = newNode(hash, key, value, null);
        else {
            //否则 发生碰撞
            //p为插入位置的node节点
            Node<K,V> e; K k;
            //如果插入的key 与 存在改位置的key是同一个key
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            //如果是树形节点 也就是说已经转换成了红黑树
            else if (p instanceof TreeNode)
                //插入红黑树节点操作
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                //遍历链表 进行插入
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        //尾插入法 插入到最后一个元素的后面
                        p.next = newNode(hash, key, value, null);
                     	 //链表长度大于8 也就是存储链表的第9个元素之后
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            //红黑树转换操作
                            treeifyBin(tab, hash);
                        break;
                    }
                    //遍历过程判断是否存在相同的key 
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { //如果有存在key 与put进入的key相同
                //进行元素覆盖  相同的key的 覆盖
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                // 方法回调
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
    //达到扩容临界值
        if (++size > threshold)
            //扩容
            resize();
    	//方法回调
        afterNodeInsertion(evict);
        return null;
    }

小结一下put方法：
首先判断table是否为空，如果为null 则返回一个默认大小为16的数组
1、根据put进来的key，经过hash算法和取模，得到该key在table数组上的位置，检查该位置是否存在元素。如果没有元素，直接创建一个node节点，直接插入改位置。
2、如果该位置有元素，也即是不等于null，那么把将要新存入元素的key，与该位置元素的key，对比相同。如果相同，用vlaue，替换旧value。
如果不相等：那就要分两种情况

如果插入的数组节点是红黑树节点，那说明已经转换成了红黑树，就进行红黑树的插入操作
否则，将遍历该数组节点下的链表，将元素插入到链表的最末尾端尾插法，如果遍历过程中发现了有相同的key,那么用新value 覆盖旧的value.
链表插入完成之后，判断是否链表长度达到转换成红黑树的临界值 TREEIFY_THRESHOLD=8，如果达到，将进行将改数组节点下的链表转为红黑操作。treeifyBin(tab, hash);进入这个方法之后，需要继续验证红黑树转换的条件.

整个put完成之后，++size判断是否到达扩容的临界值threshold默认是12，如果超过，则进行扩容处理执行resize();方法

判断key的时候用到了equals()方法，如果是对象对类型当做key,那一定要同时重写hashcode和equals方法
这里将节点插入列表的尾部，也即是所谓的尾插法，这是对jdk1.7头插法的一点改进，是为了避免多线程环境下，形成循环链表

3、resize()扩容方法

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
    	// 记录旧容量
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
		// 记录旧扩容临界值
    	int oldThr = threshold;
        int newCap, newThr = 0;
    	//旧容量是否为null  如果第一次oldCap等于空
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            // 数组长度  与 临界值 都扩大为原来的两倍（用位运算，熟读更快）
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) 
            //如果通过HashMap(int initialCapacity)构造hsah的时候，把处理之后容量，暂时赋值给了threshold 
            //取出来 赋值成新容量
            newCap = oldThr;
        else {
            //默认初始化容量为 16
            newCap = DEFAULT_INITIAL_CAPACITY;
            //默认初始化扩容临界值 16*0.75 = 12
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            // 设置 自定义容量时的 扩容临界值
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
   	 //赋值操作
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
    // 创建新的 table
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
    	//如果旧数组不为空，需要将旧table里面的内容，复制到新table里面，下面就是赋值操作
        if (oldTab != null) {
            //遍历整个oldtable数组
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                //取出j的数组元素 并赋值给e  记录表头元素
                if ((e = oldTab[j]) != null) {
                    //取到i之后，里面设置为null  防止多线程环境下循环引用 这个是对jdk1.7的一个改进
                    oldTab[j] = null;
                    //如果就是单单一个节点，也就是此处没有发生冲突
                    if (e.next == null)
                        //直接放到新数组位置对应的 也同样是用位运算代替，取模运算
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                          //如果该节点是 树形节点 那么进行分割 作另外的处理【此处不做详细介绍】
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else {
                        //开始处理 发成冲突而形成的链表的  转移
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        //从表头节点e 开始循环遍历处理冲突的元素
                        do {
                            next = e.next;
                            //这是一个巧妙的设计
                            //结果为 1：那么该元素应该放在新table的新位置
                            //结果为 0：说明该元素，放在新table的位置与旧table相同 后面会做记录
                            if ((e.hash & oldCap) == 0) {
                                // 把将放在原索引处的元素 建立成新链表
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                 //把放在新索引（原索引 + oldCap）处的元素 建立新链表
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                             //把放入原索引处的链表 插入到新table中;
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                             //把放入新索引处的链表放 插入到新的table中
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

小结： resize（）方法是用来扩容的，就是当首次执行put方法，或者当添加put执行完毕后，会检查size是否大于扩容临界值，如果大于临界值，就要执行扩容操作。生成一个新的table数组，这样也就牵涉一个问题-----内容的复制。
1、当就旧的数组，只有一个元素，就是判断出它next==null，也就是说没有冲突，那就直接把该元素，该元素放置到新table里面同样索引的位置。
2、如果要复制的节点是一个红黑树型节点，进行红黑树操作，这里不做详细介绍
3、如果要复制的节点下存在冲突，也就是有链表存在。那就从头结点开始遍历，是先通过一个巧妙的运算e.hash & oldCap，这个运算的结果，只有两种 1 和 0 。用来判断该元素，在新table中索引的位置是否发生变化。

结果是：0 直接元素存放在 newtable[ j ]
结果是：1 存放在newtable[ j+oldCap ]

可以用数据验证一样，其实就是判断最高位是否有1 有1那就代表大于原来oldCap 所以存放在新table里的索引不需要变化

根据判断，遍历节点创建需要换动索引的链表，已经不需要换动索引位置的链表。然后插入到新table中对应的位置。

莫失莫忘hh

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
HashMap源码分析(一)之hash方法，put方法，resize方法

1、什么是HashMapHashMap是基于hash表的一个Map接口的实现。也就是数组+链表的存储方式。、数组特点：查找快增删慢链表的特点：增删快查找慢数组链表将两个特性结合了哈希表、是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列...
复制链接

扫一扫