HashMap源码分析(一)之hash方法,put方法,resize方法

1、什么是HashMap

HashMap是基于hash表的一个Map接口的实现。也就是数组+链表的存储方式。、

数组特点:查找快 增删 慢
链表的特点: 增删快 查找慢
数组链表将两个特性结合了

在这里插入图片描述

哈希表、

是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。(----百度百科)

什么是hash

hash(哈希),也称作散列 就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值。相同的输入值,得到的散列值一定想同,不同的输入值可能得到相同的散列值,而出现这种情况也叫碰撞。而hash算法的目标就是尽可能降低发生碰撞的概率。

hashmap当中,存在一个hash方法,这个方法就是将Key,经过计算 返回一个hash值,与数组长度取模,就能得到在HashMap中的数组的位置,用于定位。不同jdk的版本里hashmap#hash()方法,略有不同,但都是一个目的,就使得元素分布更加均匀。HashMap为了提高效率使用位运算代替哈希,这又引入了哈希分布不均匀的问题,所以HashMap为解决这问题,又对hash算法做了一些改进,进行了扰动计算。

    static final int hash(Object key) {
        int h;
        //如果key==null 返回0
       // hashCode()的高16位异或低16位实现 扰动进可能让高位与低位混合在一起
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

得到hash值之后,在put方法中是通过p = tab[i = (n - 1) & hash],获得到数组中的位置。这其实就是对hash和数组长度进行模运算,(但是这种位运算效率更高,因为这个是二进制直接对内存进行操作,并不需要转换成十进制。)

8&(16-1) 与8%16的结果相同

但是这种成立是有一个前提的 也就是数组长度必须是2的整数幂HashMap也设计的符合这种条件,因为它的初始容量是16 ,每次扩容是x2.

hashmap里面的几个常量与变量(部分)

    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默认容量16
	static final int MAXIMUM_CAPACITY = 1 << 30;		//最大容量 2的30
    static final float DEFAULT_LOAD_FACTOR = 0.75f;		//装载因子 当存储到 容量*装载因子 进行扩容
    static final int TREEIFY_THRESHOLD = 8;				// 链表转红黑树转换的 阈值
     static final int UNTREEIFY_THRESHOLD = 6;			// 红黑树转链表的的 阀值
    transient int size;									// k-v的对数
	int threshold;										//进行扩容的临界值  = DEFAULT_LOAD_FACTOR *DEFAULT_INITIAL_CAPACITY 
	static final int MIN_TREEIFY_CAPACITY = 64; 		// 结构转化为红黑树对应的数组的最小 大小,如果当前容量小于它,
														//就不会将链表转化为红黑树,而是用resize()代替

1、Hash的构造方法

     
    public HashMap() {
    // 无参数的时候  设置默认装载因子 0.75
        this.loadFactor = DEFAULT_LOAD_FACTOR;
    }
    
    // 指定初始容量 	
    public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }

	//指定初始容量 和 装载因子(推荐使用默认的)
    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        //重点 会对传入的容量进行处理 并暂时存放到扩容临界值这个变量上
        this.threshold = tableSizeFor(initialCapacity);
    }

tableSizeFor(initialCapacity)设置初始化容量

jdk,并不一定一会用我们传入值,当做初始化的容量,而是经过下列计算得到一个新的值,也就是大于等于它的最小的2的整数幂。

如;1->1、3->4、6->8、10->16

    static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

上面这段代码很有魅力,通过位运算 ,获得到大于等于它的最小2的整数幂。(因为使用位运算,是直接对内存进行操作,效率更高)。
例如我们输入的值是10

int n = cap -1 //9
n = 1001 
1001>>>1=0100
0100 | 1001 = 1101   // n |= n >>> 1;
1101>>>2 = 0011
0011 | 1101 = 1111	//      n |= n >>> 2;
//因为已经是1111了 后面的  n |= n >>> 4;n |= n >>> 8; n |= n >>> 16;不会改变数值,就不写出来了
  return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
   n + 1 = 10000   // 16

为什么cap -1
因为 如果出现输入的值就是2的整数幂,那按照位操作之后,得到的会是 大于它的2的帧数幂 。比如输入的是 4,得大的结果就会8.这并不是我们所希望的,但是通过int n = cap -1和最后的结果n + 1。这个巧妙的操作,就能避免这种情况。
为什么一定要是2的整数幂
因为,需要符合模运算 用位运算代替的条件。

2、put方法

    public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

在进行put方法之前会对key先进行hash算法,求出hash值(关于hash函数上文已经介绍过)

对key的hashCode 与hashCode的高16进行位进行 异或运算,目的是为了将haCode的高位和低位混合一下,进行扰动,提高散列程度降低之后与table长度进行取模 发生碰撞的概率。(上文也提到过了)

    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

因为在执行put操作的时候,我们要进行table.length-1&hash操作。如果不进行hashcode的hash处理 length-1的初始值是1111与hashcode进行与处理之后,会发现 高位的hashcode,不会对结果产生影响。下面举一个例子,两个高位相同的hashcode与length-1进行与运算
例如:key = jack
00100000 00001111 01010100 10101001 &
00000000 00000000 00000000 00001111
00000000 00000000 00000000 00001111 = 9
key=bob
00110100 00100101 0101000 10111001&
0000000 00000000 00000000 00001111
0000000 00000000 00000000 00001111 = 9
他们与length-1进行&运算,得到的结果相同 ,位了能让让高位也能影响到低位,从而影响最后的结果,要进行扰动运算,h = key.hashCode()) ^ (h >>> 16下面进行扰动运算
key = jack 进行扰动
00100000 00001111 01010100 10101001 ^
00000000 00000000 00100000 00001111
00100000 00001111 01110100 10100110
key=bob 进行扰动
00110100 00100101 01010000 10111001 ^
00000000 00000000 00110100 00100101
00110100 00100101 01100100 10010100
进行扰动之后,之前高位的不同,就影响到了低位,这样再与length-1进行&运算,得到的值就不同,避免了高位不同低位相同的hashcode的取模的时候,而产生的碰撞。


接着看put方法具体的实现

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
    	// 判断长度为0  也就是一次put 并未创建table数组对象
        if ((tab = table) == null || (n = tab.length) == 0)
            //resize()方法 返回一个 数组容量为16的Node<K,V>[] newTab
            n = (tab = resize()).length;
    	//获取改hash对应位置的数组元素并且判断是否为null
        if ((p = tab[i = (n - 1) & hash]) == null)
            //不为空,直接插入该位置
            tab[i] = newNode(hash, key, value, null);
        else {
            //否则 发生碰撞
            //p为插入位置的node节点
            Node<K,V> e; K k;
            //如果插入的key 与 存在改位置的key是同一个key
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            //如果是树形节点 也就是说已经转换成了红黑树
            else if (p instanceof TreeNode)
                //插入红黑树节点操作
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                //遍历链表 进行插入
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        //尾插入法 插入到最后一个元素的后面
                        p.next = newNode(hash, key, value, null);
                     	 //链表长度大于8 也就是存储链表的第9个元素之后
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            //红黑树转换操作
                            treeifyBin(tab, hash);
                        break;
                    }
                    //遍历过程判断是否存在相同的key 
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { //如果有存在key 与put进入的key相同
                //进行元素覆盖  相同的key的 覆盖
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                // 方法回调
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
    //达到扩容临界值
        if (++size > threshold)
            //扩容
            resize();
    	//方法回调
        afterNodeInsertion(evict);
        return null;
    }

小结一下put方法:
首先判断table是否为空,如果为null 则返回一个默认大小为16的数组
1、根据put进来的key,经过hash算法和取模,得到该key在table数组上的位置,检查该位置是否存在元素。如果没有元素,直接创建一个node节点,直接插入改位置。
2、如果该位置有元素,也即是不等于null,那么把将要新存入元素的key,与该位置元素的key,对比相同。如果相同,用vlaue,替换旧value。
如果不相等:那就要分两种情况

  • 如果插入的数组节点是红黑树节点,那说明已经转换成了红黑树,就进行红黑树的插入操作
  • 否则,将遍历该数组节点下的链表,将元素插入到链表的最末尾端尾插法,如果遍历过程中发现了有相同的key,那么用新value 覆盖旧的value.
  • 链表插入完成之后,判断是否链表长度达到转换成红黑树的临界值 TREEIFY_THRESHOLD=8,如果达到,将进行将改数组节点下的链表转为红黑操作。treeifyBin(tab, hash);进入这个方法之后,需要继续验证红黑树转换的条件.

整个put完成之后,++size判断是否到达扩容的临界值threshold默认是12,如果超过,则进行扩容处理执行resize();方法

判断key的时候用到了equals()方法,如果是对象对类型当做key,那一定要同时重写hashcode和equals方法
这里将节点插入列表的尾部,也即是所谓的尾插法,这是对jdk1.7头插法的一点改进,是为了避免多线程环境下,形成循环链表

3、resize()扩容方法

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
    	// 记录旧容量
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
		// 记录旧扩容临界值
    	int oldThr = threshold;
        int newCap, newThr = 0;
    	//旧容量是否为null  如果第一次oldCap等于空
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            // 数组长度  与 临界值 都扩大为原来的两倍(用位运算,熟读更快)
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) 
            //如果通过HashMap(int initialCapacity)构造hsah的时候,把处理之后容量,暂时赋值给了threshold 
            //取出来 赋值成新容量
            newCap = oldThr;
        else {
            //默认初始化容量为 16
            newCap = DEFAULT_INITIAL_CAPACITY;
            //默认初始化扩容临界值 16*0.75 = 12
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        if (newThr == 0) {
            // 设置 自定义容量时的 扩容临界值
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
   	 //赋值操作
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
    // 创建新的 table
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
    	//如果旧数组不为空,需要将旧table里面的内容,复制到新table里面,下面就是赋值操作
        if (oldTab != null) {
            //遍历整个oldtable数组
            for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                //取出j的数组元素 并赋值给e  记录表头元素
                if ((e = oldTab[j]) != null) {
                    //取到i之后,里面设置为null  防止多线程环境下循环引用 这个是对jdk1.7的一个改进
                    oldTab[j] = null;
                    //如果就是单单一个节点,也就是此处没有发生冲突
                    if (e.next == null)
                        //直接放到新数组位置对应的 也同样是用位运算代替,取模运算
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)
                          //如果该节点是 树形节点 那么进行分割 作另外的处理【此处不做详细介绍】
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else {
                        //开始处理 发成冲突而形成的链表的  转移
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        //从表头节点e 开始循环遍历处理冲突的元素
                        do {
                            next = e.next;
                            //这是一个巧妙的设计
                            //结果为 1:那么该元素应该放在新table的新位置
                            //结果为 0:说明该元素,放在新table的位置与旧table相同 后面会做记录
                            if ((e.hash & oldCap) == 0) {
                                // 把将放在原索引处的元素 建立成新链表
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                 //把放在新索引(原索引 + oldCap)处的元素 建立新链表
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                             //把放入原索引处的链表 插入到新table中;
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                             //把放入新索引处的链表放 插入到新的table中
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

小结: resize()方法是用来扩容的,就是当首次执行put方法,或者当添加put执行完毕后,会检查size是否大于扩容临界值,如果大于临界值,就要执行扩容操作。生成一个新的table数组,这样也就牵涉一个问题-----内容的复制。
1、当就旧的数组,只有一个元素,就是判断出它next==null,也就是说没有冲突,那就直接把该元素,该元素放置到新table里面同样索引的位置。
2、如果要复制的节点 是一个红黑树型节点,进行红黑树操作,这里不做详细介绍
3、如果要复制的节点下存在冲突,也就是有链表存在。那就从头结点开始遍历,是先通过一个巧妙的运算e.hash & oldCap,这个运算的结果,只有两种 1 和 0 。用来判断该元素,在新table中索引的位置是否发生变化。

  • 结果是:0 直接元素存放在 newtable[ j ]
  • 结果是:1 存放在newtable[ j+oldCap ]

可以用数据验证一样,其实就是判断最高位是否有1 有1那就代表大于原来oldCap 所以存放在新table里的索引不需要变化

根据判断,遍历节点 创建需要换动索引的链表,已经不需要换动索引位置的链表。然后插入到新table中对应的位置。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值