六、深入理解JDK1.8中HashMap哈希冲突解决方案

最新推荐文章于 2024-04-25 18:57:53 发布

菠萝y

最新推荐文章于 2024-04-25 18:57:53 发布

阅读量2.1k

点赞数 2

分类专栏： Java集合 JAVA 文章标签： java hashmap 哈希数据结构

本文链接：https://blog.csdn.net/yueaini10000/article/details/108869022

版权

JAVA 同时被 2 个专栏收录

169 篇文章 4 订阅

订阅专栏

Java集合

9 篇文章 2 订阅

订阅专栏

导读

前面文章一、深入理解-Java集合初篇中我们对Java的集合体系进行一个简单的分析介绍，上两篇文章二、Jdk1.7和1.8中HashMap数据结构及源码分析、三、JDK1.7和1.8HashMap数据结构及源码分析-续中我们分别对JDK1.7和JDK1.8中HashMap的数据结构、主要声明变量、构造函数、HashMap的put操作方法做了深入的讲解和源码分析。
四、深入理解Java中的HashMap「网易面试快答」文章中主要针对面试中常见的面试问题进行简单解答。
五、深入理解JDK1.7中HashMap哈希冲突解决方案对JDK1.7中HashMap的哈希冲突及减少哈希冲突的解决方案做详细的介绍，并通过源码加深大家的理解。
本篇文章我们将要对JDK1.8中HashMap的哈希冲突及减少哈希冲突的解决方案做详细的介绍，并通过源码加深大家的理解。

如果大家在面试中针对Java集合或者Java中的HashMap大家还有什么疑问或者其他问题，可以评论区告诉我。

简单介绍

JDK1.7—》哈希表，链表

JDK1.8—》哈希表，链表，红黑树— JDK1.8之后，当链表长度超过8使用红黑树。

非线程安全

0.75的负载因子，扩容必须为原来的两倍。

默认大小为16，传入的初始大小必须为2的幂次方的值，如果不为也会变为2的幂次方的值。

根据HashCode存储数据。

JDK1.8的哈希冲突解决方案

hash函数是先拿到通过key 的hashcode，是32位的int值，然后让hashcode的高16位和低16位进行异或操作。

/**
     * Computes key.hashCode() and spreads (XORs) higher bits of hash
     * to lower.  Because the table uses power-of-two masking, sets of
     * hashes that vary only in bits above the current mask will
     * always collide. (Among known examples are sets of Float keys
     * holding consecutive whole numbers in small tables.)  So we
     * apply a transform that spreads the impact of higher bits
     * downward. There is a tradeoff between speed, utility, and
     * quality of bit-spreading. Because many common sets of hashes
     * are already reasonably distributed (so don't benefit from
     * spreading), and because we use trees to handle large sets of
     * collisions in bins, we just XOR some shifted bits in the
     * cheapest possible way to reduce systematic lossage, as well as
     * to incorporate impact of the highest bits that would otherwise
     * never be used in index calculations because of table bounds.
     */
    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

这个叫扰动函数，这么设计有二点原因：

一定要尽可能降低hash碰撞，越分散越好；
算法一定要尽可能高效，因为这是高频操作, 因此采用位运算；

为什么采用hashcode的高16位和低16位异或能降低hash碰撞？hash函数能不能直接用key的hashcode？

因为key.hashCode()函数调用的是key键值类型自带的哈希函数，返回int型散列值。int值范围为**-2147483648~2147483647**，前后加起来大概40亿的映射空间。只要哈希函数映射得比较均匀松散，一般应用是很难出现碰撞的。但问题是一个40亿长度的数组，内存是放不下的。你想，如果HashMap数组的初始大小才16，用之前需要对数组的长度取模运算，得到的余数才能用来访问数组下标。(来自知乎-胖君)

源码中模运算就是把散列值和数组长度-1做一个"与"操作，位运算比%运算要快。

bucketIndex = indexFor(hash, table.length);

static int indexFor(int h, int length) {
     return h & (length-1);
}

**顺便说一下，这也正好解释了为什么HashMap的数组长度要取2的整数幂。因为这样（数组长度-1）正好相当于一个“低位掩码”。“与”操作的结果就是散列值的高位全部归零，只保留低位值，用来做数组下标访问。**以初始长度16为例，16-1=15。2进制表示是00000000 00000000 00001111。和某散列值做“与”操作如下，结果就是截取了最低的四位值。

    10100101 11000100 00100101
&   00000000 00000000 00001111
----------------------------------
    00000000 00000000 00000101    //高位全部归零，只保留末四位

但这时候问题就来了，这样就算我的散列值分布再松散，要是只取最后几位的话，碰撞也会很严重。更要命的是如果散列本身做得不好，分布上成等差数列的漏洞，如果正好让最后几个低位呈现规律性重复，就无比蛋疼。

时候“扰动函数”的价值就体现出来了，说到这里大家应该猜出来了。看下面这个图：
在这里插入图片描述右位移16位，正好是32bit的一半，自己的高半区和低半区做异或，就是为了混合原始哈希码的高位和低位，以此来加大低位的随机性。而且混合后的低位掺杂了高位的部分特征，这样高位的信息也被变相保留下来。

最后我们来看一下Peter Lawley的一篇专栏文章《An introduction to optimising a hashing strategy》里的的一个实验：他随机选取了352个字符串，在他们散列值完全没有冲突的前提下，对它们做低位掩码，取数组下标。
在这里插入图片描述结果显示，**当HashMap数组长度为512的时候（2的9次方），也就是用掩码取低9位的时候，在没有扰动函数的情况下，发生了103次碰撞，接近30%。而在使用了扰动函数之后只有92次碰撞。碰撞减少了将近10%。**看来扰动函数确实还是有功效的。

另外Java1.8相比1.7做了调整，1.7做了四次移位和四次异或，但明显Java 8觉得扰动做一次就够了，做4次的话，多了可能边际效用也不大，所谓为了效率考虑就改成一次了。

1.7的hash代码：

static int hash(int h) {
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}

1.8的hash代码：

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

往期文章链接

Java集合

一、深入理解-Java集合初篇

二、Jdk1.7和1.8中HashMap数据结构及源码分析

三、JDK1.7和1.8HashMap数据结构及源码分析-续

四、深入理解Java中的HashMap「网易面试快答」

五、深入理解JDK1.7中HashMap哈希冲突解决方案
Java-IO体系

一、C10K问题经典问答
 二、java.nio.ByteBuffer用法小结
 三、Channel 通道
 四、Selector选择器
 五、Centos-Linux安装nc
六、windows环境下netcat的安装及使用
 七、IDEA的maven项目的netty包的导入（其他jar同）
八、JAVA IO/NIO
九、网络IO原理-创建ServerSocket的过程
 十、网络IO原理-彻底弄懂IO
十一、JAVA中ServerSocket调用Linux系统内核
 十二、IO进化过程之BIO
十三、Java-IO进化过程之NIO
十四、使用Selector（多路复用器）实现Netty中Reactor单线程模型
 十五、使用Selector（多路复用器）实现Netty中Reactor主从模型
 十六、Netty入门服务端代码
 十七、IO进化过程之EVENT（EPOLL-事件驱动异步模型）

如需了解更多更详细内容也可关注本人CSDN博客：不吃_花椒

Java集合还需要学习的内容

在这里插入图片描述

菠萝y

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
六、深入理解JDK1.8中HashMap哈希冲突解决方案

导读前面文章一、深入理解-Java集合初篇中我们对Java的集合体系进行一个简单的分析介绍，上两篇文章二、Jdk1.7和1.8中HashMap数据结构及源码分析、三、JDK1.7和1.8HashMap数据结构及源码分析-续中我们分别对JDK1.7和JDK1.8中HashMap的数据结构、主要声明变量、构造函数、HashMap的put操作方法做了深入的讲解和源码分析。四、深入理解Java中的HashMap「网易面试快答」文章中主要针对面试中常见的面试问题进行简单解答。五、深入理解JDK1.7中H
复制链接

扫一扫