HashMap面试常见的底层问题

最新推荐文章于 2024-05-11 15:54:11 发布

码畜sokach

最新推荐文章于 2024-05-11 15:54:11 发布

阅读量398

点赞数 1

分类专栏：笔记文章标签：数据结构 java

本文链接：https://blog.csdn.net/weixin_44006311/article/details/107162850

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

数据结构( HashMap就是一个插入慢、查询快的数据结构)

数组：采用一段连续的存储单元来存储数据。对于指定下标的查找，时间复杂度为O(1)；

线性链表：对于链表的新增，删除等操作（在找到指定操作位置后），仅需处理结点间的引用即可，时间复杂度为O(1)，而查找操作需要遍历链表逐一进行比对，复杂度为O(n)（ HashMap中的链表出现越少，性能才会越好。 ） 链表的节点存储的是一个 Entry 对象，每个Entry 对象存储四个属性（hash，key，value，next）

在这里插入图片描述

二叉树：对一棵相对平衡的有序二叉树，对其进行插入，查找，删除等操作，平均复杂度均为O(logn)。

工作原理

首先，初始化 HashMap，提供了有参构造和无参构造，无参构造中，容器默认的数组大小 initialCapacity 为 16，加载因子loadFactor 为0.75。容器的阈(yu)值为 initialCapacity * loadFactor，默认情况下阈值为 16 * 0.75 = 12;

我们拿 PUT 方法来做研究：

第一步：通过 HashMap 自己提供的hash 算法算出当前 key 的hash 值

第二步：通过计算出的hash 值去调用 indexFor 方法计算当前对象应该存储在数组的几号位置

第三步：判断size 是否已经达到了当前阈值，如果没有，继续；如果已经达到阈值，则先进性数组扩容，将数组长度扩容为原来的2倍。

请注意：size 是当前容器中已有 Entry 的数量，不是数组长度。

HashMap和HashTable 的异同？

二者的存储结构和解决冲突的方法都是相同的。
HashTable在不指定容量的情况下的默认容量为11，而HashMap为16，Hashtable不要求底层数组的容量一定要为2的整数次幂，而HashMap则要求一定为2的整数次幂。
HashTable 中 key和 value都不允许为 null，而HashMap中key和value都允许为 null（key只能有一个为null，而value则可以有多个为 null）。但是如果在 Hashtable中有类似 put( null, null)的操作，编译同样可以通过，因为 key和 value都是Object类型，但运行时会抛出 NullPointerException异常。
Hashtable扩容时，将容量变为原来的2倍+1，而HashMap扩容时，将容量变为原来的2倍。
Hashtable计算hash值，直接用key的hashCode()，而HashMap重新计算了key的hash值，Hashtable在计算hash值对应的位置索引时，用 %运算，而 HashMap在求位置索引时，则用 &运算。

如何优化 HashMap？

初始化 HashMap 的时候，我们可以自定义数组容量及加载因子的大小。所以，优化 HashMap 从这两个属性入手，但是，如果你不能准确的判别你的业务所需的大小，请使用默认值，否则，一旦手动配置的不合适，效果将适得其反。

threshold = (int)( capacity * loadFactor );

阈值 = 容量 X 负载因子；

初始容量默认为16,负载因子(loadFactor)默认是0.75; map扩容后，要重新计算阈值；当元素个数大于新的阈值时，map再自动扩容；以默认值为例，阈值=16*0.75=12，当元素个数大于12时就要扩容；那剩下的4个数组位置还没有放置对象就要扩容，造成空间浪费，所以要进行时间和空间的折中考虑；

loadFactor过大时，map内的数组使用率高了，内部极有可能形成Entry链，影响查找速度；

loadFactor过小时，map内的数组使用率较低低，不过内部不会生成Entry链，或者生成的Entry链很短，由此提高了查找速度，不过会占用更多的内存；所以可以根据实际硬件环境和程序的运行状态来调节loadFactor；

问题

如果两个人名字一样可咋办，查到的到底是谁的信息呢？前者信息会被覆盖吗？

da：

HashMap 中equals 相同的两个key，容器中只会保留后进来的key 的value。进入问题中即：我先存储了 Lucy的信息，后来又有一个 Lucy，这个时候再存储 Lucy，容器中保留的是第二个 Lucy 的信息，这种情况，我们可以考虑使用 List 作为 value，把相同名字的职员信息存在 list 中；或者给相同名字的职员编号，使得每个key 都是唯一的。

为什么HashMap需要加载因子？

加载因子越大，填满的元素越多，空间利用率越高，但发生冲突的机会变大了；

加载因子越小，填满的元素越少，冲突发生的机会减小，但空间浪费了更多了，而且还会提高扩容rehash操作的次数。

解决冲突有什么方法？

1. 开放定址法

1.1 线性探查法（Linear Probing）：di = 1,2,3,…,m-1

1.2 平方探测法（Quadratic Probing）：di = ±12, ±22，±32，…，±k2（k≤m/2）

2. 再哈希法

3. 链地址法（拉链法）

在这里插入图片描述

为什么加载因子一定是0.75？而不是0.8，0.6？

这个跟一个统计学里很重要的原理——泊松分布有关。

在这里插入图片描述

等号的左边，P 表示概率，N表示某种函数关系，t 表示时间，n 表示数量。等号的右边，λ 表示事件的频率。

HashMap中除了哈希算法之外，有两个参数影响了性能：初始容量和加载因子。初始容量是哈希表在创建时的容量，加载因子是哈希表在其容量自动扩容之前可以达到多满的一种度量。

在维基百科来描述加载因子：

 对于开放定址法，加载因子是特别重要因素，应严格限制在0.7-0.8以下。超过0.8，查表时的CPU缓存不命中（cache missing）按照指数曲线上升。因此，一些采用开放定址法的hash库，如Java的系统库限制了加载因子为0.75，超过此值将resize散列表。

选择0.75作为默认的加载因子，完全是时间和空间成本上寻求的一种折衷选择。

哈希冲突

然而万事无完美，如果两个不同的元素，通过哈希函数得出的实际存储地址相同怎么办？也就是说，当我们对某个元素进行哈希运算，得到一个存储地址，然后要进行插入的时候，发现已经被其他元素占用了，其实这就是所谓的哈希冲突，也叫哈希碰撞

解决方案

开放定址法（发生冲突，继续寻找下一块未被占用的存储地址），再散列函数法，链地址法，而HashMap即是采用了链地址法，也就是数组+链表的方式。

为何初始容量要是2的指数幂

原理：

h是通过k的hashCode最终计算出来的哈希值，并不是hashCode本身，而是hashCode之上又经过一层运算的hash值，length是目前容量。当容量是2^n时，h & (length -1) == h % length。（当容量不是2^n时，h & (length -1) != h % length）

这个等式实际上可以推理出来，2^n转换成二进制就是1+n个0，减1之后就是0+n个1，如16 -> 10000，15 -> 01111，那根据&位运算的规则，都为1(真)时，才为1，那0≤15运算后的结果≤15，假设h <= 15，那么运算后的结果就是h本身，h >15，运算后的结果就是最后三位二进制做&运算后的值，最终，就是%运算后的余数。（理解位运算、与运算）

static int indexFor(int h,int length){
    return h & (length - 1);
}

hashMap环形链（死锁）

环形链的形成：

主要在这扩容的过程。当多个线程同时对这个HashMap进行put操作，而察觉到内存容量不够，需要进行扩容时，多个线程会同时执行resize操作（扩容：拷贝旧的数据元素，从新新建一个更大容量的空间，然后进行数据复制）

 /**
     * Transfers all entries from current table to newTable.
     */
    void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

图解：

假设杨过的next为小龙女

小龙女的next为null

T1,T2两个线程进行操作

经过两次扩容复制,最终得到下面的结构:

在这里插入图片描述

主要问题就是多次的扩容复制将Entry中 A的next置换成了B,B的next置换成了A,(B的next原本是null)

扩容优化，如何做到无需rehash

简单说就是换一个更大的数组重新映射。下面我们讲解下JDK1.8做了哪些优化。经过观测可以发现，我们使用的是2次幂的扩展(指长度扩为原来2倍)，所以，元素的位置要么是在原位置，要么是在原位置再移动2次幂的位置（原位置+oldCap）

concurrentHashMap

1.7和1.8底层原理的实现

码畜sokach

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HashMap面试常见的底层问题

HashMap数据结构( HashMap就是一个插入慢、查询快的数据结构)数组：采用一段连续的存储单元来存储数据。对于指定下标的查找，时间复杂度为O(1)；线性链表：对于链表的新增，删除等操作（在找到指定操作位置后），仅需处理结点间的引用即可，时间复杂度为O(1)，而查找操作需要遍历链表逐一进行比对，复杂度为O(n)（ HashMap中的链表出现越少，性能才会越好。）链表的节点存储的是一个 Entry 对象，每个Entry 对象存储四个属性（hash，key，value，next）二叉树：对一
复制链接

扫一扫