1、什么是HashMap
HashMap
是基于hash表
的一个Map接口的实现。也就是数组+链表的存储方式。、
数组特点:查找快 增删 慢
链表的特点: 增删快 查找慢
数组链表将两个特性结合了
哈希表、
是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。(----百度百科)
什么是hash
hash(哈希),也称作散列 就是把任意长度的输入,通过散列算法,变换成固定长度的输出,该输出就是散列值。相同的输入值,得到的散列值一定想同,不同的输入值可能得到相同的散列值,而出现这种情况也叫碰撞。而hash算法的目标就是尽可能降低发生碰撞的概率。
在hashmap
当中,存在一个hash
方法,这个方法就是将Key,经过计算 返回一个hash值,与数组长度取模,就能得到在HashMap中的数组的位置,用于定位。不同jdk的版本里hashmap#hash()
方法,略有不同,但都是一个目的,就使得元素分布更加均匀。HashMap为了提高效率使用位运算代替哈希,这又引入了哈希分布不均匀的问题,所以HashMap为解决这问题,又对hash算法做了一些改进,进行了扰动计算。
static final int hash(Object key) {
int h;
//如果key==null 返回0
// hashCode()的高16位异或低16位实现 扰动进可能让高位与低位混合在一起
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
得到hash
值之后,在put
方法中是通过p = tab[i = (n - 1) & hash]
,获得到数组中的位置。这其实就是对hash和数组长度进行模运算,(但是这种位运算效率更高,因为这个是二进制直接对内存进行操作,并不需要转换成十进制。)
8&(16-1) 与8%16的结果相同
但是这种成立是有一个前提的 也就是数组长度必须是2的整数幂。HashMap
也设计的符合这种条件,因为它的初始容量是16
,每次扩容是x2.
hashmap里面的几个常量与变量(部分)
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 默认容量16
static final int MAXIMUM_CAPACITY = 1 << 30; //最大容量 2的30
static final float DEFAULT_LOAD_FACTOR = 0.75f; //装载因子 当存储到 容量*装载因子 进行扩容
static final int TREEIFY_THRESHOLD = 8; // 链表转红黑树转换的 阈值
static final int UNTREEIFY_THRESHOLD = 6; // 红黑树转链表的的 阀值
transient int size; // k-v的对数
int threshold; //进行扩容的临界值 = DEFAULT_LOAD_FACTOR *DEFAULT_INITIAL_CAPACITY
static final int MIN_TREEIFY_CAPACITY = 64; // 结构转化为红黑树对应的数组的最小 大小,如果当前容量小于它,
//就不会将链表转化为红黑树,而是用resize()代替
1、Hash的构造方法
public HashMap() {
// 无参数的时候 设置默认装载因子 0.75
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
// 指定初始容量
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//指定初始容量 和 装载因子(推荐使用默认的)
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
//重点 会对传入的容量进行处理 并暂时存放到扩容临界值这个变量上
this.threshold = tableSizeFor(initialCapacity);
}
tableSizeFor(initialCapacity)设置初始化容量
jdk,并不一定一会用我们传入值,当做初始化的容量,而是经过下列计算得到一个新的值,也就是大于等于它的最小的2的整数幂。
如;1->1、3->4、6->8、10->16
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
上面这段代码很有魅力
,通过位运算 ,获得到大于等于它的最小2的整数幂。(因为使用位运算,是直接对内存进行操作,效率更高)。
例如我们输入的值是10
int n = cap -1 //9
n = 1001
1001>>>1=0100
0100 | 1001 = 1101 // n |= n >>> 1;
1101>>>2 = 0011
0011 | 1101 = 1111 // n |= n >>> 2;
//因为已经是1111了 后面的 n |= n >>> 4;n |= n >>> 8; n |= n >>> 16;不会改变数值,就不写出来了
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
n + 1 = 10000 // 16
为什么cap -1
因为 如果出现输入的值就是2的整数幂,那按照位操作之后,得到的会是 大于它的2的帧数幂 。比如输入的是 4,得大的结果就会8.这并不是我们所希望的,但是通过int n = cap -1
和最后的结果n + 1
。这个巧妙的操作,就能避免这种情况。
为什么一定要是2的整数幂
因为,需要符合模运算 用位运算代替的条件。
2、put方法
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
在进行put方法之前会对key先进行hash算法,求出hash值(关于hash函数上文已经介绍过)
对key的hashCode 与hashCode的高16进行位进行 异或运算,目的是为了将haCode的高位和低位混合一下,进行扰动,提高散列程度降低之后与table长度进行取模 发生碰撞的概率。(上文也提到过了)
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
因为在执行put操作的时候,我们要进行table.length-1&hash操作。如果不进行hashcode的hash处理 length-1的初始值是1111与hashcode进行与处理之后,会发现 高位的hashcode,不会对结果产生影响。下面举一个例子,两个高位相同的hashcode与length-1进行与运算
例如:key = jack
00100000 00001111 01010100 10101001
&
00000000 00000000 00000000 00001111
00000000 00000000 00000000 00001111
= 9
key=bob
00110100 00100101 0101000 10111001
&
0000000 00000000 00000000 00001111
0000000 00000000 00000000 00001111
= 9
他们与length-1进行&运算,得到的结果相同 ,位了能让让高位也能影响到低位,从而影响最后的结果,要进行扰动运算,h = key.hashCode()) ^ (h >>> 16
。下面进行扰动运算
key = jack
进行扰动
00100000 00001111 01010100 10101001
^
00000000 00000000 00100000 00001111
00100000 00001111 01110100 10100110
key=bob
进行扰动
00110100 00100101 01010000 10111001
^
00000000 00000000 00110100 00100101
00110100 00100101 01100100 10010100
进行扰动之后,之前高位的不同,就影响到了低位,这样再与length-1进行&运算,得到的值就不同,避免了高位不同低位相同的hashcode的取模的时候,而产生的碰撞。
接着看put方法具体的实现
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
// 判断长度为0 也就是一次put 并未创建table数组对象
if ((tab = table) == null || (n = tab.length) == 0)
//resize()方法 返回一个 数组容量为16的Node<K,V>[] newTab
n = (tab = resize()).length;
//获取改hash对应位置的数组元素并且判断是否为null
if ((p = tab[i = (n - 1) & hash]) == null)
//不为空,直接插入该位置
tab[i] = newNode(hash, key, value, null);
else {
//否则 发生碰撞
//p为插入位置的node节点
Node<K,V> e; K k;
//如果插入的key 与 存在改位置的key是同一个key
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//如果是树形节点 也就是说已经转换成了红黑树
else if (p instanceof TreeNode)
//插入红黑树节点操作
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
//遍历链表 进行插入
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
//尾插入法 插入到最后一个元素的后面
p.next = newNode(hash, key, value, null);
//链表长度大于8 也就是存储链表的第9个元素之后
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//红黑树转换操作
treeifyBin(tab, hash);
break;
}
//遍历过程判断是否存在相同的key
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { //如果有存在key 与put进入的key相同
//进行元素覆盖 相同的key的 覆盖
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
// 方法回调
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
//达到扩容临界值
if (++size > threshold)
//扩容
resize();
//方法回调
afterNodeInsertion(evict);
return null;
}
小结一下put方法:
首先判断table
是否为空,如果为null 则返回一个默认大小为16的数组
1、根据put进来的key,经过hash算法和取模,得到该key在table数组上的位置,检查该位置是否存在元素。如果没有元素,直接创建一个node节点,直接插入改位置。
2、如果该位置有元素,也即是不等于null,那么把将要新存入元素的key
,与该位置元素的key,对比相同。如果相同,用vlaue,替换旧value。
如果不相等:那就要分两种情况
- 如果插入的数组节点是红黑树节点,那说明已经转换成了红黑树,就进行红黑树的插入操作
- 否则,将遍历该数组节点下的链表,将元素插入到链表的最末尾端
尾插法
,如果遍历过程中发现了有相同的key,那么用新value 覆盖旧的value. - 链表插入完成之后,判断是否链表长度达到转换成红黑树的临界值
TREEIFY_THRESHOLD=8
,如果达到,将进行将改数组节点下的链表转为红黑操作。treeifyBin(tab, hash);
进入这个方法之后,需要继续验证红黑树转换的条件.
整个put完成之后,++size
判断是否到达扩容的临界值threshold
默认是12,如果超过,则进行扩容处理执行resize();
方法
判断key的时候用到了equals()方法,如果是对象对类型当做key,那一定要同时重写hashcode和equals方法
这里将节点插入列表的尾部,也即是所谓的尾插法,这是对jdk1.7头插法的一点改进,是为了避免多线程环境下,形成循环链表
3、resize()扩容方法
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
// 记录旧容量
int oldCap = (oldTab == null) ? 0 : oldTab.length;
// 记录旧扩容临界值
int oldThr = threshold;
int newCap, newThr = 0;
//旧容量是否为null 如果第一次oldCap等于空
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
// 数组长度 与 临界值 都扩大为原来的两倍(用位运算,熟读更快)
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0)
//如果通过HashMap(int initialCapacity)构造hsah的时候,把处理之后容量,暂时赋值给了threshold
//取出来 赋值成新容量
newCap = oldThr;
else {
//默认初始化容量为 16
newCap = DEFAULT_INITIAL_CAPACITY;
//默认初始化扩容临界值 16*0.75 = 12
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
// 设置 自定义容量时的 扩容临界值
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//赋值操作
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
// 创建新的 table
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
//如果旧数组不为空,需要将旧table里面的内容,复制到新table里面,下面就是赋值操作
if (oldTab != null) {
//遍历整个oldtable数组
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
//取出j的数组元素 并赋值给e 记录表头元素
if ((e = oldTab[j]) != null) {
//取到i之后,里面设置为null 防止多线程环境下循环引用 这个是对jdk1.7的一个改进
oldTab[j] = null;
//如果就是单单一个节点,也就是此处没有发生冲突
if (e.next == null)
//直接放到新数组位置对应的 也同样是用位运算代替,取模运算
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
//如果该节点是 树形节点 那么进行分割 作另外的处理【此处不做详细介绍】
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else {
//开始处理 发成冲突而形成的链表的 转移
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
//从表头节点e 开始循环遍历处理冲突的元素
do {
next = e.next;
//这是一个巧妙的设计
//结果为 1:那么该元素应该放在新table的新位置
//结果为 0:说明该元素,放在新table的位置与旧table相同 后面会做记录
if ((e.hash & oldCap) == 0) {
// 把将放在原索引处的元素 建立成新链表
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
//把放在新索引(原索引 + oldCap)处的元素 建立新链表
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
//把放入原索引处的链表 插入到新table中;
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
//把放入新索引处的链表放 插入到新的table中
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
小结: resize()
方法是用来扩容的,就是当首次执行put
方法,或者当添加put
执行完毕后,会检查size
是否大于扩容临界值
,如果大于临界值,就要执行扩容操作。生成一个新的table数组,这样也就牵涉一个问题-----内容的复制。
1、当就旧的数组,只有一个元素,就是判断出它next==null
,也就是说没有冲突,那就直接把该元素,该元素放置到新table里面同样索引的位置。
2、如果要复制的节点 是一个红黑树型节点
,进行红黑树操作,这里不做详细介绍
3、如果要复制的节点下存在冲突,也就是有链表存在。那就从头结点开始遍历,是先通过一个巧妙的运算e.hash & oldCap
,这个运算的结果,只有两种 1 和 0 。用来判断该元素,在新table中索引的位置是否发生变化。
- 结果是:
0
直接元素存放在 newtable[ j ] - 结果是:
1
存放在newtable[ j+oldCap ]
可以用数据验证一样,其实就是判断最高位是否有1 有1那就代表大于原来oldCap 所以存放在新table里的索引不需要变化
根据判断,遍历节点 创建需要换动索引的链表,已经不需要换动索引位置的链表。然后插入到新table中对应的位置。