一、什么是哈希表
简单来讲,hashmap通过使用数组、线性链表、二叉树(红黑树)等实现的一种存储形式,在哈希表中进行添加、删除、查找等操作性能十分高,不考虑哈希冲突的情况下,仅需一次定位即可完成,时间复杂度为O(1)。
二、hashmap
数据结构的存储结构只有两种(顺序存储结构(数组)和链式存储结构(链表)),在数组中,根据下标查找某个元素时,一次定位就可以达到,哈希表利用了这个特性,哈希表的主干就是数组。
比如我们要新增或查找某个元素,我们通过把当前元素的关键字 通过某个函数映射到数组中的某个位置,通过数组下标一次定位就可完成操作。
这个函数可以描述为 存储位置 = f(关键字),这个函数f一般称为哈希函数。在新增一个值的时候,我们通过哈希函数得到这个值插入的具体位置,同理,在查找的时候,我们也可以通过哈希函数进行。
但是问题来了,如果哈希函数设计的足够好的话,那么根据不同元素得到的都是不同的位置,但是如果插入的两个不同的元素,通过哈希函数计算之后,得到的存储位置却是相同的,这就造成了错误,这也就是哈希冲突,解决哈希冲突的方法有:开放定址法(发生冲突,继续寻找下一块未被占用的存储地址),再散列函数法,链地址法,而HashMap即是采用了链地址法,也就是数组+链表的方式。
三、实现原理
HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元,每一个Entry包含一个key-value键值对。
//HashMap的主干数组,可以看到就是一个Entry数组,初始值为空数组{},主干数组的长度一定是2的次幂。
//至于为什么这么做,后面会有详细分析。
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
static class Entry<K,V> implements Map.Entry<K,V> {
final K key;
V value;
Entry<K,V> next; //存储指向下一个Entry的引用,单链表结构
int hash; //对key的hashcode值进行hash运算后得到的值,存储在Entry,避免重复计算
Entry(int h, K k, V v, Entry<K,V> n) {
value = v;
next = n;
key = k;
hash = h;
}
hashmap的总体结构就是数组加链表,结构如下(图来自其它博主)
数组是hashmap的主体,链表越少,查找、添加的速度越快。
HashMap有4个构造器,分别是
HashMap(int initialCapacity, float loadFactor)
HashMap(int initialCapacity)
HashMap()
HashMap(Map<? extends K, ? extends V> m)
代码中运用了大量的位移等来进行操作,比如
HashMap(int initialCapacity, float loadFactor)构造器
//initialCapacity为初始容量 loadFactor为负载系数
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
// 返回一个比cap大的二的幂 比如输入3,输出2^2, 5--> 2^3 这里的2的次幂是为了重哈希的时候方便保持新老数组索引的一致性
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
//如果量小于0就返回1,如果大于限定值则返回限定值,否则返回n+1
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
重要字段
/**实际存储的key-value键值对的个数*/
transient int size;
/**阈值,当table == {}时,该值为初始容量(初始容量默认为16);当table被填充了,也就是为table分配内存空间后,
threshold一般为 capacity*loadFactory。HashMap在进行扩容时需要参考threshold,后面会详细谈到*/
int threshold;
/**负载因子,代表了table的填充度有多少,默认是0.75
加载因子存在的原因,还是因为减缓哈希冲突,如果初始桶为16,等到满16个元素才扩容,某些桶里可能就有不止一个元素了。
所以加载因子默认为0.75,也就是说大小为16的HashMap,到了第13个元素,就会扩容成32。
*/
final float loadFactor;
/**HashMap被改变的次数,由于HashMap非线程安全,在对HashMap进行迭代时,
如果期间其他线程的参与导致HashMap的结构发生变化了(比如put,remove等操作),
需要抛出异常ConcurrentModificationException*/
transient int modCount;