Set集合的去重原理

xiaoshitou_2015

已于 2023-03-31 21:20:57 修改

阅读量1.3k

点赞数

文章标签： java

于 2023-03-31 20:27:25 首次发布

本文链接：https://blog.csdn.net/xiaoshitou_2015/article/details/129887523

版权

HashSet

1. 集合添加的元素是String类型时

import java.util.HashSet;

public class demo1 {
    public static void main(String[] args) {
        HashSet<String> set1 = new HashSet<>();
        set1.add("hello");
        set1.add("java");
        set1.add("hive");
        set1.add("flume");
        set1.add("hello");
        set1.add("hive");

        for(String s : set1){
            System.out.println(s);
        }

    }
}

结果为

hive

java

flume

hello

会发现这里成功的去重了，元素是唯一且无序的

2. 集合添加的元素是自定义对象时

import java.util.HashSet;

public class demo2 {
    public static void main(String[] args) {
        HashSet<Student> set = new HashSet<>();

        Student s1 = new Student("zhang",12);
        Student s2 = new Student("chen",20);
        Student s3 = new Student("cao",60);
        Student s4 = new Student("zhang",12);

        set.add(s1);
        set.add(s2);
        set.add(s3);
        set.add(s4);

        for(Student s : set){
            System.out.println(s.getName()+"---"+s.getAge());
        }
    }
}

结果为:

cao---60
chen---20
zhang---12

zhang---12

发现并没有去重，Student类的对象s1和s4是一样的属性值，但是都添加到了Set集合中，这就发生了错误

3. 查看相关的源码

那么，就要来说一说Set集合的去重原理了
查看源码我们可以发现，HashSet其实是调用了map集合中的put方法来保证元素不会重复

public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }

再点进去查看put方法

public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

会发现这里面又调用了putVal方法和hash方法，那么现在把这些方法放在一起来看看

public class HashMap<K,V> implements Map<K,V>{
	//hash()方法是计算元素的哈希值，它底层是hashCode()方法
    static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); 
    }

    //Set集合实现去重，底层调用的是HashMap中的put()方法，而put方法调用的是HashMap中的putVal()方法 
    public V put(K key, V value) {//"hello"
        return putVal(hash(key), key, value, false, true);
    }

	//putVal方法
    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
        //哈希表存储的是一个个的结点数组
        Node<K,V>[] tab; Node<K,V> p; int n, i;

        //判断哈希表是否初始化，如果没有初始化，则扩容
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;

        /*
        	根据元素之前计算得出的哈希值，计算该元素在哈希表中的存储位置
        	如果该位置是null，表示为空，可以创建新的节点，存储元素
        */
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);

        else {
            Node<K,V> e; K k;

		/*
			如果元素存储位置不为空，也就是已经有元素了，则会进行比较
			hashcode && equals 比较去重
		*/
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }
}

简单来说，Set集合实现去重的原理是

先看元素的HashCode()值也就是哈希值是否相同，再看equals方法返回的结果

如果哈希值不同，则说明元素不相同，将元素添加到集合中

如果哈希值相同，则继续判断equals方法, 返回true则存入, false则丢弃

4. 自定义类重写equals与hashcode方法

那么现在回过头来看上面的Set集合例子，传入自定义类的对象时，因为类里面没有重写equals方法和hashcode方法，导致Set集合无法正确判断两个元素是否相同，因此没有去重成功

那为什么传入的元素是String类型时，可以去重呢？

因为不同的字符串的哈希值不相同，而对于相同哈希值的字符串，String类中已经重写了equals方法，因此可以正确判断两个String类型元素是否相同。

那么现在，就来重写类里面的equals方法和hashcode方法

package review.SetDemo;

import java.util.Objects;

public class Student{
    private String name;
    private int age;

    public Student() {
    }

    public Student(String name, int age) {
        this.name = name;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }

    @Override
    public String toString() {
        return "Student{" +
                "name='" + name + '\'' +
                ", age=" + age +
                '}';
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        Student student = (Student) o;
        return age == student.age &&
                Objects.equals(name, student.name);
    }

    @Override
    public int hashCode() {

        return Objects.hash(name, age);
    }
}

运行结果: 成功去重

cao---60

chen---20

zhang---12

LinkedHashSet 存储字符串元素的原理图

这里是哈希表与链表相结合的存储方式, 可以保证元素插入和取出顺序

创建6个字符串, 存入链表中, 先进去的在上面, 后进去的在下面
当第一个字符串'hello'进入哈希表时,hashcode%size=2, 存table[2]中
当第二个字符串'world'进入哈希表时,hashcode%size=2, 此时table[2]节点已经有值, hashcode && equals比较是否挂载

TreeSet

TreeSet中存放的元素是有序的（不是按照插入顺序，是按照关键字大小排序）且元素不能重复。
而如何实现有序存储，就需要有一个比较器，其实说起来，TreeSet更受关注的是不重复且有序，这个有序就需要有一个compare的过程，因此会需要参数实现Comparable接口。

public TreeSet(Comparator<? super E> comparator) {
    this(new TreeMap<>(comparator));
}

如果没有传比较器, 则按照自然顺序排序

思考

不知道有没有发现

hashset基于hashmap实现, 只是一个是单列, 一个是双列;

同理linkhashset基于linkhashmap实现, treeset基于treemap实现

本文参考: Java笔记 —— Set集合的去重原理(源码分析)_java set去重原理_一纸春秋的博客-CSDN博客

xiaoshitou_2015

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Set集合的去重原理

那么现在回过头来看上面的Set集合例子，传入自定义类的对象时，因为类里面没有重写equals方法和hashcode方法，导致Set集合无法正确判断两个元素是否相同，因此没有去重成功那为什么传入的元素是String类型时，可以去重呢？因为不同的字符串的哈希值不相同，而对于相同哈希值的字符串，String类中已经重写了equals方法，因此可以正确判断两个String类型元素是否相同。那么现在，就来重写类里面的equals方法和hashcode方法。
复制链接

扫一扫