并查集

最新推荐文章于 2024-09-11 01:30:06 发布

Dave888Zhou

最新推荐文章于 2024-09-11 01:30:06 发布

阅读量1.6k

点赞数

分类专栏：算法与数据结构文章标签：数据结构

算法与数据结构专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1、概述

在一些有N个元素的集合应用问题中，我们通常是在开始时让每个元素构成一个单元素的集合，然后按一定顺序将属于同一组的元素所在的集合合并，其间要反复查找一个元素在哪个集合中。这一类问题的特点是看似并不复杂，但数据量极大，若用正常的数据结构来描述的话，往往在空间上过大，计算机无法承受；即使在空间上勉强通过，运行的时间复杂度也极高，根本就不可能在很短的运行时间（如1～3秒）内计算出需要的结果，只能采用一种全新的抽象的特殊数据结构——并查集来描述。

并查集(Union-find sets)是一种树型的数据结构，用于处理一些不相交集合（Disjoint Sets）的合并及查询问题。常常在使用中以森林来表示。并查集是若干个不相交集合，能够实现较快的合并和判断元素所在集合的操作，应用很多，如其求无向图的连通分量个数等。最完美的应用当属实现Kruskar算法求最小生成树。

并查集是一种简单的树型数据结构，在实现时可以用直接用数组来实现。它是先让每个元素构成一个单元素的集合，然后按一定顺序将属于同一组的元素所在的集合合并。其精髓就是三种操作：初始化、查找、合并。

2、基本操作

（1）Make_Set(x)：把每一个元素初始化为一个集合。初始化后每一个元素的父亲节点是它本身，每一个元素的祖先节点也是它本身（也可以根据情况而变）。通常来说，这个步骤在每次使用该数据结构时只需要执行一次，无论何种实现方式，时间复杂度均为O(N)。

（2）Find_Set(x) ：查找一个元素所在的集合。查找一个元素所在的集合，其精髓是找到这个元素所在集合的最久远祖先！这个才是并查集判断和合并的最终依据。判断两个元素是否属于同一集合，只要看他们所在集合的祖先是否相同即可。合并两个集合，也是使一个集合的祖先成为另一个集合的祖先，具体见示意图。

（3）Union(x, y) ：合并x, y所在的两个不相交集合。合并两个不相交集合操作很简单，利用Find_Set找到其中两个集合的最久远的祖先，将一个集合的祖先指向另一个集合的祖先。如图。

3、并查集的优化
（1）路径压缩。Find_Set(x)在寻找祖先时我们一般采用递归查找，但是当元素很多亦或是整棵树变为一条链时，每次查找都是O(n)的复杂度，有没有办法减小这个复杂度呢？答案是肯定的，这就是路径压缩，即当我们经过"递推"找到祖先节点后，"回溯"的时候顺便将它的子孙节点都直接指向祖先，这样以后再次查找时复杂度就变成O(1)了，如下图所示；可见，路径压缩方便了以后的查找。

（2）按秩合并。Union(x, y)在合并的时候将元素少的集合合并到元素多的集合中，这样合并之后树的深度会相对较小。秩表示集合树的深度。

4、主要代码实现

int father[MAX];   /* father[x]表示x的父节点 */
int rank[MAX];     /* rank[x]表示x的秩 */

/* 初始化集合 */
void Make_Set(int x)
{
    father[x] = x; //父节点为自己（根据实际情况指定父节点可变化）
    rank[x] = 0;   //秩为0（根据实际情况初始化秩也可以有所变化）
}

/* 查找x元素所在的集合,回溯时压缩路径 */
int Find_Set(int x)
{
    if (x != father[x])
    {
        rank[father[x]] += rank[x];
        //递归，以找到最久远祖先
        //回溯时压缩路径：路径上的所有子孙节点都指向最久远祖先
        father[x] = Find_Set(father[x]);
    }
    return father[x];
}

/* 
   按秩合并x和y所在的集合
   下面的那个if else结构不是绝对的，具体根据情况变化
   但是，宗旨是不变的即，按秩合并，实时更新秩。
*/
void Union(int x, int y)
{
    x = Find_Set(x);  //找到最久远祖先
    y = Find_Set(y);
    if (x == y) return;  //两个元素属于同一个集合
    if (rank[x] > rank[y])  //把深度小的集合合并到深度大的集合中去
    {
        father[y] = x;
        rank[x] += rank[y];  //更新合并后的深度
    }
    else
    {
        if (rank[x] == rank[y])
        {
            rank[y]++;
        }
        father[x] = y;
    }
}

注意写并查集时涉及到的路径压缩，最好用递归，一方面代码的可读性非常好，另一方面，可以更直观的理解路径压缩时在回溯时完成的巧妙。

5、复杂度分析

空间复杂度为O(n)，n为元素个数。单次操作的均摊时间复杂度为O(α(n))。其中α(n)是Ackerman函数f(n)=A(n,n)的反函数。对于x在很大的范围内（人类目前观测到宇宙范围大约有10的80次方个原子，这小于前面说的“很大的范围”），α(x)不大于4。可见，路经压缩后的并查集的复杂度是一个很小的常数。 n个元素的并查集操作时间复杂度为O(n*α(n))，因此可以看作是线性时间复杂度。

6、应用

并查集常作为另一种复杂数据结构或算法的存储结构。常见应用有求无向图的连通分量个数，最近公共祖先（LCA），带限制的作业排序，实现Kruskar算法求最小生成树等。

本文转自：http://dongxicheng.org/structure/union-find-set/