导入
并(union)查(find)集(set),是一种根据功能来命名的数据结构。从它的名字中我们就能知道,它的主要功能有:
1.union:合并两个集合(编写程序时应注意,union在c语言中为关键字,代表联合体,无法作函数名称)
2.find:查找某个元素所在的集合
也就是说,并查集是一种用来处理集合关系的数据结构。所以对于之前我们处理起来很麻烦的集合问题,在引入并查集之后就会变得相当容易了,更何况并查集本身的编程复杂度就不高,实在是一个相当优秀的工具。
并查集的实现
上文说过并查集的编程复杂度不高,直接用数组实现即可。
并查集是一个树形的结构,其思想是在集合中选择一个代表元素,要求该代表元素不在其它任何集合中出现,将该元素作为树根,集合内其它的元素都作为它的孩子,所以我们需要一个father数组,记录每个结点的父结点,初始化father[i]=i:
const int N = 数据规模;
int father[N];
for(int i=1;i<=n;++i)
father[i]=i;
并查集的两大主要操作:
merge(x,y):将包含x元素的集合与包含y元素的集合合并为一个新集合;实现时只需要任意选择一方的代表元素作为新集合的代表,将另一集合作为该集合的子树即可:
//普通合并
void merge(int x, int y){
father[y]=x;
}
find(x):查找x所在的集合;实现时只需要一直向上搜索x的祖先到根节点为止,返回该集合的代表元素。
//递归方式实现
int find(int x){
return x==father[x]? x : find(father[x]);
}
//循环方式实现
int find(int x){
while(x^father[x]) x=father[x];//异或的作用类似于!=
return x;
}
ok,并查集的所有操作到这里就结束了。
???什么,只有这么短?
事实是并查集就是这么短,然而功能却很强大,实在是短小精悍的典型。不过,实现简单就意味着它的使用必定存在着限制,所以这种并查集有时候会被卡数据:根据并查集查找的思想,我们要一直向上直到根节点,如果数据比较特殊,在我们执行完合并操作后形成了一条很长的单链,那么我们查询的时间复杂度就将降为O(n)级别,势必会超时。
那么,如何解决这个问题呢?自然要对现在的并查集进行优化,既然并查集的操作有两个,我们就要针对这两个操作进行优化:
- 并查集的路径压缩
针对find函数,有一种叫路径压缩的优化:它的思想是既然查找时最终都是要回到根节点上,那我何不把所有节点直接指向根节点呢,而这个操作我们在执行find操作查找时可以顺便将其完成,时间复杂度更是几乎为常数。
//递归方式实现
int find(int x){
return x==father[x]?x:father[x]=find(father[x]);
}
//循环方式实现
int find(int x){//相比之下,递归的写法真的是浑然天成
int k=x,temp;
while(k^father[k]) k=father[k];
while(x^k){
temp=father[x];
father[x]=k;
x=temp;
}
return k;
}
- 并查集的按秩合并
针对union函数,则有一种叫按秩合并的优化:它的思想是在合并时,并不再固定地让后一个集合作为前一个集合的子树,而是加入了判断条件——秩。秩其实可以是很多东西(树高,结点个数等等),但不管你选择什么作为秩,合并时都最好要遵循启发式合并的原则,即将小的集合合并到大的集合中,而不是反过来,集合大小自然就是按照秩来定义了。
一般以树高作为秩:定义rank数组,初始化全为0,find()操作不改变秩,而执行union操作时,则需比较rank值的大小,将rank较大的集合的代表元素作为父亲结点,然后合并(若秩相同则任选一个集合的代表元素作为父亲结点)。
void merge(int x, int y){
x=find(x), y=find(y);
if(x==y) return;
if(rank[x]>rank[y]) father[y]=x;
else{
if(rank[x]==rank[y])
rank[y]++; //此处注意理解,将一个树低并到一个树高的集合中,是不会改变树高的,因此rank值不会改变,只有两棵树树高相同时,才需要修改rank值,而且树高只会增加1.
father[x]=y;
}
}