并查集的原理
在一些应用问题中,需要将n个不同的元素划分成一些不相交的集合。开始时,每个元素自成一个 单元素集合,然后按一定的规律将归于同一组元素的集合合并。在此过程中要反复用到查询某一 个元素归属于那个集合的运算。适合于描述这类问题的抽象数据类型称为并查集(union-find set)。
并查集需要建立映射关系,那么下面的代码是建立映射关系的一种方法(并查集的实现不采用这种方法)。
template <class T>
class UnionFindSet
{
public:
UnionFindSet(const T* a, size_t n)
{
for (size_t i = 0; i < n; ++i)
{
// 建立映射关系
_a.push_back(a[i]);
_indexMap[a[i]] = i;
}
}
private:
vector<T> _a; // 编号找人
map<T, int> _indexMap; // 人找编号
};
比如:某公司今年校招全国总共招生10人,西安招4人,成都招3人,武汉招3人,10个人来自不 同的学校,起先互不相识,每个学生都是一个独立的小团体,现给这些学生进行编号:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}; 给以下数组用来存储该小集体,数组中的数字代表:该小集体中具有成员的个 数。(负号下文解释)
毕业后,学生们要去公司上班,每个地方的学生自发组织成小分队一起上路,于是: 西安学生小分队s1={0,6,7,8},成都学生小分队s2={1,4,9},武汉学生小分队s3={2,3,5}就相互认识 了,10个人形成了三个小团体。假设右三个群主0,1,2担任队长,负责大家的出行。
一趟火车之旅后,每个小分队成员就互相熟悉,称为了一个朋友圈。
从上图可以看出:编号 6,7,8 同学属于 0 号小分队,该小分队中有 4 人(包含队长 0);编号为 4 和 9 的同学属于 1 号小分队,该小分队有 3 人(包含队长 1),编号为 3 和 5 的同学属于 2 号小分队,该小分队有 3 个人(包含队长 1)。
仔细观察数组中内数据,可以得出以下结论:
- 数组的下标对应集合中元素的编号
- 数组中如果为负数,负号代表根,数字的绝对值代表该集合中元素个数
- 数组中如果为非负数,代表该元素双亲在数组中的下标
- 并查集的表示方法与堆类似,用下标表示关系,采用的是双亲表示法(存储父亲的下标)
在公司工作一段时间后,西安小分队中 8 号同学与成都小分队 1 号同学奇迹般的走到了一起,两个小圈子的学生相互介绍,最后成为了一个小圈子。
现在0集合有7个人,2集合有3个人,总共两个朋友圈。通过以上例子可知,并查集一般可以解决一下问题:
现在0集合有7个人,2集合有3个人,总共两个朋友圈。通过以上例子可知,并查集一般可以解决一下问题:
查找元素属于哪个集合
沿着数组表示树形关系以上一直找到根(即:树中中元素为查看两个元素是否属于同一个集合
沿着数组表示的树形关系往上一直找到树的根,如果根相同将两个集合归并成一个集合
将两个集合中的元素合并;将一个集合名称改成另一个集合的名称集合的个数
遍历数组,数组中元素为负数的个数即为集合的个数
并查集的实现
#pragma once
#include <vector>
class UnionFindSet
{
public:
UnionFindSet(int size)
: _ufs(size, -1)
{}
size_t FindRoot(int x)
{
while(_ufs[x] >= 0)
x = _ufs[x];
return x;
}
// 将x1和x2所在的集合合并
void Union(int x1, int x2)
{
int root1 = FindRoot(x1);
int root2 = FindRoot(x2);
// x1和x2已经在同一个集合了
if (root1 == root2)
return;
// x1和x2不在同一个集合,需要合并两个集合
// 假设下标小的去做根
if (root1 > root2)
swap(root1, root2);
_ufs[root1] += _ufs[root2];
_ufs[root2] = root1;
}
// 判断x1和x2是否在同一个集合中
bool Inset(int x1, int x2)
{
return FindRoot(x1) == FindRoot(x2);
}
// 集合(树)的个数 = 负数的个数
size_t SetSize()
{
size_t size = 0;
for (size_t i = 0; i < _ufs.size(); ++i)
{
if (_ufs[i] < 0)
++size;
}
return size;
}
private:
std::vector<int> _ufs;
};
并查集的应用
并查集的主要应用就是求取朋友圈的数量,即是否在同一个集合中等问题。
省份数量
有 n 个城市,其中一些彼此相连,另一些没有相连。如果城市 a 与城市 b 直接相连,且城市 b 与城市 c 直接相连,那么城市 a 与城市 c 间接相连。
省份是一组直接或间接相连的城市,组内不含其他没有相连的城市。
给你一个 n x n 的矩阵 isConnected ,其中isConnected[i][j] = 1 表示第 i 个城市和第 j 个城市直接相连,而 isConnected[i][j] = 0 表示二者不直接相连。
返回矩阵中省份的数量。
先构造一个并查集,当 isConnected[i][j] = 1 时,说明第 i 个城市和第 j 个城市直接相连,将它们放在同一个集合;isConnected[i][j] = 0 表示二者不直接相连,不在同一个集合中。遍历结束,并查集中集合的个数就是省份的数量。
// 将并查集的代码cv到最前面
class Solution
{
public:
int findCircleNum(vector<vector<int>>& isConnected)
{
size_t n = isConnected.size(),m=isConnected[0].size();
UnionFindSet ufs(n);
for(size_t i = 0; i < n; ++i)
{
for(size_t j = 0; j < m; ++j)
{
if(isConnected[i][j] == 1)
ufs.Union(i, j);
}
}
return ufs.SetSize();
}
};
因为我们实现了并查集,所以我们做起来就会很简单。但是如果我们没有实现并查集,我们也可以通过一个数组来模拟实现并查集。
class Solution {
public:
int findCircleNum(vector<vector<int>>& isConnected) {
int n = isConnected.size(),m = isConnected[0].size();
vector<int> ufs(n,-1);
auto findRoot = [&ufs](int x)
{
while(ufs[x]>=0)
{
x = ufs[x];
}
return x;
};
for(size_t i = 0;i<n;i++)
{
for(size_t j = 0;j<m;j++)
{
if(isConnected[i][j] == 1)
{
int root1 = findRoot(i);
int root2 = findRoot(j);
if(root1!=root2)
{
ufs[root1]+=ufs[root2];
ufs[root2] = root1;
}
}
}
}
int result = 0;
for(auto e:ufs)
{
if(e<0) ++result;
}
return result;
}
};
等式方程的可满足性
给定一个由表示变量之间关系的字符串方程组成的数组,每个字符串方程 equations[i] 的长度为 4,并采用两种不同的形式之一:“a==b” 或 “a!=b”。在这里,a 和 b 是小写字母(不一定不同),表示单字母变量名。
只有当可以将整数分配给变量名,以便满足所有给定的方程时才返回 true,否则返回 false。
本题也可以通过并查集来解决。因为 equations[i][0] 和 equations[i][3] 是小写字母,所以我们申请一个能存储 26 个元素的数组(相对映射)。当 equations[i][1] 为 ‘=’ 时,说明两个小写字母在同一个集合中;当 equations[i][1] 为 ‘!’ 时,说明两个小写字母不在同一个集合中。第一次遍历,将相等的小写字母放在同一个集合中;第二次遍历,看不在同一个集合的小写字母是否在同一个集合中。如果是,说明等式方程不满足,返回 false;如果第二次遍历结束,说明等式方程满足,返回 true。
class Solution {
public:
bool equationsPossible(vector<string>& equations) {
vector<int> ufs(26,-1);
auto findRoot = [&ufs](int x)
{
while(ufs[x]>=0)
x = ufs[x];
return x;
};
//第一遍先把相等的值加到一个集合中
for(auto&str: equations)
{
if(str[1]=='=')
{
int root1 = findRoot(str[0] - 'a');
int root2 = findRoot(str[3]-'a');
if(root1 != root2)
{
ufs[root1]+=ufs[root2];
ufs[root2] = root1;
}
}
}
//第二遍把不相等在不在一个集合,在就相悖返回false
for(auto&str:equations)
{
if(str[1]=='!')
{
int root1 = findRoot(str[0]-'a');
int root2 = findRoot(str[3]-'a');
if(root1 == root2)
{
return false;
}
}
}
return true;
}
};
并查集的优化
并查集的优化方式就是路径压缩和将节点少的集合向节点多的集合合并。当层数过多时,会影响查找的效率。路径压缩可以在查找根的过程中进行,路径压缩就是修改当前下标的父节点的下标
。为什么要将节点少的集合向节点多的集合合并呢?可以让较小的树作为子树挂在较大的树上,从而减少树的高度,提高并查集的效率。
#pragma once
#include <map>
#include <vector>
#include <iostream>
#include <string>
using namespace std;
class UnionFindSet
{
public:
// 初始状态
UnionFindSet(size_t n)
: _ufs(n, -1)
{}
// 将x1和x2所在的集合合并
void Union(int x1, int x2)
{
int root1 = FindRoot(x1);
int root2 = FindRoot(x2);
// x1和x2已经在同一个集合了
if (root1 == root2)
return;
// x1和x2不在同一个集合,需要合并两个集合
// 默认root1是节点多的集合
// 将节点少的集合合并到节点多的集合中
if (abs(_ufs[root1]) < abs(_ufs[root2]))
swap(root1, root2);
_ufs[root1] += _ufs[root2];
_ufs[root2] = root1;
}
// 判断x1和x2是否在同一个集合中
bool Inset(int x1, int x2)
{
return FindRoot(x1) == FindRoot(x2);
}
// 集合(树)的个数 = 负数的个数
size_t SetSize()
{
size_t size = 0;
for (size_t i = 0; i < _ufs.size(); ++i)
{
if (_ufs[i] < 0)
++size;
}
return size;
}
// 找出x的根
int FindRoot(int x)
{
int root = x;
// 值为负数时即为根
while (_ufs[root] >= 0)
{
root = _ufs[root];
}
// 压缩路径
while (_ufs[x] >= 0)
{
// 修改该路径中节点的父亲节点下标
int parent = _ufs[x];
_ufs[x] = root;
x = parent;
}
return root;
}
private:
vector<int> _ufs;
};
void UnionFindSetTest()
{
UnionFindSet ufs(10);
ufs.Union(8, 9);
ufs.Union(7, 8);
ufs.Union(6, 7);
ufs.Union(5, 6);
ufs.Union(4, 5);
ufs.FindRoot(9);
}