学习笔记:并查集

并查集

这是一个可以实现合并与查找(元素间关系判定)用来维护多集合(功能多样化)的超牛批的可以动态维护的树形结构。

个人理解:

这个算法只要是实现集合元素关系的类型都可以用到,又是线性时间复杂度,而且最关键的是它是个高级数据结构,翻译过来就是这个可以动态维护,所以我觉得这个用途比单纯的算法要好,实际应用比较大,而且这个方法可能不是唯一的,但是用这个方法可以做很多题,比如二分图中用到动态维护就只能用这个方法,但是这个方法也有不可替代性,不如线段树经常可以被其他数据结构替代,所以必须注意,可能有奇效。

注意:这是一个需要思考的代码,边写边思考,因为这是个非常灵活的数据结构

基本操作与代码实现

int pa[maxn];
void Initial(int x)//初始化 
{
    for(int i=1;i<=n;i++)pa[i]=i;
}
int find(int x)//路径压缩,还有一种优化是启发式合并,一起用效果更好,但是不加时间复杂度也很小 
{
    return pa[x]==x?x:pa[x]=find(pa[x]);
}
bool judge(int x,int y)
{
    return find(x)==find(y);
}

void merge(int x,int y)//这里是为了后面的带权并查集 
{
    int px=find(x),py=find(y);
    if(x!=y)
        pa[px]=py
}

注意:初始化容易写掉,但是很容易检查出来

理解:
1. Mr.He为了突出这个数据结构的简单性非要写成一排,我表示我可以把整个程序写成两排(^~^)
2. 这里的时间复杂度可以看做线性的,因为有路径压缩,时间复杂度是个”反阿克曼函数”,一般来说这个值小于4,因此可以当做是线性的。
3. 基于这四种操作可以延伸多种操作

启发式合并

不用路径压缩,启发式合并是一种可以还原的并查集。

它的原理就是记录下每个并查集的高度(元素个数也可以),然后让合并的高度尽量低。

它的时间复杂度是O(nlogn)的。

需要还原的话就在修改的时候记录下连接的两个点的原信息存入栈中,然后把栈中的信息一次还原。

“带权并查集”

  • 给结点之间增加相对关系,一般来说所有的函数都要发生改变
  • 在判定和连边以及查找的时候,可以使用”四点向量分析法”(find的时候只有两点/三点)
  • 就是利用相对关系进行连边,分别是x,y,px,py,分别利用

“种类并查集”

  • 把元素分为若干种
  • 比较经典的就是二分图,分析方式和带权并查集很像,可能会用到异或。

例题与技巧

技巧

  1. 假删除:一个结点被删除之后建立新的结点,把该结点通过一个数组映射到新的结点上去,之后所有的操作都在新结点上进行。
  2. 用左闭右开的方法或者左开右闭,要考虑到pa数组清零要多一位。

大步跳跃法

那么本质我们应该归结到并查集,最右边的元素是pa,还可以加路径压缩,算是一种很活的用法了,代码也不难,很基础,甚至是不全的并查集。

同时,以后用大步跳跃就用并查集的方法,加上路径压缩,那么就可以当做线性时间复杂度了
注意:这里如果不是为了像广告印刷那种后续处理需要,不需要用左闭右开,不影响结果,只是注意有些地方要处理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值