![](https://img-blog.csdnimg.cn/4c0ee40fd5174c6c908d1bc40e79d706.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据相关
文章平均质量分 71
大数据相关的知识
wodlx_
这个作者很懒,什么都没留下…
展开
-
Spark 内核调度
Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行。基于Spark的任务调度原理,可以合理规划资源利用,做到尽可能用最少的资源高效地完成任务计算。最后面的Action算子带了各自的链条,每个产生一个Job,同时每个Job有各种的DAG图。如图便产生3个DAG。原创 2023-04-09 16:03:59 · 221 阅读 · 0 评论 -
PySpark RDD 的使用
PySpark RDD 的使用文章目录PySpark RDD 的使用1.1 RDD的创建1.2 RDD算子1.3 常用Transformation算子map算子\textcolor{CornflowerBlue}{map算子}map算子flatMap算子\textcolor{CornflowerBlue}{flatMap算子}flatMap算子reduceByKey算子\textcolor{CornflowerBlue}{reduceByKey算子}reduceByKey算子mapValues算子\tex原创 2023-03-14 22:28:36 · 295 阅读 · 0 评论 -
RDD的持久化
RDD的数据是过程数据,RDD之间相互迭代计算,新的RDD的生成代表旧的RDD的消失。RDD的数据只在过程中存在,一旦处理完成,就会从内存中清除。RDD1->RDD2->RDD3->RDD4(RDD4出现,RDD3就消失了)\ \ \ \ \ \ \ \ \ \ ->RDD5(RDD5出现需要的RDD3需要从RDD1重新构建)为了减少重复调用,引入缓存技术。原创 2023-03-17 16:40:11 · 125 阅读 · 0 评论 -
Spark 共享变量
广播变量的作用:分布式RDD和本地集合进行关联使用的时候,降低内存占用以及减少网络I/O传输,提高性能。累加器的作用:分布式代码执行过程中,进行全局累加。原创 2023-04-06 19:49:42 · 111 阅读 · 0 评论