【图解大数据技术】Spark

Spark简介

Spark与MapReduce一样,也是大数据计算框架。Spark相比MapReduce拥有更快的执行速度和更低的编程复杂度。

Spark包括以下几个模块:

在这里插入图片描述

  • Spark Core:封装了Spark的基本功能,比如RDD、任务调度等。
  • Spark SQL:Spark SQL可以处理结构化数据,当我们遇到结构化数据的计算时,可以使用Spark SQL,它允许我们把数据集映射为表结构,然后像操作关系型数据库的库表一样操作Spark SQL的表。
  • Spark Streaming:Spark Streaming可以做流式的准实时计算,比如可以监听kafka的消息做实时计算。
  • MLib:提供了机器学习的程序库。
  • GraphX:用于图计算的API。

在这里插入图片描述
Spark支持以下几种部署模式:

  • Standalone
  • Yarn
  • Mesos
  • Kubernetes

Spark是支持使用Yarn做资源调度的,因此Spark是可以替代掉MapReduce的。

而Mesos和Yarn一样,也是一个分布式资源管理器。

RDD

RDD(Resilient Distributed Dataset)的意思是弹性分布式数据集,本质上就是数据集,是Spark中最基本的数据抽象。

RDD是对不同存储节点的分片数据组成的数据集的抽象,RDD中每个Partition都指向存储集群中某个节点上的一个数据分片,当然我们也可以手动指定RDD的分区数。

在这里插入图片描述

Spark的计算就是对RDD的计算,Spark的计算是基于RDD进行的,一个RDD经过若干转换操作函数,转换操作本身返回的也是RDD,直到遇到action操作,则生成数据结果集返回。

在这里插入图片描述

RDD的转换操作和action操作包括以下这些:

在这里插入图片描述

Spark示例

Spark的wordcount示例:

val textFile = sc.textFile("hdfs://...") // 从hdfs中读取数据生成一个RDD
val counts = textFile.flatMap(line => line.split(" ")) // 按行切分
	.map(word => (word, 1)) // 每个单词映射为1
	.reduceByKey(_ + _) // 计算每个单词个数
counts.saveAsTextFile("hdfs://...") // 结果写回HDFS

在这里插入图片描述

Spark运行原理

整体流程

Spark 支持 Standalone、Yarn、Mesos、Kubernetes 等多种部署方案,下面的运行流程不针对任何一种运行方案,不同运行方案可能角色名称不同,但是大体流程是相似的。

在这里插入图片描述

  1. Spark应用程序在JVM进程中启动,这个进程就是Driver进程。
  2. Driver进程启动后,调用SparkContext进行初始化,SparkContext启动DAGScheduler构建DAG(有向无环图)。
  3. DAGScheduler将DAG切分成一个一个的stage(阶段)。
  4. Driver向ClusterManager注册并申请资源。
  5. ClusterManager把Driver的主机地址等信息通知给计算节点(上图的Worker Node)。
  6. 计算节点收到ClusterManager的通知后,向Driver注册并申报自己可领取的任务数。
  7. SparkContext调用TaskScheduler给计算节点分配任务。
  8. 所有任务执行完毕后,Driver向ClusterManager发起注销。

DAG 与 stage

DAG是有向无环图,我们的代码会被Spark解析成DAG,DAG上的节点代表的就是RDD,边代表的就是RDD的操作。

比如以下程序:

val textFile = sc.textFile("hdfs://...") // 从hdfs中读取数据生成一个RDD
val counts = textFile.flatMap(line => line.split(" ")) // 按行切分
	.map(word => (word, 1)) // 每个单词映射为1
	.reduceByKey(_ + _) // 计算每个单词个数
counts.saveAsTextFile("hdfs://...") // 结果写回HDFS

会被解析成如下DAG

在这里插入图片描述

上图中,父RDD的一个Partition只会被子RDD的一个Partition依赖的这种情况叫窄依赖,而父RDD的一个Partition会被子RDD的多个Partition依赖的这种情况叫宽依赖。

在这里插入图片描述

宽依赖是存在shuffle的,Spark会根据宽依赖划分stage。

在这里插入图片描述

涉及到宽依赖的操作主要有:groupByKey、partitionBy、reduceByKey、join。

在这里插入图片描述

为什么Spark比MapReduce快?

Spark尽量使用内存来保存中间结果;而MapReduce则默认使用磁盘保存中间结果,这是Spark比MapReduce快的其中一个原因。

在这里插入图片描述

另外一个原因是在处理迭代式计算的时候,MapReduce要通过多个MapReduce程序进行处理,每个MapReduce都经过Map-Shuffle-Reduce的处理,然后上一个Reduce输出的结果作为下一个Map的输入,这种处理方式效率不高。

在这里插入图片描述

而Spark使用DAG 执行引擎,能够构建复杂的多阶段任务流程,并优化执行计划。这样可以在任务之间重用数据,减少不必要的读写操作,相比MapReduce的线性Map-Shuffle-Reduce流程,DAG能更灵活地管理计算任务,减少磁盘I/O次数,尽管shuffle次数本身并不能减少。

  • 14
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据技术及架构图解实战派》是一本介绍大数据技术和架构的实用指南。该书从理论与实践相结合的角度,系统地介绍了大数据技术的基本概念、发展历程、关键技术及应用案例。 这本书的主要内容包括:大数据技术的基础知识,如数据存储、数据处理和分析等;大数据架构的设计原则和实践方法,包括数据仓库架构、流式处理架构等;大数据应用的具体案例,如金融、电商、物流等行业中的应用实践。 在阅读《大数据技术及架构图解实战派》这本书之后,读者可以掌握大数据技术的基本概念和原理,了解大数据技术的发展趋势和应用场景,掌握大数据架构的设计原则和方法,具备进行大数据项目开发和架构设计的能力。 此外,该书还提供了大量的图解和实例,帮助读者更加直观地理解大数据技术和架构。通过理论与实践相结合的方式,读者可以更好地理解和应用大数据技术,为企业提供更加精准的数据分析和决策支持,从而提升企业的竞争力和创新能力。 总之,对于想要了解和应用大数据技术的读者来说,《大数据技术及架构图解实战派》是一本不可或缺的参考书。它系统地介绍了大数据技术的基本概念和原理,提供了丰富的实例和图解,帮助读者更好地理解和应用大数据技术。无论是从事大数据项目开发的技术人员还是对大数据技术感兴趣的读者,都能从这本书中获得很多有价值的知识和经验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值