![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 88
Spark
SuperQiu~
这个作者很懒,什么都没留下…
展开
-
Spark 核心编程
Spark 核心编程 Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: ➢ RDD : 弹性分布式数据集 ➢ 累加器:分布式共享只写变量 ➢ 广播变量:分布式共享只读变量 接下来我们一起看看这三大数据结构是如何在数据处理中使用的。 1 RDD 1.1 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不原创 2022-01-05 15:43:06 · 207 阅读 · 0 评论 -
Spark 运行架构
Spark 运行架构 1 运行架构 Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master,负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责实际执行任务。 2 核心组件 由上图可以看出,对于 Spark 框架有两个核心组件: 2.1 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码原创 2022-01-05 14:43:11 · 115 阅读 · 0 评论 -
Spark 运行环境
Spark 运行环境 Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下 Spark 的运行 1 Local 模式 所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等,之前在 IDEA 中运行代码的环境我们称之为开发环境,不太一样。 1.1 解压缩文件 将 spark-3.0.0-bin-hadoop3.2原创 2022-01-05 14:34:49 · 207 阅读 · 0 评论 -
Spark 快速上手
Spark 快速上手 在大数据早期的课程中我们已经学习了 MapReduce 框架的原理及基本使用,并了解了其底层数据处理的实现方式。接下来,就让咱们走进 Spark 的世界,了解一下它是如何带领我们完成数据处理的。 1 创建 Maven 项目 1.1 增加 Scala 插件 Spark 由 Scala 语言开发的,所以本课件接下来的开发所使用的语言也为 Scala,咱们当前使用的 Spark 版本为 3.0.0,默认采用的 Scala 编译版本为 2.12,所以后续开发时。我们依然采用这个版本。开发前请保原创 2022-01-05 13:49:39 · 922 阅读 · 0 评论 -
Spark 概述
Spark 概述 1 Spark 是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 2 Spark and Hadoop 在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。 首先从时间节点上来看: ➢ Hadoop ⚫ 2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发 ⚫ 2008 年 1 月,Had原创 2022-01-05 13:40:51 · 220 阅读 · 0 评论