![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 83
大数据开发必备技术栈
Data跳动
专注于数据开发,数仓建设,数据治理以及大数据生态技术
展开
-
吐血整理,带你轻松学习 Spark(文末送PDF)
看不懂,来打我~原创 2022-02-04 09:07:26 · 1224 阅读 · 0 评论 -
Spark 的共享变量之累加器和广播变量
前言 本期将介绍下 Spark 编程中两种类型的共享变量:累加器和广播变量。简单说,累加器是用来对信息进行聚合的,而广播变量则是用来高效分发较大对象的。 学习目标 闭包的概念累加器的原理广播变量的原理 1. 闭包的概念 在讲共享变量之前,我们先了解下啥是闭包,代码如下。var n = 1val func = (i:Int) => i + n函数 func 中有两个变量 n 和 i ,其中 i 为该函数的形式参数,也就是入参,在 func 函数被调用时, i 会被赋予一.原创 2022-01-10 08:00:00 · 620 阅读 · 1 评论 -
Spark RDD 中常用的操作算子
前言 本期会讲解到 Spark 开发中大部分常见的操作算子,内容比较常用,建议大家先收藏。 学习目标 向Spark 传递函数RDD 的转换算子RDD 的行动算子 1. 向Spark 传递函数 Spark API 依赖 Driver 程序中的传递函数完成在集群上执行 RDD 转换并完成数据计算。在 Java API 中,函数所在的类需要实现 org.apache.spark.api.java.function 包中的接口。Spark 提供了 lambda 表达式和 自定义 Funct.原创 2022-01-08 18:14:57 · 1381 阅读 · 0 评论 -
详解 Spark RDD 的转换操作与行动操作
前言 本期继续讲解 Spark 核心 RDD 编程部分,内容比较干货也比较长,建议大家先收藏。 学习目标 RDD 的创建RDD 的转换操作RDD 的行动操作惰性求值 1. RDD 的创建 Spark 提供了两种创建 RDD 的方式:对一个集合进行并行化操作和利用外部数据集生成 RDD 。 对一个集合进行并行化操作 Spark 创建 RDD 最简单的方式就是把已经存在的集合传给 parallelize() 方法,不过,这种方式在开发中并不常用,毕竟需要将整个的数据集先放到一个节点.原创 2022-01-07 10:01:22 · 5394 阅读 · 2 评论 -
Spark 入门必看系列
相信即将学习或者正在学习 Spark 的你,应该和当年的D哥一样,被它容错方面天生的优势和强悍的运算吸引到,又或者是受转行大数据开发所迫学习它。D哥最初为了对 Spark 底层一探究竟,先是下载了几篇论文看了看,u1s1,真的晦涩难懂,对里面讲解的资源调度、消息传递、容错处理等,理解起来很抽象。在对 Spark 的核心概念以及运行原理等有了一定认识和掌握之后,回过头来,包括去阅读和分析 Spark 的源码时,就会发现理解起来就变得更加顺畅了,之前困扰的很多问题也渐渐迎刃而解。D哥在学习 Spark 或原创 2022-01-05 09:04:41 · 976 阅读 · 0 评论 -
详解 Spark RDD 的宽窄依赖关系
前言 上期讲解了 Spark RDD 核心结构及其概念,本期详细讲一讲 Spark RDD 依赖关系的内容。 学习目标 RDD 的依赖关系如何区分宽窄依赖为何设计要宽窄依赖 RDD的依赖关系 在 Spark 中,RDD 分区的数据不支持修改,是只读的。如果想更新 RDD 分区中的数据,那么只能对原有 RDD 进行转化操作,也就是在原来 RDD 基础上创建一个新的RDD。那么,在整个任务的运算过程中,RDD 的每次转换都会生成一个新的 RDD,因此 RDD 们之间会产生前后依赖的关系.原创 2022-01-04 12:00:00 · 3397 阅读 · 0 评论 -
详细讲解RDD概念以及核心结构
要学习 Spark 就必须对 RDD 有一个清晰的认知,本期将介绍 Spark 中一个抽象的概念——RDD。原创 2022-01-03 00:48:09 · 1535 阅读 · 0 评论 -
图文详解Spark的运行原理(入门必看)
前言 上期文章,介绍了 Spark 是包含多个紧密集成的组件,这些组件结合密切并且可以相互调用,这样我们可以像在平常软件项目中使用程序库一样,组合使用这些的组件。 本期学习目标 Spark 的运行模式Spark 的集群架构Worker 的工作职责Driver 的工作职责 Spark的运行模式 就底层而言,Spark 设计为可以高效地在一个到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器上运行。Spark 的运行模式主要有: .原创 2021-12-31 08:33:40 · 3106 阅读 · 0 评论 -
Spark的模块组成(入门必看)
上期介绍了Spark是一个大一统的软件栈,本期将简要介绍Spark的组成模块。原创 2021-12-30 01:23:08 · 4281 阅读 · 0 评论 -
Spark概述(入门必看)
Spark系列 的文章将以通俗易懂的方式对Spark技术进行一个系统性的梳理和总结。原创 2021-12-29 02:18:11 · 633 阅读 · 0 评论