![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark 3
是 你 啊 初 心
这个作者很懒,什么都没留下…
展开
-
Spark大数据处理讲课笔记3.6 RDD容错机制
会单独启动一个任务将标记为检查点的RDD的数据写入文件系统,如果RDD的数据已经持久化到了内存,将直接从内存中读取数据,然后进行写入,提高数据写入效率,否则需要重复计算一遍RDD的数据。方法指定的文件系统目录中,并且该RDD的所有父RDD依赖关系将被移除,因为下一次对该RDD计算时将直接从文件系统中读取数据,而不需要根据依赖关系重新计算。在第一次行动计算时,被标记为检查点的RDD的数据将以文件的形式保存在。语句,关闭了Spark容器,缓存的数据就被清除了,当然也无法访问Spark的存储数据。原创 2023-06-15 18:07:32 · 51 阅读 · 1 评论 -
Spark大数据处理讲课笔记3.2 掌握RDD算子
上面这个映射写成函数:f ( x ) = 2 x , x ∈ R f(x)=2x,x\in \Bbb Rf(x)=2x,x∈R。,不是一元函数,而是二元函数,系统立马就蒙逼了,不晓得该怎么取两个参数来进行乘法运算。但是有点美中不足,rdd2的元素变成了双精度实数,得转化成整数。方法二、用神奇占位符改写传入过滤算子的匿名函数。因为RDD的元素为分布式的,数据可能分布在不同的节点上。内容,可以采用遍历算子,分行输出内容。方法一、将匿名函数传给过滤算子。原创 2023-05-04 09:40:04 · 113 阅读 · 1 评论 -
Spark大数据处理讲课笔记3.8 Spark RDD典型案例`
(5)对rdd按键归约得到rdd1,计算总分。(4)取分组后的日期集合最小值,计数为1。(2)利用映射算子生成二元组构成的RDD。(3)按键分组得到新的二元组构成的RDD。(2)倒排,互换RDD中元组的元素顺序。(3)利用RDD填充二元组成绩列表。(4)基于二元组成绩列表创建RDD。(1)读取成绩文件,生成RDD。(3)倒排后的RDD按键分组。(1)读取成绩文件得到RDD。(1)读取文件,得到RDD。(2)创建统计新增用户对象。(2)定义二元组成绩列表。(3)运行程序,查看结果。(3)运行程序,查看结果。原创 2023-06-15 18:05:27 · 50 阅读 · 0 评论 -
Spark大数据处理讲课笔记3.3 掌握RDD分区
在有些情况下,使用Spark自带的分区器满足不了特定的需求。例如,某学生有以下3科成绩数据:科目成绩chinese98math88english96现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。创建类/*** 功能:自定义分区器* 作者:华卫* 日期:2022年03月30日*//*** 取得分区数量* @return 分区数量*//*** 根据key取得分区ID。原创 2023-06-15 18:09:30 · 68 阅读 · 0 评论