Spark 知识体系
Spark 分批处理
故事写在心里-
《所有的王者都是从青铜过来的,没有捷径》靠自己A.
展开
-
Spark 基本原理与架构认识 .
目录:1. 什么是Spark.2.Spark和MapReduce比较1. 什么是Spark.spark是一个基于内存的分布式的并行的计算框架2.Spark和MapReduce比较隐士转换的函数是辣个?Implicit._...原创 2020-05-02 14:15:24 · 1320 阅读 · 2 评论 -
Spark RDD 常用算子总结
Transformation:转换算子 1、Map map 的输入变换函数应用于 RDD 中所有元素,而 mapPartition 应用于所有分区。区别于 mapPartitions 应用于所有分区。区别于 mapPartions 主要在于调用粒度不同。如 parallelize(1 to 10, 3),map 函 数执行 10 次,而mapPartitions 函数执行 3 次。2、Fil...原创 2020-04-30 23:14:56 · 527 阅读 · 0 评论 -
Spark 和 Hadoop 架构区别(全新视角)
文章目录:1、Spark和Hadoop的架构区别2、Spark 和Hadoop的中间计算结果处理区别3、Spark 和Hadoop的操作模型区别《转载注明出处,你的点赞是我的动力。》1、Spark和Hadoop的架构区别Hadoop :mapreduce 有Map和reduce两个阶段,并通过Shuffle将两个阶段连接起来的。但是套用MapReduce 模型解决问题,不得不将问题分解为若干...原创 2020-05-03 13:00:05 · 1793 阅读 · 3 评论 -
Spark 数据倾斜的整理
目录:1、 什么是数据倾斜????(基于Spark 架构)2、何谓数据倾斜????3、数据倾斜是如何造成的????4、数据倾斜是如何解决的????1.仔细查看定位导致数据倾斜的代码。(数据倾斜只会发生在 shuffle 过程中)2.某个 task 执行特别慢的情况3.某个 task 莫名其妙内存溢出的情况4.查看导致数据倾斜的 key 的数据分布情况5.自定义 Partitioner6.为数据倾斜...原创 2020-05-01 16:59:39 · 440 阅读 · 1 评论 -
Spark RDD 的详解
目录:一、What is RDD?1、RDD是一个弹性分布式数据集2、RDD是一个弹性的分布式的数据集,是spark的基本抽象,RDD是不可变的,并且它由多个partition构成(可能分布在多台机器上,可以存memory上,也可以存disk里等等),可以进行并行操作3、弹性:分布式计算时可容错4、不可变:一旦产生就不能被改变5、RDD中的数据是不可变的,分区存在的,也就是每次调用RDD就会形成新...原创 2020-05-01 16:14:03 · 1423 阅读 · 8 评论 -
使用Alluxio的Apache Spark DataFrame缓存
目录:1.介绍2.Alluxio和Spark训练3.保存数据框Spark存储级别:MEMORY_ONLY:将Java对象存储在Spark JVM内存中MEMORY_ONLY_SER:将序列化的Java对象存储在Spark JVM内存中DISK_ONLY:将数据存储在本地磁盘上4.在Alluxio中查询“保存的”数据帧5. 与Alluxio共享“保存的” DataFrame6. 结论7.心灵寄语: ...原创 2020-03-22 11:21:13 · 426 阅读 · 1 评论 -
Spark on Yarn模式下历史日志配置记录
Spark on Yarn运行的时候Job History Server的配置1.配置如下:yarn-site.xml<property><name>yarn.log-aggregation-enable</name><value>true</value></property><property>&...原创 2020-03-21 18:21:35 · 752 阅读 · 0 评论 -
Spark on Yarn 的两种模式的区别
前言:面试官说有个小小的区别你知道么?面试问到你们这个spark是什么模式的?答:Spark on yarnspark on yarn cluster 模式ResourceManger 分配资源 ApplicationMaster (AM)通信 NodeManager NodeManger 开辟 Container,Container进行 executor执行job。同时资源情况以及...原创 2020-03-14 20:48:42 · 776 阅读 · 0 评论