Spark Core测试

最新推荐文章于 2022-01-17 21:10:17 发布

xiaoxaoyu

最新推荐文章于 2022-01-17 21:10:17 发布

阅读量168

点赞数

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/xiaoxaoyu/article/details/112394153

版权

16 篇文章 0 订阅

订阅专栏

优点：

缺点

官方文档：

RDD是弹性分布式数据集

弹性：默认写在内存，内存不足自动切换到磁盘存储；数据丢失自动恢复；

分布式：只读的、分区记录的集合，并行计算

数据集：只有计算逻辑不保存数据

根据宽依赖划分：对一个job从后往前数，遇到一个shuffle则Stage数量+1，最终Stage的数量=shuffle数量+1

每个Stage代表一个TaskSet，每个TaskSet对应到具体分区就算一个Task，Task是并行的

而Job是在执行过程中，每遇到一个Action算子划分为一个Job

ShuffleMapTask->shuffle write ->block cache <–shuffle read <–ShuffleReduceTask

宽依赖是一对多或多对多，窄依赖是多对一或一对一，主要根据是否有shuffle过程来划分

宽依赖：groupByKey，reduceByKey

窄依赖：map、filter、union

join：可窄可宽，分区算法和分区数一样是窄依赖，否则是宽依赖

作用缓存RDD

cache是无参数的persist，默认是仅内存的缓存方式

persist除了无参之外，还有个有参数的重载，用来设置缓存级别（内存、硬盘、序列化、备份）

RDD重用：借助缓存的方式，cache、persist、checkpoint
分区设计：太少不利于并发；太多shuffle开销越大
优化序列化性能：Java序列化比较重，有很多内置信息。Kyro，sereralize，对于自定义的对象不支持序列化，需要注册到序列化里
简化结构：不要用Java的结构，因为Java里有个对象头（Mark Word 指向类的指针，数组长度(数组对象才有)，记录类信息，每个对象强关联类型，因此会很重。用scala原生的结构
避免shuffle：尽量避免shuffle操作，使用非shuffle的算子
高效算子：避免不了的话，使用xxxByKey等高效算子，可以减少数据传输
广播大变量：其实就是mapJoin

10、容错机制
根据血缘关系，反推出父依赖的数据，如果没找到缓存，继续往上推直到找到缓存

关注