spark面试常问问题

最新推荐文章于 2024-06-18 17:38:20 发布

南潇如梦

最新推荐文章于 2024-06-18 17:38:20 发布

阅读量277

点赞数

分类专栏：面试文章标签： spark 面试大数据

本文链接：https://blog.csdn.net/weixin_45682261/article/details/126258861

版权

本文探讨了Spark在解决数据倾斜问题上的策略，强调了版本一致性避免jar冲突的重要性。此外，对比了Spark与MapReduce的性能差异，解释了分区数与并行度的不同，并详细讨论了reduceByKey与groupByKey的操作差异。当RDD D数据丢失时，如何确定重算范围，以及RDD的主要特性和常用算子的使用。最后，分析了Spark中cache与persist的差异、序列化的作用及何时进行持久化操作。

摘要由CSDN通过智能技术生成

Spark如何解决数据倾斜问题？

分为简单倾斜和复杂倾斜
简单是数据资源分布不均衡，或者执行入filter操作导致的partition之间数据大小不一致 使用coalesce重分区就可以（spark3。X版本引入AQE功能，自适应查询执行，会自动对小分区数据进行合并）
复杂数据倾斜一般是根据业务字段进行聚合运算时进行shuffle之后导致partition之间数据严重不均衡。比如针对全国信息表，以城市作为key，其他信息作为value，通过reduceByKey，你会发现]只有四个城市的数据非常大。
解决方案：
1）提高数据处理频率，同事降低单次数据处理量，这样可以导致每个partition之中的数据量减少
2）减少spark任务的并行度，把并行度降低到4 对象4个数据倾斜严重的分区（--num-executors 4 --executor-memory 5G）同时加大每个executor的内存和CPU核数 添加硬件资源同时不至于让硬件资源过于浪费。
3）尽量精简（单个）value的大小  只取聚合计算时value中需要的字段，不参加的字段全部抛弃 让value大小有效减少
4）对于严重的key进行加盐，把分区数增加，先进行聚合操作，然后再把key进行减盐操作，恢复到原本的kye，再次聚合得到最终结果

jar冲突（主要是版本要一致）

为什么会jar冲突？就是涉及到不同的依赖下面的子依赖有冲突
加载到不该加载的jar包
idea解决：(非社区版)
右击 Maven-> Show Dependencies

Driver和Executor

driver负责

最低0.47元/天解锁文章

南潇如梦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录