![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 94
xingchensuiyue
这个作者很懒,什么都没留下…
展开
-
Hadoop中不起眼的小文件
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。1 什么是小文件小文件是指比HDFS默认的block大小(默认配置为128MB,网易大数据集群配置为256M)明显小的文件。需要注意的是,在HDFS上有一些小文件是不可避免的。这些文件.原创 2021-05-26 23:25:52 · 342 阅读 · 4 评论 -
Spark数据倾斜及处理方法
目录1、什么是数据倾斜?2、 数据倾斜的需要及原因2.1 解决数据倾斜的需要2.2 数据倾斜是如何造成的3、导致Spark数据倾斜的本质4、定位最慢的Task所处的源码位置5、解决方案5.1 方案1:使用Hive ETL预处理5.2 方案2:过滤导致倾斜的key5.3 方案3:提高Shuffle操作并行度5.4 方案4:两阶段聚合(局部聚合+全局聚合)5.5 方案5:将reduce join转为map join5.6 方案6:采样倾斜key并分拆join操作5.7 方案7:用随机前缀和扩容RDD进行join原创 2020-11-30 22:54:32 · 284 阅读 · 0 评论 -
Spark SQL之JOIN实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQL,一种是直接写sql语句,这个需要有元数据库支持,例如Hive等,另一种是通过Dataset/DataFrame编写原创 2020-11-25 22:24:11 · 302 阅读 · 0 评论 -
数据倾斜
目录1 什么是数据倾斜?2 导致数据倾斜的原因2.1 单个值有大量记录2.2 唯一值较多1 什么是数据倾斜?如图所示:简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其余单词,那就会形成原创 2020-11-07 15:55:36 · 227 阅读 · 0 评论 -
大数据框架之Spark详解
1 Spark是什么?原创 2020-11-05 22:53:44 · 3782 阅读 · 0 评论