数据倾斜及治理方法
常见会产生数据倾斜的框架:
hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段
一、对于数据倾斜的定义
1.是什么:
在shuffle过程中大量同一key的数据被分配至同一分区,导致其中一节点压力过大,而其他节点过于清闲的情况。
2.现象:
①绝大多数map Task运行快速,而个别Task,尤其多见于reduce task运行过慢。
②OOM(Hadoop——container,Spark——driver)
3.原理:
进行Shuffle的过程中将相同的ke
原创
2021-07-30 16:33:08 ·
158 阅读 ·
0 评论