面试
易生所爱
这个作者很懒,什么都没留下…
展开
-
数据倾斜与解决办法
1)提前在map进行combine,减少传输的数据量在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候,这种方法就不是很有效了。2)导致数据倾斜的key 大量分布在不同的mapper(1)局部聚合加全局聚合。第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀,这样本来相同的key 也会被分到多个Re原创 2021-02-25 19:48:39 · 713 阅读 · 0 评论 -
小文件处理
HDFS小文件处理1)会有什么影响 (1)1个文件块,占用namenode多大内存150字节1亿个小文件*150字节 1 个文件块 * 150字节128G能存储多少文件块? 128 * 1024*1024*1024byte/150字节 = 9亿文件块2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFormat(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JVM重原创 2021-02-26 09:28:34 · 389 阅读 · 0 评论