Hadoop面试整理-HDFS小文件问题
1)会有什么影响(1)存储层面:1个文件块,占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节128G能存储多少文件块? 128 * 10241024*1024byte/150字节 = 9亿文件块(2)计算层面:每个小文件都会起到一个MapTask,占用了大量计算资源2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFormat(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一





