数据集文件 链接:https://pan.baidu.com/s/15aSG7ITEIoxN7l-R8-bSgA 提取码:u8b4
1.项目背景
在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3GB的内存空间。如果是10亿个文件呢,简直不可想象。所以目前很多公司采用的方法就是在数据进入 Hadoop 的 HDFS 系统之前对大量的小文件进行合并,从而节约对NameNode内存空间的占用。
2.项目数据准备(数据集)
3.项目思路分析
基于项目的需求,我们通过下面几个步骤完成:
1.首先通过 globStatus()方法过滤掉 svn 格式的文件,获取 E:\73\73 目录下的其他