hadoop的archive命令的使用方法

最新推荐文章于 2020-04-28 17:28:02 发布

zjml2412

最新推荐文章于 2020-04-28 17:28:02 发布

阅读量3.9k

点赞数

分类专栏： hadoop 文章标签： hadoop archive 存储 mapreduce 磁盘

本文链接：https://blog.csdn.net/zjml2412/article/details/7934734

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

每个文件以块方式存储，块的元数据存储在名称节点的内存里，此时存储一些小的文件，HDFS会较低效。因此，大量的小文件会耗尽名称节点的大部分内存。(注意，相较于存储文件原始内容所需要的磁盘空间，小文件所需要的空间不会更多。例如，一个1 MB的文件以大小为128 MB的块存储，使用的是1 MB的磁盘空间，而不是128 MB。)

Hadoop Archives或HAR文件，是一个更高效的将文件放入HDFS块中的文件存档设备，在减少名称节点内存使用的同时，仍然允许对文件进行透明的访问。具体说来，Hadoop Archives可以被用作MapReduce的输入。

将/user/tom/cs下的11文件夹归档到/user/tom/33文件夹下
hadoop archive -archiveName 11.har -p /user/tom cs/11/ 33
hadoop fs -ls 33/11.har
hadoop fs -lsr har:///user/tom/33/11.har