hadoop的archive命令的使用方法


   每个文件以块方式存储,块的元数据存储在名称节点的内存里,此时存储一些小的文件,HDFS会较低效。因此,大量的小文件会耗尽名称节点的大部分内存。(注意,相较于存储文件原始内容所需要的磁盘空间,小文件所需要的空间不会更多。例如,一个1 MB的文件以大小为128 MB的块存储,使用的是1 MB的磁盘空间,而不是128 MB。)

Hadoop Archives或HAR文件,是一个更高效的将文件放入HDFS块中的文件存档设备,在减少名称节点内存使用的同时,仍然允许对文件进行透明的访问。具体说来,Hadoop Archives可以被用作MapReduce的输入。

将/user/tom/cs下的11文件夹归档到/user/tom/33文件夹下
hadoop archive -archiveName 11.har -p  /user/tom  cs/11/  33
hadoop fs -ls 33/11.har
hadoop fs -lsr har:///user/tom/33/11.har


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值