1.实现两个集群之间的数据拷贝(distcp命令)
bin/hadoop distcp hdfs://hadoop132/user/shizhenqi/hello.txt hdfs://hadoop137/user/shizhenqi/hello.txt
这是两个不同集群的虚拟机
2.小文件文档
缺点:每个文件按块存储,会占用NameNode大量的空间,但是小文件所需要的磁盘容量和数据块的大小无关。
把小文件进行整合。因此NameNode把这些小文件看成了一个整体
归档文件命令
#在/user/shizhenqi/input里面由若干个小文件
hadoop archive -archiveName input.har -p /user/shizhenqi/input /user/shizhenqi/output
#这样就会在output里面生成input.har 文件
hadoop fs -ls -R har:///user/shizhenqi/input.har # 能看到我们归档的小文件
3.回收站
在core-site.xml中添加配置
<property>
<name>fs.trash.interval</name>
<value>10</value> #十分钟之后会自动在回收站里面删除
</property>
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value> #用户权限
</property>
然后在集群的路径/user/root/.Trash/Current就能看到你删除的文件
==#恢复回收站数据==
hadoop fs -mv /user/root/.Trash/Current /user/shizhenqi/input
#清空回收站
hadoop fs -expunge