hdfs集群磁盘清理历史数据流程如下:
#可以查看web界面hdfs集群的磁盘使用率,并记录下来,对比清理后的效果:
清理前
86.00% 194.24TB/225.85TB
#统计warehouse目录下的磁盘使用量(目前表都是建在该路径下)
hadoop fs -du -h /user/hive/warehouse
#统计bak目录下磁盘使用量的表,取前30,清理大表
hadoop fs -du -s /user/hive/warehouse/bak.db/* | sort -n -r | head -30
#统计test目录下磁盘使用量的表,清理该测试路径的数据
hadoop fs -ls /user/hive/warehouse/test
#hdfs回收站会保留1天数据,过期会自动清理, 也可手动清理
hadoop fs -ls /user/test/.Trash/*