大数据计算过程中可能会遗留大量的日志,中间文件,以及过期的计算结果
在数据量是很大的情况下,这些数据会占用很多存储资源,甚至可能导致因磁盘满载出现机器停止运行的问题
下面是笔者在工作中编写的用于清理这些数据的脚本,目前可清理数据有:
- 本地日志和其它文件
- hdfs目录
- hive表
- hbase表
详情见代码: https://github.com/xufwind95/data_cleaner
大数据计算过程中可能会遗留大量的日志,中间文件,以及过期的计算结果
在数据量是很大的情况下,这些数据会占用很多存储资源,甚至可能导致因磁盘满载出现机器停止运行的问题
下面是笔者在工作中编写的用于清理这些数据的脚本,目前可清理数据有:
详情见代码: https://github.com/xufwind95/data_cleaner