1.目录
1、需求和步骤
2、项目结构
3、项目代码
3.1建表语句 hdfs_Ctreate_table
3.2删除文件记录 hdfs_delete_file_record.py
3.3文件路径的小时监控 hdfs_path_Monitor.py
3.4文件路径的天监控 hdfs_path_Monitor_day.py
3.5文件大小记录 hdfs_size.py
3.6mysql连接信息
3.7mysql工具类 mysqlHelper.py
3.8工具类utils.py
4、结果展示
2、需求和步骤
需求:
1、获取HDFS每个文件夹每小时和每天的增量
2、定时删除HDFS任务历史记录
需求1步骤:
1、获取到HDFS所有文件名称,参考:hdfs_size.py
2、采用递归获取文件大小,参考:hdfs_path_Monitor.py
3、每天计算文件大小,参考:hdfs_path_Monitor_day.py
需求2步骤:
1、查一个月前的所有文件存储到hdfs_delete_file_record中,标记状态为0
2、通过mysql查询标记为0的数据,获取对应路径
3、通过hadoop fs -rm -r -skipTrash + path 进行删除
4、删除之后标记为1
2、项目结构