数据运营报告需要对大数据集群的文件信息出报告,需要统计出文件总数,小文件总数、可合并文件总数、3个月未访问文件总数、6个月未访问文件总数、一年未访问文件总数,小文件趋势。
一开始的方案是写程序每天晚上去访问hdfs的namenode获取filestatus对象,然后对对象属性进行分析存储到es。一个集群的文件总数8kw左右,一天一份数据,需要保存2个月,大概就是48亿条数据,对于es来说压力已经很大。
最近集团要求接管所有集群,大概是20多个,一估算差不多100亿条数据,所以需要修改采集逻辑,减少存储数据量。
新的方案计划通过获取EditLog日志做增量分析,然后根据es有没有数据更新数据