1、背景
HDFS的audit log产生数据量很大,速度也很快,在机器系统盘上必须立即持久化到HDFS,否则数据会被覆盖或者磁盘会打满。
用于数据治理-HDFS废弃文件、Hive废弃表检测与清理。
2、实现
① Apache Flume官网下载最新版本的Flume。
② 配置audit_log_hdfs.conf
# 一个channel一个source 配置3个sink
a1.sources = r1
a1.sinks = k1 k2 k3
a1.channels = c1
# 数据来源,给c1配置shell命令tail -F 获取hdfs-audit.log
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/logs/hdfs/hdfs-audit.log
a1.sources.r1.channels = c1
# 配置sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
##