flume系列之:监控flume有没有关闭上个小时的gz.tmp文件
一、flume落到hdfs文件格式
设置flume落到hdfs文件格式:
- sinks.sink1.hdfs.codeC sinks.sink1.hdfs.codeC = gzip
- 文件压缩格式,包括:gzip,bzip2, lzo, lzop, snappy
设置flume落到hdfs文件大小:
- sinks.sink1.hdfs.rollSize
- sinks.sink1.hdfs.rollSize = 134217728
- 默认值1024字节
- 当临时文件达到该大小(单位:bytes)时,滚动成目标文件
这里设置128M
这样flume落到hdfs文件格式为:gz.tmp,当文件大小达到128M时,会关闭临时文件gz.tmp为gz。下个小时开始会把上个小时生成的gz.tmp文件全部关闭。
监控上个小时的临时文件gz.tmp是否全部关闭,确保flume生成的文件可以正常读取。
二、登陆远程服务器代码
#生产服务器环境不需要代理去掉,本地运行程序打开代理
socks.set_default_proxy(socks.HTTP,