flume-ng编程之自定义拦截器

学习flume以来,实现了日志的多来源自动抽取和多target的自动发送等,但是一直以来的数据清洗过程一直是放在hadoop中用MR程序定时进行清洗的,有没有一种方式编程能够直接在flume中来进行相关的数据清洗数据匹配,过滤掉那些不规范的脏数据,于是决定打这个flume拦截器的主义,觉得只要把代码稍微改改,从拦截body开始自定义intercepter编程完成每个body字符串的解析字段的正则提取和拼接,我们自定义的这个类叫:LogAnalysis 如下

package com.besttone.interceptor;


import com.google.common.base.Charsets;
import com.google.common.collect.Lists;
import org.apache.commons.lang.StringUtils;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


/**
 * @author zhenzhen
 * @create 2016-08-18 上午8:47
 **/



public class LogAnalysis implements Interceptor {

    private LogAnalysis() {
    }

    @Override
    public void initialize() {
        // NO-OP...
    }

    @Override
    public void close() {
        // NO-OP...
    }
    //    JAVA中用于处理字符串常用的有三个类:
//
//    java.lang.String、
//
//    java.lang.StringBuffer、
//
//    java.lang.StringBuilder,
//
//    这三者的共同之处都是 final 类,不允许被继承,这主要是从性能和安全性上考虑的,因为这几个类都是经常被使用着的,且考虑到防止其中的参数被修改影响到其它的应用。
//
//    StringBuffer 与 StringBuilder 两个基本上差不多,只是 StringBuffer 是线程安全,可以不需要额外的同步用于多线程中;
//
//    StringBuilder 是非同步,运行于多线程中就需要使用着单独同步处理,但是速度就比 StringBuffer 快多了;二者之间的共同点都可以通过append、insert进行字符串的操作。
//
//    String 实现了三个接口:Serializable、Comparable<String>、CharSequence,
//
//    而 StringBuffer 及 StringBuilder 只实现了两个接口 Serializable、CharSequence,相比之下 String 的实例可以通过 compareTo 方法进行比较,而其它两个就不可以。
    @Override
    public Event intercept(Event event) {
        String body = new String(event.getBody(), Charsets.UTF_8);
        System.out.println("body:"+body.toString());
        //String line = "2016-04-18 16:00:00 {\"areacode\":\"浙江省丽水市\",\"countAll\":0,\"countCorrect\":0,\"datatime\":\"4134362\",\"logid\":\"201604181600001184409476\",\"requestinfo\":\"{\\\"sign\\\":\\\"4\\\",\\\"timestamp\\\":\\\"1460966390499\\\",\\\"remark\\\":\\\"4\\\",\\\"subjectPro\\\":\\\"123456\\\",\\\"interfaceUserName\\\":\\\"12345678900987654321\\\",\\\"channelno\\\":\\\"100\\\",\\\"imei\\\":\\\"12345678900987654321\\\",\\\"subjectNum\\\":\\\"13989589062\\\",\\\"imsi\\\":\\\"12345678900987654321\\\",\\\"queryNum\\\":\\\"13989589062\\\"}\",\"requestip\":\"36.16.128.234\",\"requesttime\":\"2016-04-18 16:59:59\",\"requesttype\":\"0\",\"responsecode\":\"010005\",\"responsedata\":\"无查询结果\"}\n";
        String pattern1 = "\"areacode\":\"[\\u4e00-\\u9fa5]*"; //汉字正则表达式
        String pattern2 = "\"datatime\":\"[0-9]*"; //数字正则表达式
        String pattern3 = "\\\\\"imei\\\\\":\\\\\"[0-9]*"; //时间正则表达式  \\\\\"imei\\\\\":\\\\\"
        String pattern4 = "\"requestip\":\"[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}"; //ip正则表达式
        String pattern5 = "\"requesttime\":\"((19|20)\\d\\d)-(0[1-9]|1[012])-(0[1-9]|[12][0-9]|3[01]) ([012][0-9]):([0-5][0-9]):([0-5][0-9])"; //"requesttime":"2016-04-18 16:00:00
        //String pattern = "\"areacode\":\"[^0-9a-z]*\",";
        // 创建 Pattern 对象
        Pattern r1 = Pattern.compile(pattern1);
        Pattern r2 = Pattern.compile(pattern2);
        Pattern r3 = Pattern.compile(pattern3);
        Pattern r4 = Pattern.compile(pattern4);
        Pattern r5 = Pattern.compile(pattern5);
        // 现在创建 matcher 对象
        Matcher m1 = r1.matcher(body);
        Matcher m2 = r2.matcher(body);
        Matcher m3 = r3.matcher(body);
        Matcher m4 = r4.matcher(body);
        Matcher m5 = r5.matcher(body);
        StringBuffer bodyoutput = new StringBuffer();
        if (m1.find() && m2.find() && m3.find() && m4.find() && m5.find()) {

            bodyoutput = bodyoutput.append(m1.group(0)+("|")+m2.group(0)+"|"+m3.group(0)+"|"+m4.group(0)+"|"+m5.group(0));


        } else {
            bodyoutput = bodyoutput.append("No match!!!");

        }

        //System.out.println("result:"+JsonUtil.ObjectToJsonString(report));
        event.setBody(bodyoutput.toString().getBytes());
        return event;
    }

    @Override
    public List<Event> intercept(List<Event> events) {
        List<Event> intercepted = Lists.newArrayListWithCapacity(events.size());
        for (Event event : events) {
            Event interceptedEvent = intercept(event);
            if (interceptedEvent != null) {
                intercepted.add(interceptedEvent);
            }
        }
        return intercepted;
    }

    public static class Builder implements Interceptor.Builder {
        //使用Builder初始化Interceptor
        @Override
        public Interceptor build() {
            return new LogAnalysis();
        }

        @Override
        public void configure(Context context) {

        }
    }
}


从上面的代码可以看出我们只要

public class LogAnalysis implements Interceptor

继承这个接口,重新自己自定义实现它。具体的实现过程放到

public Event intercept(Event event) 
方法中,最后在Interceptor.Builder中返回我们自定义的类LogAnalysis

    public static class Builder implements Interceptor.Builder {
        //使用Builder初始化Interceptor
        @Override
        public Interceptor build() {
            return new LogAnalysis();
        }

        @Override
        public void configure(Context context) {

        }
    }
写到这里,大家一定会问,这个程序没有main函数怎么调试呢?

是的,这个问题问的好,其实我当时在学习这个的过程中也思考过这个问题。

其实很简单,我编程的核心部分是在重构flume的event中的body,那么body其本质上就是我们抽取日志中的一行字符串,那么我们可以将这部分字符串的处理拎出来,放到自己的main函数中进行编程调试一旦调试成功,字符串按照我们自定义的方式进行处理了,我们再将这部分代码ÿ

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值