1 日志采集
(1)日志在生成之后分发时,对于本项目来说会分发至kafka,而kafka中会有多个主题,某些公司甚至会一张表一个主题进行分发,对于本项目来说分为两个主题,一个start主题,一个event主题
(2)图示
注释:
(1)TailDir有断点续传功能
2 拦截器
(1)interceptor配置
a1.sources.s1.interceptors=i1 i2
a1.sources.s1.interceptors.i1.type=自己的jar包
a1.sources.s1.interceptors.i2.type=自己的jar包
3 自定义ETL拦截器
(1)LogUtils
public class LogUtils{
//具体校验方法
public static boolean validateLog(String json){
// 1 切割数据
String[] jsonArray = json.split(regex:"\\|");
// 2 根据需要进行定义
}
}
(2)LogETLInterceptor
import org.a