Flume和Kafka结合实现日志采集

最新推荐文章于 2023-12-24 12:33:57 发布

鸿儒之观

最新推荐文章于 2023-12-24 12:33:57 发布

阅读量1.1k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/zhijunming/article/details/108089737

版权

大数据专栏收录该内容

18 篇文章 1 订阅

订阅专栏

1,业务流程

在这里插入图片描述

2,日志采集

2.1采集模型

(1)用传统的flume聚合模型

在这里插入图片描述

采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.

(2)结合Kafka的聚合模型(Kafka source)

在这里插入图片描述

[1]解析

采用Kafka Channel，省去了Sink，提高了效率。KafkaChannel数据存储在Kafka里面，所以数据是存储在磁盘中。
注意在Flume1.7以前，Kafka Channel很少有人使用，因为发现parseAsFlumeEvent这个配置起不了作用。也就是无论parseAsFlumeEvent配置为true还是false，都会转为Flume Event。这样的话，造成的结果是，会始终都把Flume的headers中的信息混合着内容一起写入Kafka的消息中，这显然不是我所需要的，我只是需要把内容写入即可。

[2]实现

编写拦截器:因为日志服务器产生的日志有些可能不符合json的格式所以需要过滤掉

package com.atguigu.interceptor;

import com.alibaba.fastjson.JSON;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.Iterator;
import java.util.List;

public class ETLInterceptor implements Interceptor {

    /**
     * 初始化方法
     */
    @Override
    public void initialize() {

    }

    /**
     *  处理单条数据
     *  bath.size
     * @param event
     * @return
     */
    @Override
    public Event intercept(Event event) {

        //取出数据
        String json = new String(event.getBody());
        try{
            JSON.parseObject(json);
            return event;
        }catch (Exception e){
            return null;
        }

    }

    /**
     * 批次数据处理
     *   处理
     * @param events
     * @return
     */
    @Override
    public List<Event> intercept(List<Event> events) {

        final Iterator<Event> it = events.iterator();
        while (it.hasNext()){
            //校验是否为json数据
            Event event = intercept(it.next());
            if(event==null) it.remove();
        }
        return events;
    }

    /**
     * 资源关闭
     */
    @Override
    public void close() {

    }
    public static class Builder implements Interceptor.Builder{
        /**
         * 返回自定义拦截器对象
         * @return
         */
        @Override
        public Interceptor build() {
            return new ETLInterceptor();
        }

        /**
         * 获取配置文件参数
         * @param context
         */
        @Override
        public void configure(Context context) {

        }
    }

}

服务器1和服务器2Flume的配置编写

#定义agent、source、channel的名称
a1.sources = r1
a1.channels = c1
#描述source
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/module/flume/position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.batchSize = 100
#配置拦截器
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type=com.atguigu.interceptor.ETLInterceptor$Builder
#描述channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = applog
#false代表不将event整个写入kafka只写入body中的数据
a1.channels.c1.parseAsFlumeEvent = false
#关联source->channel
a1.sources.r1.channels = c1

服务器3 Flume的配置

#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
a1.sources = s1

#描述source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.s1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.sources.s1.kafka.consumer.group.id = applog_group_2
a1.sources.s1.kafka.topics = applog
a1.sources.s1.batchSize = 1000
a1.sources.s1.batchDurationMillis = 1000
#描述channel
a1.channels.c1.type = file
#数据存储路径
a1.channels.c1.dataDirs = /opt/module/flume/datas
#还没有被sink拉走的数据的快照存储路径
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint
#事务容量
a1.channels.c1.transactionCapacity = 1000
#快照多久保存一次
a1.channels.c1.checkpointInterval = 30000
#channel的容量
a1.channels.c1.capacity = 1000000
#描述sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog1-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件，设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour

#管理source->channel->sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

注意:先启动服务器3的Flume,在启动服务器1和服务器2的Flume

(3)结合Kafka的聚合模型(Kafka channel)
在这里插入图片描述

[1]解析

使用Kafka channel 相当于Kafka的消费者,从Kafka中消费数据,写入Hdfs中

[2]实现
编写拦截器:因为日志服务器产生的日志有些可能不符合json的格式所以需要过滤掉

package com.atguigu.interceptor;

import com.alibaba.fastjson.JSON;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.Iterator;
import java.util.List;

public class ETLInterceptor implements Interceptor {

    /**
     * 初始化方法
     */
    @Override
    public void initialize() {

    }

    /**
     *  处理单条数据
     *  bath.size
     * @param event
     * @return
     */
    @Override
    public Event intercept(Event event) {

        //取出数据
        String json = new String(event.getBody());
        try{
            JSON.parseObject(json);
            return event;
        }catch (Exception e){
            return null;
        }

    }

    /**
     * 批次数据处理
     *   处理
     * @param events
     * @return
     */
    @Override
    public List<Event> intercept(List<Event> events) {

        final Iterator<Event> it = events.iterator();
        while (it.hasNext()){
            //校验是否为json数据
            Event event = intercept(it.next());
            if(event==null) it.remove();
        }
        return events;
    }

    /**
     * 资源关闭
     */
    @Override
    public void close() {

    }
    public static class Builder implements Interceptor.Builder{
        /**
         * 返回自定义拦截器对象
         * @return
         */
        @Override
        public Interceptor build() {
            return new ETLInterceptor();
        }

        /**
         * 获取配置文件参数
         * @param context
         */
        @Override
        public void configure(Context context) {

        }
    }

}

服务器1和服务器2 Flume的配置编写

#定义agent、source、channel的名称
a1.sources = r1
a1.channels = c1
#描述source
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/module/flume/position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.batchSize = 100
#配置拦截器
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type=com.atguigu.interceptor.ETLInterceptor$Builder
#描述channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = applog
#false代表不将event整个写入kafka只写入body中的数据
a1.channels.c1.parseAsFlumeEvent = false
#关联source->channel
a1.sources.r1.channels = c1

服务器3 Flume的配置

#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
#描述channel
# 设置channel type
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
# 设置从哪个kafka集群拉取数据
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
# 设置从哪个topic拉取数据
a1.channels.c1.kafka.topic = applog
# 设置消费者组的id
a1.channels.c1.kafka.consumer.group.id = app_group
# kafka中数据是否按照event结构进行解析
a1.channels.c1.parseAsFlumeEvent = false
# kafka中没有数据的时候，间隔多久去拉取
a1.channels.c1.pollTimeout = 5000
# 第一次从topic拉取数据的时候指定从什么位置开始拉取
a1.channels.c1.kafka.consumer.auto.offset.reset = earliest
#描述sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件，设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true

#管理channel->sink
a1.sinks.k1.channel = c1

注意:先启动服务器3的Flume,在启动服务器1和服务器2的Flume

(4)自定义时间戳

	由于Flume默认会用Linux系统时间，作为输出到HDFS路径的时间。如果数据是23:59分产生的。Flume消费Kafka里面的数据时，有可能已经是第二天了，那么这部门数据会被发往第二天的HDFS路径。我们希望的是根据日志里面的实际时间，发往HDFS的路径，所以下面拦截器作用是获取日志中的实际时间。
	解决的思路：拦截json日志，通过fastjson框架解析json，获取实际时间ts。将获取的ts时间写入拦截器header头，header的key是timestamp，因为Flume框架会根据这个key的值识别为时间，写入到HDFS。
    当然header的key值也可以自定义,在配置文件中引用的时候使用%{header中的key值}

[1]拦截器编写

package com.atguigu.interceptor;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.List;

public class TimeStampInterceptor implements Interceptor {
    @Override
    public void initialize() {

    }

    /**
     * 对单个数据进行处理
     * @param event
     * @return
     */
    @Override
    public Event intercept(Event event) {
        //1、解析json
        String data = new String(event.getBody());
        //2、取出时间字段
        JSONObject obj = JSON.parseObject(data);
        //3、将时间字段添加到header中
        Long ts = obj.getLong("ts");
        //4、event返回
        //event.getHeaders().put("timestamp",""+ts);
        SimpleDateFormat format = new SimpleDateFormat("yyyyMMdd");
        String datestr = format.format(new Date(ts));
        event.getHeaders().put("datestr",datestr);
        return event;
    }

    @Override
    public List<Event> intercept(List<Event> events) {
        for(Event event:events){
           intercept(event);
        }
        return events;
    }

    @Override
    public void close() {

    }

    public static class Builder implements Interceptor.Builder {

        @Override
        public Interceptor build() {
            return new TimeStampInterceptor();
        }

        @Override
        public void configure(Context context) {

        }
    }
}

[2]服务器3 的Flume配置

#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
a1.sources = s1

#描述source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.s1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.sources.s1.kafka.consumer.group.id = applog_group_2
a1.sources.s1.kafka.topics = applog
a1.sources.s1.batchSize = 1000
a1.sources.s1.batchDurationMillis = 1000

#拦截器
a1.sources.s1.interceptors = i1
a1.sources.s1.interceptors.i1.type = com.atguigu.interceptor.TimeStampInterceptor$Builder
#描述channel
a1.channels.c1.type = file
#数据存储路径
a1.channels.c1.dataDirs = /opt/module/flume/datas
#还没有被sink拉走的数据的快照存储路径
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint
#事务容量
a1.channels.c1.transactionCapacity = 1000
#快照多久保存一次
a1.channels.c1.checkpointInterval = 30000
#channel的容量
a1.channels.c1.capacity = 1000000
#描述sink
#描述sink
a1.sinks.k1.type = hdfs
#a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#直接获取header上格式好的日期字符串
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%{datestr}
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog1-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件，设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour

#管理source->channel->sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

鸿儒之观

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Flume和Kafka结合实现日志采集

1,业务流程2,日志采集2.1采集模型(1)用传统的flume聚合模型采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.(2)结合Kafka的聚合模型(Kafka source)[1]解析采用Kafka Channel，省去了Sink，提高了效率。KafkaChannel数据存储在Kafka里面，所以数据是存储在磁盘中。注意在Flume1.7以前，Kafka Channel很少有人使用，因为发现parseAsFlu
复制链接

扫一扫