Flume解决零点漂移数据

weixin_46134848

已于 2024-03-05 16:04:40 修改

阅读量874

点赞数 6

文章标签： flume 大数据

于 2024-03-05 16:03:53 首次发布

本文链接：https://blog.csdn.net/weixin_46134848/article/details/136480533

版权

文章目录

概要

Flume解决零点漂移数据

例如：

7号当天23:59:59的数据分类在7号,而不是因为数据传输的延迟分类在8号.

整体架构流程

java+flume

flume组件(原理上分析零点问题的由来)

1.Flume由source+channel+sink组成.
2.Flume数据传输的基本单元，以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组成.
图示:
在这里插入图片描述
解决:取Body的时间更换Header的timestamp
(在source端加拦截器interceptor)
图示:

技术细节1

Flume配置文件:

#定义组件
a1.sources=r1
a1.channels=c1
a1.sinks=k1

#配置source1
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sources.r1.kafka.topics=topic_log
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = com.cwl.database.flume.interceptor.TimestampInterceptor$Builder

#配置channel
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint/behavior1
a1.channels.c1.dataDirs = /opt/module/flume/data/behavior1
a1.channels.c1.maxFileSize = 2146435071
a1.channels.c1.capacity = 1000000
a1.channels.c1.keep-alive = 6

#配置sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /origin_data/database/log/topic_log/%Y-%m-%d
a1.sinks.k1.hdfs.filePrefix = log
a1.sinks.k1.hdfs.round = false


a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

#控制输出文件类型
a1.sinks.k1.hdfs.fileType = CompressedStream
a1.sinks.k1.hdfs.codeC = gzip

#组装 
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意配置中:(拦截器全类名)
a1.sources.r1.interceptors.i1.type = com.cwl.database.flume.interceptor.TimestampInterceptor$Builder

技术细节2

java编写拦截器代码:
依赖:

<dependencies>
    <dependency>
        <groupId>org.apache.flume</groupId>
        <artifactId>flume-ng-core</artifactId>
        <version>1.10.1</version>
        <scope>provided</scope>
    </dependency>

    <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>1.2.62</version>
    </dependency>
</dependencies>

<build>
    <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>2.3.2</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
            </configuration>
        </plugin>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <id>make-assembly</id>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build

代码:

package com.cwl.database.flume.interceptor;

import com.alibaba.fastjson.JSONObject;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.nio.charset.StandardCharsets;
import java.util.Iterator;

import java.util.List;
import java.util.Map;

public class TimestampInterceptor implements Interceptor {

    @Override
    public void initialize() {

    }

    @Override
    public Event intercept(Event event) {
    //1、获取header和body的数据
    Map<String, String> headers = event.getHeaders();
    String log = new String(event.getBody(), StandardCharsets.UTF_8);

    try {
        //2、将body的数据类型转成jsonObject类型（方便获取数据）
        JSONObject jsonObject = JSONObject.parseObject(log);

        //3、header中timestamp时间字段替换成日志生成的时间戳（解决数据漂移问题）
        String ts = jsonObject.getString("ts");
        headers.put("timestamp", ts);

        return event;
    } catch (Exception e) {
        e.printStackTrace();
        return null;
    }
}

@Override
public List<Event> intercept(List<Event> list) {
    Iterator<Event> iterator = list.iterator();
    while (iterator.hasNext()) {
        Event event = iterator.next();
        if (intercept(event) == null) {
            iterator.remove();
        }
    }
    return list;
}

    @Override
    public void close() {

    }

    public static class Builder implements Interceptor.Builder {
        @Override
        public Interceptor build() {
            return new TimestampInterceptor();
        }

        @Override
        public void configure(Context context) {
        }
    }
}

代码打包上传到…/flume/lib下

优化

1）FileChannel优化
通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。
官方说明如下：
Comma separated list of directories for storing log files. Using multiple directories on separate disks can improve file channel peformance
checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中，保证checkpoint坏掉后，可以快速使用backupCheckpointDir恢复数据
2）HDFS Sink优化
（1）HDFS存入大量小文件，有什么影响？
元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在Namenode内存中。所以小文件过多，会占用Namenode服务器大量内存，影响Namenode性能和使用寿命
计算层面：默认情况下MR会对每个小文件启用一个Map任务计算，非常影响计算性能。同时也影响磁盘寻址时间。
（2）HDFS小文件处理
官方默认的这三个参数配置写入HDFS后会产生小文件，hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount
基于以上hdfs.rollInterval=3600，hdfs.rollSize=134217728，hdfs.rollCount =0几个参数综合作用，效果如下：
文件在达到128M时会滚动生成新文件
文件创建超3600秒时会滚动生成新文件

小结

拿下!

flume
	1.基本组成
		1.1 source
			TairDirSource:断点续传丶多目录多文件
				断点续传offset文件:
					[iNode+绝对路径,pos]

			解决方案:
				1)选择滚动日志不更名的框架
				2)修改源码,使其只按照iNode值判断是否为同一个文件

			KafkaSource:上游是kafka
		1.2 channel
			kafkachannel:节省了一个sink
				按照Flume格式解析:FALSE
			FileChannel:安全
		1.3 sink
			HDFS Sink
	2.拦截器 (解决零点漂移问题)
		时间戳拦截器(log)
		时间戳+表名拦截器(db)
		开发流程:
			实现拦截器接口;
			私有化构造器
			重写4个方法:
				初始化
				单个事件
				多个事件
				关闭
			静态内部类:创建拦截器
			打包上传到Flume lib目录下
			编写配置信息时,拦截器全类名$Builder
	3.channel选择器
		默认的:副本
		多路复用:结合拦截器使用
	4.sink处理器(sink组)
		Default:只允许单个Sink
		负载均衡:轮询、随机、自定义
		故障转移:
	5.监控器
		Ganglia

		尝试Put的事件数 成功Put的事件数
		尝试Take的事件数 成功Take的事件数
		Channel中现有的事件数

		尝试Put的事件数 >> 成功Put的事件数:资源不足
		尝试Take的事件数 >> 成功Take的事件数:资源不足
		成功Put的事件数 = 成功Take的事件数 + Channel中现有的事件数(如果是>说明:丢数据)
	6.优化
		默认内存:20M 4-6G  (在flume/bin/conf/flume.env ->JAVA_OPTS)
		HDFS Sink:滚动文件参数
			防止产生小文件 30min 128m 0个事件(该参数关闭)
		TairDirSource:
			替换不更名日志框架
			修改源码
			都是为了不产生重复数据
		拦截器:
			时间戳:防止零点漂移问题
		丢数据?:
			没有丢数据!
			通过Ganglia监控发现:
				成功Put的事件数 = 成功Take的事件数 + Channel中现有的事件数
			我们使用的是:TairDirSource+KafkaChannel 以及 KafkaSource+FlieChannel+HDFS Sink
			且Source与Channel与Sink之间有事务保证

weixin_46134848

关注

6
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Flume解决零点漂移数据

2.Flume数据传输的基本单元，以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组成.在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。7号当天23:59:59的数据分类在7号,而不是因为数据传输的延迟分类在8号.1.Flume由source+channel+sink组成.解决:取Body的时间更换Header的timestamp。/flume/lib下。注意配置中:(拦截器全类名)Flume解决零点漂移数据。
复制链接

扫一扫