flume事务和进阶

最新推荐文章于 2024-05-11 10:36:03 发布

GOD_WAR

最新推荐文章于 2024-05-11 10:36:03 发布

阅读量1.1k

点赞数 1

分类专栏： flume 文章标签： flume 进阶事务保证数据不丢失

本文链接：https://blog.csdn.net/young_0609/article/details/115797807

版权

flume 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.概述

flume是高可用，高可靠的，分布式的海量日志采集、聚合和传输的系统。

2.flume的作用

用户行为日志通过前端平台存储到logservice中，通过flume的实时采集发过来的信息，然后发送到大数据平台上

3.flume架构

日志源-->source-->channel-->sink-->HDFS

agent：就是一个JVM的进程，里面包含source，channel，sink

source:采集或读取日志的组件，不同的数据源使用不同的source

channel:缓冲区，让source和sink可以在不同速率上运行

sink:负责日志的写出的组件

event：在flume里面传输的是event传输单元，header和body组成，body 里面存放数据的字节数组，header里面默认空，需要手动添加

二、配置和使用

1.配置环境变量的作用

方便使用命令
方便别的框架使用

2.flume运行agent的命令
两种写法

- flume-ng agent --name agent 的名字 --conf 配置文件的目录 --conf-file 配置文件（自己手动写）
- flume-ng agent -c conf -f 配置文件 -n agent名字
flume-ng agent: 表示启动agent

--conf | -c : 表示指定flume的conf目录

--conf-file | -f : 表示指定我们自己编写的flume的配置文件

--name | -n ：表示指定agent的名字

-Dflume.root.logger=INFO,console : 传入参数打印到控制台

3.通用写法：

flume-ng agent -c $FLUME_HOME/conf -f $FLUME_HOME/datas/netcat-flume-logger.conf -n a1 -Dflume.root.logger=INFO,console

4.agent 的配置文件
1.需要定义agent的名字，还需要定义source，channel，sink(名字，有几个)

2.需要对source,channel,sink指明具体的类型和配置

3.需要指明source，channel，sink三者之间的一个关系

注意：一个sink只能对应一个channel，一个channel可以对应多个sink

#1. 监控端口数据：netcat-flume-logger

#source组件:netcat tcp source
#channel组件：memory channel
#sink组件： logger sink

# Named
a1.sources = r1
a1.channels = c1
a1.sinks = k1

#Source
a1.sources.r1.type = netcat
a1.sources.r1.bind = loacathost
a1.sources.r1.port = 6666

#Channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity=100

#Sink
a1.sinks.k1.type = logger

#Bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

5.各种组件的介绍

source:

netcat:监听本机端口
exec：监控一条linux的命令,监听一个文件的目录，如果挂掉，重新从头开始读
spooldir:监控目录是否新增文件，监控不到文件的内容
talldir 监听一个目录的文件，记录好位置，重新读取的话从上次读的地方开始续读
avro: 监听端口，接收avrosink发送到的数据
kafka：作为消费者消费kafka中的数据

sink :

avro 把内容写到哪个机器上面
logger:把数据写到logger上
HDFSsink:写到HDFS上
Ffile_roll : 写到本地目录里面
kafka：作为生产者向kafka发送数据

channel：

Memory Channel：以内存作为缓冲区
File Channel：以磁盘作为缓冲区
Kafka channel ：以kafka作为缓冲区

三、flume进阶

1.flume事务
退避的概念：当服务器断开后，以指数的时间间隔进行尝试连接，到达一定时间间隔后则以此时间间隔来尝试连接

保证了数据不丢失的关键

put 事务流程：首先source先安照batch大小，将数据写入导putlist中，当putlist放满时则开启一个put事物，将putlist中的数据放入channel，如果放入失败，则清空putlist，同时告知source，这时source则会把指针重写指向这个put前的数据开始重新读取，这样就保证的数据不丢失

doput: 将批量数据先写入临时缓冲区putlist
docommit:检查channel内存队列是否足够合并
dorollback:channel内存不足，滚回数据

take事务：

dotake:将数据取到临时缓冲区takelist,并将数据发送到HDFS
docommit:如果数据发送成功，则清空临时缓冲区takelist
dorolback:如果数据发送出现异常，则rollback将临时缓冲区takelist中的数据归还给channel内存队列

2.flume agent内部原理

重要组件：

1）ChannelSelector

ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和Multiplexing（多路复用）。

ReplicatingSelector会将同一个Event发往所有的Channel，Multiplexing会根据相应的原则，将不同的Event发往不同的Channel。

2）SinkProcessor

SinkProcessor共有三种类型，分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor

DefaultSinkProcessor对应的是单个的Sink，LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group，LoadBalancingSinkProcessor可以实现负载均衡的功能，FailoverSinkProcessor可以错误恢复的功能。

3 Flume拓扑结构

3.1 简单串联

这种模式是将多个flume顺序连接起来了，从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量， flume数量过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统。

3.2 复制和多路复用

Flume支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个channel中，或者将不同数据分发到不同的channel中，sink可以选择传送到不同的目的地。

3.3 负载均衡和故障转移

Flume支持使用将多个sink逻辑上分到一个sink组，sink组配合不同的SinkProcessor可以实现负载均衡和错误恢复的功能。

3.4 聚合

这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase等，进行日志分析。