flume--入门概念与配置详解

最新推荐文章于 2024-07-23 08:03:31 发布

zisuu

最新推荐文章于 2024-07-23 08:03:31 发布

阅读量442

点赞数 1

本文链接：https://blog.csdn.net/zisuu/article/details/106260688

版权

flume 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Flume概述

Flume定义
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。
在这里插入图片描述

2 Flume的优点

可以和任意存储进程集成。
输入的的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力。
flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。
Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到channel，那么source才认为该数据读取完成。同理，只有成功被sink写出去的数据，才会从channel中移除。

3 Flume组成架构
Flume组成架构如图1-1，图1-2所示：
在这里插入图片描述

下面我们来详细介绍一下Flume架构中的组件。

Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成，Source、Channel、Sink。

Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

Event

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。 Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
在这里插入图片描述

Flume拓扑结构

-串联模式

这种模式是将多个flume给顺序连接起来了，从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量， flume数量过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统。

在这里插入图片描述

.- 单source多源

在这里插入图片描述

负载

Flume支持使用将多个sink逻辑上分到一个sink组，flume将数据发送到不同的sink，主要解决负载均衡和故障转移问题。

在这里插入图片描述

Agent聚合

种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase、jms等，进行日志分析。

在这里插入图片描述

Flume Agent内部原理

在这里插入图片描述

安装步骤(基于linux)

下载安装包
http://archive.apache.org/dist/flume/
安装部署
1）将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下
2）解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下
[@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/
3）修改apache-flume-1.7.0-bin的名称为flume
[@hadoop102 module]$ mv apache-flume-1.7.0-bin flume
4）将flume/conf下的flume-env.sh.template文件修改为flume-env.sh，并配置flume-env.sh文件
[@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
[@hadoop102 conf]$ vi flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置文件详解

flume配置文件整体分为五个部分,

声明sources,sinks,channels
定义sources
定义sinks
定义channels
绑定sources,sinks,channels

举例:(监听44444端口)

看不懂?没关系,后面会分五个部分进行解析,看完了再回来看这个案列

# 声明
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 定义 source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

#定义 sink
a1.sinks.k1.type = logger

#定义 channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 绑定
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

声明

这里声明一个agent叫a1,并为a1声明了sources,sinks,channels

a1.sources = r1
a1.sinks = k1
a1.channels = c1

定义sources

Flume中常用的Source有NetCat，Avro，Exec，Spooling Directory，Taildir，也可以根据业务场景的需要自定义Source,具体介绍如下。

NetCat Source

用于监听端口数据

type@              –          类型指定为：netcat
bind@              –          绑定机器名或IP地址
port@              –          端口号
max-line-length   512         一行的最大字节数
ack-every-event   true        对成功接受的Event返回OK
selector.type   replicating   选择器类型replicating or multiplexing
selector.*                    选择器相关参数
interceptors       –          拦截器列表，多个以空格分隔
interceptors.*                拦截器相关参数

Avro Source

用于不同主机的两个flume Agent的互相绑定

type@                        –              类型指定为：avro
bind@                        –              监听的主机名或IP地址
port@                        –              端口号
threads                      –              传输可使用的最大线程数
selector.type        
selector.*       
interceptors                 –              拦截器列表
interceptors.*       
compression-type            none            可设置为“none” 或 “deflate”. 压缩类型需要和AvroSource匹配

Exec Source

用于监听文件,通过执行给定的Unix命令处理传输结果数据，如，cat，tail -F等，

type@                       –                    类型指定为：exec
command@                    –                    需要去执行的命令
shell                       –                    运行命令的shell脚本文件
restartThrottle           10000                  尝试重启的超时时间
restart                   false                  如果命令执行失败，是否重启
logStdErr                 false                  是否记录错误日志
batchSize                  20                    批次写入channel的最大日志数量
batchTimeout              3000                   批次写入数据的最大等待时间（毫秒）
selector.type          replicating               选择器类型replicating or multiplexing
selector.*                                       选择器其他参数
interceptors                –                    拦截器列表，多个空格分隔
interceptors.*

如:

a1.sources.r1.type = exec
#指定监听的文件
a1.sources.r1.command = tail -F /opt/module/hive/logs/hive.log
a1.sources.r1.shell = /bin/bash -c

Spooling Directory Source

用于监听整个目录的文件变化
使用Spooling Directory Source需要注意的两点是:
1)不能对被监控的文件夹下的新增的文件做出任何更改，
2）新增到监控文件夹的文件名称必须是唯一的。由于是对整个新增文件的监控，Spooling Directory Source的实时性相对较低，不过可以采用对文件高粒度分割达到近似实时。

type@                            –                类型指定：spooldir.
spoolDir@                        –                被监控的文件夹目录
fileSuffix                  .COMPLETED            完成数据传输的文件后缀标志
deletePolicy                   never              删除已经完成数据传输的文件时间：never or immediate
fileHeader                     false              是否在header中添加文件的完整路径信息
fileHeaderKey                   file              如果header中添加文件的完整路径信息时key的名称
basenameHeader                 false              是否在header中添加文件的基本名称信息
basenameHeaderKey             basename            如果header中添加文件的基本名称信息时key的名称
includePattern                 ^.*$               使用正则来匹配新增文件需要被传输数据的文件
ignorePattern                   ^$                使用正则来忽略新增的文件
trackerDir                  .flumespool           存储元数据信息目录
consumeOrder                  oldest              文件消费顺序：oldest, youngest and random.
maxBackoff                     4000               如果channel容量不足，尝试写入的超时时间，如果仍然不能写入，则会抛出ChannelException
batchSize                      100                批次处理粒度
inputCharset                  UTF-8               输入码表格式
decodeErrorPolicy              FAIL               遇到不可解码字符后的处理方式：FAIL，REPLACE，IGNORE
selector.type               replicating           选择器类型：replicating or multiplexing
selector.*                                        选择器其他参数
interceptors                    –                 拦截器列表，空格分隔
interceptors.*

如:

a3.sources.r3.type = spooldir

a3.sources.r3.spoolDir = /opt/module/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true

定义Channels

官网提供的Channel有多种类型可供选择，这里介绍Memory Channel和File Channel。

Memory Channel

Memory Channel是使用内存来存储Event，使用内存的意味着数据传输速率会很快，但是当Agent挂掉后，存储在Channel中的数据将会丢失。

Property Name                 Default                Description
type@                            –                   类型指定为：memory
capacity                        100                  存储在channel中的最大容量
transactionCapacity             100                  从一个source中去或者给一个sink，每个事务中最大的事件数
keep-alive                       3                   对于添加或者删除一个事件的超时的秒钟
byteCapacityBufferPercentage    20                   定义缓存百分比
byteCapacity              see description            Channel中允许存储的最大字节总数

如:

a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

File Channel
File Channel使用磁盘来存储Event，速率相对于Memory Channel较慢，但数据不会丢失。

Property Name            Default                  Description    
type@                      –                      类型指定：file.
checkpointDir   ~/.flume/file-channel/checkpoint  checkpoint目录
useDualCheckpoints       false                    备份checkpoint，为True，backupCheckpointDir必须设置
backupCheckpointDir        –                      备份checkpoint目录
dataDirs    ~/.flume/file-channel/data           数据存储所在的目录设置
transactionCapacity      10000                    Event存储最大值
checkpointInterval       30000                    checkpoint间隔时间
maxFileSize            2146435071                 单一日志最大设置字节数
minimumRequiredSpace    524288000                 最小的请求闲置空间（以字节为单位）
capacity                 1000000                  Channel最大容量
keep-alive                 3                      一个存放操作的等待时间值（秒）
use-log-replay-v1         false                   Expert: 使用老的回复逻辑
use-fast-replay           false                   Expert: 回复不需要队列
checkpointOnClose         true

定义Sinks

Flume常用Sinks有Log Sink，HDFS Sink，Avro Sink，Kafka Sink，当然也可以自定义Sink。

Logger Sink

Logger Sink以INFO 级别的日志记录到log日志中，这种方式通常用于测试。

type＠                   –               类型指定：logger
maxBytesToLog           16               能够记录的最大Event Body字节数

HDFS Sink

Sink数据到HDFS，目前支持text 和 sequence files两种文件格式，支持压缩，并可以对数据进行分区，分桶存储。

type@                     –                  指定类型：hdfs
hdfs.path@                –                  HDFS的路径，eg hdfs://namenode/flume/webdata/
hdfs.filePrefix        FlumeData             保存数据文件的前缀名
hdfs.fileSuffix           –                  保存数据文件的后缀名
hdfs.inUsePrefix          –                  临时写入的文件前缀名
hdfs.inUseSuffix         .tmp                临时写入的文件后缀名
hdfs.rollInterval         30                 间隔多长将临时文件滚动成最终目标文件，单位：秒，
                                             如果设置成0，则表示不根据时间来滚动文件
hdfs.rollSize            1024                当临时文件达到多少（单位：bytes）时，滚动成目标文件，
                                             如果设置成0，则表示不根据临时文件大小来滚动文件
hdfs.rollCount            10                 当 events 数据达到该数量时候，将临时文件滚动成目标文件，
                                             如果设置成0，则表示不根据events数据来滚动文件
hdfs.idleTimeout          0                  当目前被打开的临时文件在该参数指定的时间（秒）内，
                                             没有任何数据写入，则将该临时文件关闭并重命名成目标文件
hdfs.batchSize           100                 每个批次刷新到 HDFS 上的 events 数量
hdfs.codeC                –                  文件压缩格式，包括：gzip, bzip2, lzo, lzop, snappy
hdfs.fileType         SequenceFile           文件格式，包括：SequenceFile, DataStream,CompressedStre，
                                             当使用DataStream时候，文件不会被压缩，不需要设置hdfs.codeC;
                                             当使用CompressedStream时候，必须设置一个正确的hdfs.codeC值；
hdfs.maxOpenFiles        5000                最大允许打开的HDFS文件数，当打开的文件数达到该值，
                                             最早打开的文件将会被关闭
hdfs.minBlockReplicas     –                  HDFS副本数，写入 HDFS 文件块的最小副本数。
                                             该参数会影响文件的滚动配置，一般将该参数配置成1，才可以按照配置正确滚动文件
hdfs.writeFormat        Writable             写 sequence 文件的格式。包含：Text, Writable（默认）
hdfs.callTimeout         10000               执行HDFS操作的超时时间（单位：毫秒）
hdfs.threadsPoolSize      10                 hdfs sink 启动的操作HDFS的线程数
hdfs.rollTimerPoolSize    1                  hdfs sink 启动的根据时间滚动文件的线程数
hdfs.kerberosPrincipal    –                  HDFS安全认证kerberos配置
hdfs.kerberosKeytab       –                  HDFS安全认证kerberos配置
hdfs.proxyUser                               代理用户
hdfs.round              false                是否启用时间上的”舍弃”
hdfs.roundValue           1                  时间上进行“舍弃”的值
hdfs.roundUnit          second               时间上进行”舍弃”的单位，包含：second,minute,hour
hdfs.timeZone         Local Time             时区。
hdfs.useLocalTimeStamp  false                是否使用当地时间
hdfs.closeTries 0       Number               hdfs sink 关闭文件的尝试次数；
                                             如果设置为1，当一次关闭文件失败后，hdfs sink将不会再次尝试关闭文件，
                                             这个未关闭的文件将会一直留在那，并且是打开状态；
                                             设置为0，当一次关闭失败后，hdfs sink会继续尝试下一次关闭，直到成功
hdfs.retryInterval        180                hdfs sink 尝试关闭文件的时间间隔，
                                             如果设置为0，表示不尝试，相当于于将hdfs.closeTries设置成1
serializer               TEXT                序列化类型
serializer.*

如:


# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0

Avro Sink

同source avro ,用于与不同主机的flume Agent连接

    type@                        –                  指定类型：avro.
    hostname@                    –                  主机名或IP
    port@                        –                  端口号
    batch-size                  100                 批次处理Event数
    connect-timeout            20000                连接超时时间
    request-timeout            20000                请求超时时间
    compression-type            none                压缩类型，“none” or “deflate”.
    compression-level            6                  压缩级别，0表示不压缩，1-9数字越大，压缩比越高
    ssl                        false                使用ssl加密

Kafka Sink

传输数据到Kafka中，需要注意的是Flume版本和Kafka版本的兼容性

Property Name              Default             Description
type                         –                 指定类型：org.apache.flume.sink.kafka.KafkaSink
kafka.bootstrap.servers      –                 kafka服务地址
kafka.topic          default-flume-topic       kafka Topic
flumeBatchSize              100                批次写入kafka Event数
kafka.producer.acks          1                 多少个副本确认后才能确定消息传递成功，0表示不需要确认
                                               1表示只需要首要的副本得到确认，-1表示等待所有确认。

绑定

这里为Agent(a1)的sources绑定了一个channel c1,
为sinks帮定channels c1

# 绑定
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

最后,知道了配置文件如何配置,该怎么启动服务呢?详情请看下一篇文章

flume六大实战案列(待更新)

zisuu

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
flume--入门概念与配置详解

目录Flume概述Flume概述Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。2 Flume的优点可以和任意存储进程集成。输入的的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力。flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。Flume使用两个独立的事务分别负责从soucrce到channel
复制链接

扫一扫

专栏目录