大数据之路——flume（1.9.0官网学习）

最新推荐文章于 2024-08-02 10:40:37 发布

wy888882

最新推荐文章于 2024-08-02 10:40:37 发布

阅读量868

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/wy888882/article/details/89358100

版权

Apache Flume是一个分布式、可靠且可用的系统，用于从多个源高效收集、聚合和移动大量日志数据到集中式存储。它包含Source、Channel和Sink，事件(Event)是其基本数据单位，携带日志数据并带有头信息。Source捕获事件后推入Channel，然后由Sink负责持久化或进一步传输。配置文件定义了Agent的组件及数据流。Flume支持Avro、Thrift等多种数据源和接收器类型，以及内存、文件、HDFS等多种数据通道。通过多代理配置，可以实现跨多个代理的数据流。

摘要由CSDN通过智能技术生成

Flume简介
Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。2011 年 10 月 22 号，cloudera 完成了 Flume-728，对 Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为 Flume NG（next generation）；改动的另一原因是将 Flume 纳入 apache 旗下，cloudera Flume 改名为 Apache Flume。

Apache Flume是一个分布式，可靠且可用的系统，用于有效地从许多不同的源收集，聚合和移动大量日志数据到集中式数据存储。

系统要求
Java运行时环境 - Java 1.8或更高版本
内存 - 源，通道或接收器使用的配置的足够内存
磁盘空间 - 通道或接收器使用的配置的足够磁盘空间
目录权限 - 代理使用的目录的读/写权限

架构
数据流模型
flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，载有的数据对flume是不透明的，header是容纳了key-value字符串对的无序集合，key在集合中是唯一的；header可以在上下文路由中使用扩展，这些Event由Agent（Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。））外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。在这里插入图片描述

Source： 数据收集组件。（source从Client收集数据，传递给Channel）
Channel： 中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）
Sink： 从Channel中读取并移除Event， 将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

Agent配置
Flume Agent配置存储在本地配置文件中。这是一个遵循Java属性文件格式的文本文件。可以在同一配置文件中指定一个或多个Agent的配置。配置文件包括Agent中每个源，接收器和通道的属性以及它们如何连接在一起以形成数据流。
流中的每个组件（源，接收器或通道）都具有特定于类型和实例化的名称，类型和属性集。例如，Avro源需要主机名（或IP地址）和端口号来接收数据。内存通道可以具有最大队列大小（“容量”），HDFS接收器需要知道文件系统URI，创建文件的路径，文件轮换频率（“hdfs.rollInterval”）等。组件的所有此类属性需要在托管Flume Agent的属性文件中设置。
Agent需要知道要加载哪些组件以及它们如何连接以构成流程。这是通过列出代理中每个源，接收器和通道的名称，然后为每个接收器和源指定连接通道来完成的。例如，代理通过名为file-channel的文件通道将事件从名为avroWeb的Avro源流向HDFS sink hdfs-cluster1。配置文件将包含这些组件的名称和文件通道，作为avroWeb源和hdfs-cluster1接收器的共享通道。
启动Agent
使用名为flume-ng的shell脚本启动代理程序，该脚本位于Flume发行版的bin目录中。您需要在命令行上指定代理名称，config目录和配置文件：

$ bin / flume-ng agent -n $ agent_name -c conf -f conf / flume-conf.properties.template
-n  指定agent名称
-c  指定配置文件的目录
-f  指定配置文件

配置例子
在这里，我们给出一个示例配置文件，描述单节点Flume部署。此配置允许用户生成事件，然后将其记录到控制台。
#example.conf：单节点Flume配置

＃命名此代理上的组件
a1.sources  =  r1 
a1.sinks  =  k1 
a1.channels  =  c1

＃描述/配置源
a1.sources.r1.type  =  netcat 
a1.sources.r1.bind  =  localhost 
a1.sources.r1.port  =  44444

＃描述接收器
a1.sinks.k1.type  =  logger

＃使用缓冲内存中事件的通道
a1.channels.c1.type  =  memory 
a1.channels.c1.capacity  =  1000 
a1.channels.c1.transactionCapacity  =  100

＃将源和接收器绑定到通道
a1.sources.r1.channels  =  c1 
a1.sinks.k1.channel  =  c1

鉴于此配置文件，我们可以按如下方式启动Flume：

$ bin / flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger = INFO，console

请注意，在完整部署中，我们通常会包含一个选项： - conf = 。所述目录将包括一个外壳脚本flume-env.sh和潜在的一个log4j的属性文件。在这个例子中，我们传递一个Java选项来强制Flume登录到控制台，我们没有自定义环境脚本。、

通过将自己的jar包添加到flume-env.sh文件中的FLUME_CLASSPATH变量中，始终可以包含自定义Flume组件，但Flume现在支持一个名为plugins.d的特殊目录，该目录会自动获取以特定格式打包的插件。这样可以更轻松地管理插件打包问题，以及更简单的调试和几类问题的故障排除，尤其是库依赖性冲突。
plugins.d目录
该plugins.d目录位于$ FLUME_HOME / plugins.d。在启动时，flume-ng启动脚本在plugins.d目录中查找符合以下格式的插件，并在启动java时将它们包含在正确的路径中。
plugins.d中的每个插件（子目录）最多可以有三个子目录：

lib - the plugin’s jar(s)
libext - the plugin’s dependency jar(s)
native - any required native libraries, such as .so files

plugins.d目录中的两个插件示例：

plugins.d/
plugins.d/custom-source-1/
plugins.d/custom-source-1/lib/my-source.jar
plugins.d/custom-source-1/libext/spring-core-2.5.6.jar
plugins.d/custom-source-2/
plugins.d/custom-source-2/lib/custom.jar
plugins.d/custom-source-2/native/gettext.so

数据摄取
Flume支持许多从外部来源摄取数据的机制。

RPC
Flume发行版中包含的Avro客户端可以使用avro RPC机制将给定文件发送到Flume Avro源：

 $ bin / flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.10

上面的命令会将/usr/logs/log.10的内容发送到监听该端口的Flume源。
网络流

Flume支持以下机制从常用日志流类型中读取数据，例如：

Avro
Thrift
Syslog
Netcat

设置多代理流程

在这里插入图片描述
为了跨多个代理或跳数据流，先前代理的接收器和当前跳的源需要是avro类型，接收器指向源的主机名（或IP地址）和端口。
合并

日志收集中非常常见的情况是大量日志生成客户端将数据发送到连接到存储子系统的少数消费者代理。例如，从数百个Web服务器收集的日志发送给写入HDFS集群的十几个代理。
这可以通过使用avro接收器配置多个第一层代理在Flume中实现，所有这些代理都指向单个代理的avro源（同样，您可以在这种情况下使用thrift源/接收器/客户端）。第二层代理上的此源将接收的事件合并到单个信道中，该信道由信宿器消耗到其最终目的地。

多路复用流程
Flume支持将事件流多路复用到一个或多个目的地。这是通过定义可以复制或选择性地将事件路由到一个或多个信道的流复用器来实现的。

在这里插入图片描述
上面的例子显示了来自代理“foo”的源代码将流程扩展到三个不同的通道。扇出可以复制或多路复用。在复制流的情况下，每个事件被发送到所有三个通道。对于多路复用情况，当事件的属性与预配置的值匹配时，事件将被传递到可用通道的子集。例如，如果一个名为“txnType”的事件属性设置为“customer”，那么它应该转到channel1和channel3，如果它是“vendor”，那么它应该转到channel2，否则转到channel3。可以在代理的配置文件中设置映射。
配置
如前面部分所述，Flume代理程序配置是从类似于具有分层属性设置的Java属性文件格式的文件中读取的。
定义流
要在单个代理中定义流，您需要通过通道链接源和接收器。您需要列出给定代理的源，接收器和通道，然后将源和接收器指向通道。源实例可以指定多个通道，但接收器实例只能指定一个通道。格式如下：

# list the sources, sinks and channels for the agent
<Agent>.sources = <Source>
<Agent>.sinks = <Sink>
<Agent>.channels = <Channel1> <Channel2>

# set channel for source
<Agent>.sources.<Source>.channels = <Channel1> <Channel2> ...

# set channel for sink
<Agent>.sinks.<Sink>.channel = <Channel1>

例如，名为agent_foo的代理正在从外部avro客户端读取数据并通过内存通道将其发送到HDFS。配置文件weblog.config可能如下所示：

 #list the sources, sinks and channels for the agent
agent_foo.sources = avro-appserver-src-1
agent_foo.sinks = hdfs-sink-1
agent_foo.channels = mem-channel-1
#set channel for source
agent_foo.sources.avro-appserver-src-1.channels = mem-channel-1
#set channel for sink
agent_foo.sinks.hdfs-sink-1.channel = mem-channel-1

这将使事件从avro-AppSrv-source流向hdfs-Cluster1-sink，通过内存通道mem-channel-1。当使用weblog.config作为其配置文件启动代理程序时，它将实例化该流程。

配置单个组件
定义流后，可以设置每个源，接收器和通道的属性。这是以相同的分层命名空间方式完成的，可以在其中设置组件类型以及特定于每个组件的属性值

# properties for sources
<Agent>.sources.<Source>.<someProperty> = <someValue>

# properties for channels
<Agent>.channel.<Channel>.<someProperty> = <someValue>

# properties for sinks
<Agent>.sources.<Sink>.<someProperty> = <someValue>

需要为Flume的每个组件设置属性“type”，以了解它需要什么类型的对象。每个源，接收器和通道类型都有自己的一组属性，使其能够按预期运行。所有这些都需要根据需要进行设置。在前面的示例中，