Flume采集系统

最新推荐文章于 2023-04-26 19:02:14 发布

丢了西瓜捡了榴莲

最新推荐文章于 2023-04-26 19:02:14 发布

阅读量388

点赞数

分类专栏：数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45575210/article/details/108311146

版权

数据仓库专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.flume介绍

1.1 什么是flume?

Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务.

1.2 Flume特性

Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。
Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集、传输需求，通过对flume的简单配置即可实现；不用开发一行代码！
Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

2.Flume核心

2.1.agent

flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。

对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据，并发往下一个目的地，如下图所示：

每一个agent相当于一个数据(被封装成Event对象)传递员，内部有三个组件：

Source：采集组件，用于跟数据源对接，以获取数据；它有各种各样的内置实现；

Sink：下沉组件，用于往下一级agent传递数据或者向最终存储系统传递数据

Channel：传输通道组件，用于从source将数据传递到sink

2.2 Event:flume内部数据封装形式

数据在Flume内会被封装成统一的数据类型Event

Source组件从外部获取原始数据后,将数据封装成Event文件

Sink组件从Channel中取出Event,根据配置文件的要求,将Event以其他形式输出

Event封装对象主要有两部分组成： Headers和 Body

Header是一个集合 Map[String,String]，用于携带一些KV形式的元数据（标志、描述等）

Boby：就是一个字节数组；装载具体的数据内容

2.3.Transaction:事务控制机制

Flume有两个独立的事务分别负责从Soucrce到Channel，以及从Channel到Sink的event传递

从Soucrce到Channel:Channel接收来自Source的数据,当同一个事务中的事件都接收成功后,记录最后的偏移量标记记录成功,进行下一次操作,如果数据接收不成功则事务回滚,重新提交事务

同理，事务以类似的方式处理从Channel到Sink的传递过程

事务机制涉及到如下重要参数：

a1.sources.s1.batchSize =100

a1.sinks.k1.batchSize = 200

a1.channels.c1.transactionCapacity = 300 （应该大于source或者sink的批次大小）

< transactionCapacity 是说，channel中保存的事务的个数>

跟channel的数据缓存空间容量区别开来：

a1.channels.c1.capacity = 10000

3.Flume安装部署

1.准备Hadoop环境

2.将安装包上传到需要采集数据的节点上(例如日志采集节点)

3.解压tar -zxvf apache-flume-1.8.0-bin.tar.gz

4.根据数据采集要求配置采集方案(在配置文件中自定义)

5.根据采集方案配置文件,在对应节点上运行flume agent

启动命令

bin/flume-ng agent -c ./conf ………….

commands:

help 显示本帮助信息

agent 启动一个agent进程

avro-client 启动一个用于测试avro source的客户端（能够发送avro序列化流）

version 显示当前flume的版本信息

global options: 全局通用选项

--conf,-c <conf> 指定flume的系统配置文件所在目录

--classpath,-C <cp> 添加额外的jar路径

--dryrun,-d 不去真实启动flume agent，而是打印当前命令

--plugins-path <dirs> 指定插件（jar）所在路径

-Dproperty=value 传入java环境参数

-Xproperty=value 传入所需的JVM配置参数

agent options:

--name,-n <name> agent的别名（在用户采集方案配置文件中）

--conf-file,-f <file> 指定用户采集方案配置文件的路径

--zkConnString,-z <str> 指定zookeeper的连接地址

--zkBasePath,-p <path> 指定用户配置文件所在的zookeeper path，比如：/flume/config

--no-reload-conf 关闭配置文件动态加载

--help,-h display help text

avro-client options:

--rpcProps,-P <file> RPC client properties file with server connection params

--host,-H <host> avro序列化数据所要发往的目标主机（avro source所在机器）

--port,-p <port> avro序列化数据所要发往的目标主机的端口号

--dirname <dir> 需要被序列化发走的数据所在目录（提前准备好测试数据放在一个文件中）

--filename,-F <file> 需要被序列化发走的数据所在文件(default: std input)

--headerFile,-R <file> 存储header key-value的文件

--help,-h 帮助信息

Either --rpcProps or both --host and --port must be specified.

Note that if <conf> directory is specified, then it is always included first

in the classpath.

开启内置监控功能

-Dflume.monitoring.type=http -Dflume.monitoring.port=34545

丢了西瓜捡了榴莲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume采集系统

1.flume介绍1.1 什么是flume?Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务.1.2 Flume特性Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。 Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中.
复制链接

扫一扫

专栏目录

丢了西瓜捡了榴莲 CSDN认证博客专家 CSDN认证企业博客

码龄5年

4: 原创

119万+: 周排名

50万+: 总排名

6837: 访问

: 等级

44: 积分

5: 粉丝

3: 获赞

1: 评论

14: 收藏

私信

关注

热门文章

分类专栏

数据仓库 4篇

最新评论

Flume使用(从本地日志采取文件)
爱读书的小寿星: 你好，博主，有个问题想问下，你的本地是因为Flume是安装在本地的吗？我是vmware下配置的linux环境和Flume，现在要把windows下Spring项目里的生成的实时日志文件传给linux上的Flume，这样该怎么实现呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。