大数据实时流处理场景化解决方案-实时处理技术框架介绍-flume

Flume是一个分布式日志采集、聚合和传输系统,适用于应用日志采集。其核心是Source、Channel和Sink,提供日志信息从固定目录到HDFS、HBase、Kafka等目的地的实时传输。Flume支持级联和数据合并,通过Source Interceptors、Channel Selectors和Sink Processor实现数据过滤、路由和负载均衡。它还具备故障转移和负载均衡功能,确保高可用性。
摘要由CSDN通过智能技术生成

实时处理技术框架介绍
Flume
Flume是什么?
• Flume是一个分布式、高可靠和高可用的海量日志采集、聚合与传输的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方 (可定制) 的能力。
• Flume适用场景:应用系统产生的日志采集,采集后的数据供上层应用分析。
• Flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,Flume再删除自己缓存的数据。

Flume能干什么?
• 提供从固定目录下采集日志信息到目的地 (HDFS,HBase,Kafka) 能力。
• 提供实时采集日志信息 (taildir) 到目的地的能力。
• Flume支持级联 (多个Flume对接起来),合并数据的能力。
• Flume支持按照用户定制采集数据的能力。
• 合并数据:即是将源文件多行数据当做一条数据给Flume,如果不合并,文件中的一行数据就是一条数据。

Flume架构
• Flume基础架构:Flume可以单节点直接采集数据,主要应用于集群内数据。
在这里插入图片描述
• Flume多agent架构:Flume可以将多个节点连接起来,将最初的数据源经过收集,存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。
在这里插入图片描述
• Flume多agent架构中可以将多个Flume级联起来,级联场景主要应用于收集FusionInsight集群外的节点上的日志,并经过多个Flume节点最终汇聚到集群内。
在这里插入图片描述
• Source:数据源,即是产生日志信息的源头,Flume会将原始数据建模抽象成自己处理的数据对象:event。
• Channel Pocessor:通道处理器,主要作用是将source发过来的数据放入通道(channel)中。
• Interceptor:拦截器,主要作用是将采集到的数据根据用户的配置进行过滤、修饰。
• Channel Selector:通道选择器 ,主要作用是根据用户配置将数据放到不同的通道channel)中。
• Channel:通道,主要作用是临时缓存数据。
• Sink Runner: Sink运行器,主要作用是通过它来驱动Sink

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值