flume 概述

Apache Flume 是一个分布式的,可靠的,可用的,可从许多不同的数据来源聚合和移动大量日志数据的高效数据收集系统.flume的用途并不仅限于日志数据的收集,由于数据源是可定制的,flume可以用于运输网络流量数据,社交媒体数据,和几乎任何数据源所产生的大量数据

Flume的架构主要有一下几个核心概念:
Event:最基本的数据传输单元。
Agent:一个独立的Flume进程,包含组件Source、Channel、Sink
Source:用来消费传递到该组件的Event
Channel:中转Event的一个临时存储,保存有Source组件传递过来的Event
Sink:从Channel中读取并移除Event,将Event传递到Flow Pipeline中的下一个Agent(如果有的话)

数据流动模型
这里写图片描述

flume source组件 接收来自例如web server这样的外部源传递来的events ,这些外部源按照对应source组件可以识别的格式发送events到flume。source接收的event可以发送给一个或多个channel,channel会存储这些events直到sink来消费。sink最终将event写入hdfs或本地文件进行持久化换或者作为一个新的数据源将events写入下一个agent

flume的安装与使用可以参考我的另一篇文章flume入门例子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值