【图解大数据技术】Flume、Kafka、Sqoop
Flume
Flume简介
Flume是一个数据采集工具,多用于大数据技术架构下的日志采集。
Flume的特点是高可靠,高可用,分布式,海里数据采集传输。
Flume的基础架构如下:

- Agent:一个Agent就是一个JVM进行,Agent中主要由Source、Channel、Sink三部分组成。
- Source:Source主要负责收集外部的数据到Agent中,以Event的形式存入Channel。
- Sink:Sink负责从Channel中批量删除Event并把它们写入指定的外部存储。
- Channel:Source与Sink之间的一个缓冲区,有MemoryChannel和FileChannel两种类型,分别存储数据在内存和文件中。Channel以Event的形式存储数据。
- Event:Flume以Event的形式将数据从源头传输到目的地。Event分Header和Body两部分,Header是KV格式,Body是字节数组。
Flume的应用场景
我们使用Flume,一般是在大数据环境下做日志采集,或者收集爬虫数据,然后导入到HDFS或Kafka中。

Kafka
Kafka简介
Kafka是一个消息队列,一般应用在大

最低0.47元/天 解锁文章
4545

被折叠的 条评论
为什么被折叠?



