区别:
- Flume (Apache 日志收集系统),主要功能就是收集同步数据源的数据,并将数据保存到持久化系统中,适合数据来源比较广,数据收集结构比较固定的场景;
- Kafka (Apache 分布式消息系统),主要是作为一个中间件系统的方式存在,适合高吞吐量和负载的情况,可以作为业务系统中的缓存、消息通知系统、数据收集等场景。
为什么还需要Flume作为日志收集系统?
- 主要原因:Kafka 需要进行一些额外的开发,Flume 可以直接使用 Sink 将数据保存;
- 次要原因:对于不需要高并发的业务场景,Flume 足够使用,而且Flume对于机器的性能要求低于 Kafka 的。
企业应用中,一般不用 Flume 直接与 SparkStreaming 或 Flink 集成,原因如下:
(1)Flume 的 Sink 端直接和流式系统对接(连接到 Spar