flume的入门和个人理解

最新推荐文章于 2021-03-11 18:03:20 发布

黑星bm

最新推荐文章于 2021-03-11 18:03:20 发布

阅读量236

点赞数

分类专栏： flume 文章标签：大数据 flume

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45425054/article/details/112583118

版权

Flume初步理解

我们知道光是hadoop来说，是处理死数据的，也就是下载好的文件上传到hdfs中，但是它对大量小文件的上传并不友好，尤其是做不了流式数据上传，这就导致我们在要处理当天不断进入的数据时，十分不便。此时学习Flume，将流式数据文件不断导入hdfs中，猜测主要作用是与hive合用，将导入的数据直接导入hive中数据库的表所在目录。并且，flume只能穿日志文件，不传图像视频

Flume基础架构

在这里插入图片描述
可见，flume更像是一个服务端，java端拿到数据后作为客户端将数据通过flume不断的，流式的储存到了hdfs中
可以将flume的架构分为以下三点
1.source [ sɔːrs ]
个人理解为进入形式，也就是数据将通过怎样的一种形式进入，比较常用的为Taildr Source（可以断点续传，优化很好）
2.channel [ 'tʃænl ]
通道，也就是source在将文件传给Sink时的临时缓冲区，分为内存和落盘两种形式，如果在内存中，agent挂掉的话有可能会丢失数据
3.Sink [ sɪŋk ]
出水口

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
flume的入门和个人理解

Flume初步理解我们知道光是hadoop来说，是处理死数据的，也就是下载好的文件上传到hdfs中，但是它对大量小文件的上传并不友好，尤其是做不了流式数据上传，这就导致我们在要处理当天不断进入的数据时，十分不便。此时学习Flume，将流式数据文件不断导入hdfs中，猜测主要作用是与hive合用，将导入的数据直接导入hive中数据库的表所在目录。Flume基础架构可见，flume更像是一个服务端，java端拿到数据后作为客户端将数据通过flume不断的，流式的储存到了hdfs中可以将flume的架构
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。