flume数据采集架构

最新推荐文章于 2024-06-28 22:13:28 发布

weixin_43866709

最新推荐文章于 2024-06-28 22:13:28 发布

阅读量793

点赞数

分类专栏： flume spark共享单车项目文章标签： flume数据采集架构

本文链接：https://blog.csdn.net/weixin_43866709/article/details/90202566

版权

spark共享单车项目同时被 2 个专栏收录

10 篇文章 5 订阅

订阅专栏

flume

3 篇文章 1 订阅

订阅专栏

在日常生产环境中，如果想要做数据采集基本上都要用到flume，现在就记录一下flume在整个项目中的架构。

先简单说一下这个项目，从微信小程序中记录用户数据，项目后台程序使用springBoot编写，部署在服务器上，使用Nginx实现负载均衡，然后要计算实时指标和离线指标。

Nginx服务器中产生的数据直接写入到kafka集群中，用于sparkStreaming进行实时指标的计算，这时Nginx服务器上要安装Kafka的插件。

然后还需要将一天的数据保存到HDFS中，计算离线的指标。配置flume集群，这时让flume从Kafka中拉去数据，使用KafkaChannel和HDFSSink将Kafka中的数据写入到HDFS中。为了避免flume重复的消费数据，要将多台flume配置同一个消费者组。

下面来看一下整体架构图：
在这里插入图片描述

这里使用的flume是从Kafka集群中拉去数据，而不是从Nginx中拉去数据，优点就是减少了Nginx服务器的压力。

下面是flume读取Kafka集群中的数据，并将数据写入到hdfs中的配置文件：

kafka-hdfs.conf

#
#定义agent名和channel、sink的名称
a1.channels = c1
a1.sinks = k1

#定义kafka-channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.parseAsFlumeEvent = false
a1.channels.c1.kafka.bootstrap.servers = node-1:9092,node-2:9092,node-3:9092
a1.channels.c1.kafka.topic = gamelog
a1.channels.c1.kafka.consumer.group.id = g100

#具体定义sink
a1.sinks.k1.type = hdfs
#按照当前日期动态生成文件
a1.sinks.k1.hdfs.path = hdfs://ns1/gamelog/%Y%m%d
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.filePrefix = log-
a1.sinks.k1.hdfs.fileType = DataStream
#不按照条数生成文件
a1.sinks.k1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a1.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a1.sinks.k1.hdfs.rollInterval = 60

a1.sinks.k1.channel = c1