在日常生产环境中,如果想要做数据采集基本上都要用到flume,现在就记录一下flume在整个项目中的架构。
先简单说一下这个项目,从微信小程序中记录用户数据,项目后台程序使用springBoot编写,部署在服务器上,使用Nginx实现负载均衡,然后要计算实时指标和离线指标。
Nginx服务器中产生的数据直接写入到kafka集群中,用于sparkStreaming进行实时指标的计算,这时Nginx服务器上要安装Kafka的插件。
然后还需要将一天的数据保存到HDFS中,计算离线的指标。配置flume集群,这时让flume从Kafka中拉去数据,使用KafkaChannel和HDFSSink将Kafka中的数据写入到HDFS中。为了避免flume重复的消费数据,要将多台flume配置同一个消费者组。
下面来看一下整体架构图:
这里使用的flume是从Kafka集群中拉去数据,而不是从Nginx中拉去数据,优点就是减少了Nginx服务器的压力。
下面是flume读取Kafka集群中的数据,并将数据写入到hdfs中的配置文件:
kafka-hdfs.conf
#
#定义agent名和channel、sink的名称
a1.channels = c1
a1.sinks = k1
#定义kafka-channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.parseAsFlumeEvent = false
a1.channels.c1.kafka.bootstrap.servers = node-1:9092,node-2:9092,node-3:9092
a1.channels.c1.kafka.topic = gamelog
a1.channels.c1.kafka.consumer.group.id = g100
#具体定义sink
a1.sinks.k1.type = hdfs
#按照当前日期动态生成文件
a1.sinks.k1.hdfs.path = hdfs://ns1/gamelog/%Y%m%d
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.filePrefix = log-
a1.sinks.k1.hdfs.fileType = DataStream
#不按照条数生成文件
a1.sinks.k1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a1.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a1.sinks.k1.hdfs.rollInterval = 60
a1.sinks.k1.channel = c1