flume数据采集架构

在日常生产环境中,如果想要做数据采集基本上都要用到flume,现在就记录一下flume在整个项目中的架构。

先简单说一下这个项目,从微信小程序中记录用户数据,项目后台程序使用springBoot编写,部署在服务器上,使用Nginx实现负载均衡,然后要计算实时指标和离线指标。

Nginx服务器中产生的数据直接写入到kafka集群中,用于sparkStreaming进行实时指标的计算,这时Nginx服务器上要安装Kafka的插件。

然后还需要将一天的数据保存到HDFS中,计算离线的指标。配置flume集群,这时让flume从Kafka中拉去数据,使用KafkaChannel和HDFSSink将Kafka中的数据写入到HDFS中。为了避免flume重复的消费数据,要将多台flume配置同一个消费者组。

下面来看一下整体架构图:
在这里插入图片描述

这里使用的flume是从Kafka集群中拉去数据,而不是从Nginx中拉去数据,优点就是减少了Nginx服务器的压力。

下面是flume读取Kafka集群中的数据,并将数据写入到hdfs中的配置文件:

kafka-hdfs.conf

#
#定义agent名和channel、sink的名称
a1.channels = c1
a1.sinks = k1

#定义kafka-channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.parseAsFlumeEvent = false
a1.channels.c1.kafka.bootstrap.servers = node-1:9092,node-2:9092,node-3:9092
a1.channels.c1.kafka.topic = gamelog
a1.channels.c1.kafka.consumer.group.id = g100

#具体定义sink
a1.sinks.k1.type = hdfs
#按照当前日期动态生成文件
a1.sinks.k1.hdfs.path = hdfs://ns1/gamelog/%Y%m%d
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.filePrefix = log-
a1.sinks.k1.hdfs.fileType = DataStream
#不按照条数生成文件
a1.sinks.k1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a1.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a1.sinks.k1.hdfs.rollInterval = 60

a1.sinks.k1.channel = c1
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值