数据采集模块——Flume消费Kafka数据写入到HDFS

本文介绍了如何在测试环境中,使用Flume从Kafka消费JSON格式的数据,并将其批量写入到HDFS的过程。详细讲述了Kafka版本确认、创建模拟数据、Flume版本及配置、解决启动过程中遇到的依赖问题,最后验证HDFS中数据的生成情况。
摘要由CSDN通过智能技术生成

一、项目背景

1. 实时数据写入到 Kafka topic 中,经 Flume 批量采集到 HDFS 上。数据格式为标准 JSON 格式(不包含嵌套 JSON)。

2. 测试环境模拟数据的采集过程。测试集群为 第三方公司 基于当前主流开源组件自主研发并搭建的大数据平台,包含常用组件:HDFS,MapReduce,Yarn,Hive,HBase,Phoenix,Zookeeper,Spark,Impala,Flume,Sqoop,Kafka,Solr,Oozie,Hue,Redis
等。

3. 通过组件的使用,零编程。

以下过程记录本次模拟采集过程,包括操作步骤、所遇问题等。

二、创建模拟数据

创建 JSON 格式数据,通过 Kafka 自带的 producer 将数据写入到 topic 中,以备 Flume 消费。

{"gatheringTime":"2016-03-24","status":"有效","speed":"0.0 km/h","distance":"6000 km"}
{"gatheringTime":"2017-04-24","status":"无效","speed":"0.0 km/h","distance":"7000 km"}
{"gatheringTime":"2018-04-24","status":"有效","speed":"0.0 km/h","distance":"8000 km"}
{"gatheringTime":"2019-04-24","status":"无效","speed":"0.0 km/h","distance":"9000 km"}
{"gatheringTime":"2020-04-24","status":"有效","speed":"0.0 km/h","distance":"10000 km"}
{"gatheringTime":"2020-05-25","status":"有效","speed":"0.0 km/h","distance":"12000 km"}
{"gatheringTime":"2021-05-25","status":"有效","speed":"0.0 km/h","distance":"12000 km"}
{"gatheringTime":"2022-05-25","status":"有效","speed"

  • 2
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值