基于 Ubuntu 玩转 Hudi Docker Demo 系列文章:
《基于 Ubuntu 玩转 Hudi Docker Demo (1)—— 集群安装》
《基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka》
《基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询》
《基于 Ubuntu 玩转 Hudi Docker Demo (4)—— Hive 查询 Hudi 表》
简介
上一篇文章《基于 Ubuntu 玩转 Hudi Docker Demo (1)—— 集群安装》 介绍了如何在 Ubuntu 安装 Docker, 编译 Hudi 源码 以及 使用 docker-compose 部署测试集群。
本文主要介绍如何把测试数据写入到 Kafka 集群。
工具
本文使用 kafkacat 来生产、消费、查看元数据。
在 Ubuntu 在通过以下命令安装:
sudo apt update
sudo apt get install kafkacat
kafkacat 详细介绍可见 《Kafka 命令行工具 kcat/kafkacat》
检查/etc/hosts 文件
确保 /etc/hosts 文件有以下配置:
127.0.0.1 adhoc-1
127.0.0.1 adhoc-2
127.0.0.1 namenode
127.0.0.1 datanode1
127.0.0.1 hiveserver
127.0.0.1 hivemetastore
127.0.0.1 kafkabroker
127.0.0.1 sparkmaster
127.0.0.1 zookeeper
测试数据
在 hudi 源码目录下有两个测试数据文件:
测试数据写入 Kafka
1. 查看当前 kafka 集群信息
kafkacat -b kafkabroker -L -J | jq .
2. 生产数据
cat docker/demo/data/batch_1.json | kafkacat -b kafkabroker -t stock_ticks -P
3. 查看当前 kafka 集群信息
kafkacat -b kafkabroker -L -J | jq .
4. 消费数据
消费10条数据
kafkacat -C -b kafkabroker -t stock_ticks -p 0 -o -10
至此,测试数据已写入到 Kafka