基于 Ubuntu 玩转 Hudi Docker Demo 系列文章:
《基于 Ubuntu 玩转 Hudi Docker Demo (1)—— 集群安装》
《基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka》
《基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询》
《基于 Ubuntu 玩转 Hudi Docker Demo (4)—— Hive 查询 Hudi 表》
简介
Apache Hudi 官网提供了一个基于 MacOS 的 Hudi Docker Demo, 那么其它操作系统的朋友是不是就没有机会玩了呢?答案是否定的。
接下来,笔者将会通过一系列文章介绍如何基于 Ubuntu 玩转 Hudi Docker Demo。
Windows 的用户可以先安装一个 Ubuntu 的虚拟机。 虚拟机工具有 VirtualBox/Vmware/Multipass 等,选择一款自己熟悉的即可。本文推荐使用 Multipass 《如何在 Windows 安装轻量级虚拟机工具 Multipass》
本文主要内容如下:
- 环境准备,Docker,kafkacat, jp安装, /etc/hosts 文件修改等
- Hudi 编译
- 基于 Docker 搭建测试集群,包含 hdfs/hive/spark/presto 等组件
环境准备
环境信息:
Ubuntu 版本 20.04, JDK 1.8, Maven 3.6.3,Scala 2.11
1. Docker 安装
sudo apt-get update
sudo apt-get install docker docker-compose
docker 其它命令可以查看 《Ubuntu docker 笔记》, 包含启动、停止、修改 docker 下载源
2. kafkacat 安装
kafkacat 是一个 Kafka 命令行工具,用于生产和消费数据
sudo apt-get install kafkacat jp
kafkacat 详细介绍可见 《Kafka 命令行工具 kcat/kafkacat》
3. 修改/etc/hosts
添加以下配置
127.0.0.1 adhoc-1
127.0.0.1 adhoc-2
127.0.0.1 namenode
127.0.0.1 datanode1
127.0.0.1 hiveserver
127.0.0.1 hivemetastore
127.0.0.1 kafkabroker
127.0.0.1 sparkmaster
127.0.0.1 zookeeper
Hudi 编译
1. 下载 Hudi 源码
git clone -b release-0.10.1 https://github.com/apache/hudi.git
拉取 Hudi 0.10.1 版本的源码
2. 源码编译
进入源码目录,执行:
mvn package -DskipTests
编译完成:
基于 Docker 搭建测试集群
在 Hudi 源码编译的同时,可以同时搭建测试集群。
进入 Hudi 源码的 docker 目录, 执行命令:
sudo ./setup_demo.sh
这段命令会拉去 docker 镜像,并启动 docker 容器。
执行成功后,查看运行中的 docker 容器:
sudo docker ps
至此,基于 Docker 容器的测试集群搭建完毕。