Apache Hudi + AWS S3 + Athena实战

最新推荐文章于 2024-08-29 09:04:00 发布

置顶

xleesf

最新推荐文章于 2024-08-29 09:04:00 发布

阅读量621

点赞数 1

分类专栏： ApacheHudi

本文链接：https://blog.csdn.net/weixin_45914070/article/details/107771628

版权

Apache Hudi在阿里巴巴集团、EMIS Health，LinkNovate，Tathastu.AI，腾讯，Uber内使用，并且由Amazon AWS EMR和Google云平台支持，最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力，本博客将测试Athena查询S3上Hudi格式数据集。

1. 准备-Spark环境，S3 Bucket

需要使用Spark写入Hudi数据，登陆Amazon EMR并启动spark-shell：

$ export SCALA_VERSION=2.12
$ export SPARK_VERSION=2.4.4
$ spark-shell \
--packages org.apache.hudi:hudi-spark-bundle_${SCALA_VERSION}:0.5.3,org.apache.spark:spark-avro_${SCALA_VERSION}:${SPARK_VERSION}\
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'
...
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.4
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_242)
Type in expressions to have them evaluated.
Type :help for more information.
scala>

接着使用如下scala代码设置表名，基础路径以及数据生成器来生成数据。这里设置basepath为s3://hudi_athena_test/hudi_trips，以便后面进行查询

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._
val tableName = "hudi_trips"
val basePath = "