【Flink 实战系列】Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS（parquet 格式 + snappy 压缩）

最新推荐文章于 2024-07-21 18:22:05 发布

JasonLee实时计算

最新推荐文章于 2024-07-21 18:22:05 发布

阅读量1.6k

点赞数 2

分类专栏： Flink 实战系列文章标签： kafka flink sql hdfs

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/127172639

版权

Flink 实战系列专栏收录该内容

69 篇文章 474 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了如何利用 Flink SQL 从 Kafka 实时同步数据到 HDFS，并以 Parquet 格式存储，同时采用 Snappy 压缩。通过添加必要的 jar 包，初始化 SQL 脚本，定义 SQL 逻辑，最后提交任务，实现了高效的数据同步。文章中展示了简单的 SQL 语句示例，并验证了 HDFS 上数据的正确写入。

摘要由CSDN通过智能技术生成

Flink SQL 同步 Kafka 数据到 HDFS（parquet + snappy）

在上一篇文章中，我们用 datastream API 实现了从 Kafka 读取数据写到 HDFS 并且用 snappy 压缩，今天这篇文章我们来实现一个 Flink SQL 版本的，为了方便我直接采用 sql-client 提交任务的方式来演示。

添加 jar 包

截屏2022-10-05 下午2.25.52

第一步肯定是添加我们需要的 jar 包了，一共需要下面这几个 jar 包：

flink-connector-files-1.15.1.jar
flink-sql-connector-kafka-1.15.1.jar
flink-sql-parquet-1.15.1.jar
hadoop-mapreduce-client-core-2.9.0.jar

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JasonLee实时计算

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

【Flink 实战系列】Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩

JasonLee实时计算

10-04

1689

这里使用的是 bulk encoding 格式，这个方法有两个参数，第一个表示的是数据存储的路径，第二个表示的是数据的存储逻辑。这个消费 Kafka 用的是 KafkaSource 也是实现了新的接口 Source，在反序列的时候还是用的我们自定义的通用反序列化类 PoJoDeserializationSchema 直接把 JSON 格式的数据转成 JasonLeePOJO 对象。提交任务这里就省略了，我们直接在 hive 创建个表，然后把 HDFS 上的数据加载进来，看看能否正常读取出来。

Flink实战（108）：connector（十七）hdfs 读写（二）写

微信搜：import_bigdata，大数据领域硬核原创作者

01-23

639

声明：本系列博客是根据SGG的视频整理而成，非常适合大家入门学习。《2021年最新版大数据面试题全面开启更新》 1. 依赖HDFS pom.xml 添加依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

参与评论您还未登录，请先登录后发表或查看评论

通过Flink-Sql将Kafka数据写入HDFS

IT_xhf的专栏

04-06

4919

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、创建Hive Catalog二、创建表1.创建Kafka表2.创建Hive表3. 执行同步语句总结参考资料前言近期，公司有需求将Kafka的数据写入到Hive表中，当时看到Flink有一个File Connector可以将文件写入到HDFS,所以开始了解Flink-

Flink SQL 实时读取 kafka 数据写入 Clickhouse —— 日志处理（三）

最新发布

奔跑的蜗牛的博客

07-21

1684

本文总结了如何使用使用 Clickhouse 保存日志数据，以及如何通过 Flink SQL 将我们的日志实时从 kafka 同步至 clickhouse，然后在结合强大的第三方查询 BI 工具 superset，玩转业务日志，挖掘业务日志的潜在价值。本文设计到的技能知识点比较多，需要熟悉 Clickhouse， Kafka, FlinkSQL, Superset 等，我之前的文章中总结了一些关于 Clickhouse 和 Kafka 相关的内容，感兴趣的读者可以看看.

flink-sql-hdfs-connector:支持根据数据的事件时间落到对应的分区目录

03-18

flink-sql-hdfs-connector 支持根据数据的事件时间落到对应的分区目录分支说明 master分支不放代码，分支对应适应相同版本的flink，例如分支flink-1.10就仅在flink 1.10版本上测试通过使用方法下载代码编译 cd flink-sql-hdfs-connector mvn clean package ll target/flink-sql-hdfs-connector-1.10-shaded.jar 复制target / flink-sql-hdfs-connector-1.10-shaded.jar到flink安装目录的lib下即可使用 sql样例 CREATE TABLE hdfs_file_sink ( ` id ` bigint , ` policy_id ` INT , ` policy_no `

flink消费kafka落地到hdfs

小屋

02-28

912

flink消费kafka落地到hdfs 发现是hdfs的地址没写全，在跳板机上即使不写全也能读写，但flink落hdfs的时候必须写全了。

flink实现消费kafka并保存到HDFS

weixin_44729673的博客

03-14

286

flink实现消费kafka并保存到HDFS

【Flink实战系列】Flink使用StreamingFileSink写入HDFS（parquet格式snappy压缩）

JasonLee实时计算

06-13

5602

这篇文章主要介绍一下Flink使用StreamingFileSink写入HDFS怎么用snappy压缩，之前的文章介绍过了写入parquet格式的数据，当时也有星球里面的朋友问这种写法怎么压缩，我只是简单的回复了说可以用AvroParquetWriter,今天就来详细介绍一下具体怎么实现我们首先来看一下AvroParquetWriter的源码 /** Create a new {@link AvroParquetWriter}. * * @param file a file path * @p

Flink SQL: 高效解析 Kafka 数据并存储为 Parquet 至 HDFS

击水三千里的专栏

12-11

1253

Flink SQL应用程序的结构是通过定义一系列任务来执行实时数据处理，这些任务创建必要的表和视图，处理数据，然后将结果插入指定的接收器。这项工作利用 Flink 的流处理能力以及 SQL 和 UDF 来转换和管理数据流

Flink 实战 - 3.读取 Parquet 文件 By Scala / Java

BITDDD小栈

07-21

1276

parquet 文件常见与 Flink、Spark、Hive、Streamin、MapReduce 等大数据场景，通过列式存储和元数据存储的方式实现了高效的数据存储与检索，下面介绍 Flink 场景下如何读取 Parquet。

flink实战--StreamingFileSink使用大全

阿华田的博客

06-22

3227

简介 Flink目前对于外部Exactly-Once写支持提供了两种的sink，一个是Kafka-Sink，另一个是Hdfs-Sink，这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的，主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍Streamin...

FlinkSQL+HDFS+Hive+SparkSQL实现业务数据增量进入数据仓库

yang_shibiao的博客

04-08

3537

flink13.1 将模拟的实时数据写入的hdfs,并且使用hive可以查询数据

daqu1314的博客

06-07

611

第二步:写代码增加pom.xml文件,代码中也有kafka的数据源配置,也可以参考,IP地址是我的虚拟机地址,没连接外网无法登陆;解决问题: 解决直接向hive直接写入数据,再不需要配置hive配置文件;若今天是20230608那么dt的时间也是20230608,当然在实际的生产中,可以写个定时任务,定时添加;2.合理设置checkpoint时间,时间越短产生的小文件越多.1.第一步创建hive表并且添加分区,就当前时间为例,1.生产中一定增加checkpoint 存储的目录.

Flink SQL-连接器

weixin_48370579的博客

07-29

988

Flink SQL flink 官网 https://nightlies.apache.org/flink/flink-docsmaster/zh/docs/connectors/table/datagen/ flink sql版本的WordCount package com.wt.flink.sql import org.apache.flink.table.api.{EnvironmentS...

转载--Flink sql 按时间分区写入到本地文件，hdfs文件

qq_31866793的博客

07-13

4043

详情请看：https://www.aboutyun.com/forum.php?mod=viewthread&tid=29104 直接上代码：已经验证过jsonpaquet等数据格式写入，在本地磁盘生成了文件。要注意的是要注意导入依赖： package flinksql; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.ap...

Flink源码阅读之FileSystem Connector

weixin_41608066的博客

10-21

1151

代码在flink-table-runtime-blink模块,用户指南参考官网. 目前是旧的实现方式，将会按FLIP-95重新实现FLINK-19336 入口类FileSystemTableFactory,如何做Factory discover的可以参考之前的博文，这里就不赘述了。 Sink 构造FileSystemTableSink对象，传入相关属性参数 public TableSink<RowData> createTableSink(TableSinkFactory.Context con

通过Flink将数据以压缩的格式写入HDFS

javawins的专栏

01-25

5242

在Flink中我们可以很容易的使用内置的API来读取HDFS上的压缩文件，内置支持的压缩格式包括.deflate，.gz, .gzip，.bz2以及.xz等。但是如果我们想使用Flink内置sink API将数据以压缩的格式写入到HDFS上，好像并没有找到有API直接支持（如果不是这样的，欢迎留言纠正）。本文将介绍如何将数据以gz压缩格式将处理后的数据写入到HDFS上。主要实现代码如下： ...

flink sink 到hdfs文件系统

lck_csdn的博客

07-04

1072

flink 写入 hdfs

flink 实时同步kafka数据到hdfs

05-26

Apache Flink 是一个流处理框架，支持实时数据处理和批处理。Flink 可以轻松地与 Apache Kafka 集成，实现从 Kafka 中读取数据并将其写入 HDFS。下面是实现实时同步 Kafka 数据到 HDFS 的基本步骤： 1. 在 Flink 中引入 Kafka 和 HDFS 的依赖。 2. 创建一个 Flink StreamExecutionEnvironment 对象，并设置相关参数。 3. 创建一个 Kafka 数据源，并从 Kafka 中读取数据。 4. 对读取的数据进行转换和处理。 5. 将处理后的数据写入 HDFS 中。以下是一个基本的示例代码： ```java import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.utils.ParameterTool; import org.apache.flink.core.fs.FileSystem.WriteMode; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer09; public class KafkaToHDFS { public static void main(String[] args) throws Exception { // 从命令行参数中读取参数 final ParameterTool params = ParameterTool.fromArgs(args); // 创建一个 Flink StreamExecutionEnvironment 对象，并设置相关参数 final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(params.getInt("parallelism", 1)); // 设置 Kafka 数据源 Properties props = new Properties(); props.setProperty("bootstrap.servers", "localhost:9092"); props.setProperty("group.id", "test"); FlinkKafkaConsumer09<String> consumer = new FlinkKafkaConsumer09<>( params.getRequired("topic"), new SimpleStringSchema(), props); // 从 Kafka 中读取数据 DataStream<String> stream = env.addSource(consumer); // 对读取的数据进行转换和处理 DataStream<String> transformed = stream.map(new MapFunction<String, String>() { @Override public String map(String value) throws Exception { // 进行转换和处理 return value.toUpperCase(); } }); // 将处理后的数据写入 HDFS 中 transformed.writeAsText(params.getRequired("output"), WriteMode.OVERWRITE); // 执行任务 env.execute("KafkaToHDFS"); } } ``` 在执行上述代码之前，需要先将 Flink 的依赖添加到项目中，并修改示例代码中的相关配置参数，如 Kafka 的连接地址、topic 名称和 HDFS 的输出路径等。