![](https://img-blog.csdnimg.cn/58871a2b3e9f462cbd1adf7cf5c3f930.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flink
文章平均质量分 66
Apache Flink使用经验和分享
修破立生
专注大数据技术领域,持续学习和分享者
展开
-
Flink SQL 性能优化记录
在处理流式数据时, Flink SQL的ROW_NUMBER,Group by等操作会产生大量的回撤数据,对下游的算子产生巨大的压力,下游算子处理不过来便会产生反压,造成延迟。如下图,前面两个SQL算子产生的回撤流,给下游的KeyedProcess和Sink算子带来的巨大的压力。原创 2023-03-13 15:00:49 · 725 阅读 · 0 评论 -
Flink SQL UDF自定义函数collect_list实现及其泛型化
Flink SQL1.10 没有collect_list函数,可以通过自定义函数的方式实现。文章最后介绍自定义函数的泛型化。原创 2023-02-23 18:49:13 · 989 阅读 · 0 评论 -
Flink SQL使用Row_number去重是否会导致状态无限增长
在Flink SQL中使用ROW_NUMBER去重是一个比较常见的场景,那么这种去重方式是否把所有的历史数据都缓存在状态中导致状态无限增长?Flink SQL使用Row_number去重时,状态中只会保留最新的1或者n条数据,单个主键的状态不会无限增长。观察一段时间, 发现状态的大小稳定在186KB, 不再增长。状态只保留了最新的2000条数据。接下来,通过以下实验观察状态的增长来解答以上的问题。原创 2023-02-23 17:02:44 · 836 阅读 · 0 评论 -
Flink官方例子解析:带窗口的WordCount
本篇介绍的是带窗口的WordCount,使用窗口函数countWindow。countWindow是一种计数窗口,有固定窗口和滑动窗口两种用法。学习更多Flink的相关知识。原创 2023-02-01 18:11:02 · 504 阅读 · 0 评论 -
Flink官方例子解析:WordCount
今天介绍的是官方子项目flink-examples-streaming里面的WordCount例子。WordCount ,中文:单词统计,是大数据计算常用的例子。原创 2023-01-31 17:40:39 · 1590 阅读 · 0 评论 -
Flink官方例子解析:工具类CLI
CLI(org.apache.flink.streaming.examples.wordcount.util.CLI) 这个工具类在官方的大多数例子中都会使用到, 因此本文先对这个类进行介绍。这个类比较简单,主要用于封装传入的参数,如–input, --output。原创 2023-01-30 16:10:32 · 333 阅读 · 0 评论 -
Flink官方例子解析:Flink源码子项目flink-examples
本文介绍了Flink官方demo代码的获取方法原创 2023-01-30 14:58:40 · 1174 阅读 · 0 评论 -
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris
使用 Flink CDC 实现 MySQL 数据实时入 Apache Doris, Apache Doris使用唯一模型,实现更新/删除操作原创 2023-01-07 14:11:48 · 1711 阅读 · 1 评论 -
Apache Doris 系列: 基础篇-Flink DataStream 读写Doris
本来介绍Flink Doris connector 通过 DataStream API 读写 Apache Doris原创 2022-09-18 19:13:41 · 2957 阅读 · 1 评论 -
Apache Doris 系列: 基础篇-Flink SQL写入Doris
本文介绍 Flink SQL如何流式写入 Apache Doris原创 2022-09-22 22:38:35 · 4112 阅读 · 7 评论 -
Flink CDC 系列(11)—— MySQL 数据入湖 Hudi,流式查询Hudi
本文如何介绍通过Flink CDC增量读取MySQL binlog数据写入Hudi,并以增量的方式读取Hudi的数据原创 2022-04-25 05:00:00 · 994 阅读 · 0 评论 -
PyFlink 安装和使用
本文介绍了 PyFlink 在 Ubuntu 20.04 的安装,通过一个简单的 wordcount 案例介绍了 PyFlink 的使用原创 2022-03-27 12:06:00 · 6129 阅读 · 0 评论 -
Flink CDC 系列(10)—— MySQL 数据入湖 Hudi
本文介绍了Flink CDC 读取 MySQL 数据,通过Flink SQL 写入到 Hudi 的过程,并通过实战案例演示了对 MySQL 的 Insert/Update/Delete 操作在 Hudi 的还原。原创 2022-03-26 05:00:00 · 1058 阅读 · 1 评论 -
hudi-flink 模块源码编译
拉取源码本文以 0.10.1 的源码为例$ git clone -b release-0.10.1 https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 247886, done.remote: Counting objects: 100% (29939/29939), done.remote: Compressing objects: 100% (4148/4148), done原创 2022-03-25 05:00:00 · 1104 阅读 · 0 评论 -
Flink CDC 系列(9)—— MySQL 数据入湖 Iceberg,Flink 流式读取 Iceberg
本文介绍了Flink CDC 读取MySQL数据实时写到 Iceberg,Flink SQL 以Streaming的方式读取Iceberg的数据。原创 2022-03-24 05:30:00 · 2664 阅读 · 1 评论 -
Flink CDC 系列(8)—— MySQL 数据入湖 Iceberg
本文演示了 Flink CDC 读取 MySQL 数据,并通过 Flink SQL 写入到 Iceberg 的过程。包含了 Insert/update/delete 的操作。原创 2022-03-23 04:45:00 · 1396 阅读 · 0 评论 -
Flink CDC 系列(7)—— 从 MySQL 到 ElasticSearch
本文介绍了通过 Flink CDC + Flink SQL 同步 MySQL 数据到 ElasticSearch 的案例。案例包含了 Mysql 测试数据准备,ElasticSearch 安装,Flink 安装和配置, 以及Insert/Update/Delete 的操作演示。原创 2022-03-22 05:30:00 · 7465 阅读 · 1 评论 -
Flink CDC 系列(6)—— Flink CDC MySQL Connector 工作机制之 Incremental Snapshot Reading
什么是Incremental Snapshot ReadingIncremental snapshot reading 是读取表块照数据的新机制。和旧的快照机制相比,有以下优点:MySQL CDC Source 支持并行读取快照数据MySQL CDC Source 在快照读取阶段,支持数据块级别的 checkpointMySQL CDC Source 不需要获取全局的读锁(FLUSH TABLES WITH READ LOCK)如果想要并行地读取快照数据,需要给每一个 reader 指定一个唯原创 2022-02-25 04:45:00 · 2916 阅读 · 3 评论 -
Flink CDC 系列(5)—— Flink CDC MySQL Connector 启动模式
本文介绍了 Flink CDC MySQL Connector 启动模式,通过参数 scan.startup.mode 设置,有效值是 initial 和 latest-offset,并介绍了这两种模式含义及使用场景原创 2022-02-24 05:30:00 · 6864 阅读 · 0 评论 -
Flink CDC 系列(4)—— Flink CDC MySQL Connector 常用参数表
本文对 Flink CDC MySQL Connector 的常用参数进行罗列和描述原创 2022-02-23 05:00:00 · 3955 阅读 · 0 评论 -
Flink CDC 系列(3)—— Flink CDC MySQL Connector 与 Flink SQL 的结合使用案例Demo
本文以案例的形式演示了 Flink CDC MySQL Connector 的使用。包括 MySQL 测试数据的准备、Flink CDC 源码编译、Flink 集群启动、Flink CDC MySQL Connector 与 Flink SQL 的结合使用。原创 2022-02-22 05:00:00 · 4944 阅读 · 3 评论 -
Flink CDC 系列(2)—— Flink CDC 源码编译
本文介绍了 Flink CDC 源码编译的流程原创 2022-02-21 06:00:00 · 3598 阅读 · 4 评论 -
Flink CDC 系列(1)—— 什么是 Flink CDC
本文介绍了什么是 Flink CDC, 支持的数据源,Flink CDC 的特性,以及 Flink CDC 与 Flink 的版本对应关系原创 2022-02-21 06:00:00 · 5253 阅读 · 0 评论 -
Flink SQL Client 命令行客户端
本文介绍Flink SQL Client 命令行客户端的启动和基本使用。原创 2022-02-20 06:00:00 · 1032 阅读 · 0 评论 -
Flink 单机部署
本文介绍了 Flink 单机部署的过程,包括 Flink 下载、JDK 下载和环境变量配置、集群启动、TopSpeedWindowing 例子原创 2022-02-19 03:00:00 · 591 阅读 · 0 评论 -
Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态
本文介绍 Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态JDBC Connector 使得关系型数据库( Mysql、PostgreSQL)可以作为 Flink 主流的维表,但如果使用不当会出现 JDBC Connector Source 在运行一段时间之后出现 Finished 状态,导致 checkpoint 不能正常触发。解决方法:FOR SYSTEM_TIME AS OF PROCTIME()原创 2022-02-17 18:21:05 · 1956 阅读 · 1 评论 -
IDEA 启动本地 Flink Web UI
本文介绍了如何在 IDEA 启动 Flink Web UI原创 2022-01-25 23:49:41 · 4863 阅读 · 1 评论 -
Flink SQL查询HBase维表
本文讲解了通过Flink SQL查询Hbase维度数据的方法和示例原创 2022-01-26 00:01:32 · 3465 阅读 · 5 评论 -
Flink SQL tumble window 如何提前触发窗口计算并输出数据
背景有时候tumble window的窗口设置的比较大,譬如1个小时,甚至1天,那么我们是不是只能在窗口结束之后才能看到数据呢?是否看到中间数据?答案是肯定。原创 2022-01-22 17:59:19 · 1463 阅读 · 0 评论 -
Flink SQL regular join 如何设置状态过期
在Flink SQL中,使用多流 regular join会造成状态越来越大, 有内存溢出的风险,那么如何设置状态过期呢?本文介绍了在代码中添加配置的方式实现状态过期原创 2022-01-20 16:06:24 · 1460 阅读 · 3 评论