Flink SQL 性能优化记录

修破立生

已于 2023-03-16 18:08:05 修改

阅读量740

点赞数

分类专栏： Flink 文章标签： flink 大数据 big data

于 2023-03-13 15:00:49 首次发布

本文链接：https://blog.csdn.net/weixin_47298890/article/details/129494377

版权

Flink 专栏收录该内容

30 篇文章 16 订阅

订阅专栏

1. 简介

在处理流式数据时， Flink SQL的ROW_NUMBER，Group by等操作会产生大量的回撤数据，对下游的算子产生巨大的压力，下游算子处理不过来便会产生反压，造成延迟。

如下图，前面两个SQL算子产生的回撤流，给下游的KeyedProcess和Sink算子带来的巨大的压力。

在这里插入图片描述

2. 解决

开启微批处理。流处理的机制是每来一条数据便会触发一次算子计算，微批处理则是攒够一批数据后触发算子计算，能有效减少ROW_NUMBER，Group by等操作产生的回撤数据，有效提高计算效率。

相关参数：
table.exec.mini-batch.enabled : 开启微批处理模式，默认值为false
table.exec.mini-batch.allow-latency: 攒批时间，达到该时间则完成攒批触发算子计算
table.exec.mini-batch.size: 攒批条数，达到该数值则完成攒批算子计算

// instantiate table environment
TableEnvironment tEnv = ...

// access flink configuration
Configuration configuration = tEnv.getConfig().getConfiguration();
// set low-level key-value options
configuration.setString("table.exec.mini-batch.enabled", "true");
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");

3. 开启微批模式后

在这里插入图片描述

下游算子的压力降低，反压的情况消失。

在这里插入图片描述

修破立生

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink SQL 性能优化记录

在处理流式数据时， Flink SQL的ROW_NUMBER，Group by等操作会产生大量的回撤数据，对下游的算子产生巨大的压力，下游算子处理不过来便会产生反压，造成延迟。如下图，前面两个SQL算子产生的回撤流，给下游的KeyedProcess和Sink算子带来的巨大的压力。
复制链接

扫一扫