Flink 的优化

最新推荐文章于 2024-10-31 15:04:59 发布

冷艳无情的小妈

最新推荐文章于 2024-10-31 15:04:59 发布

阅读量371

点赞数 3

文章标签： flink 大数据

本文链接：https://blog.csdn.net/wuhahaq/article/details/129999195

版权

产生数据倾斜的原因主要有 2 个方面：

务上有严重的数据热点

技术上大量使用了 KeyBy、GroupBy 等操作，错误的使用了分组 Key，人为产生数据热点。

因此解决问题的思路也很清晰：

业务上要尽量避免热点 key 的设计，成不同的区域，并进行单独处理；

技术上出现热点时，要调整方案打散原来的 key，避免直接聚合；此外 Flink 还提供了大量的功能可以避免数据倾斜

如何打散原来的key：

打散原来的key,可以加随机后缀，对打散的数据进行聚合，之后在下级进行二次keyby进行统计

Flink是如何处理反压的？ :

Flink 内部是基于 producer-consumer 模型来进行消息传递的，Flink的反压设计也是基于这个模型。Flink 使用了高效有界的分布式阻塞队列，就像 Java 通用的阻塞队列（BlockingQueue）一样。下游消费者消费变慢，上游就会受到阻塞。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

冷艳无情的小妈

关注关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Flink优化

yingzi的技术博客

07-28

1549

Flink的内置函数在持续的优化当中，请尽量使用内部函数替换自定义函数。使用内置函数好处优化数据序列化和反序列化的耗时新增直接对字节单位进行操作的功能//初始化tableenvironmentTableEnvironmenttEnv=...//获取tableEnv的配置对象Configurationconfiguration=tEnv.getConfig().getConfiguration();//设置参数httpshttpshttps。...

flink优化案例

努力工作学习的程序员

05-13

1206

CheckPoint说明:每个需要checkpoint的应用在启动时，Flink的JobManager为其创建一个CheckpointCoordinator，CheckpointCoordinator全权负责本应用的快照制作。CheckpointCoordinator周期性的向该流应用的所有source算子发送barrier；

参与评论您还未登录，请先登录后发表或查看评论

大数据之Flink优化

lihuazaizheli的博客

02-24

1886

以计算每个 mid 出现的次数为例，keyby 之前，使用 flatMap 实现 LocalKeyby 功能//Checkpoint 时为了保证 Exactly Once，将 buffer 中的数据保存到该 ListState 中//本地 buffer，存放 local 端缓存的 mid 的 count 信息//缓存的数据量大小，即：缓存多少数据再向下游发送 private int batchSize;

Flink任务实战优化

weixin_42049123的博客

01-05

4041

一个好产品，功能应该尽量包装在服务内部；对于Flink而言，无疑是做到了这一点。但是用户在使用Flink的时候，依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化；用最合理的资源使用，保障实时性、稳定性和最佳Tps的处理能力

Flink优化之--旁路缓存和异步IO

datacreating的博客

08-29

907

在异步模式下，单个并行子任务可以连续发送多个请求，按照返回的先后顺序对请求进行处理，发送请求后不需要阻塞式等待，省去了大量的等待时间，大幅提高了流处理效率。默认情况下，在Flink 算子中，单个并行子任务只能以同步方式与外部系统交互：将请求发送到外部存储，IO阻塞，等待请求返回，然后继续发送下一个请求。这就是flink的简单优化，综合来看，旁路缓存和异步IO的引入不仅解决了传统计算中存在的瓶颈问题，还为系统的可扩展性和稳定性提供了坚实的保障。堆缓存，性能更好，效率更高，因为数据访问路径更短。

flink优化

kaisadaditebaba的博客

01-04

170

flink优化

Flink优化03---反压处理

Johnson8702的博客

04-07

7165

一、概述 1.1 反压的理解简单来说，数据在 flink 拓扑中多个节点自上而下流动，下游处理数据较慢，导致上游数据发送阻塞，最终导致数据源的获取也被阻塞。也就是说，下游处理数据的速度跟不上数据流入的速度，会导致数据流入阻塞，并反馈到上游，使上游数据的发送也产生阻塞。通常情况下，大促销、秒杀活动导致流量激增，会导致反压的产生。 1.2 反压的危害反压的出现，会影响到 checkpoint 时长和 state 大小，进而可能导致资源耗尽甚至系统奔溃。 1）影响 checkpoint 时长

flink优化专题-01-资源配置调优

q287573145的博客

04-03

2209

1、概述 Flink 性能调优的第一步，就是为任务分配合适的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。提交方式主要是 yarn-per-job，资源的分配在使用脚本提交 Flink 任务时进行指定。 ➢ 标准的 Flink 任务提交脚本（Generic CLI 模式）从 1.11 开始，增加了通用客户端模式，参数使用-D <property=value>指定 bin/flink run \

flink sql 优化

努力工作学习的程序员

05-05

2499

不是所有job资源越堆越多好。有时作业的复杂或数据的特殊情况(外部系统性能除外，例如写数据库)，增加资源只会让job性能越来越差或报错(亲身经历job性能差，特别痛苦，一直加资源性能还是差或运行报错)。需要不断找根源问题，多使用不同方法测试才能找到适合job的处理性能。如果优化很多次后job性能还是很差(资源给的很多性能还是不理想)(略增加一些资源)可以将一个job拆分两个job(将占用比较多的业务数据(50%更好)在新的job单独处理)

Flink优化及相关

zwyoozwz的博客

08-02

1432

Flink优化、反压、关联

9-3+京东Flink优化与技术实践.pdf

03-18

本资源为京东Flink优化与技术实践，主要介绍了Flink的优化技术和实际应用实践。一、Flink概述 Flink是一个开源的分布式处理引擎，能够实时处理大规模数据流。Flink提供了一个灵活的编程模型，支持批处理和流处理...

2. Flink快速上手

howard2005的专栏

10-29

353

通过今天的实战，您应该已经了解了如何快速上手Apache Flink，并进行简单的批处理和流处理操作。希望这些内容能够帮助您在实际项目中更好地使用Flink。

Flink处理乱序的数据的最佳实践

大模型大数据攻城狮的专栏

10-31

627

在Flink处理乱序数据的过程中，自定义Watermark生成策略是一项强大的工具，能够显著提升系统的处理效率和准确性。通过灵活运用这一机制，开发者可以根据具体的数据特征和业务需求，实现更为精细化和高效的乱序数据处理方案。自定义Watermark生成策略的核心思想是通过实现WatermarkGenerator接口，根据数据流中的事件特性动态生成Watermark。这种方法允许开发者充分利用数据本身的特性，设计出最适合特定应用场景的Watermark生成算法。

【flink】之新版本kafka到kafka