flink
文章平均质量分 87
小李哥编程
这个作者很懒,什么都没留下…
展开
-
Flink中的数据倾斜与解决方案实践
在使用一些大数据处理框架进行海量数据处理的过程中,可能会遇到数据倾斜的问题,由于大数据处理框架本身架构的原因,在框架层面,数据倾斜问题是无法避免的,只能在业务层面来缓解或者避免。因为要处理海量的数据,常用的大数据处理框架都会采用分布式架构,将海量数据分成多个小的分片,再将每个小分片分配给不同的计算节点来处理,通过对计算节点进行横向扩容,来快速提升框架的数据处理性能,因此即使是海量数据,也可以在较短的时间内完成处理,但是也正是由于这种架构设计,导致了数据倾斜问题的产生。原创 2022-09-18 12:51:17 · 1700 阅读 · 1 评论 -
Flink中的Window计算-增量计算&全量计算
flink是一个流处理引擎,可以实现基于每条消息实时计算,但是在有些业务系统开发中,并不需要按照消息维度的数据计算,更多的是指定时间内的一批消息的计算,比如:过去1分钟内,产生消息个数、消息中的最大值等。这个时候,就需要对数据流按照时间切分成一个个小的“时间窗口”,然后对这个时间窗口内的数据按照自定义的处理逻辑进行处理。原创 2022-09-12 18:50:31 · 2361 阅读 · 0 评论 -
IDEA中搭建flink开发环境,看这一篇就够了,亲测有效
在使用flink进行应用开发的时候,通常都是将开发的应用程序,提交到flink集群中,但是这样对应用程序开发调试很不方便,所谓磨刀不误砍柴工,下面我整理一个在mac上使用idea开发flink程序的配置教程,具体如下。添加flink应用程序开发必要的依赖:此时启动开发的应用程序,会报错,报错信息如下:报错原因主要在于应用提交后,无法启动本地flink框架。需要添加flink启动必须的依赖,该依赖是:flink-dist_2.11-1.11.2.jar,依赖的版本取决于下载flink包的版本,下载链接参考原创 2022-07-10 16:57:33 · 7230 阅读 · 1 评论 -
Flink中subTask,并行度,slot你分得清吗?
ApacheFlink是一个开源的流处理框架,应用于分布式、高性能、高可用的数据流应用程序。可以处理有限数据流和无限数据,即能够处理有边界和无边界的数据流。无边界的数据流就是真正意义上的流数据,所以Flink是支持流计算的。有边界的数据流就是批数据,所以也支持批处理,目前flink在各大互联网公司应用广泛,是最为流行的大数据实时计算引擎之一。...原创 2022-07-31 23:45:38 · 1613 阅读 · 0 评论