Flink
文章平均质量分 91
大数据实时流式处理
四维大脑
这个作者很懒,什么都没留下…
展开
-
Flink-cdc 同步mysql数据
flink-cdc读取mysql原创 2022-08-01 16:26:18 · 2792 阅读 · 2 评论 -
Flink之多流转换(分流、合流)
无论是基本的简单转换和聚合,还是基于窗口的计算,我们都是针对一条流上的数据进行处理的。而在实际应用中,可能需要将不同来源的数据连接合并在一起处理,也有可能需要将一条流拆分开,所以经常会有对多条流进行处理的场景。本章我们就来讨论 Flink 中对多条流进行转换的操作。简单划分的话,多流转换可以分为“分流”和“合流”两大类。目前分流的操作一般是通过侧输出流(side output)来实现,而合流的算子比较丰富,根据不同的需求可以调用 union、connect、join 以及 coGroup 等接口进行连接原创 2022-05-08 11:23:16 · 2733 阅读 · 0 评论 -
Flink之处理函数 (ProcessFunction)
之前所介绍的流处理 API,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都是基于 DataStream 进行转换的;所以可以统称为 DataStream API,这也是 Flink 编程的核心。而我们知道,为了让代码有更强大的表现力和易用性,Flink 本身提供了多层 API,DataStream API 只是中间的一环原创 2022-04-27 16:43:14 · 4812 阅读 · 2 评论 -
Flink之窗口 (Window) 下篇
定义了窗口分配器,我们只是知道了数据属于哪个窗口,可以将数据收集起来了;至于收集起来到底要做什么,其实还完全没有头绪。所以在窗口分配器之后,必须再接上一个定义窗口如何进行计算的操作,这就是所谓的“窗口函数”(window functions)。经窗口分配器处理之后,数据可以分配到对应的窗口中,而数据流经过转换得到的数据类型是 WindowedStream。这个类型并不是 DataStream,所以并不能直接进行其他转换,而必须进一步调用窗口函数,对收集到的数据进行处理计算之后,才能最终再次得到 Data原创 2022-04-27 14:46:02 · 811 阅读 · 0 评论 -
Flink之窗口 (Window) 上篇
在 Flink 中, 窗口就是用来处理无界流的核心。我们很容易把窗口想象成一个固定位置的“框”,数据源源不断地流过来,到某个时间点窗口该关闭了,就停止收集数据、触发计算并输出结果。例如,我们定义一个时间窗口,每 10 秒统计一次数据,那么就相当于把窗口放在那里,从 0 秒开始收集数据;到 10 秒时,处理当前窗口内所有数据,输出一个结果,然后清空窗口继续收集数据;到 20 秒时,再对窗口内所有数据进行计算处理,输出结果;依次类推。原创 2022-04-26 14:28:09 · 4171 阅读 · 0 评论 -
Flink之水位线(Watermark)
在流数据处理应用中,一个很重要、也很常见的操作就是窗口计算。所谓的“窗口”,一般就是划定的一段时间范围,也就是“时间窗”;对在这范围内的数据进行处理,就是所谓的窗口计算。所以窗口和时间往往是分不开的。接下来我们就深入了解一下 Flink 中的时间语义和窗口的应用。原创 2022-04-25 16:51:45 · 7206 阅读 · 6 评论 -
Flink之输出算子 (Sink)
Flink 作为数据处理框架,最终还是要把计算处理的结果写入外部存储,为外部应用提供支持。我们已经了解了 Flink 程序如何对数据进行读取、转换等操作,最后一步当然就应该将结果数据保存或输出到外部系统了。原创 2022-04-24 13:43:37 · 4559 阅读 · 1 评论 -
Flink之转换算子 (Transformation)
数据源读入数据之后,我们就可以使用各种转换算子,将一个或多个 DataStream 转换为新的 DataStream。一个 Flink 程序的核心,其实就是所有的转换操作,它们决定了处理的业务逻辑。原创 2022-04-22 15:59:48 · 885 阅读 · 0 评论 -
Flink之DataStream API(执行环境、数据源、读取kafka)
Flink 有非常灵活的分层 API 设计,其中的核心层就是 DataStream/DataSet API。由于新版本已经实现了流批一体,DataSet API 将被弃用,官方推荐统一使用 DataStream API 处理流数据和批数据。本章主要介绍基本的DataStream API 用法。原创 2022-04-21 14:47:10 · 1828 阅读 · 0 评论 -
Flink系统架构
Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master),负责管理调度,所以在不考虑高可用的情况下只能有一个;而 TaskManager 是“工作者”(Worker、Slave),负责执行任务处理数据,所以可以有一个或多个。原创 2022-04-19 22:40:18 · 7978 阅读 · 0 评论 -
Flink安装部署{单机模式、会话模式(集群部署)、yarn模式(包含hadoop3.1.3部署)}
flink各种部署方式,内部包含hadoop3.1.3集群部署单机模式、会话模式(集群部署)、yarn模式(包含hadoop3.1.3部署原创 2022-04-18 00:01:05 · 3050 阅读 · 1 评论 -
初识Flink
Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前,Flink 已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入,为Flink 社区贡献了大量源码。如今 Flink 已被很多人认为是大数据实时处理的方向和未来,许多公司也都在招聘和储备掌握 Flink 技术的人才。原创 2022-04-07 21:12:52 · 209 阅读 · 0 评论