Flink_01_概述(个人总结)

hellosrc2023

已于 2022-03-11 23:23:03 修改

阅读量929

点赞数 1

分类专栏：大数据文章标签： flink 大数据 big data

于 2022-02-20 00:03:34 首次发布

本文链接：https://blog.csdn.net/weixin_46141936/article/details/123026029

版权

大数据专栏收录该内容

39 篇文章 11 订阅

订阅专栏

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章
              2. 由于是个人总结, 所以用最精简的话语来写文章
              3. 若有错误不当之处, 请指出

简介:

Flink用于对无界和有界数据流进行有状态计算

一切皆为流数据(数据是源源不断过来的, 没有边界尽头), 批处理数据是有界数据流

流处理 VS 批处理:

数据来一点处理一点

数据积攒到一批才进行处理

窗口是有点批处理那味的, 但是窗口有滑动步长, 可以步长设小点, 依然要不停地实时计算

窗口是有界流

无界流, 处理数据时是认为只拿到当前以及之前的数据

有界流, 处理数据时是认为一次性拿到所有数据

实时计算 VS 离线计算:

实时计算数据处理的延迟低, 以毫秒为单位

离线计算数据处理的延迟高, 以天/小时为单位

准实时计算: 延迟处于实时和离线之间, 以秒/分钟为单位

实时离线是从数据处理延迟的角度来看的, 流处理批处理是从数据积攒量的角度来看的,

一般而言实时计算是流处理, 离线计算是批处理

状态:

状态就是一块本地内存, 要访问历史窗口(或批次)的数据时就需要用到状态, 把历史窗口(或批次)的数据处理结果值保存到状态里

事件驱动型:

事件的到来会触发计算

优点:

同时支持高吞吐, 低延迟, 高性能

Spark 高吞吐, 高延迟, 高性能

Storm 低吞吐, 低延迟, 高性能
吞吐量是指一段时间内数据的处理量

低延迟和高吞吐其实是悖论:
- 如果要求数据延迟低的话，那么数据肯定是来一条就处理一条，然后马上将数据发送给下游，这样延迟肯定是最低的
- 但是如果要提高吞吐量的话，不如先缓存一批数据，然后一次性将缓存的数据进行处理然后发送出去这样效率比较高
  
  网络传输方面(分布式计算系统 JobManager和TaskManager的传输), 一次传输100条数据, 肯定比100次传1条数据更高效,
  
  可以减小在网络上频繁传输单个消息带来的延迟和网络带宽开销 ,减小了TCP连接次数从而节约了三次握手四次挥手的次数
Flink对低延迟和高吞吐权衡一下取了一个折中,

可以用setBufferTimeout方法设置timeoutMills参数, 用于控制上游往下游发送数据的频率:
1. 设成100(默认值), 即每隔100ms会flush一次所有的channel，将当前Task中的数据发送给下游
2. 设成-1, 那么就会在Buffer满了或者Checkpoint触发时才会将数据发送到下游, 此时能够获得最大的吞吐量
3. 设成0，那么每条数据处理完毕之后都会立刻发送到下游，此时能够获得最低的延迟
自行高效地管理JVM内存
支持灵活的窗口操作, 有时间语义和Watermark容忍迟到数据
支持有状态的计算
高容错, 有检查点持久化机制, 基于分布式快照算法实现
有FlinkSQL和CEP这种强大的高级API

Flink的四大基石:

window, time(时间语义+watermark), state, checkpoint

Flink对比其他计算引擎:

分析角度:

延时上
吞吐量上
更多的强大机制

Flink VS Spark:

Flink VS SparkStreaming:

Flink 高吞吐, 低延迟, 高性能

Spark 高吞吐, 高延迟, 高性能
Flink是流处理, 实时计算

Spark是微批处理, 准实时计算
很多处理机制上, Flink更强大
1. 有多种时间语义
2. 有watermark允许迟到机制
3. 有多种窗口
4. State更丰富
5. 有侧输出流, 用来临时存放数据, 然后后续根据标签进行提取
6. 有采用分布式快照算法, 持久化工作和 Task 并发运行
7. 有Exactly Once机制