Flink理论知识（详细1）

最新推荐文章于 2024-05-06 10:38:42 发布

总觉得自己方方的

最新推荐文章于 2024-05-06 10:38:42 发布

阅读量229

点赞数

本文链接：https://blog.csdn.net/weixin_45117577/article/details/104018014

版权

.flink是什么
.为什么要用flink
.流处理的发展和演变
.Flink的主要特点
.Flink Vs Spark Streaming

.flink是什么
flink是一个框架和分布式处理引擎，用于对无界和有界数据的流进行状态计算
.为什么要用flink
流数据更真实的反应了我们的生活方式
传统的数据架构是基于有限数据集的
我们的目标
低延迟
高吞吐
结果的准确性和良好的容错性
（比如我们需要车导航就是流式实时的数据处理，不能延迟，否则时效性不高）
（输出的结果你要准确，不能错误）
容错性：就是分布式的一个节点挂掉之后，只要回滚到之前的状态处理就好了，回滚的过程不应该把之前处理的在处理一遍，也不能是没处理完的就不处理了（容错性）
.哪些行业需要处理流数据
电商和市场营销
数据报表，广告投放，业务流程需要
物联网（IOT）
传感器时数据采集和显示，实时报警，交通运输业
电信业
基站流量调配
银行和金融业
实时结算和通知推送，实时监测异常行为
传统数据处理架构
在这里插入图片描述
事物处理：就是企业在各种服务器上都有自己的服务，服务会实时的响应来自客户端的各种需求，计算处理之后跟传统的关系型数据库进行数据的存储交互，然后响应给客户端
CRM：客户关系管理系统
Order System：订单管理系统（网站后台会有请求发过来）
WebApp：业务后台
缺点：数据量特别大的时候就会不能做到实时处理

分析处理
在这里插入图片描述
承接上面的数据库聚成一团后再接着进行ETL然后放入数仓可以做sql查询
缺点：离线的

小结：以上呢就是一个是实时的一个是分析，但是我们又做不了了流式分析，所以…
有状态的流式处理
在这里插入图片描述
什么是有状态？
就是在处理数据让他保持一种持续不断进行处理的状态，就不用像把所有数据聚合在一起进行累加了
黄球就是来一条数据后经过有状态处理完了之后就变成绿三角的数据，流进来再溜出去，这时候就不要对数据库做存取，而是本地的状态做存取（蓝盘），本地状态就是放在内存里的比较容易丢，所以做一个落盘的处理防止丢失找不回
第二代处理系统
那么久两个相结合
在这里插入图片描述
上面的Batch Layer把数据类加在一起然后放入数据库这样的有延迟性，再来一个流处理系统，实时性高。叫做lambda而且保证了数据的准确性
缺点：本来是一套系统，现在要维护两套
解决办法：第三代处理系统
Flink处理系统，后面详解

.Flink的主要特点
事件驱动（Event-driven）
在这里插入图片描述
想水龙头一样，以流的形式传输，灵活自如，形式不变
spark一切以批，flink一切以流

在这里插入图片描述

.Flink Vs Spark Streaming
在这里插入图片描述

在这里插入图片描述
Resource Manger：资源管理器整个Flink的资源管理
Dispacher：分发器

总觉得自己方方的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink理论知识（详细1）

.flink是什么.为什么要用flink.流处理的发展和演变.Flink的主要特点.Flink Vs Spark Streaming.flink是什么flink是一个框架和分布式处理引擎，用于对无界和有界数据的流进行状态计算.为什么要用flink流数据更真实的反应了我们的生活方式传统的数据架构是基于有限数据集的我们的目标低延迟高吞吐结果的准确性和良好的容错性（比如我们需...
复制链接

扫一扫