Flink理论知识(详细1)

.flink是什么
.为什么要用flink
.流处理的发展和演变
.Flink的主要特点
.Flink Vs Spark Streaming

.flink是什么
flink是一个框架和分布式处理引擎,用于对无界和有界数据的流进行状态计算
.为什么要用flink
流数据更真实的反应了我们的生活方式
传统的数据架构是基于有限数据集的
我们的目标
低延迟
高吞吐
结果的准确性和良好的容错性
(比如我们需要车导航就是流式实时的数据处理,不能延迟,否则时效性不高)
(输出的结果你要准确,不能错误)
容错性:就是分布式的一个节点挂掉之后,只要回滚到之前的状态处理就好了,回滚的过程不应该把之前处理的在处理一遍,也不能是没处理完的就不处理了(容错性)
.哪些行业需要处理流数据
电商和市场营销
数据报表,广告投放,业务流程需要
物联网(IOT)
传感器时数据采集和显示,实时报警,交通运输业
电信业
基站流量调配
银行和金融业
实时结算和通知推送,实时监测异常行为
传统数据处理架构
在这里插入图片描述
事物处理:就是企业在各种服务器上都有自己的服务,服务会实时的响应来自客户端的各种需求,计算处理之后跟传统的关系型数据库进行数据的存储交互,然后响应给客户端
CRM:客户关系管理系统
Order System:订单管理系统(网站后台会有请求发过来)
WebApp:业务后台
缺点:数据量特别大的时候就会不能做到实时处理

分析处理
在这里插入图片描述
承接上面的数据库聚成一团后再接着进行ETL然后放入数仓可以做sql查询
缺点:离线的

小结:以上呢就是一个是实时的一个是分析,但是我们又做不了了流式分析,所以…
有状态的流式处理
在这里插入图片描述
什么是有状态?
就是在处理数据让他保持一种持续不断进行处理的状态,就不用像把所有数据聚合在一起进行累加了
黄球就是来一条数据后经过 有状态处理完了之后就变成绿三角的数据,流进来再溜出去,这时候就不要对数据库做存取,而是本地的状态做存取(蓝盘),本地状态就是放在内存里的比较容易丢,所以做一个落盘的处理防止丢失找不回
第二代处理系统
那么久两个相结合
在这里插入图片描述
上面的Batch Layer把数据类加在一起然后放入数据库这样的有延迟性,再来一个流处理系统,实时性高。叫做lambda而且保证了数据的准确性
缺点:本来是一套系统,现在要维护两套
解决办法:第三代处理系统
Flink处理系统,后面详解

.Flink的主要特点
事件驱动(Event-driven)
在这里插入图片描述
想水龙头一样,以流的形式传输,灵活自如,形式不变
spark一切以批,flink一切以流

在这里插入图片描述
在这里插入图片描述

.Flink Vs Spark Streaming
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
Resource Manger:资源管理器整个Flink的资源管理
Dispacher:分发器
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值