《flink基础教程》笔记

最新推荐文章于 2023-02-16 16:25:17 发布

GOD_WAR

最新推荐文章于 2023-02-16 16:25:17 发布

阅读量302

点赞数

分类专栏： Flink 技术博览文章标签： flink 教程

本文链接：https://blog.csdn.net/young_0609/article/details/102653393

版权

技术博览同时被 2 个专栏收录

109 篇文章 8 订阅

订阅专栏

Flink

66 篇文章 27 订阅

订阅专栏

第一章：为何选择flink

1.2 流处理应用：

对数据进行高吞吐、低延迟和准确的处理，比如银行的24小时金融服务，需要及时检测出用户行为异常的应用程序；电信行业，如果不能很好地处理流数据，就不能在某个移动通信基站出现流量高峰前预先将流量分配给其他基站。
除了低延迟和高吞吐，流处理框架还应该有效的处理异常中断，以及对外预警。

1.3 流处理技术演变

Storm（先锋）很难实现高吞吐。【P18】
Spark将数据流拆分，如果分割的足够小，计算就能实现真正的流处理。不过间歇性的批处理作业，会导致开发和运维相互交错。完成间歇性的批处理作业所需要的时间和数据达到的时间紧密耦合，任何延迟都可能导致不一致。【P20】

1.4 flink初探

flink项目理念：为分布式，高性能，随时可用以及准确的流处理应用程序打造的开源刘处理框架。
批处理与流处理：flink将批处理（有限的静态数据）视为一种特殊的流处理。

1.5 生产中的flink案例【P25】

第二章：流处理框架

2.1 传统架构与流处理框架

依赖数据库作为数据源的架构：数据到达数据分析所需要的工作流程太复杂、缓慢;
数据库是唯一的数据源；异常问题处理复杂；

全局状态一致性问题【P29】为什么流处理框架不需要考虑？？？
流式框架，不存储全局状态数据，每个应用采取本地数据库，或者分布式文件保存自己的数据

2.2 消息传输和流处理层

2.3 消息传输层的理想功能

高性能和持久性：持久性可以支持消息重播；
生产者和消费者解耦。

2.4 支持微服务架构的流数据

流处理从消息队列中订阅数据并加以处理。处理后的数据可以流向另一个消息队列，其他应用程序可以共享流数据，一些处理后的数据也可以保存在本地数据库中。

2.4.2 流处理架构用例：欺诈检测【P34】

2.5 不限于实时应用【P36】

第三章：flink的用途

3.1 保障不同类型数据的正确性

定义符合自然规律的数据产生窗口：例：追踪网站访问者动态，固定定义数据产生窗口，数据往往是不正确的，利用flink可以设置活动阈值。【P41】
事件时间：flink 可以区分事件产生时间，处理时间等不同类型的时间
发生故障后，仍保持准确：设置检查点，记录中间计算的状态，在故障发生时准确的重置。
及时给出结果：例，计算均值，如果不能及时的算出要求时间内的一段结果，很难说结果是正确的