大数据 -- 06-- Flink

知行合一。。。

已于 2023-12-24 15:46:58 修改

阅读量318

点赞数

分类专栏：大数据Hadoop 文章标签：大数据 flink

于 2020-11-26 20:15:47 首次发布

本文链接：https://blog.csdn.net/weixin_48052161/article/details/110201534

版权

大数据Hadoop 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

Flink

在这里插入图片描述

Flink简介

Apache Flink是一个框架和分布式处理引擎，
用于对无界和有界数据流进行有状态计算。
Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

在这里插入图片描述

先来看一下Flink与同类产品的对比.

在这里插入图片描述

Flink详解

Flink的组成

在这里插入图片描述

JobManager：协调分布式执行。他们安排任务，协调检查点，协调故障恢复等。
总是至少有一个工作经理。高可用性设置将有多个JobManager，其中一个始终是领导者，而其他则是待机者。
TaskManagers：执行任务（或者更具体地说，子任务）的数据流，以及缓冲器和交换数据流。必须始终至少有一个TaskManager。

Flink抽象级别

在这里插入图片描述

Flink程序的基本构成

Source：数据源
Transformation：转化
Sink：输出

时间

在flink中定义了对数据描述的三种时间策略

Event time：事件时间，是数据产生时间
Ingestion time：接收时间，是数据接入source的瞬时时间
Processing time：处理时间，是每个执行基于时间的操作的机器节点的本地时间。

窗口

Time window：根据时间设定窗口大小
Tumbling window：滚动窗口
Sliding window：滑动窗口
Count window：根据数据条数设定窗口大小

Flink的优势

Flink的具体优势有以下几点：

同时支持高吞吐、低延迟、高性能

Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。

像Apache Spark也只能兼顾高吞吐和高性能特性，主要因为在Spark Streaming流式计算中无法做到低延迟保障；

而流式计算框架Apache Storm只能支持低延迟和高性能特性，但是无法满足高吞吐的要求。而满足高吞吐、低延迟、高性能这三个目标对分布式流式计算框架来说是非常重要的。

支持事件时间（Event Time）概念

在流式计算领域中，窗口计算的地位举足轻重，但目前大多数框架窗口计算采用的都是系统时间（Process Time），也是事件传输到计算框架处理时，系统主机的当前时间。Flink能够支持基于事件时间（Event Time）语义进行窗口计算，也就是使用事件产生的时间，这种基于事件驱动的机制使得事件即使乱序到达，流系统也能够计算出精确的结果，保持了事件原本产生时的时序性，尽可能避免网络传输或硬件系统的影响。

支持有状态计算

Flink在1.4版本中实现了状态管理，所谓状态就是在流式计算过程中将算子的中间结果数据保存在内存或者文件系统中，等下一个事件进入算子后可以从之前的状态中获取中间结果中计算当前的结果，从而无须每次都基于全部的原始数据来统计结果，这种方式极大地提升了系统的性能，并降低了数据计算过程的资源消耗。对于数据量大且运算逻辑非常复杂的流式计算场景，有状态计算发挥了非常重要的作用。

支持高度灵活的窗口（windows）操作

在流处理应用中，数据是连续不断的，需要通过窗口的方式对流数据进行一定范围的聚合计算，例如统计在过去的1分钟内有多少用户点击某一网页，在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行再计算。Flink将窗口划分为基于Time、Count、Session，以及Data-driven等类型的窗口操作，窗口可以用灵活的触发条件定制化来达到对复杂的流传输模式的支持，用户可以定义不同的窗口触发机制来满足不同的需求。

基于轻量级分布式快照（Snapshot）实现的容错

Flink能够分布式运行在上千个节点上，将一个大型计算任务的流程拆解成小的计算过程，然后将tesk分布到并行节点上进行处理。在任务执行过程中，能够自动发现事件处理过程中的错误而导致数据不一致的问题，比如：节点宕机、网路传输问题，或是由于用户因为升级或修复问题而导致计算服务重启等。在这些情况下，通过基于分布式快照技术的Checkpoints，将执行过程中的状态信息进行持久化存储，一旦任务出现异常停止，Flink就能够从Checkpoints中进行任务的自动恢复，以确保数据在处理过程中的一致性。

基于JVM实现独立的内存管理

内存管理是所有计算框架需要重点考虑的部分，尤其对于计算量比较大的计算场景，数据在内存中该如何进行管理显得至关重要。针对内存管理，Flink实现了自身管理内存的机制，尽可能减少JVM GC对系统的影响。另外，Flink通过序列化/反序列化方法将所有的数据对象转换成二进制在内存中存储，降低数据存储的大小的同时，能够更加有效地对内存空间进行利用，降低GC带来的性能下降或任务异常的风险，因此Flink较其他分布式处理的框架会显得更加稳定，不会因为JVM GC等问题而影响整个应用的运行。

Save Points（保存点）

对于7*24小时运行的流式应用，数据源源不断地接入，在一段时间内应用的终止有可能导致数据的丢失或者计算结果的不准确，例如进行集群版本的升级、停机运维操作等操作。值得一提的是，Flink通过Save Points技术将任务执行的快照保存在存储介质上，当任务重启的时候可以直接从事先保存的Save Points恢复原有的计算状态，使得任务继续按照停机之前的状态运行，Save Points技术可以让用户更好地管理和运维实时流式应用。