![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
文章平均质量分 93
华山论键
安能摧眉折腰事权贵,使我不得开心颜!
展开
-
Flink 是如何解决乱序问题的
比如星球大战的播放顺序,如果按照上映的时间观看,可能会发现故事在跳跃。在流计算中,与这个例子是非常类似的。所有消息到来的时间,和它真正发生在源头,在线系统 Log 当中的时间是不一致的。在流处理当中,希望是按消息真正发生在源头的顺序进行处理,不希望是真正到达程序里的时间来处理。Flink 提供了 Event Time 和 WaterMark 的一些先进技术来解决乱序的问题。使得用户可以有序的处理这个消息。这是 Flink 一个很重要的特点。...原创 2020-05-14 20:21:32 · 1035 阅读 · 0 评论 -
Flink 最区别于其他流计算引擎的,其实就是状态管理。
什么是状态?例如开发一套流计算的系统或者任务做数据处理,可能经常要对数据进行统计,如 Sum、Count、Min、Max,这些值是需要存储的。因为要不断更新,这些值或者变量就可以理解为一种状态。如果数据源是在读取 Kafka、RocketMQ,可能要记录读取到什么位置,并记录Offset,这些 Offset 变量都是要计算的状态。Flink 提供了内置的状态管理,可以把这些状态存储在 Flink 内部,而不需要把它存储在外部系统。这样做的好处是第一降低了计算引擎对外部系统的依赖以及部署,使运维更加原创 2020-05-14 20:16:38 · 224 阅读 · 0 评论 -
Flink 是如何做到在 Checkpoint 恢复过程中没有任何数据的丢失和数据的冗余?来保证精准计 算的?
这其中原因是 Flink 利用了一套非常经典的 Chandy-Lamport 算法,它的核心思想是把这个流计算看成一个流式的拓扑,定期从这个拓扑的头部 Source点开始插入特殊的 Barriers,从上游开始不断的向下游广播这个 Barriers。每一个节点收到所有的 Barriers,会将 State 做一次 Snapshot,当每个节点都做完 Snapshot 之后,整个拓扑就算完整的做完了一次 Checkpoint。接下来不管出现任何故障,都会从最近的 Checkpoint 进行恢复。Flink原创 2020-05-13 22:25:16 · 632 阅读 · 0 评论 -
Flink 核心技术
Apache Flink 介绍Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。首先 Flink 是一个纯流式的计算引擎,它的基本数据模型是数据流。流可以是无边界的无限流,即一般意义上的流处理。也可以是有边界的有限流,这样就是批处理。因此 Flink 用一套架构同时支持了流处理和批处理。其次,Flink 的一个优转载 2020-05-11 09:20:42 · 760 阅读 · 0 评论 -
Flink之Watermark
当人们第一次使用 Flink 时,经常会对 watermark 感到困惑。但其实 watermark 并不复杂。让我们通过一个简单的例子来说明为什么我们需要 watermark,以及它的工作机制是什么样的。在 Apache Flink 中使用 watermark 的 4 个观察结果在下文中的例子中,我们有一个带有时间戳的事件流,但是由于某种原因它们并不是按顺序到达的。图中的数字代表事件发生的时间戳。第一个到达的事件发生在时间 4,然后它后面跟着的是发生在更早时间(时间 2)的事件,以此类推:注意这是翻译 2020-05-11 09:09:07 · 133 阅读 · 0 评论 -
Flink Window & Time详解
1 Window & TimeApache Flink(以下简称 Flink) 是一个天然支持无限流数据处理的分布式计算框架,在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件,现在Flink 中 Window 可以是时间驱动的(Time Window),也可以是数据驱动的(CountWindow)。下面的代码是在 Flink 中使用 Window...翻译 2020-05-07 22:40:42 · 239 阅读 · 0 评论 -
Flink组态 之【并行度】概念详解
1. 基本概念运行 Flink 应用其实非常简单,但是在运行 Flink 应用之前,还是有必要了解 Flink 运行时的各个 组件,因为这涉及到 Flink 应用的配置问题。通过这张图我们可以看到,在一个 DAG 图中,不能被 chain 在一起operator 会被分隔到不同的 Task 中,也就是说,Task 是 Flink 中资源调度的最小单位。Flink 运行时包括两类进程:●...原创 2020-05-03 22:35:32 · 912 阅读 · 0 评论 -
Linux上Flink安装及测试
一、下载Flink1、手动下载Flink1.1、官网下载:Flink安装包下载.2.将flink安装包上传至linux较为基础 上传方式略过3.解压压缩包3.1解压成功4.启动kafka进入kafka的bin目录启动kafka:start-cluster.sh4.1查看是否启动成功5.centos开放flink默认端口(8081) 修改iptables进入配置...原创 2020-05-03 12:30:45 · 3292 阅读 · 0 评论