Flink
沧海笑007
好记性不如烂笔头,做个技术搬运工,专注了编程语言、大数据框架、算法方面
展开
-
浅谈WaterMark
一直在找理由,没有时间空下来总结一下flink相关的知识点,终于下了决心:后续专注了flink的专题总结。想了想还是以watermark开始,本文只是谈谈个人对待watermark的理解,如有哪里说得不恰当,欢迎讨论。起初对Flink的watermark感动一点困惑,经过时间的沉淀,源码断断续续的阅读,稍微清楚一点,下面我将从一些概念说起。1、时间属性Flink官方中有三种时间类型,Eve...原创 2018-12-10 23:15:26 · 15700 阅读 · 1 评论 -
追源索骥:透过源码看懂Flink核心框架的执行流程
https://www.cnblogs.com/bethunebtj/p/9168274.html写在最前:因为这篇博客太长,所以我把它转成了带书签的pdf格式,看起来更方便一点。想要的童鞋可以到我的公众号“老白讲互联网”后台留言flink即可获取。追源索骥:透过源码看懂Flink核心框架的执行流程flink...转载 2018-12-22 19:32:45 · 801 阅读 · 0 评论 -
Flink 状态管理
什么是状态(State) 有些任务的结果不仅仅依赖于当前的输入,也依赖于之前的输入结果信息,因此对中间结果状态等的保存就很有必要。 在Flink中,我们可以这样理解State:某task/operator在某时刻的一个中间结果。![在这里插入图片描述](https://img-blog.csdnimg.cn/20190107225133132.png?x-oss-process=ima...原创 2019-01-08 08:54:44 · 1437 阅读 · 3 评论 -
Flink的流广播(Broadcast State)
上一篇Flink的状态管理中,我们提到了Operator state,本文介绍的广播状态(Broadcast State)是 Apache Flink 中支持的第三种类型的operator state。Broadcast State使得 Flink 用户能够以容错、一致、可扩缩容地将来自广播的低吞吐的事件流数据存储下来,被广播到某个 operator 的所有并发实例中,然后与另一条流数据连接进...原创 2019-01-13 11:30:04 · 5242 阅读 · 0 评论 -
Flink流广播实例分析
前言 继上一篇,我们介绍了广播变量后,本篇将以某报警规则为例进一步说明广播变量的使用。 具体场景如下: 1、数据源有两种消息:Route Msg和Alarm Msg 2、 Route Msg中有两个关键字段:resultType和resultMark,其中resultType需要和每条报警规则对应,resultMark标志该条消息是有效或者无效。 3、 Alarm Msg根据报...原创 2019-01-13 23:54:06 · 1958 阅读 · 0 评论 -
Flink 原理与实现:Aysnc I/O
背景 Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。 流计算系统中经常需要与外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息。通常,我们的实现方式是向数据库发送用户a的查询请求,然后等待结果返回,在这之前,我们无法发送用户b的查询请求。这是一种同步访问的模式,如下图左边所示。...转载 2019-01-14 11:26:23 · 428 阅读 · 0 评论 -
记一次Flink1.8.0编译过程
环境Window10,内存:8G,处理器:i5-8500,64位Maven配置Maven版本:3.3.9Settings.xml文件配置如下,因为有些包阿里云没有,故增加一个http://uk.maven.org/maven2地址的镜像。<mirrors> <mirror> <id>UK</id> <mirrorOf&...原创 2019-04-13 10:21:20 · 2810 阅读 · 2 评论 -
spark 的内存管理机制
1. 堆内和堆外内存规划作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的堆内(On-heap)空间进行了更为详细的分配,以充分利用内存。同时,Spark 引入了堆外(Off-heap)内存,使之可以直接在工作节点...转载 2019-04-29 14:34:26 · 778 阅读 · 1 评论