Flink
文章平均质量分 78
中国好胖子、
学不死就往死里学,比你优秀的人比你还努力,你还拿什么和别人拼
展开
-
FlinkCDC详解
flink的cdc详解原创 2024-02-20 21:35:32 · 5042 阅读 · 0 评论 -
Flink反压如何排查
Flink反压如何排查,是我们在进行flink开发以及监控的流程中必不可少的一项技能,同时也是很多大厂面试需要问题的知识点。原创 2023-02-09 14:18:25 · 1661 阅读 · 1 评论 -
Session Window Join原理附源码解析
Session Window Join 解析以及源码剖析原创 2022-02-24 15:37:04 · 508 阅读 · 0 评论 -
Flink Interval Join使用以及源码解析
在之前的Join算子中,一般使用的是coGroup算子,因为一个算子可以提供多种语义,但是也是有一些弊端的。因为coGroup只能实现在同一个窗口的两个数据流之间进行join,在实际的计算过程中,往往会遇到当req发生时,resp迟迟无法响应,这个时候,就会出现一个跨窗口的问题。原创 2022-02-21 16:05:48 · 3278 阅读 · 4 评论 -
Flink窗口大小怎么确定的,开始时间是时候?
我还记得的在我刚学习flink的时候,B站的老师说过,Flink窗口的开始时间和结束时间和你想的不一样。那个时候我好像记得老师说过,flink的窗口大小会根据你的时间单位来进行修正原创 2022-01-18 22:09:00 · 3857 阅读 · 0 评论 -
Flink新特性withIdleness一文全解析
1、withIdleness 介绍There are two places in Flink applications where a WatermarkStrategy can be used: 1) directly on sources and 2) after non-source operation.The first option is preferable, because it allows sources to exploit knowledge about shards/parti原创 2021-05-31 19:45:15 · 5099 阅读 · 13 评论 -
一文带你搞懂Flink Watermark
1、Watermark的介绍首先我们应该了解一个概念,就是Watermark是用来测量时间的进度的一种方法。 因为我们在使用EventTime时间来进行计算的时候,由于EventTime是真实世界的时间,那么百分之100可能会发生乱序数据,那么何为乱序数据呢,也就是说,我1分钟前产生的数据现在才进入到我的系统中进行处理,这里就是延迟数据,那么乱序就是在正常的时间数据流中夹杂着一些非顺序的一些数据,例如某台机器的网络抖动,或者网卡和系统的延迟导致了这台机器上报的数据延迟上传,那么flink在处理的时候,这个原创 2021-05-31 10:19:44 · 1007 阅读 · 0 评论 -
Springboot 如何获取配置文件中和运行环境的所有配置
在开发中往往需要获取到一些配置启动一些东西,那么这个时候我们想要获取的配置的多少是不固定的,例如实时计算平台中,flink可配置的参数是很多的,那么我们全部记录下来写入代码中这样是不科学的,那么我们就可以通过ENV的方式获取到所有的配置,然后过滤出来flink的配置,来进行启动flink程序就行了,让我们来一起看看代码吧import org.springframework.beans.factory.annotation.Autowired;import org.springframework.core原创 2021-05-19 15:28:49 · 1543 阅读 · 0 评论 -
Java api 提交Flink程序到yarn 上怎么做?
1、Flink Application ModeApplication Mode将在YARN上启动一个Flink集群,其中Application jar的main()方法将在YARN中的JobManager上执行。应用程序完成后,群集将立即关闭。您可以使用yarn application-kill或取消Flink作业来手动停止集群。由于所需的Flink jar和应用程序jar将由指定的远程位置接收,而不是由客户机发送到集群,因此上面的内容将允许作业提交变得格外轻量级。这样的话,我们就可以通过java 来原创 2021-05-14 11:42:08 · 5061 阅读 · 19 评论 -
Flink状态管理之状态清除StateTtlConfig
1、Flink状态去重场景在Flink运行的时候,往往是无休止的运行,在整个Flink程序运行的长河中,往往会出现很多状态的出现,那么状态的生命周期,也就是创建、使用和销毁,那么在我们写flink程序过程中,往往不需要关注flink 状态的清理,flink内部就会对我们的状态进行清理,例如我们开一个10分钟的窗口,那么在这十分钟的窗口中,这个状态也就是会发生创建、使用和销毁,那么我这里问大家一个问题?就是窗口结束后,状态会销毁吗。这里有一个场景,也就是说当我们开一个一天的窗口,计算当天的消费人数,那么这原创 2021-03-13 11:55:20 · 5986 阅读 · 0 评论 -
Flink aggregate 方法解析
在Flink计算中,常见的一些操作是map或者flatmap一些数据之后keyby 开窗口进行计算。那么在这些计算当中有哪些算子呢?其中我分为两类算子。增量聚合 有reduce 和aggregate算子,全量聚合 有apply和process。那么今天我们就主要讲解一下常用的增量聚合算子aggregate算子。aggregate方法签名的三个类型 <数据源类型,累加器类型,输出类型>WindowFunction 方法签名的四个类型为 <IN, OUT, KEY, W extend原创 2021-03-01 22:45:51 · 3746 阅读 · 0 评论 -
64道企业真实Flink题目让你无惧Flink面试(带答案)
1、Flink如何保证精确一次性消费Flink 保证精确一次性消费主要依赖于两种Flink机制1、Checkpoint机制2、二阶段提交机制Checkpoint机制 主要是当Flink开启Checkpoint的时候,会往Source端插入一条barrir,然后这个barrir随着数据流向一直流动,当流入到一个算子的时候,这个算子就开始制作checkpoint,制作的是从barrir来到之前的时候当前算子的状态,将状态写入状态后端当中。然后将barrir往下流动,当流动到keyby 或者shuffle原创 2021-02-18 15:23:47 · 13929 阅读 · 4 评论 -
Flink 实时维度表join达到实时配置更新的几种方式总结
1、ETL背景在我们日常工作中,经常会有一些实时的需求,这些需求往往都是一些拉宽的需求,为了给实时数仓来进行OLAP对来进行Ad-hoc查询,但是我们工作中一些维度表的数据是会发生变化的,可能是缓慢变化维度,那么这个时候就需要进行flink连接其他数据源来进行查询,那么这个时候我们肯定可以想到就是来一条查一次,这个是肯定可以做到的,但是在大数据场景下,我们是不是会觉得有点慢呢,我们是否有更好的解决方案,就像我写代码的时候 有时候就会思考有没有更好的解决方案,但是针对于要进行交付给用户,所以我们并没有那么多原创 2020-11-08 18:54:21 · 3058 阅读 · 0 评论 -
Flink的一些理解(二)
1. Flink的StateApache Flink® — Stateful Computations over Data Streams我们应该都知道flink是一个有状态的流计算引擎,那么他的状态是什么意思呢1.1 state类型的分类1.1.1 Operator Sate1.1.2 Keyed Statekeyed state 记录的是每个key的状态keyedstate托管状态有六种类型ValueStateListStateMapStateReducingState原创 2020-11-03 21:40:36 · 217 阅读 · 0 评论 -
Flink的一些理解(一)
1. Flink概述1.1 Flink简介Apache Flink® — Stateful Computations over Data StreamsApache Flink 是一个框架和分布式处理引擎,用在无边界和有边界数据流上进行有状态的计算。FLink能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.2 有界和无界数据任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。数据可以被作为 无原创 2020-11-03 21:09:16 · 486 阅读 · 0 评论 -
Flink高频面试题(中级篇)
1. Flink是如何做到流批一体的?不论是DataSet API 还是 DataStream API 都是依赖于Runtime来进行实现的。其实也就是设计理念的问题,Spark和Flink的设计思路有着本质的区别,Flink认为批是流的特例,Spark认为只要我的批无限的小,那么就是流。2. Flink是如何做到高效的网络数据交换的?在一个Flink Job里面,数据需要在不同的task来进行交互,整个数据交互的过程是由TaskManager来进行负责,TaskManagert的网络组建首先从缓冲b原创 2020-08-18 15:32:18 · 337 阅读 · 0 评论 -
Flink高频面试题(基础篇)
1.看你用了Flink,简单介绍一下Flink?Flink是一个实时计算框架,他和spark都是流批一体计算框架,flink提供了有界流和无界流的计算,有界流其实就是flink认为数据是流式的为大多数情况,批量的为小部分情况,也就是说数据有边界叫有界流,数据没有边界叫无界流,也就是无限实时生成的数据。flink主要对外的API有 DataSet API、DataStream API、Table API图计算、机器学习。对外提供了有java 和scala、python两种语言接口。2. Flink原创 2020-08-18 14:43:48 · 2863 阅读 · 0 评论