写给大忙人的笔记:一文梳理流式处理框架Flink

本文深入探讨了Flink这一流式处理框架,包括其无界流和有界流的概念,优势,发展历史,以及作为实时数据处理和分析平台的能力。详细介绍了Flink的API操作,如DataStream和DataSet的source、算子API和sink,以及作业提交模式、工作原理、检查点、状态管理、广播、分布式缓存、累加器、窗口和Table & SQL的使用。
摘要由CSDN通过智能技术生成

目录

1 Flink是什么?

1.1 无界流 VS 有界流

1.2 flink的优势

1.3 flink的发展历史

1.4 fink可以做什么

1.5 开发分类

1.6 安装模式

 1.6.1 standalone

 1.6.2 Yarn

1.7 工作原理

1.7.1 Standalone 工作原理

1.7.2 yarn工作原理

2 Flink的API操作

2.1 DataStream

2.1.1 Source

2.1.2算子API

2.1.3 sink

2.2 DataSet

2.2.1 source

2.2.2 算子API

2.2.3 Sink

3 操作链

4 检查点

5 State状态

6 Broadcast

7 分布式缓存

8 累加器

9 Windows

10 Table & SQL


1 Flink是什么?

分布式处理引擎

基于内存进行计算

可处理有界和无界数据流任务

处理过程中都会以一种状态的方式进行保存数据

1.1 无界流 VS 有界流

无界流 有界流
定义了开始,没有定义结束,无休止产生数据 定义了开始也定义了结束
数据必须持续处理 所有数据取完之后再进行计算
要按照特定顺序摄取事件 不需要特定顺序摄取事件

1.2 flink的优势

高吞吐

低延迟

基于内容计算的实时框架

可以将Flink当数据管道进行处理

实现实时的ETL

可以基于流式数据的基础上建立实时监控分析系统

基于流处理分批处理,本身是流数据

这边我就得说一下sparkstreaming了

基于流处理,但是把批分成流,本质还是批处理

1.3 flink的发展历史

08年研发发布

14年纳入Apache项目分支

19年被阿里收购,更名blink

1.4 fink可以做什么

实时数仓

实时分析平台

实时监控系统

1.5 开发分类

批处理:封装对象就是dataset

流处理:封装对象就是datastream

1.6 安装模式

local

standalone

yarn

 1.6.1 standalone

组件 解释
JobManager 相当于Master,管理者,管理各个TaskManager
TaskManager 相当于Worker,执行者,处理各种任务请求,执行任务
TaskSlot 相当于Core数量,每个TaskManager1个到多个,可以自行配置
Task 最小的任务单元,由每个Slot处理
并行度 默认为1 ,可以根据实际调大或者调小并行度

 1.6.2 Yarn

yarn的session 模式

组件 解释
FlinkYarnSessionCli 表示用户提交的任务对象,用来接收任务请求,将任务发送至服务器Server
YarnSessionClusterEntrypoint

相当于服务器端,类似于JobManager

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值