Flink_07_CheckPoint(个人总结)

最新推荐文章于 2024-04-17 00:15:44 发布

hellosrc2023

最新推荐文章于 2024-04-17 00:15:44 发布

阅读量818

点赞数

分类专栏：大数据文章标签： flink java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46141936/article/details/123110058

版权

大数据专栏收录该内容

39 篇文章 11 订阅

订阅专栏

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章
              2. 由于是个人总结, 所以用最精简的话语来写文章
              3. 若有错误不当之处, 请指出

状态一致性:

三个级别:

at-most-once

发生故障重启后, 数据会丢失; 即不做任何处理
at-least-once

发生故障重启后, 数据被重复计算(如重复sum); 使用ack应答机制支持重复提交
exactly-once

精准一次性, 不重不漏

需要开启检查点, 它才能有效

端到端一致性, 需要Source端, Flink内部, Sink端同时满足精准一致性, 木桶短板效应

exactly-once的保证:

Source端 exactly-once:

发生故障重启后, 保证不少消费数据: 可以指定Offset进行重新设定消费位置, 即数据源支持重置偏移量

Sink端 exactly-once:

发生故障重启后, 保证不重复提交数据

三种方式:

幂等写入

外部系统支持幂等写入, 多次重复写入等效于第一次写入, 如ElasticSearch指定id
事务写入:
1. 两阶段提交
  
  满足原子性; 先预提交, 再正式提交
2. 预写日志(WAL, Write Ahead Log)
  
  目的: 加强数据可靠性 & 实现原子性
  
  先把要提交的数据写到临时日志里:
  - 若正常提交结束, 则将日志里的数据刷写到磁盘
  - 若发生异常, 则不将日志里的数据刷写到磁盘
  优点:
  1. 日志进行了持久化, 加强了数据的可靠性
  2. 若不发生异常再落盘, 保证了事务的原子性

Flink内部 exactly-once:

发生故障重启后, 保证不重复计算数据

依赖CheckPoint

Flink和Kafka对接, 实现exactly-once:

Source端:

可以重置偏移量, 避免漏消费

Sink端:

使用了两阶段提交, 避免重复提交

当所有Task的快照任务完成后, JobManager会向所有Task发通知告知此次CheckPoint完成, 然后便会触发第二阶段的正式提交

Flink内部:

使用了CheckPoint, 避免重复计算(如重复sum)

CheckPoint:

CheckPoint VS SavePoint:

CheckPoint是Flink自动生成的

SavePoint是手动生成的, 启动程序时要想接着上次的继续运行, 必须指定SavePoint文件的位置

CheckPoint是为了防止意外宕机的, 所以默认在任务正常取消(点击Cancel按钮) 或在正常结束后就将CheckPoint进行删除

持久化备份方式:

暂停整个应用程序, 进行备份
不暂停整个应用程序, 采用分布式快照算法

检查点算法:

需要等某个数据被所有Task都计算完毕后, 才开始进行检查点备份

通过barrier分界线(是插入到流中的一种特殊数据)进行实现, 遇到barrier便触发检查点

barrier到来之前的数据更改, 会被包含在当前barrier所属的检查点中
barrier之后的数据更改, 会被包含在之后的检查点中

barrier对齐:

实现了exactly-once

barrier向下游传递, Task会等待所有输入分区的barrier到达, 才开始触发检查点

对于上游barrier已经到达的分区, 继续到达的数据会被缓存

缺点: 这个缓存可能太占用内存, 甚至引发背压机制, 降低上游发送数据的速度
对于上游barrier还未到达的分区, 数据会被处理

barrier不对齐:

实现了at-least-once, 故障恢复后数据可能被重复计算(如重复sum)

不需要缓冲区, 不会触发背压机制

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hellosrc2023 CSDN认证博客专家 CSDN认证企业博客

码龄5年

61: 原创

7万+: 周排名

218万+: 总排名

12万+: 访问

: 等级

836: 积分

93: 粉丝

91: 获赞

23: 评论

612: 收藏

私信

关注

热门文章

分类专栏

大数据 39篇
MySQL 2篇
Linux 4篇
Hadoop 4篇
操作系统
Java 2篇
maven 1篇
HBase 1篇
JUC 1篇
Java基础 4篇
Hive 1篇
Redis 1篇
JavaSE 1篇
设计模式 1篇
ZooKeeper 1篇
Scala 1篇
ClickHouse 1篇
Sqoop 1篇
JVM 1篇
Flume 1篇

最新评论

大数据软件安装配置教程[Linux, JDK, MySQL, Hadoop, ZooKeeper, Hive, Flume, Kafka, HBase-Phoenix, Scala, Spark等等]
lhl1276886028:
Flink_10_CDC(个人总结)
ETLCloud数据集成社区: 文章很详细，感谢博主讲解，我们企业最近新出了ETLCloud数据集成工具，如果是想要快速实现数据库CDC操作，ETLCloud也能实现flink cdc的效果，在增量同步、断点续传、全量同步的表现都很好，也支持全增量一体化同步，欢迎博主去体验下，也可以加入我们的社区，一起交流下，提提不同的建议！互相学习下
Flink_10_CDC(个人总结)
hellosrc2023: 好的，那看来是误会。因为每个人说话语气的程度 & 对语言评判的程度都不同，千人千面就会产生误会，互相改善即可。
Flink_10_CDC(个人总结)
隔壁_小王: 如果你觉得我攻击了你，那我在这里说句不好意思，我觉得我只是正常交流
Flink_10_CDC(个人总结)
隔壁_小王: “若有错误不当之处, 请指出”，这句是你自己说的吧，而且我只是说你没了解清楚，就发博文了，我没攻击你吧，我怎么就不友好了。。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。