Flink极客训练营Day1

最新推荐文章于 2022-04-18 01:06:13 发布

一颗时光

最新推荐文章于 2022-04-18 01:06:13 发布

阅读量506

点赞数 1

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yikeshiguang/article/details/107325466

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Flink-learning.org.cn，Flink中文学习网。

Flink的原名是Stratosphere，目标是打造大数据流批一体的平台。

Flink1.11版本的新功能：

1:非对其检查点。新功能消除对其等待时间。

2:水位线相关问题。

3:接口统一，流批统一的建设之一。

4:作业提交模式优化。

5:用于数据迁移场景较多。

6:增加对pandas的支持，提升对python对支持。

谷歌三大马车对海量数据如何处理。

Hadoop大多用于t+1的数据存储。

流批本质就是快慢、业务本质的不同。

对用户而言，流批计算是黑盒的，只要结果一致性就行。

延时问题：

spark的架构是micro batching，认为流是批的特例。

flink的架构是native streaming，认为批是流的特例。

更新撤回：

通过+-标记告诉下游该条数据是否撤回。

容错续跑：

带上状态。后续讲解。

透明升级：

通过sacepoint处理解决。后续讲解。

乱序问题：

正确性问题：

核心问题是：参与计算的数据是否有丢失，是否只计算了1次。

At-least-once:保证数据都参与计算了，但可能有重复计算。

Exactly-once：数据参与了并只参与了1次计算。

部署问题：

弹性扩容：

事件驱动型应用、数据分析型应用、数据管道型应用（ETL）。

从用户、运行和运维三个角度来看，最完美最好的结果是用户测流批使用1套API、运行的时候流批自动切换、运维测单引擎实现流批一体。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
Flink极客训练营Day1

Flink-learning.org.cn，Flink中文学习网。Flink的原名是Stratosphere，目标是打造大数据流批一体的平台。Flink1.11版本的新功能：1:非对其检查点。新功能消除对其等待时间。2:水位线相关问题。3:接口统一，流批统一的建设之一。4:作业提交模式优化。5:用于数据迁移场景较多。6:增加对pandas的支持，提升对python对支持。谷歌三大马车对海量数据如何处理。Hadoop大多用于t+1的数据存储。流批本质就是快慢
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。