Flink-learning.org.cn,Flink中文学习网。
Flink的原名是Stratosphere,目标是打造大数据流批一体的平台。
Flink1.11版本的新功能:
1:非对其检查点。新功能消除对其等待时间。
2:水位线相关问题。
3:接口统一,流批统一的建设之一。
4:作业提交模式优化。
5:用于数据迁移场景较多。
6:增加对pandas的支持,提升对python对支持。
谷歌三大马车对海量数据如何处理。
Hadoop大多用于t+1的数据存储。
流批本质就是快慢、业务本质的不同。
对用户而言,流批计算是黑盒的,只要结果一致性就行。
延时问题:
spark的架构是micro batching,认为流是批的特例。
flink的架构是native streaming,认为批是流的特例。
更新撤回:
通过+-标记告诉下游该条数据是否撤回。
容错续跑:
带上状态。后续讲解。
透明升级:
通过sacepoint处理解决。后续讲解。
乱序问题:
正确性问题:
核心问题是:参与计算的数据是否有丢失,是否只计算了1次。
At-least-once:保证数据都参与计算了,但可能有重复计算。
Exactly-once:数据参与了并只参与了1次计算。
部署问题:
弹性扩容:
事件驱动型应用、数据分析型应用、数据管道型应用(ETL)。
从用户、运行和运维三个角度来看,最完美最好的结果是用户测流批使用1套API、运行的时候流批自动切换、运维测单引擎实现流批一体。