今天介绍一下 Flink。在介绍之前,提一下实时和离线的选择问题。目前公司里面离线和实时是由不同的团队来做,泾渭分明,不会一个人既做离线又做实时。在离线中又有细分,某些人做 ods,某些人做 dwd,某些人做 dws,某些人做 app。再细分到每个人,某个人做 app 的视频,某个人做 app 的直播等等。据我观察,离线与实时的比例大概是 4 : 1,离线还是大头。所以想找工作的可以尽早想清楚做哪一块,想找离线的工作就使劲怼 Hive、Spark,想找实时的工作就使劲怼 Flink。简历上也要准备一个与所找工作的方向相关项目。
下面还是学习一下官网的介绍。
Apache Flink® — Stateful Computations over Data Streams
Apache Flink® — 基于数据流的状态计算。
All streaming use cases
Event-driven Applications
Stream & Batch Analytics
Data Pipelines & ETL
流式用例:事件驱动的应用程序,流和批处理分析,数据管道和 ETL
Guaranteed correctness
Exactly-once state consistency
Event-time processing
Sophisticated late data handling
保证正确性:精确一次的状态一致性,事件时间处理