大数据处理技术之flink初识

最新推荐文章于 2023-01-10 15:50:08 发布

Antgeek

最新推荐文章于 2023-01-10 15:50:08 发布

阅读量1.7k

点赞数

分类专栏： flink 文章标签： flink

本文链接：https://blog.csdn.net/weixin_44745147/article/details/121683139

版权

7 篇文章 1 订阅

订阅专栏

一.产生背景

实时流数据增多 : 互联网应用快速发展,实时流数据日益增多
价值更大: 实时流数据的处理和挖掘带来的价值比离线数据处理要多
大厂需求 : 各大互联网厂商需要一个能够快速响应和处理大规模实时流数据的技术
其他流处理引擎不能够满足需求 : storm/jstorm,sparkstreaming等
- 优秀的流处理引擎要求
  - 低延时,高吞吐,容错性好,窗口时间语义化,编程效率高,运行效果好
- storm/jstorm
  - 优点
    - 低延时
  - 缺点
    - 其他的都差一些
- sparkstreaming
  - 优点
    - 高吞吐,容错性好
  - 缺点
    - 其他的都差一些

实现方式
- javaAPI
- scalaAPI
数据处理过程抽象
- 将实时和离线数据处理的过程,均抽象成三个过程,及Source->Transform->Sink
  - Source 源数据读取
  - Transform 数据的转换
  - Sink 数据的落地
代码实现的复杂度
- API丰富,支持SQL,复杂度不高