flink概念

龙胖不下锅

已于 2023-04-25 14:14:24 修改

阅读量58

点赞数

分类专栏： java 大数据文章标签： flink 数据库大数据

于 2023-04-25 14:10:37 首次发布

本文链接：https://blog.csdn.net/weixin_45277567/article/details/130363739

版权

java 大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Flink是一个分布式流处理框架，支持批处理和流处理。Flink的数据处理方式有三种：DataSet、DataStream和Table。

1. DataSet：DataSet是Flink中的批处理API，用于处理有限的、静态的数据集。它适用于离线数据处理，可以对数据进行批量处理和转换。

2. DataStream：DataStream是Flink中的流处理API，用于处理无限的、动态的数据流。它适用于实时数据处理，可以对数据进行实时处理和转换。

3. Table：Table是Flink中的关系型API，用于处理结构化数据。它提供了类似SQL的语法，可以对数据进行查询、过滤、聚合等操作。

SQL是一种结构化查询语言，用于查询和操作关系型数据库中的数据。Flink提供了类似SQL的语法，可以对Table进行查询、过滤、聚合等操作。

总的来说，Flink的DataSet和DataStream适用于不同的数据处理场景，而Table则提供了一种更加方便的关系型数据处理方式。

有界流和无界流是指数据流的特性。

有界流是指数据流的大小是有限的，即数据流中的元素数量是可预测的，可以在一定时间内处理完毕。例如，读取一个文件中的数据流就是有界流。

无界流是指数据流的大小是无限的，即数据流中的元素数量是不可预测的，可能会一直持续下去。例如，从一个传感器中读取数据流就是无界流。

在处理数据流时，有界流和无界流需要采用不同的处理方式和算法。对于有界流，可以使用批处理的方式进行处理，而对于无界流，则需要使用流式处理的方式进行处理。

实时（real-time）是指数据处理或传输的速度非常快，可以在几毫秒或几秒钟内完成。例如，实时数据处理可以用于股票交易、航空管制等需要快速响应的应用场景。

准实时（near real-time）是指数据处理或传输的速度比实时稍慢，但仍然可以在几分钟或几小时内完成。例如，准实时数据处理可以用于电子商务、物流等需要快速响应但不需要立即响应的应用场景。

离线（offline）是指数据处理或传输的速度较慢，需要一定的时间才能完成。例如，离线数据处理可以用于数据分析、机器学习等需要对大量数据进行处理的应用场景。