实时数据研发|Flink关键概念，什么是无界、有界数据集，流、批？

锵锵锵锵~蒋

已于 2024-11-22 01:05:13 修改

阅读量473

点赞数 10

分类专栏：数据研发文章标签： flink 大数据实时数据开发

于 2024-11-20 23:09:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43629813/article/details/143927800

版权

Flink 把流计算框架可能处理的数据集分为如下两种。

无界数据集(unbounded dataset):无界数据集通常是持续不断产生的，就像河水一样不停流人。现实世界中的许多数据都是无界的数据集，比如电子商务交易日志、网站点击日志等。
有界数据集(bounded dataset):有界的数据集通常是批次的，考虑Hadoop、MapReduce 处理的文件。

对应上述两种数据集，就有两种数据处理模型。

流处理:流处理任务就是常说的实时任务，任务一直运行，持续不断地处理流入的无界的数据集。（持续不停地占用计算和内存资源）
批处理:批处理任务对于自己要处理的有界数据集非常明确，处理完该数据集后就会释放有关计算和内存资源。

Flink底层用流处理模型来同时处理上述两种数据。在Flink看来，有界数据集不过是无界数据集的一种特例；而Spark Streaming走了完全相反的技术路线，它把无界数据集分割成有界数据集再通过微批对待流计算。

同spak sueaming、storm 等流计算引擎一样，Flink的数据处理组件也被分为三类：
数据输人(souree)、数据处理(transformation)和数据输出(sink)。

Flink 程序实际执行时，会映射到流数据流(streaming dataflow)。streaming dataflow由流和转换算符构成&#

最低0.47元/天解锁文章

锵锵锵锵~蒋

博客等级

码龄7年

168
原创

1114
点赞

4111
收藏

6760
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Pycharm代码一键规范化，符合PEP8编码规范（autopep8安装配置）
‌‌Anastasia: 报错了usage: autopep8 [-h] [--version] [-v] [-d] [-i] [--global-config filename] [--ignore-local-config] [-r] [-j n] [-p n] [-a] [--experimental] [--exclude globs] [--list-fixes] [--ignore errors] [--select errors] [--max-line-length n] [--line-range line line] [--hang-closing] [--exit-code] [files ...] autopep8: error: argument -p/--pep8-passes: invalid int value: 'lace'
如何在GitHub上传自己的项目（新手详细版）
孙鸿飞00: 第七步自己配置需要自己查其他的教程
Jupyter显示整个cell的输出以及如何显示输出结果的所有行和列
2301_79867624: 1. 增加输出行数限制 Jupyter Notebook 有一个默认的输出行数限制，超出部分不会显示。你可以增加显示的行数限制，以显示所有的输出。要增加输出行数限制，可以使用以下代码： python 复制 # 增加 Jupyter Notebook 显示的最大输出行数 import numpy as np import sys from IPython.core.interactiveshell import InteractiveShell # 设置输出的最大行数 InteractiveShell.ast_node_interactivity = "all" np.set_printoptions(threshold=sys.maxsize) 这将增加最大输出行数，以确保你能够看到所有的内容。 2. 刷新缓冲区如果你在代码中使用 print() 输出并且输出量较大，可能会遇到输出缓冲的问题。为了确保所有输出内容立即显示，可以使用 sys.stdout.flush() 来刷新缓冲区。 python 复制 import sys print("This is a large output") sys.stdout.flush() # 强制刷新输出 3. 使用%%capture命令 %%capture 是 Jupyter 提供的魔法命令，可以捕获代码单元中的所有输出（包括标准输出和标准错误输出），然后通过 stdout 查看捕获的输出。比如： python 复制 %%capture captured_output # 运行一些会产生大量输出的代码 print("This is a large output") # 获取捕获的输出 captured_output.show() 这样，你就可以查看完整的输出内容，而不必担心 Jupyter Notebook 自动隐藏一些部分。 4. 禁用滚动输出有时候，输出被显示为滚动区域，这意味着只有最近的输出可见。你可以通过修改 Jupyter Notebook 的设置来禁用滚动输出，从而查看所有内容。 python 复制 from IPython.display import display from IPython.core.display import HTML # 设置禁用滚动输出，显示所有输出 disp
VSCode调试Python文件并指定虚拟环境附调试说明
2401_90068032: 指定虚拟环境显示permission denied请问怎么解决
图注意网络GAT理解及Pytorch代码实现【PyGAT代码详细注释】
青青啊: 有没有图分类的数据集和代码。。不是cora节点分类。有偿

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。