海量数据实时分析引擎 Apache Flink

阿里云技术

已于 2023-04-20 10:34:13 修改

阅读量525

点赞数

文章标签： apache flink 大数据云计算阿里云

于 2023-04-20 09:43:03 首次发布

本文链接：https://blog.csdn.net/weixin_43970890/article/details/130259218

版权

Apache Flink 是一个高性能的分布式流处理引擎，支持批处理和流处理，尤其擅长实时数据流的处理。它提供有界和无界数据流的概念，具备状态管理和时间窗口功能，适用于实时数据分析、事件驱动应用和机器学习。Flink 可在多种集群环境中部署，支持高吞吐量和低延迟处理，确保数据的可靠性和灵活性。

摘要由CSDN通过智能技术生成

摘要：当系统出现大量或者重大的错误却不被人感知，将会对业务产生影响，从而导致资产损失。当竞争对手实施了新战术，却无法及时感知，跟不上竞争对手的节奏，总是追着对方尾巴走。当要做决策的时候，海量的业务数据增长却无法实时看到聚合结果，决策总是凭借过往经验或者过时的数据分析之上。

可以看到如果没有数据分析，我们的系统大部分时间处于黑盒状态，对业务的决策也只能凭借过往经验。实时与批量的数据分析可以帮助企业洞察错误，改善服务，进行决策。数据分析也是营销、运维、决策的重要支撑，越来越多的企业和部门已经意识到实时与批量数据的分析价值，开始进行数据分析系统的建设。

而在做数据分析时候要考虑数据的时效性，需要根据场景来选择离线数据分析或者是实时数据分析。

离线数据分析一般是根据固定的周期，比如每天统计一次，每周统计一次等类似于定时任务执行的场景，一般大家称为“批处理” 。

实时数据分析一般基于数据事件，数据产生了就立即处理，数据在源源不断的产生，计算也在不停地运行，就像是一直流动的水流一样经过层层的管道计算处理，一般大家称为”流处理“。

批处理更有利于对历史数据，最终数据状态等场景的处理，可有效的计算出比较准确的结果，但是数据分析结果的实时性不太好。批处理的场景：例如我们的微信运动排名、信用卡的月账单等。

流处理的数据实时性是非常好的，数据所见即所得，不过实时的数据分析与计算对资源消耗比较大，如果后续数据发生了改变前期无法计算数据的最终状态。流处理的场景：例如小视频的实时个性化推荐、双十一实时金额的滚动大盘等。

可以看到一般情况下批处理更关注的是海量离线数据的完整性和对海量数据快速计算处理的能力，流处理更关注的是数据的时效性和快速计算处理能力。不过一个完备的大数据批处理和流处理中间件不仅仅需要关注高吞吐量、低延迟这样的基础性能相关的功能，更需要支持状态和故障恢复等高可用的能力。

Apache Flink 正是一个具备高性能和高可用的批流处理大数据中间件，同时还具备批流一体的处理能力，流处理也在业界处于领先水平。被广大互联网公司使用，下面我们就来进入正题看下关于 Apache Flink 的一些内容吧。

根据官网的介绍：Apache Flink 是一个在有界数据流和无界数据流上进行有状态计算的分布式处理引擎和框架。Flink 设计旨在所有常见的集群环境中运行，以任意规模和内存级速度执行计算。下面两个图是来自官方首页的Flink 批流处理的架构图，可以整体来看一下。

关注

专栏目录