![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
我要拥抱FLINK
本专栏主要记录我学习FLINK的过程,其内容全部来自官方文档或其它官方可信资料,不包括个人博客,论坛等.
橘子洲头无桔子
拿不起的辞典
展开
-
Apache Flink 入门 (第四篇) (DataStream API 示例)
1. Flink DataStream API 概览 https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/datastream_api.html 我们先是从一个简单的例子开始看起。下面是一个流式 Word Count 的示例,虽然它只有 5 行代码,但是它给出了基于 Flink DataStream API 开发程序的基本结构。 ▼ 示例: 基于 Flink DataStream API 的 Word Count 示例。 /原创 2020-07-05 17:47:08 · 369 阅读 · 0 评论 -
Apache Flink 入门 (第三篇)(在YARN上运行Flink任务)
运行 Flink 应用 1. 基本概念 运行 Flink 应用其实非常简单,但是在运行 Flink 应用之前,还是有必要了解 Flink 运行时的各个组件,因为这涉及到 Flink 应用的配置问题。 下图所示,这是用户用 DataStream API 写的一个数据处理程序。可以看到,在一个 DAG 图中不能被 Chain 在一起的 Operator 会被分隔到不同的 Task 中,也就是说 Task 是 Flink 中资源调度的最小单位。 Flink 实际运行时包括两类进程: JobManager(又原创 2020-07-05 15:58:15 · 853 阅读 · 0 评论 -
Apache Flink 入门 (第二篇)(流式处理及FLINK具有的优势)
「有状态的流式处理」概念解析 1. 传统批处理 传统批处理方法是持续收取数据,以时间作为划分多个批次的依据,再周期性地执行批次运算。 但假设需要计算每小时出现事件转换的次数,如果事件转换跨越了所定义的时间划分,传统批处理会将中间运算结果带到下一个批次进行计算;除此之外,当出现接收到的事件顺序颠倒情况下,传统批处理仍会将中间状态带到下一批次的运算结果中,这种处理方式也不尽如人意。 2. 理想方法 第一点,要有理想方法,这个理想方法是引擎必须要有能力可以累积状态和维护状态,累积状态代表着过去历史中接收过的所原创 2020-06-25 18:37:09 · 576 阅读 · 2 评论 -
Apache Flink 入门 (第一篇)(概念,应用场景)
一、Apache Flink 的定义、架构及原理 官方文档:Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理,并且原生的支持迭代计算,内存管理以及程序优化。 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。 1. Flink Application 了解Flink 应用开发需要先理原创 2020-06-25 17:50:26 · 314 阅读 · 0 评论