Flink
文章平均质量分 93
Flink学习
子清.
这个作者很懒,什么都没留下…
展开
-
Flink ProcessFunction API
我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。 例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。 基于此,DataStream API提供了一系列的Low-Level转换算子。 可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。 Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。 例如,Flink S转载 2021-03-10 18:37:36 · 179 阅读 · 0 评论 -
Flink Window窗口机制
总览 Window 是flink处理无限流的核心,Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。 Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。 而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。 Flink 提供了非常完善的窗口机制。 在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。 当然我们可以每来一个消息就处理一转载 2021-03-10 18:34:27 · 279 阅读 · 0 评论 -
深入理解Flink核心技术
前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。 文章转载自:深入理解Flink核心技术 一.Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流转载 2021-03-07 15:39:37 · 461 阅读 · 0 评论 -
Flink从入门到入土(详细教程)
和其他所有的计算框架一样,flink也有一些基础的开发步骤以及基础,核心的API,从开发步骤的角度来讲,主要分为四大部分 1.Environment Flink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的flink运行环境,只有获取了环境信息,才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单 // 批处理环境 val env = ExecutionEnvironment.getExecutionEnvironment //转载 2021-01-18 23:07:45 · 1263 阅读 · 0 评论 -
Flink 流处理api
文章目录1.Environment1.1 getExecutionEnvironment1.2 createLocalEnvironment1.3 createRemoteEnvironment2.Source2.1 从集合读取数据2.2 从文件读取数据2.3 以kafka消息队列的数据作为来源2.4 自定义Source3.Transform3.1 map3.2 flatMap3.3 Filter3.4 KeyBy3.5 滚动聚合算子(Rolling Aggregation)3.6 Reduce3.7 Sp原创 2021-01-04 20:03:23 · 213 阅读 · 0 评论