Flink
文章平均质量分 88
000X000
这个作者很懒,什么都没留下…
展开
-
Flink CDC-2.3版本概述
Flink CDC-2.3版本概述原创 2022-12-05 10:13:40 · 3004 阅读 · 0 评论 -
Flink on Zeppelin-3
如何在Zeppelin中使用Flink的Streaming功能,我们会以2个主要的场景来讲: Streaming ETL Streaming Data Analytics 准备工作本文我们会用Kafka作为我们的数据源,使用FlinkSql处理Kafka中的某个topic数据,然后写入到另外一个KafkaTopic。为了使用Flink的Kafkaconnector,你需要在FlinkInterpreter中配置flink.execution.packages...原创 2020-07-24 14:58:41 · 444 阅读 · 0 评论 -
Flink on Zeppelin-2
FlinkInterpreter类型首先介绍下Zeppelin中的FlinkInterpreter类型。Zeppelin的FlinkInterpreter支持Flink的所有API(DataSet,DataStream,TableAPI)。语言方面支持Scala,Python,SQL。下图是Zeppelin中支持的不同场景下的FlinkInterpreter。配置FlinkInterpreter下图例举了所有重要的Flink配置信息,除此...原创 2020-07-24 14:57:07 · 357 阅读 · 0 评论 -
Flink on Zeppelin-1
准备工作下载Zeppelin 0.9.0 preview1,或者下载除了下载Flink的标准release,如果你要使用Flink on Yarn模式或者连接Hive,那么你还需要下载其他Flink组件。 flink-hadoop-compatibility (https://repo1.maven.org/maven2/org/apache/flink/flink-hadoop-compatibility_2.11/1.9.1/flink-hadoop-compatibility_2.原创 2020-07-24 14:55:34 · 324 阅读 · 0 评论 -
Flink-1.10 SQL电商用户行为实时分析应用
1、如何使用Docker Compose 启动容器?2、如何使用 DDL 创建 Kafka 表?3、如何使用 DDL 创建 Elasticsearch 表?4、如何使用 Kibana 可视化结果?Flink 1.10.0 于近期刚发布,释放了许多令人激动的新特性。尤其是 Flink SQL 模块,发展速度非常快,因此本文特意从实践的角度出发,带领大家一起探索使用 Flink SQL 如何快速...原创 2020-03-31 14:33:50 · 1043 阅读 · 0 评论 -
Hadoop Spark Flink 比较
1. Hadoop vs Spark vs Flink - 数据处理Hadoop:Apache Hadoop专为批处理而构建。它需要输入中的大数据集,同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力,输出会产生延迟。Spark:Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统,但它也支持流处理。Flink...原创 2019-12-20 20:57:22 · 2391 阅读 · 0 评论 -
Apache Flink SQL 详解与实践
问题导读1.为何会有Flink SQL?2.本文哪些地方涉及Flink 1.7?4.如何定义源(sources )和接收器(sinks)?5.Flink SQL本文介绍了哪些sql?6.将数据格式化为正确的格式以便进一步处理?7.如何监控Flink sql查询8.使用Flink SQL中的视图的作用是什么?9.本文使用Flink sql实现了什么案例?虽然Flink SQL最初于2016年8月...原创 2019-12-19 20:06:30 · 369 阅读 · 0 评论 -
Apache Flink 如何管理Kafka消费者offsets
问题导读1.Flink与kafka一起如何做Checkpointing ?2.发生故障,Flink如何恢复的?3.Kafka consumer offsets存储在什么位置?下面一些词简单解释:1.检查点对应Checkpointing2.主题对应Topic3.Job对应工作######################在我们这篇文章中,我们将逐步说明Apache Flink如何与Apa...原创 2019-12-19 19:59:02 · 1939 阅读 · 0 评论 -
Apache Flink 窗口生命周期、Keyed和非Keyed及分配器诠释
问题导读1.窗口是什么时候开始创建的?2.窗口删除是什么时候?3.如何延迟窗口删除?4.Keyed和Non-Keyed Windows有什么不同?5.在所有的窗口中,哪一个窗口是不基于时间的?前面介绍了窗口的一些操作,这里介绍窗口的一些机制。Windows是处理无界流的核心。 Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。 本文介绍窗口生命周期、Keyed和Non-Keye...原创 2019-12-19 16:02:34 · 783 阅读 · 0 评论 -
Apache Flink 数据流Transformations窗口及相关操作
问题导读1.为何产生window窗口计算?2.你认为什么情况下使用Window Apply?3.Window Fold可以用来做什么?4.window 流是否可以union和join?5.DataStream是否可以split?这篇文章,主要讲windows,那么我们思考为什么会产生windows?我们前面流式处理,一条条消息处理不行吗?可以的。不过有些场景使用窗口更加适合,比如我们...原创 2019-12-19 15:51:56 · 189 阅读 · 0 评论 -
Apache Flink 使用DataStream API进行数据处理
问题导读1.流处理和批处理分别入口是什么?2.对于本地和远程运行程序,都可以使用哪个函数?3.Flink数据源分为哪两类?4.Flink DataStream和DataSet source都是基于什么格式?5.Flink中kafka source是否为自定义?执行环境为了开始编写Flink程序,我们首先根据自己的需要,可以获得现有的或创建一个执行环境(executionenvironment)。 ...原创 2019-12-19 15:40:46 · 811 阅读 · 0 评论 -
Apache Flink 最全最详细集群安装
问题导读1.ssh安装需要注意什么问题?2.Flink集群配置文件是哪个?3.Flink常用配置参数的含义是什么?4.如何具体配置某个taskmanager的内存?5.如何指定taskmanager?6.如何指定nodemanager?7.如何启动集群?集群安装模式设置Flink集群也非常简单。 那些有安装Hadoop集群背景的人来说会非常容易。 为了规划集群,我们假设我们有三台Linux机...原创 2019-12-19 15:31:44 · 509 阅读 · 0 评论 -
Flink分布式执行包括调度、通信机制、检查点
Flink的分布式执行包括两个重要的进程,master和worker。 执行Flink程序时,多个进程参与执行,即作业管理器(Job Manager),任务管理器(Task Manager)和作业客户端(Job Client)。Flink程序需要提交给Job Client。 然后,Job Client将作业提交给Job Manager。 Job Manager负责协调资源分配和作业执行。 它首先要...原创 2019-12-18 15:14:14 · 405 阅读 · 0 评论 -
Apache Flink Checkpoint 应用实践
Checkpoint 与 state 的关系Checkpoint 是从 source 触发到下游所有节点完成的一次全局操作。下图可以有一个对 Checkpoint 的直观感受,红框里面可以看到一共触发了 569K 次 Checkpoint,然后全部都成功完成,没有 fail 的。state 其实就是 Checkpoint 所做的主要持久化备份的主要数据,看下图的具体数据统计,其 sta...原创 2019-12-19 15:26:21 · 123 阅读 · 0 评论 -
Apache Flink 连接并使用 Hive
Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink onHive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 Flin...原创 2019-12-17 15:48:08 · 885 阅读 · 0 评论 -
Apache Flink Flink Time & Window 解析
一、Window & Time 介绍Apache Flink(以下简称 Flink) 是一个天然支持无限流数据处理的分布式计算框架,在 Flink 中 Window 可以将无限流切分成有限流,是处理有限流的核心组件,现在 Flink 中 Window 可以是时间驱动的(Time Window),也可以是数据驱动的(Count Window)。下面的代码是在 Flink 中使...原创 2019-12-17 15:44:50 · 114 阅读 · 0 评论 -
Apache Flink DataStream API 编程
1. 流处理基本概念对于什么是流处理,从不同的角度有不同的定义。其实流处理与批处理这两个概念是对立统一的,它们的关系有点类似于对于 Java 中的 ArrayList 中的元素,是直接看作一个有限数据集并用下标去访问,还是用迭代器去访问。图1. 左图硬币分类器。硬币分类器也可以看作一个流处理系统,用于硬币分类的各部分组件提前串联在一起,硬币不断进入系统,并最终被输出到不同的队列中供后续...原创 2019-12-17 11:36:39 · 116 阅读 · 0 评论 -
Apache Flink 开发环境搭建和应用的配置、部署及运行
一、Flink开发环境部署和配置Flink 是一个以 Java 及 Scala 作为开发语言的开源大数据项目,代码开源在 GitHub 上,并使用 Maven 来编译和构建项目。对于大部分使用 Flink 的同学来说,Java、Maven 和 Git 这三个工具是必不可少的,另外一个强大的 IDE 有助于我们更快的阅读代码、开发新功能以及修复 Bug。因为篇幅所限,我们不会详述每个工具的安装...原创 2019-12-17 11:27:25 · 799 阅读 · 0 评论 -
Apache Flink 基础概念解析
一、Apache Flink的定义、架构及原理Apache Flink是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。1. Flink Application了解Flink应用开发需要先理解Flink的Streams、State、Time等基础处理语义以及Flink兼顾灵活性和方便性的...原创 2019-12-17 10:45:36 · 209 阅读 · 1 评论 -
Apache Flink SQL概览
Apache Flink SQL Job的组成我们做任何数据计算都离不开读取原始数据,计算逻辑和写入计算结果数据三部分,当然基于Apache Flink SQL编写的计算Job也离不开这个三部分,如下所所示:如上所示,一个完整的Apache Flink SQL Job 由如下三部分:·Source Operator – Soruce operator是对外部数据源的抽象, 目前A...原创 2019-12-17 10:12:25 · 560 阅读 · 0 评论 -
流计算框架 Flink 与 Storm 的性能对比
概述: 将分布式实时计算框架 Flink 与 Storm 进行性能对比,为实时计算平台和业务提供数据参考。一. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文...原创 2019-12-17 10:09:22 · 134 阅读 · 0 评论 -
Flink实时计算性能分析
本文从数据传输和数据可靠性的角度出发,对比测试了Storm与Flink在流处理上的性能,并对测试结果进行分析,给出在使用Flink时提高性能的建议。Apache Storm、Apache Spark和Apache Flink都是开源社区中非常活跃的分布式计算平台,在很多公司可能同时使用着其中两种甚至三种。对于实时计算来说,Storm与Flink的底层计算引擎是基于流的,本质上是一条一条的数...原创 2019-12-17 10:00:15 · 375 阅读 · 0 评论 -
Apache Flink:特性、概念、组件栈、架构及原理分析
Table of Contents1、摘要2、基本特性3、流处理特性4、API支持5、Libraries支持6、整合支持7、基本概念7.1、Stream & Transformation & Operator7.2、Parallel Dataflow7.3、Task & Operator Chain7.4、Time & W...原创 2019-05-30 20:44:13 · 440 阅读 · 1 评论 -
Apache Flink 详解
Table of Contents1、Flink简介2、为什么选择 Flink?3、分布式运行1、Flink简介Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分...原创 2019-05-30 20:32:55 · 163 阅读 · 0 评论