flink
yuchuanchen
这个作者很懒,什么都没留下…
展开
-
flink-1.11 Application 模式
1. 背景flink-1.11 引入了一种新的部署模式,即 Application 模式。目前,flink-1.11 已经可以支持基于 Yarn 和 Kubernetes 的 Application 模式。2. 优势Session模式:所有作业共享集群资源,隔离性差,JM 负载瓶颈,main 方法在客户端执行。Per-Job模式:每个作业单独启动集群,隔离性好,JM 负载均衡,main 方法在客户端执行。通过以上两种模式的特点描述,可以看出,main方法都是在客户端执行,社区考虑到在客户端执行原创 2020-07-27 18:06:13 · 5564 阅读 · 0 评论 -
flink checkpoint 存储策略源码分析
我们在 flink checkpoint 流程分析 这篇文章中,详细介绍了 checkpoint 的过程;在 Flink 如何保存状态数据 中,介绍了 state 的分类、state 的三种后端存储方式和具体使用方法,并在逻辑上简要介绍了 statebackend 保存 state 的方法。本文将在上面两篇文章基础上,详细介绍 state 的存储策略。本文基于 flink-1.10 版本。文章目录1.同步阶段1.1 DefaultOperatorStateBackend#snapshot()1.2原创 2020-06-10 16:12:19 · 2641 阅读 · 2 评论 -
flink-1.10 pyflink onyarn 安装文档(支持 UDF)
1.从源码编译 flink注意:需要 Python 3.5+如果已经有 apache-flink-*.dev0.tar.gz 二进制包,可以跳过这一步。mvn clean install -DskipTests会在 flink-python/dist 目录生成一个 apache-flink-*.dev0.tar.gz 二进制包,拷贝该包到需要安装 pyflink 的机器2.安装并测试...转载 2020-03-03 19:36:04 · 2489 阅读 · 18 评论 -
flink-1.10 统一作业提交逻辑
文章目录1.FLIP-73 : 通用的 Executor 接口2.FLIP-81:Executor 相关的新配置3.FLINK-74:Flink JobClient APIflink-1.10 之前,任务提交通常遇到以下问题:任务提交由 Execution Environments 负责,并且和部署的环境(yarn k8s mesos)高度绑定,导致最终 Execution Environm...原创 2020-02-25 17:56:36 · 2105 阅读 · 0 评论 -
flink-1.10 如何配置 Task Executor 内存
文章目录配置总内存配置 Task Heap 和 Managed MemoryTask (Operator) Heap MemoryManaged Memory配置 Off-Heap Memory (direct or native)flink 分别提供了通用和细粒度的内存配置,来满足不同用户的需求。配置总内存[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VOC...翻译 2020-02-19 17:32:34 · 4875 阅读 · 1 评论 -
Flink 如何保存状态数据
Flink 的一个重要特性就是有状态计算(stateful processing)。Flink 提供了简单易用的 API 来存储和获取状态。但是,我们还是要理解 API 背后的原理,才能更好的使用。本文分为 3 个部分:Flink支持的三种 State Backendstate 文件格式state 持久化及故障恢复我们首先看下 state 究竟存储在哪里。State 存储方式Fli...翻译 2019-11-06 19:37:41 · 12284 阅读 · 0 评论 -
深入理解 Flink 容错机制
本文转载自深入理解 Flink 容错机制作为分布式系统,尤其是对延迟敏感的实时计算引擎,Apache Flink 需要有强大的容错机制,以确保在出现机器故障或网络分区等不可预知的问题时可以快速自动恢复并依旧能产生准确的计算结果。事实上,Flink 有一套先进的快照机制来持久化作业状态[1],确保中间数据不会丢失,这通常需要和错误恢复机制(作业重启策略或 failover 策略)配合使用。在遇到错...转载 2019-10-30 16:48:58 · 740 阅读 · 0 评论 -
Flink 如何读取 kafka 数据后以 gzip 压缩格式写入hdfs?
Flink官方提供了 StreamingFileSink 用来写行或者列式数据到 hdfs,官方提供了 Row-encoded 和 Bulk-encoded 的例子,并分别以 String 类型和 parquet 类型提供了示例。https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/connectors/streamfil...原创 2019-10-25 12:20:50 · 1925 阅读 · 1 评论 -
Flink-Release Notes - Flink 1.8
状态(State)连续增量的清理过期的 state 数据Flink 从 1.6 版本开始引入了 Keyed State 的 TTL(time-to-live) 机制。当访问 Keyed State 时,flink 会检查是否过期,并清理已经过期的 state。其他的 state 可以在写 savepoint/checkpoint 时被清理。Flink 1.8 为 RocksDB state ...原创 2019-03-27 18:19:03 · 528 阅读 · 0 评论 -
Flink Broadcast State 使用示例
什么是 Broadcast StateBroadcast State 是 Flink 1.5 引入的新特性。在开发过程中,如果遇到需要下发/广播配置、规则等低吞吐事件流到下游所有 task 时,就可以使用 Broadcast State 特性。下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中 。英语好的同学可以直接移步 Flink...原创 2019-03-29 17:03:31 · 7499 阅读 · 1 评论 -
Flink Vs Storm性能测试
吞吐和延时是实时流处理的两个重要指标,本次性能测试也围绕这两个指标进行。测试环境集群单个机器参数测试集群共3个机器,每个机器配置如下:参数项参数值CPUIntel® Xeon® CPU E5-2430 v2 @ 2.50GHzcore24Memory125GOSCentOS Linux release 7.2.1511 (Core)网卡...原创 2019-03-12 16:08:40 · 2309 阅读 · 2 评论 -
Flink 通过 REST API 获取实时 task metric 汇总统计信息
#Flink 通过 REST API 获取实时 task metric 汇总统计信息运行 flink 程序时会经常需要查看当前程序的运行状况,flink 提供了 UI 界面,有比较详细的统计信息。但是 UI 界面也有不完善的地方,比如想要获取 flink 的实时吞吐。本文通过示例介绍通过 flink REST API 获取 flink 实时吞吐。为了更简单的表示,以下的 REST API 请求...原创 2019-03-11 19:49:26 · 9846 阅读 · 2 评论