![](https://img-blog.csdnimg.cn/d2f5f5ac944c4590ab3613b055767b39.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据flink学习及问题解决
文章平均质量分 87
大数据实时计算引擎flink的学习和运行bug解决
大数据动物园
5年开发3年架构
展开
-
Flink源码学习二 用户代码逻辑计划生成 1.17分支
接上节flink调用用户代码的main方法后,用户代码中一般会有如下获取flink环境的代码这里获取的环境再命令行客户的执行这个方法是就已经初始化好了,这个env里面封装了一些用户环境配置、streaming执行配置等。原创 2022-10-11 22:15:00 · 1056 阅读 · 1 评论 -
Flink源码学习一 客户端提交yarn-job任务源码处理 1.17分支
flink -h调用的shell脚本位于flink bin目录下的flink脚本执行。去到脚本最后一行,可以看到实际是启用了一个java程序可以看到shell脚本实际调用的是org.apache.flink.client.cli.CliFrontend这个类的main方式执行程序。原创 2022-09-30 21:15:00 · 927 阅读 · 0 评论 -
Flink1.13.6详细部署方式
Flink1.13.6支持flink cdc2.x版本,为兼容flink cdc,本文选择使用flink1.13.6版本部署。其他版本也可借鉴。Flink支持多种部署方式local(本地)->单机部署,一般不会使用standalone(独立部署)->flink自带的部署方式,一般用于开发测试使用yarn(分布式部署)->由hadoopyarn统一的管理资源,是生产环境采用的部署方式本文将针对以上几种方式进行详细的介绍:(1)下载安装包https://archive.apache.org/dist/flink原创 2022-06-30 22:02:19 · 3213 阅读 · 0 评论 -
大数据流式处理框架Flink介绍
随着数据的飞速发展,出现了很多热门的开源社区,比如:hadoop、spark、storm社区,他们都有各自专注的适用场景,比如hadoop主要是做数据的存储及批处理计算,spark既可以做批处理也可以做准实时计算,同时也支持机器学习和图计算,storm主要专注于实时计算。 在国外一些开源社区将flink分为四代:hadoop: 使用DAG(Tez)+MR Spark问题?为什么在企业中很多公司依然使用Mr进行离线计算?主要是Mr的稳定性要远远的大于Spark,因为Mr是基于io的计算,基于io原创 2022-06-30 21:11:07 · 2005 阅读 · 0 评论 -
Flink on yarn任务内存调优
flink taskmanager任务运行时的内存模型如下: 可以看到flink taskmanager任务内存主要分为两大块,一个是flink框架和任务本身的内存,一个是jvm本身的内存开销。 taskmanager.memory.process.size 这个配置是配置flink taskmanager任务的总内存,里面各个区域的内存划分flink框架会根据默认比例进行划分,但有时候默认的划分并不能满足我们的需求,容易造成内存和计算资源浪费。 下面将介绍flin原创 2022-06-29 10:15:28 · 1142 阅读 · 0 评论 -
Flink SQL任务TaskManager内存设置
在提交flink任务时,通过 taskmanager.memory.process.size 配置 taskmanager的总运行内存,其内的细节内存根据默认比例划分有时候也会存在不合理。如下所示: 配置了10G的taskmanager运行总内存,默认给Managed Memory分配了3.5G的内存,实际任务运行这部分根本不需要这么多内存。如何对内存进行最大化管理和配置就十分重要了。 本文主要介绍FlinkSQL的任务 TaskManager内存调优,其他flink任务也可以作原创 2022-06-28 14:31:13 · 3897 阅读 · 3 评论