大数据
文章平均质量分 96
主要是flink调参的一个学习过程
小朱小朱绝不服输
这个作者很懒,什么都没留下…
展开
-
Flink内核源码(八)Flink Checkpoint
Flink中Checkpoint是使Flink 能从故障恢复的一种内部机制。检查点是 Flink 应用状态的一个一致性副本,在发生故障时,Flink 通过从检查点加载应用程序状态来恢复。:是在 input source 端插入 barrier,控制 barrier 的同步 (分界线对齐)来实现 snapshot 的备份 和 exactly-once 语义。...原创 2022-08-17 16:17:30 · 1829 阅读 · 2 评论 -
Flink生产环境经典问题汇总
Flink生产环境中遇到的各种问题的汇总。原创 2022-07-28 22:20:24 · 1850 阅读 · 0 评论 -
Flink内核源码(七)Flink SQL提交流程
Flink内核源码:FlinkSQL提交流程分析原创 2022-07-28 16:11:08 · 2254 阅读 · 0 评论 -
Flink内核源码(六)状态容错与两阶段提交
Flink的状态容错与两阶段提交,包括状态、状态后端存储、checkpoint、savepoint、两阶段提交、checkpoint调优原创 2022-07-18 15:26:34 · 792 阅读 · 0 评论 -
Flink内核源码(五)控制任务调度:作业链与处理槽共享组
Flink内核源码:控制任务调度——作业链与处理槽共享组原创 2022-07-17 17:51:46 · 456 阅读 · 0 评论 -
Flink内核源码(四)内存管理
Flink内核源码之Flink的内存管理机制,同时包括Flink的内存调优以及一些故障排除。原创 2022-07-14 15:53:48 · 1808 阅读 · 0 评论 -
Flink内核源码(三)任务调度机制
Flink内核源码分析之任务调度机制,主要学习了两个方面,一个是在任务调度过程中,执行图的一个转换,另一个是任务调度的机制以及策略。原创 2022-07-13 19:37:45 · 2029 阅读 · 0 评论 -
Flink内核源码(二)组件通信
从源码层面学习一下Flink的组件通信。原创 2022-07-12 21:38:09 · 716 阅读 · 0 评论 -
Flink内核源码(一)任务提交流程
Flink内核源码学习,对于Yarn-per-job模式的任务提交过程,通过源码深入了解执行过程。原创 2022-07-12 20:07:31 · 2615 阅读 · 1 评论 -
Spark面试突击
大数据方面的面试总结汇总,本篇为Spark的面试总结。文章目录一、Spark基础1. 你是怎么理解Spark,它的特点是什么?2. Spark架构了解吗?3. 简述Spark的作业提交流程4. Spark与Hadoop对比?Spark为什么比MapRedude快?二、Spark Core5. 什么是RDD?RDD的五大属性是什么?6. 说一些常用的 RDD 算子?7. RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么?8. 介绍一下 cogroup RDD 实现原理,你在什原创 2022-05-10 22:21:25 · 1046 阅读 · 4 评论 -
Flink面试突击
大数据方面的面试总结汇总,本篇为Flink的面试总结。文章目录一、简单介绍一下 Flink二、Flink 相比传统的 Spark Streaming 区别?三、为什么说 Flink 统一了流和批处理?四、Flink是如何支持批流一体的?五、Flink 的运行必须依赖 Hadoop组件吗?六、Flink的并行度了解吗?Flink的并行度设置是怎样的?七、Flink的基础编程模型了解吗?八、Flink集群有哪些角色?各自有什么作用?九、Flink的架构?十、Flink 的组件栈有哪些?十一、Flink的 Ch原创 2022-02-24 19:18:38 · 3275 阅读 · 0 评论 -
Flink筛选重要配置参数
1.简单介绍一下flink背景随着科技的发展,大数据框架处理海量数据越来越流行。有状态流计算将会逐步成为企业作为构建数据平台的架构模式,而目前从社区来看,能够满足的只有Apache Flink。Flink通过实现Goolge Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理,防止状态在计算过程中因为系统异常而出现丢失。Flink具有先进的架构理念,诸多的优秀特性,以及完善的编程接口,而Flink也在每一次的Release版本中,不断推出新的原创 2020-08-24 17:28:10 · 896 阅读 · 1 评论 -
Hadoop的简单知识总结
Hadoop概述1.Hadoop是什么?解决什么问题?Hadoop是由Apache基金会所开发的分布式基础框架。主要解决:海量数据的存储和海量数据的分析计算问题2.三大并行版本3.Hadoop的优势(1)高可靠性:Hadoop底层维护多个数据副本(3个),Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点(3)高效性:在MapReduce的思想下,Hadoop是并行操作的,以加快任务处理的速度。(4)高容错性:能原创 2020-05-16 14:02:47 · 1175 阅读 · 1 评论 -
hibench运行flink程序第三步run.sh出错(提交job失败)
在hibench上运行flink程序,提交job失败hibench上做flink实验时,在新的服务器上重新配置环境后,在成功运行Hibench的前两步genSeedDataset.sh和dataGen.sh后,运行run.sh,正常提交,但生成metrics全部为0。分析原因:Kafka产生数据失败仔细查看了Kafka日志发现没有问题,怀疑可能是设置的自动删除日志设置的数据量过小,去掉之...原创 2020-04-14 23:26:01 · 2688 阅读 · 0 评论 -
kafka自动清理日志
Kafka日志的清除Kafka将消息存储在磁盘里,随着程序的运行,Kafka会产生大量的消息日志,进而占据大部分磁盘空间,当磁盘空间满时还会导致Kafka自动宕机,因此Kafka的日志删除是非常有必要的。1. Kafka的日志清除策略Kafka中每一个分区partition都对应一个日志文件,而日志文件又可以分为多个日志分段文件,这样也便于日志的清理操作。Kafka提供了两种日志清除策略:...原创 2020-03-31 11:38:11 · 6497 阅读 · 2 评论 -
Flink--window数据倾斜
1.window数据倾斜对于集群系统,一般缓存是分布式的,即不同节点负责一定范围的缓存数据。我们把缓存数据分散度不够,导致大量的缓存数据集中到了一台或几台服务节点上,称为数据倾斜。一般来说,数据倾斜是由于负载均衡实施的效果不好引起的。简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几台机器上计算,而集群中其它节点空闲。这些倾斜了的数据的计算速...原创 2020-01-15 14:31:00 · 2630 阅读 · 0 评论 -
Flink作业调度
Flink作业调度1.如何进行作业调度实际上作业调度可以看作是对资源和任务进行匹配的过程。在Flink中,资源是通过slot来表示的,每个slot可以用来执行不同的Task。调度的主要目的就是为了给Task找到匹配的slot。该图表示的就是flink的作业调度过程,从图中我们可以清晰的看出来一个作业的整个提交调度过程。master-slave:AM(AppMaster):master,负...原创 2020-01-09 11:29:13 · 3400 阅读 · 2 评论 -
Anaconda安装机器学习环境(tensorflow)
安装机器学习环境依赖库的时候,由于python版本的多样和并存,导致与pip对应的版本有时候也不一致,因此使用Anaconda安装虚拟环境,进而解决python多版本并存,切换问题。1.Anaconda功能介绍(1)提供了包管理功能。(2)提供环境管理功能,解决了多版本的python并存切换问题。2.Anaconda下载直接到官方网站官网下载,对应的有Windows,macOS,Linu...原创 2020-01-06 15:04:42 · 5182 阅读 · 1 评论 -
kafka自动宕机原因分析和解决
Kafka自动宕机问题本博客主要解决的是在运行flink程序时,Kafka在启动几秒后出现自动宕机的问题,从运行程序的情况下,主要有两个方面的问题和解决措施。1.log日志所在内存满在运行flink程序时,Kafka产生数据会生成两个日志目录,一个生成在Kafka目录下的log目录用来存储日志信息,一个在/config/server.properties配置文件中设置的log.dirs,为存...原创 2019-12-27 10:02:37 · 7835 阅读 · 0 评论 -
flink在Hibench下的配置和运行
Hibench简单介绍HiBench是一个大数据基准套件,它在速度、吞吐量和系统资源利用率方面帮助评估不同的大数据框架。它包含一组Hadoop、Spark和流工作负载,包括Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO等。它还包含了...原创 2019-12-26 22:04:58 · 5684 阅读 · 3 评论