自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Flink高级学习记录(二)Checkpoint

预写日志只能保证至少一次。

2024-04-16 17:54:55 108

原创 Flink基础学习记录(七)Checkpoint

周期性触发保存还原现场1、source所有并发都会生成一个barrirer,存好offset。2、offset存好后,会通知source,报告大哥,offset已经保存完毕。source收到消息后,会报告给JM:报告大哥,source检查点完毕。3、当下游出现宽依赖的情况,将barrier广播下去。4、当出现宽依赖的时候,下游会接收到上游多个barrirer。5、当某个子任务的barrier未到齐时,会停下来等着。6、当属于本次checkpoint的数据到达时,计算进去。7、当下一个checkpoint的数

2024-04-16 16:57:55 240

原创 Flink高级学习记录(一)资源调优

举例。

2024-04-16 12:53:10 299

原创 Flink基础学习记录(五)时间合流 双流联结

当两边数据不小心出现在两个窗口中时,就此生不复相见了只支持事件时间迟到数据放入侧输出流,但不能关联

2024-04-16 10:00:12 193

原创 Flink基础学习记录(四)水位线

数据产生的时间数据真正被处理的时刻学吧你就,一学一个不吱声每个窗口是独立的新桶,不是复用一个桶。可能会同时出现多个桶。窗口并非事先创建好,而是动态创建的!!!桶2,当11来了时,才创建。触发计算 和 窗口关闭 是两个动作!!对低延迟和结果正确性做权衡。WatermarkStrategy.forMonotonousTimestamps()WatermarkStrategy.forBoundedOutOfOrderness()1、watermark代表某个算子的进度2、选并行度中最小的事件时间,作为水位线3、下

2024-04-16 09:13:52 232

原创 Flink基础学习记录(三)窗口

输入和输出类型相同第一条数据来时,创建窗口,创建累加器增量聚合,来一条,就会调一次add方法窗口出发计算时调用getResult输入、累加器、输出类型可以不一致提供各种上下文信息MyAgg的输入给到MyProcess函数一般窗口划分中,已经写默认的触发器和移除器了(如上图)。processingTimerTrigger举例(其中一种,上面的CountTrigger也是一种)

2024-04-15 23:20:41 144 1

原创 Flink基础学习记录(二)作业提交流程

Standalone会话模式作业提交流程各种图Yarn应用模式作业提交流程

2024-04-15 22:02:29 97 1

原创 Flink基础学习记录(一)核心概念

JobManager是老大,TaskManager是干活的。一个作业一个jobMaster,通过分发器来启动。TaskManager包含若干个task slots。slot是资源调度最小单位,其数量限制了TaskManager能够并行处理的任务数量。

2024-04-15 21:49:37 217 1

原创 Spark调优学习记录(十五)故障排查

shuffle reader的读取缓冲48M,内存不大时,不宜调整太大。

2024-04-15 17:20:09 232 1

原创 Spark调优学习记录(十四)AQE

尽可能更多地申请资源,所以当资源不太多时,适当减小executorAllocationRatio,控制申请maxExecutors。当合并和倾斜同时使用时,会先合并,再调整倾斜。

2024-04-15 16:58:06 228 1

原创 Spark调优学习记录(十三)Job优化

prcess_local 进程本地化node_local 节点本地化rack_local 机架本地化any 非本地化。

2024-04-15 14:01:23 304 1

原创 Spark调优学习记录(十二)Reduce端优化

并发度的2~3倍。

2024-04-15 13:02:24 146 1

原创 Spark调优学习记录(十一)Map端调大ShuffleWrite溢写时输出流缓冲

文件输出流缓冲区大小(游泳池放水的水管子流速)开始写,要攒够条数,才能flush一次磁盘。

2024-04-15 08:53:43 123 1

原创 Spark调优学习记录(九)数据倾斜

有的跑的慢的task,跑着跑着就oom啦。

2024-04-14 17:14:48 357 1

原创 Spark调优学习记录(八)语法优化之SMB Join

应对大表join大表。

2024-04-14 14:23:26 217 1

原创 Spark调优学习记录(七)语法优化之广播Join

Spark join中,如果小表足够小,可以先缓存到内存,使用Broadcast Hash join。原理是将小表聚合到driver端,再广播到各大表分区,进行join时,大表的各个分区与小表进行本地join,规避shuffle。

2024-04-14 13:37:34 197 1

原创 Spark调优学习记录(六)语法优化之CBO

物理计划层面,计算所有可能的物理计划的代价(考虑数据的特点:大小、分布等,考虑操作算子的特点:中间结果集的分布和大小等),选择代价小的物理执行计划。

2024-04-14 12:23:47 191 1

原创 Spark调优学习记录(五)语法优化之RBO

在逻辑计划之后做的,Catalyst优化器,共81条优化规则,分为27组,三大类。

2024-04-14 11:19:12 322 1

原创 Spark调优学习记录(四)CPU优化

设置RDD的默认并发度,没有设置时,由join、reduceByKey和parallelize等决定。

2024-04-13 21:08:48 317

原创 Spark调优学习记录(三)持久化和序列化

对于sql来说,是否序列化结果差不多。

2024-04-13 20:38:31 205

原创 Spark调优学习记录(二)资源规划

每个executor最大核数,3~6之间。

2024-04-13 20:12:02 219

原创 Spark调优学习记录(一)Explain

explain(mode="extended"):展示逻辑和物理执行计划。

2024-04-13 19:34:03 204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除