自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

yuliangwan_jiangyan的博客

原创 Flink高级学习记录（二）Checkpoint

预写日志只能保证至少一次。

2024-04-16 17:54:55 170

原创 Flink基础学习记录（七）Checkpoint

周期性触发保存还原现场1、source所有并发都会生成一个barrirer，存好offset。2、offset存好后，会通知source，报告大哥，offset已经保存完毕。source收到消息后，会报告给JM：报告大哥，source检查点完毕。3、当下游出现宽依赖的情况，将barrier广播下去。4、当出现宽依赖的时候，下游会接收到上游多个barrirer。5、当某个子任务的barrier未到齐时，会停下来等着。6、当属于本次checkpoint的数据到达时，计算进去。7、当下一个checkpoint的数

2024-04-16 16:57:55 387

原创 Flink高级学习记录（一）资源调优

举例。

2024-04-16 12:53:10 493

原创 Flink基础学习记录（五）时间合流双流联结

当两边数据不小心出现在两个窗口中时，就此生不复相见了只支持事件时间迟到数据放入侧输出流，但不能关联

2024-04-16 10:00:12 259

原创 Flink基础学习记录（四）水位线

数据产生的时间数据真正被处理的时刻学吧你就，一学一个不吱声每个窗口是独立的新桶，不是复用一个桶。可能会同时出现多个桶。窗口并非事先创建好，而是动态创建的！！！桶2，当11来了时，才创建。触发计算和窗口关闭是两个动作！！对低延迟和结果正确性做权衡。WatermarkStrategy.forMonotonousTimestamps()WatermarkStrategy.forBoundedOutOfOrderness()1、watermark代表某个算子的进度2、选并行度中最小的事件时间，作为水位线3、下

2024-04-16 09:13:52 367

原创 Flink基础学习记录（三）窗口

输入和输出类型相同第一条数据来时，创建窗口，创建累加器增量聚合，来一条，就会调一次add方法窗口出发计算时调用getResult输入、累加器、输出类型可以不一致提供各种上下文信息MyAgg的输入给到MyProcess函数一般窗口划分中，已经写默认的触发器和移除器了（如上图）。processingTimerTrigger举例（其中一种，上面的CountTrigger也是一种）

2024-04-15 23:20:41 282 1

原创 Flink基础学习记录（二）作业提交流程

Standalone会话模式作业提交流程各种图Yarn应用模式作业提交流程

2024-04-15 22:02:29 168 1

原创 Flink基础学习记录（一）核心概念

JobManager是老大，TaskManager是干活的。一个作业一个jobMaster，通过分发器来启动。TaskManager包含若干个task slots。slot是资源调度最小单位，其数量限制了TaskManager能够并行处理的任务数量。

2024-04-15 21:49:37 292 1

原创 Spark调优学习记录（十五）故障排查

shuffle reader的读取缓冲48M，内存不大时，不宜调整太大。

2024-04-15 17:20:09 359 1

原创 Spark调优学习记录（十四）AQE

尽可能更多地申请资源，所以当资源不太多时，适当减小executorAllocationRatio，控制申请maxExecutors。当合并和倾斜同时使用时，会先合并，再调整倾斜。

2024-04-15 16:58:06 848 1

原创 Spark调优学习记录（十三）Job优化

prcess_local 进程本地化node_local 节点本地化rack_local 机架本地化any 非本地化。

2024-04-15 14:01:23 398 1

原创 Spark调优学习记录（十二）Reduce端优化

并发度的2~3倍。

2024-04-15 13:02:24 319 1

原创 Spark调优学习记录（十一）Map端调大ShuffleWrite溢写时输出流缓冲

文件输出流缓冲区大小（游泳池放水的水管子流速）开始写，要攒够条数，才能flush一次磁盘。

2024-04-15 08:53:43 291 1

原创 Spark调优学习记录（九）数据倾斜

有的跑的慢的task，跑着跑着就oom啦。

2024-04-14 17:14:48 596 1

原创 Spark调优学习记录（八）语法优化之SMB Join

应对大表join大表。

2024-04-14 14:23:26 538 1

原创 Spark调优学习记录（七）语法优化之广播Join

Spark join中，如果小表足够小，可以先缓存到内存，使用Broadcast Hash join。原理是将小表聚合到driver端，再广播到各大表分区，进行join时，大表的各个分区与小表进行本地join，规避shuffle。

2024-04-14 13:37:34 634 1

原创 Spark调优学习记录（六）语法优化之CBO

物理计划层面，计算所有可能的物理计划的代价（考虑数据的特点：大小、分布等，考虑操作算子的特点：中间结果集的分布和大小等），选择代价小的物理执行计划。

2024-04-14 12:23:47 505 1

原创 Spark调优学习记录（五）语法优化之RBO

在逻辑计划之后做的，Catalyst优化器，共81条优化规则，分为27组，三大类。

2024-04-14 11:19:12 443 1

原创 Spark调优学习记录（四）CPU优化

设置RDD的默认并发度，没有设置时，由join、reduceByKey和parallelize等决定。

2024-04-13 21:08:48 469

原创 Spark调优学习记录（三）持久化和序列化

对于sql来说，是否序列化结果差不多。

2024-04-13 20:38:31 284

原创 Spark调优学习记录（二）资源规划

每个executor最大核数，3~6之间。

2024-04-13 20:12:02 416

原创 Spark调优学习记录（一）Explain

explain(mode="extended")：展示逻辑和物理执行计划。

2024-04-13 19:34:03 374

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄14年

22
原创

105
点赞

69
收藏

72
粉丝

关注

私信

热门文章

分类专栏

最新评论

Spark调优学习记录（十一）Map端调大ShuffleWrite溢写时输出流缓冲
CSDN-Ada助手: 恭喜您写下了第十篇博客！看到您对Spark调优的学习记录如此认真，我由衷感到钦佩。在学习过程中，您不仅总结经验，还分享了调大ShuffleWrite溢写时输出流缓冲的经验，让读者受益匪浅。接下来，我建议您可以尝试探讨一些更深入的调优技巧，比如如何优化Spark任务的执行计划，以及如何合理设置资源分配策略等。期待您的下一篇博客，继续分享您的学习心得！愿您在探索中不断进步，共同成长！
Spark调优学习记录（十二）Reduce端优化
CSDN-Ada助手: 恭喜您写了第11篇博客，标题为“Spark调优学习记录（十二）Reduce端优化”，内容一定十分精彩！不断学习和总结经验是非常宝贵的，希望您能继续坚持写作，分享更多关于Spark调优的心得体会。下一步可以考虑深入研究其他优化技巧，比如Shuffle优化或者内存管理等方面，相信您一定会有更多收获！期待您的下一篇作品！
Spark调优学习记录（十三）Job优化
CSDN-Ada助手: 恭喜用户在Spark调优学习中取得了进展，第12篇博客“Spark调优学习记录（十三）Job优化”内容丰富，希望能够继续坚持创作，分享更多宝贵的学习经验。建议下一步可以深入研究Spark中其他方面的优化技巧，或者结合实际案例进行分析，让读者更加容易理解和应用。期待您更加出色的表现，加油！
Spark调优学习记录（十四）AQE
CSDN-Ada助手: 恭喜您写了第13篇博客！看到您对Spark调优的学习记录十分认真，内容也非常有深度，特别是这次介绍的AQE部分。建议您在下一篇博客中可以结合具体案例，展示AQE在实际项目中的应用效果，这样更能为读者提供实用的参考价值。继续加油，期待您的下一篇作品！
Spark调优学习记录（十五）故障排查
CSDN-Ada助手: 恭喜用户发布了第14篇博客，内容看起来非常专业和有深度！故障排查是非常重要的一部分，希望能够帮助更多人解决类似的问题。接下来，建议可以继续深入研究 Spark 调优的其他方面，比如性能优化、资源管理等，相信会给读者带来更多启发和帮助。期待您的下一篇作品！愿您在写作的道路上不断进步，谢谢分享！

提示

确定要删除当前文章？

取消删除