自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark 的Shuffle过程详解

一、Shuffle的作用是什么?Shuffle的中文解释为“洗牌操作”,可以理解成将集群中所有节点上的数据进行重新整合分类的过程。其思想来源于hadoop的mapReduce,Shuffle是连接map阶段和reduce阶段的桥梁。由于分布式计算中,每个阶段的各个计算节点只处理任务的一部分数据,若下一个阶段需要依赖前面阶段的所有计算结果时,则需要对前面阶段的所有计算结果进行重新整合和分类,这就需要经历shuffle过程。在spark中,RDD之间的关系包含窄依赖和宽依赖,其中宽依赖涉及shuffle操作

2021-08-05 17:15:08 3522

原创 kafka可是大数据中一个非常非常重要的组件

kafka可是大数据中一个非常非常重要的组件,里面包含了很多分布式思想和分布式问题的解决方法,如精准一次的实现及isr机制,分布式事务等kafka 是一个分布式的基于发布、订阅模式的消息队列,主要应用于大数据实时处理领域。传统使用.开源的分布式时间流平台好处1.解耦 2.可恢复性 3.缓冲 4.灵活性&峰值处理能力 5.异步通信模式点对点发布、订阅kafka架构producercustomercusumer group cg 消费者组,由多个consumer组成。消费者组内每个消费.

2021-07-06 20:38:49 656 2

原创 2021-06-20

常用的调优参数1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个Red

2021-06-20 17:27:12 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除