你的小王子-CSDN博客

原创 Spark 的Shuffle过程详解

一、Shuffle的作用是什么？Shuffle的中文解释为“洗牌操作”，可以理解成将集群中所有节点上的数据进行重新整合分类的过程。其思想来源于hadoop的mapReduce,Shuffle是连接map阶段和reduce阶段的桥梁。由于分布式计算中，每个阶段的各个计算节点只处理任务的一部分数据，若下一个阶段需要依赖前面阶段的所有计算结果时，则需要对前面阶段的所有计算结果进行重新整合和分类，这就需要经历shuffle过程。在spark中，RDD之间的关系包含窄依赖和宽依赖，其中宽依赖涉及shuffle操作

2021-08-05 17:15:08 3624

原创 kafka可是大数据中一个非常非常重要的组件

kafka可是大数据中一个非常非常重要的组件，里面包含了很多分布式思想和分布式问题的解决方法，如精准一次的实现及isr机制，分布式事务等kafka 是一个分布式的基于发布、订阅模式的消息队列，主要应用于大数据实时处理领域。传统使用.开源的分布式时间流平台好处1.解耦 2.可恢复性 3.缓冲 4.灵活性&峰值处理能力 5.异步通信模式点对点发布、订阅kafka架构producercustomercusumer group cg 消费者组，由多个consumer组成。消费者组内每个消费.

2021-07-06 20:38:49 751 2

原创 2021-06-20

常用的调优参数1）资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapreduce.reduce.memory.mb 一个Red

2021-06-20 17:27:12 76

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人