- 博客(3)
- 收藏
- 关注
原创 Spark 的Shuffle过程详解
一、Shuffle的作用是什么?Shuffle的中文解释为“洗牌操作”,可以理解成将集群中所有节点上的数据进行重新整合分类的过程。其思想来源于hadoop的mapReduce,Shuffle是连接map阶段和reduce阶段的桥梁。由于分布式计算中,每个阶段的各个计算节点只处理任务的一部分数据,若下一个阶段需要依赖前面阶段的所有计算结果时,则需要对前面阶段的所有计算结果进行重新整合和分类,这就需要经历shuffle过程。在spark中,RDD之间的关系包含窄依赖和宽依赖,其中宽依赖涉及shuffle操作
2021-08-05 17:15:08 3522
原创 kafka可是大数据中一个非常非常重要的组件
kafka可是大数据中一个非常非常重要的组件,里面包含了很多分布式思想和分布式问题的解决方法,如精准一次的实现及isr机制,分布式事务等kafka 是一个分布式的基于发布、订阅模式的消息队列,主要应用于大数据实时处理领域。传统使用.开源的分布式时间流平台好处1.解耦 2.可恢复性 3.缓冲 4.灵活性&峰值处理能力 5.异步通信模式点对点发布、订阅kafka架构producercustomercusumer group cg 消费者组,由多个consumer组成。消费者组内每个消费.
2021-07-06 20:38:49 656 2
原创 2021-06-20
常用的调优参数1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个Red
2021-06-20 17:27:12 72
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人