![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
在山的那边丶海的那边
这个作者很懒,什么都没留下…
展开
-
Broadcast与map进行join,避免shuffle,从而优化spark
适用场景 进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G) 因为,每个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例创建RDDval list1 = List((jame,23), (wade,3), (kobe,24)) val list2 = List((jame,cave), (wade,bulls), (kob原创 2016-08-19 21:39:19 · 6732 阅读 · 0 评论 -
spark的基本概念(术语词典)
spark的基本概念(术语词典)Spark运行模式spark可以在本地模式运行,也可以伪分布式运行。分布式运行的方式有三种,底层资源的调度可以使用mesos或者yarn,也可以使用自带的standalone模式。spark的基本概念:1、Applicaiton:Application的概念和hadoop MapReduce中的类似,都是指用户编写的spark应用程序,其中包含了一个Driver功能的原创 2017-01-18 16:27:10 · 519 阅读 · 0 评论