yangshihao321-CSDN博客

原创 23.从物理执行的角度透视 spark job

即使采用pipeline的方式，函数f对依赖的RDD中的数据操作也会有两种方式： 1，f（record），f作用于集合的每一条记录，每次只作用于一条记录 2，f(records), f一次性作用于集合的全部数据 spark的实现，是采用第一种方式，为什么采用第一种方式，原因 1，无需等待，可以最大化的使用集群的计算资源 2，可以减少oom的发生， 3，

2016-02-24 13:19:32 313

跟随王家林老师的零基础讲解，注重动手实战，成为spark高手，笑傲大数据之林！王家林老师是大数据技术集大成者，中国Spark第一人：ＤＴ大数据梦工厂新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com

2016-01-30 19:45:58 318

原创 RDDTransformation Ops

package dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Transformation { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("hehadf").setMa

2016-01-23 16:09:43 298

原创 RDD实战图解

2016-01-21 13:58:41 538

原创 RDD创建彻底解密

第一个RDD：代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换1，使用程序中的集合创建RDD; 2，使用本地文件系统创建RDD； 3，使用HDFS创建RDD 4，基于DB创建RDD 5，基于NoSQL创建RDD,例如HBase 6，基于S3创建RDD 7，基于数据流创建RDD1，通过集合创建RDD的实际意义：测

2016-01-21 13:52:16 388

数学建模B题

2013全国数学建模B题拼图代码代码适合附件1 附件2 附件3 附件4和附件5还在攻克中

2013-09-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yangshihao321的博客