大数据
文章平均质量分 76
yangshihao321
这个作者很懒,什么都没留下…
展开
-
RDDTransformation Ops
package dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Transformation { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("hehadf").setMa原创 2016-01-23 16:09:43 · 300 阅读 · 0 评论 -
TopNGroup
跟随王家林老师的零基础讲解,注重动手实战,成为spark高手,笑傲大数据之林!王家林老师是大数据技术集大成者,中国Spark第一人:DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com原创 2016-01-30 19:45:58 · 319 阅读 · 0 评论 -
23.从物理执行的角度透视 spark job
即使采用pipeline的方式,函数f对依赖的RDD中的数据操作也会有两种方式:1,f(record),f作用于集合的每一条记录,每次只作用于一条记录2,f(records), f一次性作用于集合的全部数据spark的实现,是采用第一种方式,为什么采用第一种方式,原因 1,无需等待,可以最大化的使用集群的计算资源 2,可以减少oom的发生, 3,原创 2016-02-24 13:19:32 · 314 阅读 · 0 评论