dt
文章平均质量分 71
yangshihao321
这个作者很懒,什么都没留下…
展开
-
RDD创建彻底解密
第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换1, 使用程序中的集合创建RDD; 2, 使用本地文件系统创建RDD; 3, 使用HDFS创建RDD 4, 基于DB创建RDD 5, 基于NoSQL创建RDD,例如HBase 6, 基于S3创建RDD 7, 基于数据流创建RDD1,通过集合创建RDD的实际意义:测原创 2016-01-21 13:52:16 · 391 阅读 · 0 评论 -
RDDTransformation Ops
package dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Transformation { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("hehadf").setMa原创 2016-01-23 16:09:43 · 300 阅读 · 0 评论 -
TopNGroup
跟随王家林老师的零基础讲解,注重动手实战,成为spark高手,笑傲大数据之林!王家林老师是大数据技术集大成者,中国Spark第一人:DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com原创 2016-01-30 19:45:58 · 319 阅读 · 0 评论 -
23.从物理执行的角度透视 spark job
即使采用pipeline的方式,函数f对依赖的RDD中的数据操作也会有两种方式:1,f(record),f作用于集合的每一条记录,每次只作用于一条记录2,f(records), f一次性作用于集合的全部数据spark的实现,是采用第一种方式,为什么采用第一种方式,原因 1,无需等待,可以最大化的使用集群的计算资源 2,可以减少oom的发生, 3,原创 2016-02-24 13:19:32 · 314 阅读 · 0 评论