- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 23.从物理执行的角度透视 spark job
即使采用pipeline的方式,函数f对依赖的RDD中的数据操作也会有两种方式: 1,f(record),f作用于集合的每一条记录,每次只作用于一条记录 2,f(records), f一次性作用于集合的全部数据 spark的实现,是采用第一种方式,为什么采用第一种方式, 原因 1,无需等待,可以最大化的使用集群的计算资源 2,可以减少oom的发生, 3,
2016-02-24 13:19:32 313
原创 TopNGroup
跟随王家林老师的零基础讲解,注重动手实战,成为spark高手,笑傲大数据之林!王家林老师是大数据技术集大成者,中国Spark第一人:DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com
2016-01-30 19:45:58 318
原创 RDDTransformation Ops
package dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Transformation { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("hehadf").setMa
2016-01-23 16:09:43 298
原创 RDD创建彻底解密
第一个RDD:代表了Spark应用程序输入数据的来源通过Transformation来对RDD进行各种算子的转换1, 使用程序中的集合创建RDD; 2, 使用本地文件系统创建RDD; 3, 使用HDFS创建RDD 4, 基于DB创建RDD 5, 基于NoSQL创建RDD,例如HBase 6, 基于S3创建RDD 7, 基于数据流创建RDD1,通过集合创建RDD的实际意义:测
2016-01-21 13:52:16 388
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人