spark
文章平均质量分 51
zhouxiaowu_bigdata
这个作者很懒,什么都没留下…
展开
-
spark大数据分析(二)
## 常见的转化操作和行动操作## map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD;RDD 之间的元素是一对一的关系。 val rdd1 = sc.parallelize(1 to 9,3) val rdd2 = rdd1.map(x=>x*2) rdd2.collect filter filter是对RDD元素进行过滤;返回一个新的数据集,有经过func函数后返原创 2016-11-02 21:44:52 · 258 阅读 · 0 评论 -
Spark大数据分析(三)
PairRDD spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD。pairRDD是很多程序的构成要素,因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 创建pair RDD 需要把一个普通的RDD转换为pairRDD时,可以调用map函数实现,例如: scala使用第一个单词作为键创建一个PairRDD val lines= sc.para原创 2016-11-03 10:42:07 · 310 阅读 · 0 评论 -
spark大数据分析(四)
PairRDDpairRDD也是RDD,因此同样也支持RDD所支持的函数,例如filter函数:val filterRDD = pairRDD.filter(case(key,value)=>value.length<20) 聚合操作 当数据集以键值对的形式组织的时候,聚合具有相同键的元素进行一些统计是很常见的操作,例如计算键对应的平均值: scala> val list = sc.paralle原创 2016-11-03 21:10:27 · 321 阅读 · 0 评论 -
spark大数据分析(一)
RDD 编程 RDD基础 spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD),RDD是分布式元素的集合。在spark中,对数据的操作有创建RDD、转化RDD、action RDD;RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上,rdd可以包含python、java、scala中的原创 2016-11-02 17:07:26 · 1008 阅读 · 0 评论