![](https://img-blog.csdnimg.cn/20191113150438259.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
高级班Spark RDD
zhikanjiani
这个作者很懒,什么都没留下…
展开
-
RDD中join的使用详解
JOIN在Spark CORE中的使用如下需要注意的是:Array后面跟的是一个数组应为:Array(再填写元素)scala> val a = sc.parallelize(Array("A","a1"),("B","b1"),("C","c1"),("D","d1"),("E","e1"))<console>:24: error: too many arguments f...原创 2019-05-31 11:57:20 · 4540 阅读 · 0 评论 -
若泽数据B站视频Spark03 - RDD深入讲解
一、RDD概述:RDD:Resilent Distributed Dataset,弹性分布式数据集,是Spark中最基本的数据抽象(the basic abstraction in spark)。作用:让开发者大大降低开发分布式应用程序的门槛以及提高执行效率。RDD源码查看:https://github.com/apache/spark/blob/master/core/src/main/...原创 2019-05-26 14:41:03 · 222 阅读 · 0 评论 -
若泽数据B站视频Spark06 - Spark-RDD的基本操作(二)
一、上次课回顾二、RDD常用算子再次实验三、RDD中join使用深度详解四、使用Spark-Core进行词频统计剖析五、RDD中subtract & intersection & cartesian 使用详解一、上次课回顾https://blog.csdn.net/zhikanjiani/article/details/97833470写代码的时候检查是否有actio...原创 2019-07-31 15:18:29 · 383 阅读 · 0 评论 -
若泽数据B站视频Spark05 - Spark-RDD的基本操作(一)
一、上次课回顾二、从宏观角度看RDD三、RDD-map算子详解四、RDD-filter结合map算子详解五、RDD-mapValues算子详解六、RDD常用action算子一、上次课回顾https://blog.csdn.net/zhikanjiani/article/details/90613976二、从宏观角度看RDD从宏观角度看RDD operationsy = f(x...原创 2019-07-30 23:42:21 · 372 阅读 · 0 评论 -
若泽数据B站视频Spark基础篇05-Spark-RDD的创建
RDD创建的两种方式、1)parallelizing(并行化) an existing in your driver program, 把一个集合变成RDD2)or referencing a dataset in an external storage system,such as a shared filesystem, HDFS, HBase, or any data source of...原创 2019-05-27 23:12:51 · 271 阅读 · 0 评论