RDD编程小结

最新推荐文章于 2021-06-25 00:40:51 发布

幸运的蜗牛崽

最新推荐文章于 2021-06-25 00:40:51 发布

阅读量264

点赞数

分类专栏： spark基础扫盲文章标签： spark

本文链接：https://blog.csdn.net/weixin_46387455/article/details/107474337

版权

spark基础扫盲专栏收录该内容

1 篇文章 0 订阅

订阅专栏

创建rdd

lines = sc.parallelize([1,2,3,4])

rdd操作
转换操作：返回的是rdd

函数名	补充
map()
flatMap()
filter()
distinct()
sample()
union()

行动操作：返回其他数据类型，每当调用一个新的行动操作时，整个rdd从头开始。

函数名	补充
collect()
count()
collectByValue()
take()
top()
collect()
takeSample()	从rdd中返回一些元素
reduce()
foreach()

持久化
persist()
cache()
必须在transformation或者textfile等创建一个rdd之后，直接连续调用cache()或者persist()才可以，如果先创建一个rdd,再单独另起一行执行cache()或者persist()，是没有用的，而且会报错，大量的文件会丢失。
4.pair rdd 转化操作

函数名	补充
reduceByKey()
groupByKey()
reduceByKey()
mapValues()
flatMpaValues()
collectAsMap()
lookup(key)	返回给定key对应的所有值

rdd.mapValues(lambda x: (x,1)).reduceBykey(lambda x,y:(x[0]+y[0],x[1]+y[1]))

5.rdd分区

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

幸运的蜗牛崽

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

RDD编程总结

qq_39579290的博客

07-15

534

Spark：RDD编程总结(概述、算子、分区、共享变量)

Jodness' Blogs

08-04

2105

目录 1、RDD概述 1.1、RDD是什么 1.2、RDD的弹性 1.3、RDD的特点 1.3.1、分区 1.3.2、只读 1.3.3、依赖 1.3.4、缓存 1.3.5、检查点 2、RDD编程 2.1、RDD创建 2.1.1、并行化集合 2.1.2、读取外部数据集 2.2、RDD的操作 2.2.1、转换 2.2.2、行动 2.2.3、控制 1）缓...

参与评论您还未登录，请先登录后发表或查看评论

Spark学习之RDD编程总结

09-11

718

　　Spark 对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）。RDD 其实就是分布式的元素集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后，Spark 会自动将RDD 中的数据分发到集群上，并将操作并行化执行。一、RDD基础　　Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD

对RDD的一点感想（新手向）

smile17302519746的博客

04-10

404

RDD是什么 RDD怎么用第一个RDD 一系列RDD 保存RDD RDD是什么我们使用Spark，是因为数据量太大或者运算太复杂，单机无法处理，需要运用分布式环境。以往单机编程中使用的数据结构如Int，List等，无法直接使用（比如我们 int i= 0，这 i 存储在哪里？哪一台机器？内存还是外存？）。在这种情况下，RDD(Resilient Distributed...

RDD编程(python版)总结

lhy_1234的博客

06-25

1812

一、RDD创建方式包括:parallelize、textFile 1.parallelize：将一个已存在的集合生成RDD。 2.textFile：通过读取外部文件生成RDD 二、将RDD显示的方法包括：foreach()、collect() 三、RDD的操作：包括两类，转换操作和行动操作。 1.转换操作中的常用操作有:filter()、map()、flatMap()、groupBy()、reduceByKey()。（1）filter（func）:用于筛选。例1：将data中含有hadoop的元素筛选出

spark实验5 rdd编程2.doc

01-10

#### 实验小结通过本次实验，不仅熟悉了Spark中RDD的基本操作，包括`map`、`filter`、`reduceByKey`等，还掌握了如何利用这些操作来解决实际问题。此外，还学习了如何使用累加器来统计特定信息。整个实验过程加深...

实验6 RDD编程2.doc

最新发布

12-20

五、实验小结通过该实验，学生可以熟悉 Spark 的 RDD 编程模型，掌握使用 RDD 解决实际问题的方法，并了解如何使用 RDD 进行数据处理和分析。该实验还可以帮助学生更好地理解数据处理和分析的重要性，并掌握使用 ...

RDD编程初级实践

weixin_50763034的博客

06-14

1393

需求描述本次实验需要完成：1.pyspark交互式编程；2.编写独立应用程序实现数据去重；3.编写独立应用程序实现求平均值问题。其中pyspark交互式编程需要根据给定的实验数据data.txt，在pyspark中通过编程来计算以下内容，分别为：1.该系总共有多少学生；2.该系共开设了多少门课程；3.Tom同学的总成绩平均分是多少；4.求每名同学的选修的课程门数；5.该系DataBase课程共有多少人选修；6.各门课程的平均分是多少；7.使用累加器计算共有多少人选了DataBase这门课。编写独立

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + 实际案例演示

黑泽君

04-26

1332

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + 实际案例演示

RDD

devcy的博客

06-03

355

1.用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序中的对象集合（比如list 和set）。 1.1读取一个外部数据集在本书前面的章节中已经见过使用SparkContext.textFile() 来读取文本文件作为一个字符串RDD 的示例. lines = sc.textFile("README.md") 1.2在驱动器程序中对一个集合进行并行化。创建RDD...

RDD编程初级实践数据集

06-05

免费下载

Spark学习心得（一）：Spark RDD基本操作

asdssssasd的博客

04-04

1336

一、RDD.fold和Scala.fold使用之间的差别1.Scala中fold的使用val t1=Array(("C++", (1,"1")), ("Java", (2,"2")),("Java", (2,"2")), ("SQL", (3,"3")), ("Python", (4,"4"))) val rs

Spark学习01——创建RDD的所有方法

shengpli′s blog

09-18

317

方式一、从内存中创建 1.makeRDD val rdd = sc.parallelize(List("zhangsan", "lisi", "wangwu")) 2.parallelize val rdd2 = sc.makeRDD(List("zhangsan", "lisi", "wangwu")) 区别：makeRDD函数有两种实现，第一种实现其实完全和parallelize一致...

第二章：《RDD编程实例之实验报告》

weixin_45014721的博客

11-19

1068

1.函数式编程实例WordCount 任务：按照函数式编程的风格，编写一个程序，对某个目录下所有文件中的单词进行词频统计做法：请进入Linux系统，打开“终端”，进入Shell命令提示符状态，然后，在“/usr/local/scala/mycode”目录下，新建一个wordcount子目录，并在“/usr/local/scala/mycode/wordcount”目录下新建两个包含了一些语句的文本文件word1.txt和word2.txt（你可以在文本文件中随意输入一些单词，用空格隔开），我们会编写Sca

对于Spark RDD的小结（学习阶段）

qq_45578476的博客

11-28

316

参考自https://blog.csdn.net/dsdaasaaa/article/details/94181269和https://blog.csdn.net/lucasmaluping/article/details/103047901的小结 RDD：弹性分布式数据集，是Spark中最基本的数据抽象。理解：本质上是一个只读的分区记录集合，每个RDD是有多个分区，每个分区就是一个数据集片段...

Spark RDD编程实践：大数据分析与去重应用

"这份学习报告主要介绍了RDD编程在大数据处理中的初级实践，涵盖了Spark的RDD基本操作和键值对操作，以及如何使用RDD解决实际问题。报告中给出了三个具体的实验内容，包括pyspark交互式编程实现数据统计，编写独立...