07-案例：销售图书

最新推荐文章于 2022-06-12 20:04:52 发布

yu1069153913

最新推荐文章于 2022-06-12 20:04:52 发布

阅读量359

点赞数

分类专栏：分布式Spark笔记文章标签： spark

本文链接：https://blog.csdn.net/yu1069153913/article/details/107672284

版权

分布式Spark笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

题目：
给定一组键值对(“spark”, 2)(“hadoop”, 6)(“hadoop”, 4)(“spark”, 6)，键值对的key表示图书名称，value表示某天的图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量

下面利用scala实现：

环境是在jupyter notebook中的运行，使用scala语法：

命令1：

val rdd = sc.parallelize(Array(("spark", 2), ("hadoop", 6), ("hadoop", 4), ("spark", 6)))  // 创建RDD

输出1：

rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:25

命令2：

rdd.foreach(elem=>println(elem))

输出2：

(spark,2)
(hadoop,6)
(hadoop,4)
(spark,6)

命令3：

rdd.mapValues(x=>(x,1)).foreach(elem=>println(elem))  // mapValues不是行动操作

输出3：

(spark,(2,1))
(hadoop,(6,1))
(spark,(6,1))
(hadoop,(4,1))

命令4：

rdd.mapValues(x=>(x,1)).reduceByKey((x, y)=>(x._1+y._1, x._2+y._2)).foreach(elem=>println(elem))

输出4：

(hadoop,(10,2))
(spark,(8,2))

命令5：

rdd.mapValues(x=>(x,1)).reduceByKey((x, y)=>(x._1+y._1, x._2+y._2)).mapValues(x=>(x._1/x._2)).foreach(elem=>println(elem))

输出5：

(spark,4)
(hadoop,5)

命令6：

rdd.mapValues(x=>(x,1)).reduceByKey((x, y)=>(x._1+y._1, x._2+y._2)).mapValues(x=>(x._1/x._2)).collect()

输出6：

res10: Array[(String, Int)] = Array((hadoop,5), (spark,4))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yu1069153913

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark案例：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量

superXZT的博客

12-12

3309

案例：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key 表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。 spark代码： import org.apache.spark.{SparkConf, SparkContext} o...

spark的练习题（6）

橙以的博客

12-14

7897

1.排序：定义三个文件对文件内容进行排序（数字） package com.hyxy.spark01 import org.apache.spark.{SparkConf, SparkContext} object listarray { def main(args: Array[String]): Unit = { val conf = new SparkCon...

参与评论您还未登录，请先登录后发表或查看评论

RDD编程学习笔记2_键值对RDD_综合案例-计算每种图书的每天平均销量

单林敏的博客

01-29

1531

常见操作 reduceByKey和groupByKey的区别 groupByKey只做分组，不会进行汇总 reduceByKey会进行汇总求和(写过map，reduce函数框架的话应该很好理解) groupByKey可以通过利用Iterable的容器函数达到一些reduceByKey的效果以下三种操作是等价的综合案例-计算每种图书的每天平均销量 scala> val rdd = sc...

大数据-spark：函数的应用

sxj的专栏

10-06

360

1、reduceByKey(func):功能是使用func函数合并具有相同键的值。 2、groupByKey()：功能是对有相同键的值进行分组，比如有四个键值对("spark",1),("spark",2),("hadoop",3),("hadoop",5)采用groupByKey()后结果为：("spark",(1,2)),("hadoop",(3,5)) 3、keys：返回的是键值对的键列...

[Spark]rdd编程

liyunyang2000的博客

06-12

466

[Spark]rdd编程和英文释义

SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量（调优策略）,RDD相关概念关系

qq_43265673的博客

09-18

904

接上篇文章第2章2.8:SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint 第3章键值对RDD数据分区器 3.1 获取RDD分区 3.2 Hash分区 3.3 Ranger分区 3.4 自定义分区第4章数据读取与保存 4.1 文件...

Spark：RDD弹性分布式数据集——实践

博樽

04-10

669

RDD创建、把RDD写入到本地文件中、HDFS文件中，JSON文件的读取。 RDD的处理过程：转换，行动，持久化。实例 WordCount 词频统计、计算每种图书的每天平均销量、编写程序完成对JSON数据的解析工作。

go-point-of-sales:在销售点案例中DDD概念的Golang实现

03-14

因此，在该存储库中，我尝试从文章以及其他几种来源中采用DDD的概念，直至实现销售案例。灵感来源此存储库受到以下某些源的极大启发： **注意：请随意从这些文章中反馈有关我如何实现该概念的反馈。

stock-analysis:VBA模块

03-21

- 对于库存分析，可以参考库存管理的理论书籍，如《库存管理：实践与案例》。综上所述，"stock-analysis: VBA模块"项目利用VBA在Excel中实现库存数据的自动化处理和分析，提高工作效率，优化库存决策。这涉及到...

Book-Store-Selling-System:使用python创建的GUI应用程序

03-09

通过这个系统，用户可以轻松地进行图书入库、出库、查询库存、查看销售报表等一系列操作。这不仅提高了工作效率，还能帮助书店管理员实时掌握店面运营情况。【标签】"Python"表明该程序的核心是Python编程语言。...

SCA-MP-C4-Assessment:她对非洲规范计划的数据科学技术评估

03-06

2. 探索性数据分析：通过统计摘要和可视化了解数据的基本特征，如书籍类别分布、销售量趋势、季节性等。 3. 时间序列分析：由于数据集跨越了十年，可以分析每年或每月的销售趋势，识别周期性模式或异常事件。 4. ...

Livraria-TI：准妈妈们的无国界城堡和Curso教堂的Trabalho

02-11

【标题】"Livraria-TI：准妈妈们的无国界城堡和Curso教堂的Trabalho" 提到的项目似乎是一个结合了图书销售与教育的平台，特别关注准妈妈们的需求，同时也涉及到某个课程（可能是培训课程或者在线课程）的工作项目。...

大数据总结【第九章：Spark】

计忆芳华的博客

06-11

6435

Spark的主要特点 Scala语言是多凡是编程语言，会使用SCALA的简单语句 Spark与hadoop的对比 Spark生态系统：大数据处理的三种类型，各组件的功能，运行架构 RDD的编程，执行过程示意图最少10分编程：：shell命令的简单使用 ...

Spark编程:图书管理 RDD操作 2020.10.11

Beyond_Nothing

10-11

774

题目：给定一组键值对(“spark”,2),(“hadoop”,6),(“hadoop”,4),(“spark”,6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。 val rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6))) rdd.mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._

spark算子练习题-灵活使用常用算子1

技术成就梦想

03-08

1657

spark里虽然算子众多，虽然不要求全部掌握，但是对于常用算子还是需要烂熟于心灵活运用，对于kv格式的RDD(Tuple2)则需要全部掌握否则对于数据的处理就没办法做了，针对这个情况可以自己找一些网上的spark练习题，然后用java的方式实现一遍，能自己写最好，如果不知道怎么写也要照着别人写的敲一遍逐字逐句好好理解。这次也趁这次机会分享下我自己做的练习题 1 第一题题目如下：定义三个文件...

转：spark的练习题（6）

10-17

937

spark场景练习题（二）

weixin_44481341的博客

10-19

392

第一题：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。 val rdd = sc.makeRDD(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6))) object Work03 { def main(args: Array[String]): Unit

spark-RDD

lovezhaohaimig的博客

01-06

398

RDD 是什么？ RDD，全称为 Resilient Distributed Datasets，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD 还提供了一组丰富的操作来操作这些数据。在这些操作中，诸如 map、flatMap、filter 等转换操作实现了 monad 模式，很好地契合了 Scala 的集合操作。除此之外，RDD 还提供了...

09-独立程序求学生的平均成绩

我心自在天的博客

07-29

4835

问题：编写独立应用程序实现求平均值问题每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。下面是输入文件和输出文件的一个样例，供参考。 Algorithm成绩：小明 92 小红 87 小新 82 小丽 90 Database成绩：小明 95 小红 81 小新 89 小丽 85 Python成绩：小明 82 小红 83 小新 94 小丽 91 平均成绩如下： (小红,83

GBT-8567-2006：网上购书系统可行性分析

网上购书系统作为电子商务平台的一个实例，其设计目的是提供一个用户友好的界面，允许用户在线浏览书籍、选购图书，并与管理员、作者进行互动。系统需兼容Windows操作系统，包含用户登录、购书、反馈等功能，并具备...