Spark
文章平均质量分 84
claem
22届港硕统计学努力转码 学习爪哇 大数据的个人记录~
展开
-
Spark学习案例实操 尚硅谷 电商用户访问数据案例
需要用到zip算子,把相同位置的两个rdd连在一起,即rdd1=(1,2,3,4),rdd2=(2,3,4),那么rdd1.init.zip(rdd2)=((1,2),(2,3),(3,4)),这就是分子,那有了分子,我们需要分母,那分母是什么呢?然后做数据筛选 把不是这10个品类的数据行去掉,最后在筛选后的数据里进行(品类,用户)双变量的分组,得到用户出现的次数,然后改变数据结构从((品类,用户),sum次数)->(品类,(用户,sum次数)),然后进行sortby排序(降序),得到最终结果。原创 2024-05-15 22:44:06 · 873 阅读 · 0 评论 -
Spark学习笔记之RDD 1
首先,要明白对于Scala而言有自己的数据类型以及如何定义变量,那么在Spark里,我们处理数据集的时候,就需要一种既能存储数据,又能适配很多函数,可以快速对数据进行操作的一种数据结构,这个时候RDD就诞生了。RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark 中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。原创 2024-05-15 21:44:31 · 809 阅读 · 0 评论