SparkSql学习---电影评分数据分析案例

卓_尔_不_凡

已于 2024-04-30 21:20:32 修改

阅读量729

点赞数 6

分类专栏： spark-sql 案例实战文章标签：学习大数据 python linux spark sql

于 2024-04-24 09:15:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46164667/article/details/138144278

版权

文章详细展示了如何利用Pyspark在MovieLens数据集中执行SQL查询，计算用户和电影的平均分，并解决特定的数据分析需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据来源：

MovieLens数据集
MovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。下载地址http://files.grouplens.org/datasets/movielens/

需求

1.查询用户平均分2.查询电影平均分
3.查询大于平均分的电影的数量
4.查询高分电影中(>3)打分次数最多的用户,并求出此人打的平均分5.查询每个用户的平均打分,最低打分,最高打分
6.查询被评分超过100次的电影,的平均分排名TOP10

代码

#coding:utf-8
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
from pyspark.sql import functions as F
if __name__ == '__main__':
    spark=SparkSession.builder.appName("movie_demo").master("local[*]").getOrCrea

最低0.47元/天解锁文章

卓_尔_不_凡

博客等级

码龄5年

53
原创

529
点赞

383
收藏

424
粉丝

关注

私信

热门文章

分类专栏

案例实战 23篇
Pytorch 2篇
爬虫
Python 11篇
Java 2篇
Hive 6篇
数仓搭建 5篇
Hadoop 10篇
spark 12篇
spark-sql 8篇
Linux 1篇

最新评论

File contains parsing errors: file:///etc/yum.repos.d/nginx.repo报错解决，文件配置出现问题
2401_87514572: 看了好多评论没解决，这个重新安装就解决了，谁懂一个Linus小白的快乐
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
m0_72369705: # 客户表 sqoop import \ --connect jdbc:mysql://192.168.52.150:3306/scrm \ --username root \ --password 123456 \ --query 'SELECT *, "2021-09-27" AS start_time FROM customer where 1=1 and $CONDITIONS' \ --hcatalog-database itcast_dimen \ --hcatalog-table customer \ -m 1 你好，作者大大，这是你的文章《基于hive教育平台数据仓库分析案例二》中的数据采集的 DIM层维度表里的一段代码，我想问问这段代码是放在脚本里面执行吗，还是放在哪里执行。要是放在脚本里执行可以给一个完整的脚本吗？求求了，一定要回我，目前我只能向你发一天信息
hadoop学习---基于Hive的数据仓库相关函数机制及其优化方案
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的航空公司客户价值的LRFCM模型案例
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。