基于hadoop豆瓣电影数据分析

左岸2420

已于 2023-08-03 17:14:36 修改

阅读量1.8k

点赞数 4

分类专栏： hadoop 大数据文章标签： hadoop 大数据

于 2023-07-19 11:21:10 首次发布

本文链接：https://blog.csdn.net/yh1009/article/details/131632241

版权

大数据同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

hadoop

3 篇文章 1 订阅

订阅专栏

该试题要求学生使用Hadoop工具对豆瓣电影数据进行分析，包括在Hive中创建表，导入数据，然后通过SQL查询找出平均评分最高的电影类型和平均评分低于6分的“烂片之王”国家。数据结果需存储到HBase，并记录操作日志在HDFS的/log目录下。

摘要由CSDN通过智能技术生成

《Hadoop大数据技术》测试试题

题目：基于hadoop豆瓣电影数据分析

学生姓名：学号：

学院：专业班级：

完成日期：年月日

成绩（百分制）：

授课教师：

试题题目：基于hadoop豆瓣电影数据分析

试题内容及要求

试题说明：

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据，通过算法分析产生豆瓣电影 Top 250。

为了分析电影产业的发展趋势，你需要对这些信息做统计分析。

豆瓣网站的数据形式为文本文件（必须将导入到hive中做处理）。

文件的内容如下：

待分析指标如下：

1、什么类型的电影平均评分最高。

要求输出：类型平均分

2、哪个国家是烂片之王（平均评分小于6分的国家）。

要求输出：国家平均分

各项统计指标需要添加到hbase，以方便查询，分别添加到2个表（一个指标一个表），且在hbase shell中显示你写入的结果数据。

另外，本次操作需要留下日志，在hdfs 的 /log 下 上传自己的操作记录。

操作记录的格式为：

学号 姓名操作时间

2019xx xxx 2020-12-21 10:52:12

试题说明：

独立完成，可查阅教材及参考书籍，不准交头接耳，抄袭0分。
此题要求使用分布式文件系统,文件描述信息存放在列式数据库。
操作过程需要截图，如启动 hdfs ，启动hive。
请将列式数据库中表名加上学生姓名的拼音首字母缩写_xxx+学号，例如：

列式数据库中有文件描述这个表，那么‘张三’同学的表应该命名为zs_201902003。

报告中详细贴出考试内容操作语句（不是截图），程序运行结果截图贴在报告中。
考试报告文档提交的格式为PDF，不能提交word文档和图片。

评分标准：

任务	权重	评分标准
任务一导入数据到hive	30%	内容	分值	等级	评分区间	实际得分
		综合应用基础和专业知识的能力	30分	优秀：过程完整严谨，逻辑清晰，命令正确 ,选择的方法可以实现全自动	30-25
				良好：过程完整严谨，逻辑清晰，命令正确，但不能实现全自动	24-19
				中等：过程完整，逻辑不清晰，命令基本正确，按要求完成目标	18-13
				合格：过程混乱，命令勉强正确，未按要求完成	12-7
				不合格：过程混乱，命令错误，未按要求完成	6-0
任务二分析数据	40%	内容	分值	等级	评分区间	实际得分
		综合应用基础和专业知识的能力	40分	优秀：数据库和表正确创建，sql语句正确，且高效	40-33
				良好：数据库和表正确创建，sql语句正确	32-25
				中等：数据库和表正确创建，sql语句部分正确	24-17
				合格：数据库和表正确创建，sql语句不正确	16-9
				不合格：数据库和表错误创建，sql语句不正确	8-0
任务三分析数据	30%	内容	分值	等级	评分区间	实际得分
导出数据，并保留操作日志		综合应用基础和专业知识的能力	30分	优秀：过程完整严谨，逻辑清晰，命令正确	30-25
				良好：过程完整严谨，逻辑清晰，命令正确	24-19
				中等：过程完整，逻辑不清晰，命令基本正确，按要求完成目标	18-13
				合格：过程混乱，命令勉强正确，未按要求完成	12-7
				不合格：过程混乱，命令错误，未按要求完成	6-0

任务一：

操作过程：

打开hdfs

代码：start-all.sh

打开hive

代码：hive;

3、将数据粘贴进主目录中

4、打开自己的数据库

代码：use liuxuanting;

5、新建一个表，表名为：lxt_2021900406

代码：

create external table lxt_2021900406(id int,name string,people int,stype string,country string,atime string,timelong int,year int,score double,here string)

row format delimited fields terminated by ','