Kaggle入门 - TMDB 5000 电影推荐数据分析

最新推荐文章于 2024-01-10 20:42:32 发布

wx1871428

最新推荐文章于 2024-01-10 20:42:32 发布

阅读量1.5k

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/wx1871428/article/details/118540747

版权

本文使用Kaggle上的TMDB 5000 Movie Dataset进行数据分析，目标包括数据清洗、电影类型推荐和按制作国家分类推荐。分析涉及数据预处理、特征提取，通过数据可视化呈现不同类型的电影分布和趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是针对kaggle上的数据集TMDB 5000 Movie Dataset进行数据分析。

数据集在以下链接就可下载 https://www.kaggle.com/tmdb/tmdb-movie-metadata

![](https://img-
blog.csdn.net/2018071616175174?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

本文将按以下几个步骤描述，数据分析的流程：

1.提出问题，给出分析目的；

2.数据清洗；

3.针对问题建立模型；

4.数据可视化；

5.分析结果，形成数据分析报告

1.提出问题，给出分析目的

首先观察数据，tmdb_5000_credit文件标签有电影id，名称，演员，工作人员

![](https://img-
blog.csdn.net/20180721153512569?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

tmdb_5000_movies标签有，很多。能用上的有id，名称，电影标语，电影时长，评分，预算金额，电影类型，关键字，制作公司，上映时期，收入。

从本人阅片无数的角度来看，基于电影推荐提出几个问题如下：

分类型推荐。每个人都有自己的爱好，电影也一样，找出每个类型下评分最高前20名，并给出相应电影的标语tagline，简介overview。
按制作国家分类推荐。也许就是一时兴起就想看一个美国大片，或者看个迪士尼的动漫也还挺好，哎看个日本的文艺小清新片子也是个不错的idea。
按热门电影推荐，根据popularity的值从高到低排序。
按评分推荐，分数要较高且评分人数高于某值。
按观影者心情推荐。抑郁的人推荐小众文艺片，从生活出发到灵魂结束，在平淡中找到人生的意义，积极向上的电影；无聊的人推荐喜剧，科技探索片也是个不错的选择；开心的人推荐烧脑片之类的剧情电影，让你忘掉开心，【笑脸】。

2.数据清洗

数据清洗主要分三步：1.数据预处理；2.特征提取；3.特征选取[1]。

2.1 数据预处理

数据预处理包括：发现和填补缺失值、数据类型转换、异常值删除等。

首先合并两个数据表，删除重复的movie_id，删除本次分析不需要用到的列。

![](https://img-
blog.csdn.net/20180723171712467?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

查看数据信息，看那个数据缺失。

![](https://img-
blog.csdn.net/2018072317182088?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

数据中release_date列缺失1条数据，runtime列缺失2条数据，通过索引的方式找到具体是哪一部电影，上网搜索准确数据填上，homepage,
overview, tagline以字符null填充。对于release_date列，需将其转换为日期类型，然后提取出“年份”数据。

查找release_date缺失的那一列，搜索数据填上，同理runtime列。

![](https://img-
blog.csdn.net/20180723174600561?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

homepage, overview, tagline以字符null填充。

![](https://img-
blog.csdn.net/20180723180534987?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE&#