本文是针对kaggle上的数据集TMDB 5000 Movie Dataset进行数据分析。
数据集在以下链接就可下载 https://www.kaggle.com/tmdb/tmdb-movie-metadata

本文将按以下几个步骤描述,数据分析的流程:
1.提出问题,给出分析目的;
2.数据清洗;
3.针对问题建立模型;
4.数据可视化;
5.分析结果,形成数据分析报告
1.提出问题,给出分析目的
首先观察数据,tmdb_5000_credit文件标签有电影id,名称,演员,工作人员

tmdb_5000_movies标签有,很多。能用上的有id,名称,电影标语,电影时长,评分,预算金额,电影类型,关键字,制作公司,上映时期,收入。
从本人阅片无数的角度来看,基于电影推荐提出几个问题如下:
-
分类型推荐。每个人都有自己的爱好,电影也一样,找出每个类型下评分最高前20名,并给出相应电影的标语tagline,简介overview。
-
按制作国家分类推荐。也许就是一时兴起就想看一个美国大片,或者看个迪士尼的动漫也还挺好,哎看个日本的文艺小清新片子也是个不错的idea。
-
按热门电影推荐,根据popularity的值从高到低排序。
-
按评分推荐,分数要较高且评分人数高于某值。
-
按观影者心情推荐。抑郁的人推荐小众文艺片,从生活出发到灵魂结束,在平淡中找到人生的意义,积极向上的电影;无聊的人推荐喜剧,科技探索片也是个不错的选择;开心的人推荐烧脑片之类的剧情电影,让你忘掉开心,【笑脸】。
2.数据清洗
数据清洗主要分三步:1.数据预处理;2.特征提取;3.特征选取[1]。
2.1 数据预处理
数据预处理包括:发现和填补缺失值、数据类型转换、异常值删除等。
首先合并两个数据表,删除重复的movie_id,删除本次分析不需要用到的列。

查看数据信息,看那个数据缺失。

数据中release_date列缺失1条数据,runtime列缺失2条数据,通过索引的方式找到具体是哪一部电影,上网搜索准确数据填上,homepage,
overview, tagline以字符null填充。对于release_date列,需将其转换为日期类型,然后提取出“年份”数据。
查找release_date缺失的那一列,搜索数据填上,同理runtime列。

homepage, overview, tagline以字符null填充。
![](https://img-
blog.csdn.net/20180723180534987?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpbmxpdTA5MDE&#