目的:对豆瓣前250的影片数据进行爬取,得到以下问题的结论;
问题1:受大家喜欢的影片,影片类型主要有哪些?
问题2:高评分和评价人数有关系吗?
问题3:哪些国家的影片最受欢迎?
1.源文件保存
2. 熟悉数据,处理数据异常值。
筛选发现,这几个数值的概况栏是空白的。
3. 唯一标示列进行去重检查
4.不用的数据进行隐藏
基于数据处理的目的,图片链接和网址链接不需要,进行隐藏。
5.对相关信息这边的数据进行分列
得到如下:
数据基本上是我们想要的形式了。再次进行异常数据的处理
得到如下数据
6. 总结分析
问题1:受大家喜欢的影片,影片类型主要有哪些?
如图:统计数据显示,最受人们欢迎的影片类型是剧情片。
问题2:高评分和评价人数有关系吗?
如图:我们可以看出,随着评分越高,评价数总体呈上升趋势,除去几个不符合趋势的数值(可以单独再进行分析),可以说,一部电影越好,人们对它评价越高,就越会进行讨论评价。
问题3:哪些国家的影片最受欢迎?
如图:美国不愧为电影大国,排名靠前的这250个电影中,美国占比:59.02%,居第一位。
其次是中国,占比:22.54%。