前言
目录
1、数据处理
1.1、导入所需要的库。
1.2、导入数据并查看。
1.3、数据是否有缺失值。
1.4、查看是否有异常值
1.5、更改数据类型。
1.6、离散化处理cut()
1.7、储存
2、数据分析可视化
2.1电影数据的评分、时长分析
2.1.1、电影数据总体描述
2.1.2、时长分布
2.1.3、评分分布
2.1.4、评分与时长、评论人数的关系
2.2、 电影数据的地区分析
2.2.1、查看各产地的电影分布情况。
2.2.2、电影数量随年份的变化趋势
2.2.3、各地区电影评分分布
3、相关性分析。
总结
前言
根据豆瓣所有的电影,分析各国各地区各类别时间年份评分数量等各个参数之间的联系
这次爬取的电影总共38738部,之后整合,去重。
1、数据处理
1.1、导入所需要的库。
1.2、导入数据并查看。
1.3、数据是否有缺失值。
数据中名字有560个缺失值,上映时间2个,首映地点1个。(对缺失值进行处理ÿ