2018至2021年新春挡电影票房分析

最新推荐文章于 2024-04-24 13:35:29 发布

VIP文章小米渣1

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量2k

点赞数

文章标签： python 爬虫人工智能

本文链接：https://blog.csdn.net/weixin_51098062/article/details/120198913

版权

这里写目录标题

一丶背景

一丶背景

随着经济的发展,人们生活水平的提高，我们从追求能吃上饱饭到现在能够最大程度的追求生活质量，改善我们的生活方式。电影也成为人们平常生活娱乐的方式之一，没事去电影院看看电影成为了很多人的首选。文化产业也是近几年来我国大力扶持的产业，因此影视文化也得到了大力的发展。本课题是关于 2018 年至 2021 年新春档电影票房的数据分析，（2020 年由于疫情原因没有新春档电影），对这三年新春档的电影从票房，评分，以及评论等方面做一个多方位的分析，最后得到结论。数据分析在目前的市场上扮演着一个越来越重要的角色，未来的大趋势也会将数据分析这一技术推向更高的高度。
对于数据分析，包含了基于数据收集、数据储存、数据清洁、数据挖掘和基于数据模型等。其中，数据收集主要应该包括两个部分。一方面，使用网络爬虫这一手段把出现在网络和移动设备上的各类信息都收集了起来并且有效地对这些信息加以了管理。另一方面，传感器的使用，尤其是在各种传感器类型的发展下，对不同行业内数据的收集起到了正向的促进作用[1]。

二丶知识储备

此课题属于 python[2]进阶知识，需要掌握的技术如下：

pycharm 以及 vscode 编辑器的熟练使用。
Python 相关知识：
2.1python 相关变量定义，打印出想要打印的字符串
2.2 运算符，测试，条件。
2.3 循环，嵌套循环。break 等
2.4 函数调用。
2.5 文件。
3.爬虫相关知识[3]
4.爬虫环境的搭建：pip install+包名称。反爬技术基础。
5.词云制作。

三丶设计思路

此课题主要从两个网页获取数据：豆瓣电影已经猫眼电影。从猫眼电影获取各个新春挡电影的票房，电影类型，时长，电影票价格，场次人数。从豆瓣电影获取电影评分，电影评论。将获取到的数据做可视化[4]处理：柱形图，条形图，词云分析。

四丶具体代码以及结果分析

4.1 设计方案

使用豆瓣以及猫眼电影网址然后收集其对应的内容（名字，类型，时长，评分，票房，电影票费用，场均人数）

豆瓣电影以及猫眼电影网站是静态网页，我们想要数据内容都是可以在网页源代码里面获取
通过开发者工具：通过正则，css 或者 xpath 提取相应内容，最后存储在变量里。所有参数在网页源代码里面就有。
创建 txt 文件，用于保存文本数据，使用 utf-8 格式接受，不然可能会出现乱码情况。
数据分析
代码实现流程：
1.对电影的页面 https://movie.douban.com/以及 https://maoyan.com/ 发送请求
2.获取网页文本数据
3.用变量收集这些数据
4 保存数据
5.分析数据得到结果环境搭建：

requests：pip install requests
 parsel ： pip install parsel 
 pandas ：  pip install pandas
tqdm ：pip install tqdm 
re ： pip install re

4.2编码与测试

关键代码：
1：headers 反检测代码：

 headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36' }

将 ip 封装成浏览器，防止检测
2：path=r'C:\Users\Administrator\Desktop\python_work\电影’ 获取数据之后文件的源地址
3：if __name__=='__main__': get_text(url)
函数驱动器
4： with open(path+title[0],'w',encoding='utf-8') as f:
将数据保存入 txt，实际上是写入
5 ： stopwords=set([line.strip()for line in open ('cn_stopwords.txt',mode='r',encoding='utf_8').readlines()]) )
屏蔽词汇，将一些词语屏蔽出词云分析

4.3核心代码

爬虫部分

def get_text(url=url,headers=headers):

最低0.47元/天解锁文章

小米渣1

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
2018至2021年新春挡电影票房分析

这里写目录标题一丶背景二丶知识储备三丶设计思路四丶具体代码以及结果分析4.1 设计方案4.2编码与测试4.3核心代码4.4运行结果及分析五丶总结与展望六丶参考文献一丶背景随着经济的发展,人们生活水平的提高，我们从追求能吃上饱饭到现在能够最大程度的追求生活质量，改善我们的生活方式。电影也成为人们平常生活娱乐的方式之一，没事去电影院看看电影成为了很多人的首选。文化产业也是近几年来我国大力扶持的产业，因此影视文化也得到了大力的发展。本课题是关于 2018 年至 2021 年新春档电影票房的数据分析，
复制链接

扫一扫