一丶背景
随着经济的发展,人们生活水平的提高,我们从追求能吃上饱 饭到现在能够最大程度的追求生活质量,改善我们的生活方式。 电影也成为人们平常生活娱乐的方式之一,没事去电影院看看电 影成为了很多人的首选。文化产业也是近几年来我国大力扶持的 产业,因此影视文化也得到了大力的发展。本课题是关于 2018 年 至 2021 年新春档电影票房的数据分析,(2020 年由于疫情原因 没有新春档电影),对这三年新春档的电影从票房,评分,以及 评论等方面做一个多方位的分析,最后得到结论。数据分析在目 前的市场上扮演着一个越来越重要的角色,未来的大趋势也会将 数据分析这一技术推向更高的高度。
对于数据分析,包含了基于数据收集、数据储存、数据清洁、 数据挖掘和基于数据模型等。其中,数据收集主要应该包括两个 部分。一方面,使用网络爬虫这一手段把出现在网络和移动设备 上的各类信息都收集了起来并且有效地对这些信息加以了管理。 另一方面,传感器的使用,尤其是在各种传感器类型的发展下, 对不同行业内数据的收集起到了正向的促进作用[1]。
二丶知识储备
此课题属于 python[2]进阶知识,需要掌握的技术如下:
- pycharm 以及 vscode 编辑器的熟练使用。
- Python 相关知识:
2.1python 相关变量定义,打印出想要打印的字符串
2.2 运算符,测试,条件。
2.3 循环,嵌套循环。break 等
2.4 函数调用。
2.5 文件。
3.爬虫相关知识[3]
4.爬虫环境的搭建:pip install+包名称。反爬技术基础。
5.词云制作。
三丶设计思路
此课题主要从两个网页获取数据:豆瓣电影已经猫眼电影。从猫 眼电影获取各个新春挡电影的票房,电影类型,时长,电影票价格, 场次人数。从豆瓣电影获取电影评分,电影评论。 将获取到的数据做可视化[4]处理:柱形图,条形图,词云分析。
四丶具体代码以及结果分析
4.1 设计方案
使用豆瓣以及猫眼电影网址然后收集其对应的内容(名字,类型,时长,评分, 票房,电影票费用,场均人数)
- 豆瓣电影以及猫眼电影网站是静态网页, 我们想要数据内容都是可以在网页 源代码里面获取
- 通过开发者工具 :通过正则,css 或者 xpath 提取相应内容,最后存储在变量 里。 所有参数在网页源代码里面就有。
- 创建 txt 文件,用于保存文本数据,使用 utf-8 格式接受,不然可能会出现乱 码情况。
- 数据分析
代码实现流程:
1.对电影的页面 https://movie.douban.com/以及 https://maoyan.com/ 发送请求
2.获取网页文本数据
3.用变量收集这些数据
4 保存数据
5.分析数据得到结果 环境搭建:
requests:pip install requests
parsel : pip install parsel
pandas : pip install pandas
tqdm :pip install tqdm
re : pip install re
4.2编码与测试
关键代码:
1:headers 反检测代码:
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36' }
将 ip 封装成浏览器,防止检测
2:path=r'C:\Users\Administrator\Desktop\python_work\电影
’ 获取数据之后文件的源地址
3:if __name__=='__main__': get_text(url)
函数驱动器
4: with open(path+title[0],'w',encoding='utf-8') as f:
将数据保存入 txt,实际上是写入
5 : stopwords=set([line.strip()for line in open ('cn_stopwords.txt',mode='r',encoding='utf_8').readlines()]) )
屏蔽词汇,将一些词语屏蔽出词云分析
4.3核心代码
爬虫部分
def get_text(url=url,headers=headers):