2018至2021年新春挡电影票房分析

一丶背景

随着经济的发展,人们生活水平的提高,我们从追求能吃上饱 饭到现在能够最大程度的追求生活质量,改善我们的生活方式。 电影也成为人们平常生活娱乐的方式之一,没事去电影院看看电 影成为了很多人的首选。文化产业也是近几年来我国大力扶持的 产业,因此影视文化也得到了大力的发展。本课题是关于 2018 年 至 2021 年新春档电影票房的数据分析,(2020 年由于疫情原因 没有新春档电影),对这三年新春档的电影从票房,评分,以及 评论等方面做一个多方位的分析,最后得到结论。数据分析在目 前的市场上扮演着一个越来越重要的角色,未来的大趋势也会将 数据分析这一技术推向更高的高度。
对于数据分析,包含了基于数据收集、数据储存、数据清洁、 数据挖掘和基于数据模型等。其中,数据收集主要应该包括两个 部分。一方面,使用网络爬虫这一手段把出现在网络和移动设备 上的各类信息都收集了起来并且有效地对这些信息加以了管理。 另一方面,传感器的使用,尤其是在各种传感器类型的发展下, 对不同行业内数据的收集起到了正向的促进作用[1]。

二丶知识储备

此课题属于 python[2]进阶知识,需要掌握的技术如下:

  1. pycharm 以及 vscode 编辑器的熟练使用。
  2. Python 相关知识:
    2.1python 相关变量定义,打印出想要打印的字符串
    2.2 运算符,测试,条件。
    2.3 循环,嵌套循环。break 等
    2.4 函数调用。
    2.5 文件。
    3.爬虫相关知识[3]
    4.爬虫环境的搭建:pip install+包名称。反爬技术基础。
    5.词云制作。

三丶设计思路

此课题主要从两个网页获取数据:豆瓣电影已经猫眼电影。从猫 眼电影获取各个新春挡电影的票房,电影类型,时长,电影票价格, 场次人数。从豆瓣电影获取电影评分,电影评论。 将获取到的数据做可视化[4]处理:柱形图,条形图,词云分析。

四丶具体代码以及结果分析

4.1 设计方案

使用豆瓣以及猫眼电影网址然后收集其对应的内容(名字,类型,时长,评分, 票房,电影票费用,场均人数)

  1. 豆瓣电影以及猫眼电影网站是静态网页, 我们想要数据内容都是可以在网页 源代码里面获取
  2. 通过开发者工具 :通过正则,css 或者 xpath 提取相应内容,最后存储在变量 里。 所有参数在网页源代码里面就有。
  3. 创建 txt 文件,用于保存文本数据,使用 utf-8 格式接受,不然可能会出现乱 码情况。
  4. 数据分析
    代码实现流程:
    1.对电影的页面 https://movie.douban.com/以及 https://maoyan.com/ 发送请求
    2.获取网页文本数据
    3.用变量收集这些数据
    4 保存数据
    5.分析数据得到结果 环境搭建:
requests:pip install requests
 parsel : pip install parsel 
 pandas :  pip install pandas
tqdm :pip install tqdm 
re : pip install re

4.2编码与测试

关键代码:
1:headers 反检测代码:

 headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36' }

将 ip 封装成浏览器,防止检测
2:path=r'C:\Users\Administrator\Desktop\python_work\电影’ 获取数据之后文件的源地址
3:if __name__=='__main__': get_text(url)
函数驱动器
4: with open(path+title[0],'w',encoding='utf-8') as f:
将数据保存入 txt,实际上是写入
5 : stopwords=set([line.strip()for line in open ('cn_stopwords.txt',mode='r',encoding='utf_8').readlines()]) )
屏蔽词汇,将一些词语屏蔽出词云分析

4.3核心代码

爬虫部分

def get_text(url=url,headers=headers):
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值