用Python爬取并分析Box Office Mojo网站2019年每日票房数据

本文介绍了如何使用Python爬虫从Box Office Mojo网站抓取并分析2019年的每日票房数据。文章详细展示了爬取、存储数据的步骤,以及如何根据爬取的数据绘制票房走势图。爬虫程序包括数据爬取和存储、数据绘图两个部分,通过处理网页源码避开反爬机制,最终得到2019年北美票房的线形图。
摘要由CSDN通过智能技术生成

最近在处理一些和有关电影的工作,需要用到一些北美电影票房数据,而这部分数据最权威的网站当属Box Office Mojo(以下简称BOM),于是就上去查看了一下。估计经常关注这个网站的盆友们都知道,这个网站最近刚刚进行了改版,网页排版全面更新,还专门针对移动设备进行了优化(以前的网站页面只有电脑版的),页面虽然好看了不少,但却少了很多数据,之前的网站几乎所有数据都能查到,而现在则只能查到部分数据,有些数据则要到BOM Pro版才能查到,而这个服务是收费的。为了更好地使用数据,还想不花钱,那就只有自己动手丰衣足食,所以笔者就自己写了个Python爬虫,爬取了过去多年的票房数据。以下就以“北美票房每日票房数据”为例,介绍一下如何爬取,其他票房数据类似,只需修改少数代码即可。

图一 要抓取的部分网页的截图

 

这个爬虫程序完全采用Python语言完成,使用软件为Anaconda 2019.10版(这个目前是最新版的,理论上其包含的各种Python库也是最新的或接近最新的,所以下面的爬虫程序在部分老版软件上可能会出问题,如有问题请及时更新)。爬虫程序主要包括两部分:爬取并存储数据,以及根据数据简单绘制图片。下面就一一讲解一下。

一、爬取和存储数据

#首先把需要的包都导入进来。

import requests

import pandas as pd

import time

import matplotlib.pyplot as plt

import matplotlib.dates as mdate

import pylab as mpl  # 导入中文字体,避免显示乱码

 

#这个是我们要用到的每日票房的URL,中间的%s是一会儿要替换的年份

urltemplate = r'https://www.boxofficemojo.com/daily/%s/?view=year'

 

#这个是数据保存的地方,放在了桌面的一个Excel

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值