用Python爬取并分析Box Office Mojo网站2019年每日票房数据

最新推荐文章于 2025-03-29 09:00:00 发布

小李子电影博客

最新推荐文章于 2025-03-29 09:00:00 发布

阅读量2.4k

点赞数 2

分类专栏： Python 爬虫电影

本文链接：https://blog.csdn.net/xzsfw/article/details/103995724

版权

本文介绍了如何使用Python爬虫从Box Office Mojo网站抓取并分析2019年的每日票房数据。文章详细展示了爬取、存储数据的步骤，以及如何根据爬取的数据绘制票房走势图。爬虫程序包括数据爬取和存储、数据绘图两个部分，通过处理网页源码避开反爬机制，最终得到2019年北美票房的线形图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在处理一些和有关电影的工作，需要用到一些北美电影票房数据，而这部分数据最权威的网站当属Box Office Mojo（以下简称BOM），于是就上去查看了一下。估计经常关注这个网站的盆友们都知道，这个网站最近刚刚进行了改版，网页排版全面更新，还专门针对移动设备进行了优化（以前的网站页面只有电脑版的），页面虽然好看了不少，但却少了很多数据，之前的网站几乎所有数据都能查到，而现在则只能查到部分数据，有些数据则要到BOM Pro版才能查到，而这个服务是收费的。为了更好地使用数据，还想不花钱，那就只有自己动手丰衣足食，所以笔者就自己写了个Python爬虫，爬取了过去多年的票房数据。以下就以“北美票房每日票房数据”为例，介绍一下如何爬取，其他票房数据类似，只需修改少数代码即可。

图一要抓取的部分网页的截图

这个爬虫程序完全采用Python语言完成，使用软件为Anaconda 2019.10版（这个目前是最新版的，理论上其包含的各种Python库也是最新的或接近最新的，所以下面的爬虫程序在部分老版软件上可能会出问题，如有问题请及时更新）。爬虫程序主要包括两部分：爬取并存储数据，以及根据数据简单绘制图片。下面就一一讲解一下。

一、爬取和存储数据

#首先把需要的包都导入进来。

import requests

import pandas as pd

import time

import matplotlib.pyplot as plt

import matplotlib.dates as mdate

import pylab as mpl # 导入中文字体，避免显示乱码

#这个是我们要用到的每日票房的URL，中间的%s是一会儿要替换的年份

urltemplate = r'https://www.boxofficemojo.com/daily/%s/?view=year'

#这个是数据保存的地方，放在了桌面的一个Excel