我不情愿的用了20多分钟，满足了学姐的要求，可是...

最新推荐文章于 2021-12-11 17:10:20 发布

杨旭华　

最新推荐文章于 2021-12-11 17:10:20 发布

阅读量1.2w

点赞数 38

分类专栏：数据分析文章标签：新星计划大数据 python pandas matplotlib

本文链接：https://blog.csdn.net/yxh666/article/details/117935485

版权

数据分析专栏收录该内容

1 篇文章

订阅专栏

一、叙述（故事开端）

前某天，学姐约我偷偷的出去玩，说请我看电影emmm。。。。这没什么，那就去呗嘿嘿嘿～

去？？

去了我就后悔了，原来是找了一个公园，坐着看手机上的电影
喂着蚊子，流着汗，看着无聊的电影，关键是她不上让我闲着，让我给她扇风赶蚊子（我出来玩了个寂寞？？？）
看完了还请我吃了个六块钱一碗的麻辣烫，然后然后这是卖身的第一步

吃完饭后，我俩谈话：

学姐 : (面露猥琐的看着我好久) 学弟～硬不硬呀
我 :啊？？？？硬？？？

学姐 : 凳子硬不硬？
我：昂昂昂还行还行，学姐你是还有什么事吧？？就冲你这猥琐的笑容我就知道

学姐 : 哎呀怎么说话呢，我请你看电影，我多好，对不对，我呢，就有一点点点点小事
学姐 : 最近我老师给我安排了一个小任务，分析一下近几年的票房排行，你看你又会爬虫，给我爬点数据下来呗

我：不干，就你这一顿饭就想让我给你干这么大的工程，我不干
学姐 : 行吧，那我就找你们班的体委帮我弄了，昨天还约我出来看电影呢
我：你住嘴，放开体委让我来！

二、苦逼由此开始

于是我开始了长达20分钟的卖身环节，痛苦卖身之路由此开始。找数据，想的是票房的话，应该是猫眼电影才有排行吧

于是就找到了这个网站：https://piaofang.maoyan.com/mdb/rank
大概的页面是这样：
在这里插入图片描述

- 页面分析

我分析到这个网页是动态加载的数据，我一下子抓包就找到了各个年头的数据：
在这里插入图片描述

- 详情页URL分析

https://piaofang.maoyan.com/mdb/rank/query?type=0&id=0 这个就是单独的，是票房总榜单页
不过我没有爬这个，也没太大的用处

https://piaofang.maoyan.com/mdb/rank/query?type=0&id=2021
https://piaofang.maoyan.com/mdb/rank/query?type=0&id=2020
… …
https://piaofang.maoyan.com/mdb/rank/query?type=0&id=n
在这里插入图片描述

- 用到的模块

requests、csv，pandas、matplotlib

- 重点内容

动态加载数据抓取，存入csv文件里，数据分析。。。
为什么会用到数据分析，接着往下看
在这里插入图片描述
代码如下了：

import requests
import time
import random
import csv


class PiaofangSpider:
    def __init__(self):
        self.url = 'https://piaofang.maoyan.com/mdb/rank/query?type=0&id={}'
        self.f = open('piaofang.csv', 'w', encoding='utf8', newline='')
        self.writer = csv.writer(self.f)
        # 写入表头行
        data_list = ('电影名称', '上映时间', '票房', '平均票价', '场均人数')
        self.writer.writerow(data_list)

    def get_html(self, url):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36',
        }
        html = requests.get(url=url, headers=headers).json()
        self.parse_html(html)

    def parse_html(self, html):
		# 提取动态加载的数据
        result = html['data']['list']

        for res in result:
            item = {}
            item['movieName'] = res['movieName']
            item['releaseInfo'] = res['releaseInfo']
            item['boxDesc'] = res['boxDesc']
            item['avgViewBoxDesc'] = res['avgViewBoxDesc']
            item['avgShowViewDesc'] = res['avgShowViewDesc']
            print(item)

            self.writer.writerow(item.values())

    def run(self):
        for i in range(2011, 2022):
            url_html = self.url.format(i)
            self.get_html(url=url_html)
            time.sleep(random.randint(1, 2))
        self.f.close()


if __name__ == '__main__':
    spider = PiaofangSpider()
    spider.run()

我还看了一下，这个网页挺神奇的，也可以正常在html里面抓取内容

用xpath、正则什么的提取数据，爬完我才发现的。。。苦逼哎还分析了很长时间的抓包

最后，她说让我给她分析一下数据，不然就把麻辣烫吐出来，而且下次再也不跟我出来了
这就有点欺负人了啊，我堂堂七尺男儿，怎么会为了这一点点的要求低头呢，我肯定不会的

在这里插入图片描述

数据分析图。。。

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
%matplotlib inline
# 读取文件
data=pd.read_csv('piaofang.csv')
data.head(10)

# 取出年份列year
data['year'] = data['上映时间'].apply(lambda x: int(x[0:4])) 
data

# 票房排名前十的电影
data.sort_values(by=['票房'],ascending=False).head(10).plot.bar(x='电影名称',y='票房',title='票房最高排行前10')

在这里插入图片描述

# 每年上映电影数量
fig=plt.figure(dpi=120)
groupby_year = data.groupby('year').size()
groupby_year.plot(title = '每年上映电影数量')
plt.show()

在这里插入图片描述

# 每年总票房
fig=plt.figure(dpi=120)
sum_money = data.groupby('year')['票房'].sum()
sum_money.plot.bar(title = '每年总票房')
plt.show()

在这里插入图片描述

三、我直接原地爆炸

最后最后重磅的一击：

这老娘们竟让背着我接单，我好亏啊，我从头到尾都是帮她在挣钱，自己啥也得不到，巨亏呀~
可能我这辈子就是个打工人~