Python使用asyncio+aiohttp异步爬取猫眼电影专业版

asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档

并发访问能极大的提高爬虫的性能,但是requests访问网页是阻塞的,无法并发,所以我们需要一个更牛逼的库 aiohttp ,它的用法与requests相似,可以看成是异步版的requests,下面通过实战爬取猫眼电影专业版来熟悉它们的使用:

1. 分析

分析网页源代码发现猫眼专业版是一个动态网页,其中的数据都是后台传送的,打开F12调试工具,再刷新网页选择XHR后发现第一条就是后台发来的电影数据,由此得到接口 https://box.maoyan.com/promovie/api/box/second.json?beginDate=日期

在这里插入图片描述

2. 异步爬取

创建20个任务来并发爬取20天的电影信息并写入csv文件,同时计算一下耗费的时间:

import asyncio
from aiohttp import ClientSession
import time
import csv


headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                             'AppleWebKit/537.36 (KHTML, like Gecko) '
                             'Chrome/67.0.3396.99 Safari/537.36'}

# 协程函数,完成一个无阻塞的任务
async def get_one_page(url):
    try:
        async with ClientSession() as session:
            async with session.get(url, headers=headers) as r:
                # 返回解析为字典的电影数据
                return await r.json()
    except Exception as e:
        print('请求异常: ' + str(e))
        return {
   }


# 解析函数,提取每一条内容并写入csv文件
def parse_one_page(movie_dict, writer):
    try:
        movie_list = movie_dict['data'][
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值