Python学习：揭秘Python协程

最新推荐文章于 2023-02-20 10:48:31 发布

小朱小朱绝不服输

最新推荐文章于 2023-02-20 10:48:31 发布

阅读量1.5k

点赞数 2

分类专栏： Python学习笔记文章标签： python 协程爬虫

本文链接：https://blog.csdn.net/weixin_44052055/article/details/108626126

版权

本文深入探讨Python协程，从一个简单的爬虫实例出发，解释了协程如何提高爬虫效率，对比了协程与线程的区别，并通过实际案例展示了如何使用asyncio库创建和管理协程任务。最后，通过实现豆瓣近日推荐电影的协程爬虫，突显协程在并发编程中的优势。

摘要由CSDN通过智能技术生成

协程是实现并发编程的一种方式。一说并发，肯定想到了多线程 / 多进程模型，没错，多线程 / 多进程，正是解决并发问题的经典模型之一。

协程，又称为微线程，它是实现多任务的另一种方式，只不过是比线程更小的执行单元。因为它自带CPU的上下文，这样只要在合适的时机，我们可以把一个协程切换到另一个协程。

通俗的理解：在一个线程中的某个函数中，我们可以在任何地方保存当前函数的一些临时变量等信息，然后切换到另外一个函数中执行，注意不是通过调用函数的方式做到的，并且切换的次数以及什么时候再切换到原来的函数都由开发者自己确定。

协程与线程的差异：

在实现多任务时, 线程切换__从系统层面__远不止保存和恢复CPU上下文这么简单。操作系统为了程序运行的高效性，每个线程都有自己缓存Cache等等数据，操作系统还会帮你做这些数据的恢复操作，所以线程的切换非常耗性能。但是__协程的切换只是单纯地操作CPU的上下文__，所以一秒钟切换个上百万次系统都抗的住。

在 Python中，使用生成器（Python学习：深入理解迭代器和生成器），是 Python 2 开头的时代实现协程的老方法了，Python 3.7 提供了新的基于 asyncio 和 async / await 的方法。

先从一个爬虫实例，逐步了解协程的核心。

一、从一个爬虫说起

爬虫，就是互联网的蜘蛛，在搜索引擎诞生之时，与其一同来到世上。爬虫每秒钟都会爬取大量的网页，提取关键信息后存储在数据库中，以便日后分析。

先看一个简单的爬虫示例：

import time

def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    time.sleep(sleep_time)
    print('OK {}'.format(url))

def main(urls):
    for url in urls:
        crawl_page(url)

main(['url_1', 'url_2', 'url_3', 'url_4']) 

########## 输出 ##########
 
crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

注意：这里简化爬虫的 scrawl_page 函数为休眠数秒，休眠时间取决于 url 最后的那个数字。

这是一个很简单的爬虫，main() 函数执行时，调取 crawl_page() 函数进行网络通信，经过若干秒等待后收到结果，然后执行下一个。

看起来很简单，但仔细一算，它也占用了不少时间，五个页面分别用了 1 秒到 4 秒的时间，加起来一共用了 10 秒。这显然效率低下，该怎么优化呢？

一个很简单的思路出现了——我们这种爬取操作，完全可以并发化。看看使用协程怎么写。

import asyncio 

async def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    await asyncio.sleep(sleep_time)
    print('OK {}'.format(url))

async def main(urls):
    for url in urls:
        await crawl_page(url) 

asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

首先 import asyncio，这个库包含了大部分我们实现协程所需的工具。

async 修饰词声明异步函数，于是，这里的 crawl_page 和 main 都变成了异步函数。而调用异步函数，我们便可得到一个协程对象（coroutine object）。

举个例子，如果 print(crawl_page(’’))，便会输出<coroutine object crawl_page at 0x000002BEDF141148>，提示这是一个 Python 的协程对象，而并不会真正执行这个函数。

协程的执行。执行协程有多种方法，这里介绍一下常用的三种。

可以通过 await 来调用。await 执行的效果，和 Python正常执行是一样的，也就是说程序会阻塞在这里，进入被调用的协程函数，执行完毕返回后再继续，而这也是 await 的字面意思。代码中await asyncio.sleep(sleep_time) 会在这里休息若干秒，await crawl_page(url) 则会执行crawl_page() 函数。
可以通过 asyncio.create_task() 来创建任务。这里只是提一下。
需要 asyncio.run 来触发运行。asyncio.run 这个函数是 Python 3.7 之后才有的特性，可以让 Python 的协程接口变得非常简单，不用去理会事件循环怎么定义和怎么使用的问题（会在下面讲）。一个非常好的编程规范是，asyncio.run(main()) 作为主程序的入口函数，在程序运行周期内，只调用一次 asyncio.run。

运行一下代码，发现还是10s。10 秒就对了，还记得上面所说的，await 是同步调用，因此， crawl_page(url) 在当前的调用结束之前，是不会触发下一次调用的。于是，这个代码效果就和上面完全一样了，相当于用异步接口写了个同步代码。

如何做？先学习协程中的一个重要概念，任务（Task）。

import asyncio 

async def crawl_page(url):
    print('crawling {}'.format(url))
    sleep_time = int(url.split('_')[-1])
    await asyncio.sleep(sleep_time)
    print('OK {}'.format(url))

async def main(urls):
    tasks = [asyncio.create_task(crawl_page(url)) for url in urls]   #创建任务
    for task in tasks:
        await task

asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1