一、 理论基础
1、线程是有限的,线程开启过多,CPU吃不消
2、多任务--理论上每个线程下可以开启很多协程,但实际效果一般
500个最佳,速度最快
‘’’
二、爬虫推荐单线程+多任务异步协程
1、协程
是一个对象,可以吧协程当做衣蛾特殊的函数,如果一个函数的
定义被async关键字修饰,该特殊的函数被调用后函数内部的程序语
句不会被立即执行,而是会返回一个协程对象,如eg1
2、任务对象(task):
所谓的任务对象就是协程对象的进一步封装
( 即是一个高级的协程对象)
在任务对象中可以实现显示协程对象的运行状况
-任务对象需要被注册到时间循环对象中
-核心:绑定回调
-回调函数绑定给任务队象,只有当任务队象的特殊函数执行完
毕后,回调函数才会被执行
3、事件循环对象
无限循环的对象(可以将其理解为一中容器,该容器中需要放置多
个任务对象)就是一组待执行的任务
-无线循环:指所有的任务因为阻塞可能执行无数次,不是指含
有无限个任务
-异步的提现:当事件循环开启后,该对象就会按照顺序执行每
一个任务对象
4、await
挂起的操作-可理解为交出CPU的使用权,(进程和线程中
系统会对阻塞的任务自动挂起),但在协程中,需手动进行
挂起操作
main_program:
from time import sleep
import asyncio
# 回调函数,其默认参数为任务队象
def call_back(task):
print('i am callback!!!','开始执行我了')
print(task.result()) #这里的返回值就是任务队象中那个特殊的函数的返回值
async def get_request(url):
print('现在请求:',url)
sleep(2)
print('请求结束了!!',url)
return 'xinixn'
eg1:协程对象
#创建一个协程对象
c=get_request('www.huhu.com')
print(c)
返回为一个协程对象:<coroutine object get_request
at 0x00000000021A6EC0>
eg2: 任务对象与事件循环对象的使用
#封装一个任务对象
task=asyncio.ensure_future(c)
# 给任务对象绑定回调函数
task.add_done_callback(callback)
# 创建一个事件循环对象
loop=asyncio.get_event_loop()
loop.run_until_complete(task)
#将任务对象注册到事件循环对象中并且开启了事件循环
应用场景总结:
1、爬虫中,爬取响应和数据解析和两个过程,必须分先后进行(即只能能串行),因此上述
任务对象: 可封装爬取部分
回调函数:封装解析数据部分
2、任务对象就是:
封装的待执行的特殊代码块
3、事件循环对象中
默认有一个事件执行情况监控机制,运行过程中某个事件发生了阻
塞,就会自动切换另外任务执行,从而实现异步