一、注意事项:
'''
1、将多个对象存储到一个列表中,然后将该列表注册到事件循环中,
在注册过程中,该列表需要用wait方法进行处理
2、在任务对象对应的特殊函数内部的实现中,不可以出现不支持异步
模块的代码,否则会中断整个异步效果,并且在该函数的内部中每一
组阻塞操作都必须使用await关键字进行修饰
3、requests模块不支持异步,所以不能出现在async 修饰的函数中
二、代码框架
import time
import asyncio
urls=[
'http://www.taobao.com',
'http://www.taobao.com',
'http://www.taobao.com'
]
async def get_request(url):
print('正在请求:',url)
# time.sleep(2) 此时错误,因为协程模块待执行函数中
# 不允许出现不支持异步模块的函数,需改为
# asyncio.sleep(2) 此时虽不会报错,但还是有问题
# 阻塞操作必须有await关键字修饰,还需修改为
await asyncio.sleep(2)
print('请求结束:',url)
return 'xinxin'
tasks=[]
for url in urls:
c=get_request(url)
task=asyncio.ensure_future(c)
tasks.append(task)
loop=asyncio.get_event_loop()
# resp=loop.run_until_complete(tasks) 此时语句是错误
# 的,因为loop中注册的每个任务都是有阻塞的,所以执行过程
# 中必须手动设置挂起操作,即
resp=loop.run_until_complete(asyncio.wait(tasks))
三、实例应用
import time
import requests
import asyncio
import aiohttp
from lxml import etree
urls=[
'http://www.taobao.com',
'http://www.taobao.com',
'http://www.taobao.com'
]
start_time=time.time()
async def get_request(url):
# page_text=requests.get(url).text
#注意,这个请求过程本身就是一个阻塞过程
# 注意,因为爬虫最常用的requests模块,但我们为了
# 速度,需要学习异步效果,所以说明了requests模块
# 不支持异步,所以需改用aiohttp模块,改写
with aiohttp.ClientSession() as s:
with s.get(url) as resp:
page_text=resp.text()
#响应为字符byte时,resp.read()
return page_text
#注意,上述只是主题框架,结果还不能实现异步,需添加细节
#每一个with前面+async ,在每一步则塞钱加await,即完整代码
async with aiohttp.ClientSession() as s:
async with await s.get(url) as resp:
page_text = await resp.text()
# 响应为字符byte时,resp.read()
return page_text
def parse(task): # 解析函数式就是回调函数
page_text=tasks.result()
#关键第一步,将爬取的响应结果取到
tree=etree.HTML(page_text)
response=tree.xpath('//p/text()')[0]
print(response)
if __name__=='__main__' :
tasks=[]
for url in urls:
c=get_request(url)
task=asyncio.ensure_future(c)
#发送请求获得响应
task.add_done_callback(parse)
#解析网页,实现聚焦爬虫
tasks.append(task)
loop=asyncio.get_event_loop()
result=loop.run_until_complete(asyncio.wait(tasks))
print('共计时间为',time.time()-start_time)