02-12 多任务异步协程实例

一、注意事项:

'''
1、将多个对象存储到一个列表中,然后将该列表注册到事件循环中,
在注册过程中,该列表需要用wait方法进行处理
2、在任务对象对应的特殊函数内部的实现中,不可以出现不支持异步
模块的代码,否则会中断整个异步效果,并且在该函数的内部中每一
组阻塞操作都必须使用await关键字进行修饰
3、requests模块不支持异步,所以不能出现在async 修饰的函数中

二、代码框架


import time
import asyncio

urls=[
    'http://www.taobao.com',
    'http://www.taobao.com',
    'http://www.taobao.com'
]

async def get_request(url):
    print('正在请求:',url)
    # time.sleep(2) 此时错误,因为协程模块待执行函数中
    # 不允许出现不支持异步模块的函数,需改为
    # asyncio.sleep(2) 此时虽不会报错,但还是有问题
    # 阻塞操作必须有await关键字修饰,还需修改为

    await asyncio.sleep(2)
    
    print('请求结束:',url)
    return 'xinxin'

tasks=[]

for url in urls:
    c=get_request(url)

    task=asyncio.ensure_future(c)
    tasks.append(task)

loop=asyncio.get_event_loop()
# resp=loop.run_until_complete(tasks) 此时语句是错误
# 的,因为loop中注册的每个任务都是有阻塞的,所以执行过程
# 中必须手动设置挂起操作,即
resp=loop.run_until_complete(asyncio.wait(tasks))



三、实例应用


import time
import requests
import asyncio
import aiohttp
from lxml import etree

urls=[
    'http://www.taobao.com',
    'http://www.taobao.com',
    'http://www.taobao.com'
]
start_time=time.time()

async def get_request(url):
    # page_text=requests.get(url).text
    #注意,这个请求过程本身就是一个阻塞过程
    # 注意,因为爬虫最常用的requests模块,但我们为了
    # 速度,需要学习异步效果,所以说明了requests模块
    # 不支持异步,所以需改用aiohttp模块,改写

    with aiohttp.ClientSession() as s:
        with s.get(url) as resp:
            page_text=resp.text()
            #响应为字符byte时,resp.read()
            return page_text

    #注意,上述只是主题框架,结果还不能实现异步,需添加细节
    #每一个with前面+async ,在每一步则塞钱加await,即完整代码


    async with aiohttp.ClientSession() as s:
        async with await s.get(url) as resp:
            page_text = await resp.text()
            # 响应为字符byte时,resp.read()
            return page_text

def parse(task): # 解析函数式就是回调函数
    page_text=tasks.result()   
     #关键第一步,将爬取的响应结果取到
    tree=etree.HTML(page_text)
    response=tree.xpath('//p/text()')[0]
    print(response)

if __name__=='__main__' :

    tasks=[]
    for url in urls:
        c=get_request(url)

        task=asyncio.ensure_future(c)
         #发送请求获得响应
        task.add_done_callback(parse) 
        #解析网页,实现聚焦爬虫

        tasks.append(task)
    loop=asyncio.get_event_loop()
    result=loop.run_until_complete(asyncio.wait(tasks))

    print('共计时间为',time.time()-start_time)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值