python 协程

最新推荐文章于 2024-05-24 21:20:04 发布

scan724

最新推荐文章于 2024-05-24 21:20:04 发布

阅读量77

点赞数

本文通过对比同步与异步代码示例，展示了如何利用Python的asyncio模块实现并发爬取网页。同步版本的代码依次执行每个任务，耗时10秒，而采用asyncio.create_task或asyncio.gather进行任务调度的异步版本，将爬取时间大幅缩短至接近4秒，显著提升了效率。

摘要由CSDN通过智能技术生成

import time

def crawl_page(url):
print('crawling {}'.format(url))
sleep_time = int(url.split('_')[-1])
time.sleep(sleep_time)
print('OK {}'.format(url))

def main(urls):
for url in urls:
crawl_page(url)

%time main(['url_1', 'url_2', 'url_3', 'url_4'])

########## 输出 ##########

crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

node2:/root/python3#time python3 p13.py
crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4

real   0m10.035s
user   0m0.014s
sys   0m0.008s

花费了10S,

使用协程脚本:

import asyncio

async def crawl_page(url):
print('crawling {}'.format(url))
sleep_time = int(url.split('_')[-1])
await asyncio.sleep(sleep_time)
print('OK {}'.format(url))

async def main(urls):
for url in urls:
await crawl_page(url)

%time asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
OK url_1
crawling url_2
OK url_2
crawling url_3
OK url_3
crawling url_4
OK url_4
Wall time: 10 s

await 程序会阻塞,和同步效果一样。

import asyncio

async def crawl_page(url):
print('crawling {}'.format(url))
sleep_time = int(url.split('_')[-1])
await asyncio.sleep(sleep_time)
print('OK {}'.format(url))

async def main(urls):
tasks = [asyncio.create_task(crawl_page(url)) for url in urls]
for task in tasks:
await task

%time asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1
OK url_2
OK url_3
OK url_4
Wall time: 3.99 s

node2:/root/python3#time python3 p15.py
crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1
OK url_2
OK url_3
OK url_4

real   0m4.104s
user   0m0.083s
sys   0m0.019s

另外一种写法:

import asyncio

async def crawl_page(url):
print('crawling {}'.format(url))
sleep_time = int(url.split('_')[-1])
await asyncio.sleep(sleep_time)
print('OK {}'.format(url))

async def main(urls):
tasks = [asyncio.create_task(crawl_page(url)) for url in urls]
await asyncio.gather(*tasks)

%time asyncio.run(main(['url_1', 'url_2', 'url_3', 'url_4']))

########## 输出 ##########

crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1
OK url_2
OK url_3
OK url_4
Wall time: 4.01 s

node2:/root/python3#time python3 p16.py
crawling url_1
crawling url_2
crawling url_3
crawling url_4
OK url_1
OK url_2
OK url_3
OK url_4

real   0m4.088s
user   0m0.061s
sys   0m0.027s
node2:/root/python3#

scan724

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 协程

import timedef crawl_page(url): print('crawling {}'.format(url)) sleep_time = int(url.split('_')[-1]) time.sleep(sleep_time) print('OK {}'.format(url))def main(urls): for url in urls: crawl_page(url)%time main(['url_1', 'u...
复制链接

扫一扫