前言
线程池是一种线程使用模式。线程过多会带来调度开销,进而影响缓存局部性和整体性能。而线程池维护着多个线程,等待着监督管理者分配可并发执行的任务。
上述的性质使其减少了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利用,还能防止过分调度。
之前我们使用爬虫爬取资源时一直都是单线程操作,一些小规模的任务不明显,但当任务量大起来之后,频繁的I/O操作使得爬取等待的时间极为漫长。而线程池在为我们开辟多个线程加快资源爬取的同时,还能避免线程过多带来的调度开销。什么是调度开销?就是线程切换浪费的时间。
我们来运行一个demo。
# coding: utf-8
import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
import time
import json
from requests import adapters
headers = {
"Host": "splcgk.court.gov.cn",
"Origin": "https://splcgk.court.gov.cn",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
"Referer": "https://splcgk.court.gov.cn/gzfwww/ktgg",
}
url = "https://splcgk.court.gov.cn/gzfwww/ktgglist?pageNo=1"
def spider(page):
data = {
"bt": "",
"fydw": "",
"pageNum": page,
}
for _ in range(5):
try:
response = requests.post(url, headers=headers, data=data, )
json_data = response.json()
except (json.JSONDecodeError, adapters.SSLError):
continue
else:
break
else:
return {}
return json_data
#使用线程池
def main():
with ThreadPoolExecutor(max_workers=8) as t:
obj_list = []
begin = time.time()
for page in range(1, 15):
obj = t.submit(spider, page)
obj_list.append(obj)
for future in as_completed(obj_list):
data = future.result()
print(data)
print('*' * 50)
times = time.time() - begin
print(times)
#不使用
def single():
begin = time.time()
for page in range(1, 15):
data = spider(page)
print(data)
print('*' * 50)
times = time.time() - begin
print(times)
if __name__ == "__main__":
main()
#single()
main和single分别是使用线程池和单线程的情况。运行结果如下。
在开启线程池时,爬取这些资源仅仅用了不到2秒,单线程下使用了9秒多。可以看到速度相差将近5倍。当单位换成分钟、小时呢?
思考一下,任何情况下多线程都比单线程快吗?
转载自:滑稽研究所
阅读更多相关文章,请关注我们吧!