Python简单使用线程池

最新推荐文章于 2024-09-09 14:57:12 发布

滑稽研究所

最新推荐文章于 2024-09-09 14:57:12 发布

阅读量269

点赞数

分类专栏： python 文章标签： python 多线程并发编程

本文链接：https://blog.csdn.net/weixin_45067072/article/details/119107931

版权

python 专栏收录该内容

20 篇文章 5 订阅

订阅专栏

前言
线程池是一种线程使用模式。线程过多会带来调度开销，进而影响缓存局部性和整体性能。而线程池维护着多个线程，等待着监督管理者分配可并发执行的任务。

上述的性质使其减少了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利用，还能防止过分调度。
之前我们使用爬虫爬取资源时一直都是单线程操作,一些小规模的任务不明显,但当任务量大起来之后,频繁的I/O操作使得爬取等待的时间极为漫长。而线程池在为我们开辟多个线程加快资源爬取的同时，还能避免线程过多带来的调度开销。什么是调度开销？就是线程切换浪费的时间。
我们来运行一个demo。

# coding: utf-8
import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
import time
import json
from requests import adapters

headers = {
    "Host": "splcgk.court.gov.cn",
    "Origin": "https://splcgk.court.gov.cn",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
    "Referer": "https://splcgk.court.gov.cn/gzfwww/ktgg",
}
url = "https://splcgk.court.gov.cn/gzfwww/ktgglist?pageNo=1"

def spider(page):
    data = {
        "bt": "",
        "fydw": "",
        "pageNum": page,
    }
    for _ in range(5):
        try:
            response = requests.post(url, headers=headers, data=data, )
            json_data = response.json()
        except (json.JSONDecodeError, adapters.SSLError):
            continue
        else:
            break
    else:
        return {}

    return json_data

#使用线程池
def main():
    with ThreadPoolExecutor(max_workers=8) as t:
        obj_list = []
        begin = time.time()
        for page in range(1, 15):
            obj = t.submit(spider, page)
            obj_list.append(obj)

        for future in as_completed(obj_list):
            data = future.result()
            print(data)
            print('*' * 50)
        times = time.time() - begin
        print(times)

#不使用
def single():
    begin = time.time()
    for page in range(1, 15):
        data = spider(page)
        print(data)
        print('*' * 50)

    times = time.time() - begin
    print(times)


if __name__ == "__main__":
    main()
    #single()