Python queue 多线程线程池爬虫

最新推荐文章于 2020-11-17 18:41:07 发布

xdreamman

最新推荐文章于 2020-11-17 18:41:07 发布

阅读量498

点赞数

分类专栏： python 文章标签： python队列 Python多线程

本文链接：https://blog.csdn.net/xdreamman/article/details/100988350

版权

本文介绍了如何使用Python队列和多线程技术优化爬虫，通过这种方式，将原本的循环操作拆分，降低了耦合性，并实现了时间效率的提升，成功将爬取时间缩短了一半。

摘要由CSDN通过智能技术生成

工作中有个简单的爬虫：爬取一个api 得到列表数据，再爬取每个元素api。

展示代码不涉及机密信息，兼容py2，py3,

我写的第一个版本是各种for循环，可以完成业务的需求。为了降低耦合性，不同逻辑拆开，空间上使用了列表和队列，

用到了递归，多线程。

使用多线程，时间缩短了一半

# -*- coding: utf-8 -*-
import os
import json
import sys
import requests
import threading
import time
# from concurrent.futures import ThreadPoolExecutor  # Python2 需要安装使用
from multiprocessing.pool import ThreadPool
try:
    from queue import Queue
except ImportError:
    from Queue import Queue



class Main(object):
    def __init__(self, date, bucket, purpose):
        self.url = "http://10.146.100.40:8880/pf/xteam/collect/get_first_data"
        self.detail_url = "http://10.146.100.40:8880/pf/xteam/collect/get_detail_data"
        self.group_queue = []
        self.download_link_queue = Queue()
        self.bucket = bucket
        self.purpose = purpose
        self.date &#

最低0.47元/天解锁文章

xdreamman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python queue 多线程线程池爬虫

工作中有个简单的爬虫：爬取一个api 得到列表数据，再爬取每个元素api。展示代码不涉及机密信息，兼容py2，py3,我写的第一个版本是各种for循环，可以完成业务的需求。为了降低耦合性，不同逻辑拆开，空间上使用了列表和队列，用到了递归，多线程。使用多线程，时间缩短了一半# -*- coding: utf-8 -*-import osimport jsonimport ...
复制链接

扫一扫