爬虫的多线程爬出网页的URL

代码

import urllib.request
import time
import queue
from threading import Thread
import threading
url = "https://www.pythontab.com/html/pythonjichu/"(可以根据自己的实际情况选取url)
#构建队列
queue = queue.Queue()
queue.put(url)
for i in range(2,10):
    new_url = url+str(i)+'.html'
    queue.put(new_url)
#获取url,多线程获取url
def fetchurl(urlQueue):
    while True:
        try:
            urlQueue.get_nowait()
            number = urlQueue.qsize()
            print(number)
        except Exception as e:
            break
        print('当前的url是:','url')
        print('当前线性{}获取的url是:{}'.format(threading.currentThread().name,url))
        try:
            #获取url
            response = urllib.request.urlopen(url)
            status_code = response.getcode()
            if status_code == 200:
                time.sleep(0.5)
        except Exception as e:
            continue
stat_time = time.time()
#准备线程列表
threads = []
thread_num = 10(线程的个数)
for i in range(thread_num):
    thread = Thread(target=fetchurl,args=(queue,))
    threads.append(thread)
for t in threads:
    t.start()
for t in threads:
    t.join()
end_time = time.time()
print('消耗的时间是:',end_time-stat_time)

爬出结果展示

在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值