如何用python实现多线程爬虫

最新推荐文章于 2024-07-14 19:57:32 发布

q56731523

最新推荐文章于 2024-07-14 19:57:32 发布

阅读量646

点赞数

文章标签： python 爬虫开发语言网络爬虫数据抓取

本文链接：https://blog.csdn.net/weixin_44617651/article/details/127957572

版权

当单线程python爬虫已经不能满足企业需求时，很多程序员会进行改代码或者增加服务器数量，这样虽说也能达到效果，但是对于人力物力也是一笔不小的消耗。如果是技术牛点的，正常都会自己重新改写多线程代码来实现海量数据的获取。下面就是有关python多线程的代码示例。

前期准备

python3、正则表达式库 re、多线程库 multiprocessing 、和第三方库 requests 。安装到这里就差不多了。

引入库

import requests
import re
from multiprocessing.dummy import Pool

多线程

到底什么是多线程？说起多线程我们首先从单线程来说。例如，我在这里看书，等这件事情干完，我就再去听音乐。对于这两件事情来说都是属于单线程，是一个完成了再接着完成下一个。但是我一般看书一边听歌，同时进行，这个就属于多线程了。

之前文章中是一页一页的爬。现在我们把他改成三页三页的爬（可以更加需求添加爬取页数）。（如图）
在这里插入图片描述

python是如何使用多线程的

# 创建三个线程
pool = Pool(3);
# 爬取的页码放在一个列表里 [1,2,3,...,9]
orign_num = [x for x in range(1,10)];
# 通过映射返回结果列表
result = pool.map(scrapy,orign_num);

pool.map 是使用了映射，把 orign_num 里的每一个数值传给 scrapy ，并返回到对应的结果里。

爬取一页的代码示例

regex = r"<a href=\"(.*)\">[\s]*?<h2 class=\"post-title\">[\s]*(.*)[\s]*</h2>[\s\S]*?</a>"
def scrapy(index):
  page_url = '';
  if index>1:
    page_url=f'page{index}/'
  url=f'http://lamyoung.com/{page_url}';
  html=requests.get(url);
  if html.status_code == 200:
    html_bytes=html.content;
    html_str=html_bytes.decode();
    all_items=re.findall(regex,html_str);
    write_content=''
    for item in all_items:
      write_content=f'{write_content}\n{item[1]}\nhttp://lamyoung.com{item[0]}\n'
    return write_content
  else:
    return ''

把结果给存起来

write_content = '';
for c in result:
  write_content+=c;
with open('lamyoung_title_multi_out.txt','w',encoding='utf-8') as f:
  f.write(write_content)

我们这次多线程用到的是 multiprocessing.dummy 里的 Pool 。利用map 映射出每一页的爬虫结果。

q56731523

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
如何用python实现多线程爬虫

当单线程python爬虫已经不能满足企业需求时，很多程序员会进行改代码或者增加服务器数量，这样虽说也能达到效果，但是对于人力物力也是一笔不小的消耗。如果是技术牛点的，正常都会自己重新改写多线程代码来实现海量数据的获取。下面就是有关python多线程的代码示例。
复制链接

扫一扫