Python网络爬虫，怎样改造成并发爬取！

Ai绘画顾姐

于 2024-04-18 17:30:46 发布

阅读量417

点赞数 3

分类专栏：爬虫编程 python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/xiqng17111342931/article/details/137929725

版权

python 同时被 3 个专栏收录

392 篇文章 10 订阅

订阅专栏

爬虫

55 篇文章 0 订阅

订阅专栏

编程

31 篇文章 0 订阅

订阅专栏

背景目标

一个爬虫程序，默认情况下，是单线程爬取的，速度会比较慢

如果改造成多线程爬取，就可以利用多CPU能力，加速爬取。

如下代码，爬取了一个小说的内容，存储到文件里。

import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}
root_url = "http://antpython.net/novels/01.html"

resp_root = requests.get(root_url, headers=headers)

soup = BeautifulSoup(resp_root.text, "html.parser")

chapter_links = soup.find("div", id="novel_chapters").find_all("div", class_="chapter_link")

import time

start = time.time()
# file out
fout = open("小说.txt", "w", encoding="utf8")
count = len(chapter_links)
for idx, chapter_link in enumerate(chapter_links):
    link = chapter_link.find("a")
    href = "http://antpython.net%s" % link["href"]
    title = link.get_text()

    print("爬取链接：", href, title, idx, count, idx / count * 100)
    resp_cont = requests.get(href, headers=headers)
    soup_cont = BeautifulSoup(resp_cont.text, "html.parser")
    cont = soup_cont.find("div", id="chapter_content").get_text()
    fout.write(title + "\n")
    fout.write(cont + "\n")

fout.close()
print("爬取时间：", time.time() - start)

执行后，看到花费时间为爬取时间：56.08秒钟。

代码改造

需要注意的是，如果是并发爬取，那么爬取的顺序是不一致的。我们可以给每次URL给一个序号，将来做排序。

首先，将每章爬取改造成函数

def craw_single(index, title, chapter_link):
    """爬取单章内容，返回需要、标题、内容"""
    resp_cont = requests.get(chapter_link, headers=headers)
    soup_cont = BeautifulSoup(resp_cont.text, "html.parser")
    cont = soup_cont.find("div", id="chapter_content").get_text()
    return index, title, cont

其中index参数，纯粹是为了将来的排序使用。

然后，启动每章的爬取，提交给线程池

import time

start = time.time()
count = len(chapter_links)
pool = ThreadPoolExecutor()
futures = []
for idx, chapter_link in enumerate(chapter_links):
    link = chapter_link.find("a")
    href = "http://antpython.net%s" % link["href"]
    title = link.get_text()

    futures.append(pool.submit(craw_single, index=idx, title=title, chapter_link=href))

我们使用pool.submit做任务的提交，然后用futures收集future的结果对象。

等待所有线程的结束


results = []
for future in concurrent.futures.as_completed(futures):
    results.append(future.result())

该代码会挨个等待子线程的结束。将结果future.result()，也就是函数的返回数据，存入列表中

将结果存入文件

results.sort(key=lambda x: x[0])
with open("小说结果.txt", "w", encoding="utf8") as fout:
    for index, title, cont in results:
        fout.write(title + "\n")
        fout.write(cont + "\n")
pool.shutdown()
print("爬取时间：", time.time() - start)

这里对数据做了排序，按章节的顺序。

然后打开文件写入内容。

最后关闭了线程池。