python：爬虫抓取小说遇到跳章节难题

青853

于 2024-05-01 03:15:57 发布

阅读量129

点赞数 3

文章标签： python 爬虫前端

本文链接：https://blog.csdn.net/weixin_62605218/article/details/138361836

版权

本文讲述了在Python爬虫中遇到HTTPError404时如何优雅地处理，使用try-except结构以及if判断，确保在访问不存在的网页时返回None，以避免程序中断。作者还提供了抓取斗罗大陆小说章节的示例代码。

摘要由CSDN通过智能技术生成

urllib.error.HTTPError: HTTP Error 404: Not Found 这个错误表示你尝试访问的网页不存在。在你的代码中，这可能是因为提供的URL不正确，或者你尝试访问的页面在服务器上不存在了。

抓小说的时候，比如/218.html有时候下一章就跳到/300.html去了。在试过很多方法之后，用try还是最好的。用if也遇到过错误。

下面是我的代码，改好的，主要是excep里面的内容

 try:
        reg =request.Request(url,headers=head)
        response = request.urlopen(reg)
        html = response.read()
        #   创建 request 对象
        soup = BeautifulSoup(html, 'lxml')
        soup_text = soup.find(name='div', attrs={"class": "m-post"})
        return soup_text
#这里是正常的，就正常写
    except HTTPError as e:#加一个这个报错判断
        if e.code == 404:
            return None

也可以再加一个，在excpet里面，如果不是404错误，则重新抛出异常

else:  
            raise

然后关于小说我是写了一个for循环去遍历每一页，如果那一页不存在就跳过。下面附上一个爬斗罗大陆的代码吧，可以作为参考。

#爬取单章节的文字内容
from urllib import request
from bs4 import BeautifulSoup
from urllib.error import HTTPError
#第6章的网址
def book(i):
    url='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/{}.html'.format(i)
    head={}
    head['User-Agent']='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/{}.html'.format(i)
    try:
        reg =request.Request(url,headers=head)
        response = request.urlopen(reg)
        html = response.read()
        #   创建 request 对象
        soup = BeautifulSoup(html, 'lxml')
        soup_text = soup.find(name='div', attrs={"class": "m-post"})
        return soup_text
    except HTTPError as e:
        if e.code == 404:
            return None

for i in range(1,20):
    bo=book(i)
    if bo is not None:  # 检查book_text是否不是None
        te=book(i).text
        print(te)  # 输出文本内容
    else:
        continue

青853

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python：爬虫抓取小说遇到跳章节难题

抓小说的时候，比如/218.html有时候下一章就跳到/300.html去了。在试过很多方法之后，用try还是最好的。用if也遇到过错误。这个错误表示你尝试访问的网页不存在。在你的代码中，这可能是因为提供的URL不正确，或者你尝试访问的页面在服务器上不存在了。然后关于小说我是写了一个for循环去遍历每一页，如果那一页不存在就跳过。下面附上一个爬斗罗大陆的代码吧，可以作为参考。也可以再加一个，在excpet里面，如果不是404错误，则重新抛出异常。下面是我的代码，改好的，主要是excep里面的内容。
复制链接

扫一扫