python:爬虫抓取小说遇到跳章节难题

本文讲述了在Python爬虫中遇到HTTPError404时如何优雅地处理,使用try-except结构以及if判断,确保在访问不存在的网页时返回None,以避免程序中断。作者还提供了抓取斗罗大陆小说章节的示例代码。
摘要由CSDN通过智能技术生成

urllib.error.HTTPError: HTTP Error 404: Not Found 这个错误表示你尝试访问的网页不存在。在你的代码中,这可能是因为提供的URL不正确,或者你尝试访问的页面在服务器上不存在了。

抓小说的时候,比如/218.html有时候下一章就跳到/300.html去了。在试过很多方法之后,用try还是最好的。用if也遇到过错误。

下面是我的代码,改好的,主要是excep里面的内容

 try:
        reg =request.Request(url,headers=head)
        response = request.urlopen(reg)
        html = response.read()
        #   创建 request 对象
        soup = BeautifulSoup(html, 'lxml')
        soup_text = soup.find(name='div', attrs={"class": "m-post"})
        return soup_text
#这里是正常的,就正常写
    except HTTPError as e:#加一个这个报错判断
        if e.code == 404:
            return None

也可以再加一个,在excpet里面,如果不是404错误,则重新抛出异常 

else:  
            raise

然后关于小说我是写了一个for循环去遍历每一页,如果那一页不存在就跳过。下面附上一个爬斗罗大陆的代码吧,可以作为参考。

#爬取单章节的文字内容
from urllib import request
from bs4 import BeautifulSoup
from urllib.error import HTTPError
#第6章的网址
def book(i):
    url='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/{}.html'.format(i)
    head={}
    head['User-Agent']='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/{}.html'.format(i)
    try:
        reg =request.Request(url,headers=head)
        response = request.urlopen(reg)
        html = response.read()
        #   创建 request 对象
        soup = BeautifulSoup(html, 'lxml')
        soup_text = soup.find(name='div', attrs={"class": "m-post"})
        return soup_text
    except HTTPError as e:
        if e.code == 404:
            return None

for i in range(1,20):
    bo=book(i)
    if bo is not None:  # 检查book_text是否不是None
        te=book(i).text
        print(te)  # 输出文本内容
    else:
        continue

 


         

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值