Python爬取奇书网(用Python下载小说到本地)

本文介绍如何使用Python爬虫从奇书网抓取并下载小说,包括处理网页目录、页数跳转及防止乱码问题。通过运行代码,可以将小说保存到本地,生成奇书网文件夹,方便阅读。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天我们来进行Python爬取小说网的案例,与前面学习的爬取图片和爬取电影网不同,小说网的数据量比较大,相比前两者要复杂的多。

首先分析需求,我们要对每个分类的小说进行爬取,并且进行分类,不仅是文字还有图片信息,着重考虑的是网页目录,页数跳转和下载后乱码的问题。
在这里插入图片描述
在这里插入图片描述

下面开始写代码吧!

首先导入今天的几个包

import requests
from lxml import etree
from urllib.request import urlretrieve
from urllib.parse import quote
import os
# 正则表达式:从目标字符串提取需要的字符的一种匹配规则。
import re

一部小说的全部信息需要如下代码

# 小说名称
novel_name = div.xpath('h1/text()')[0]
# 小说点击次数
novel_click_num = div.xpath('ul/li[1]/text()')[0].split(":")[-1]
# 小说文件大小
novel_size = div.xpath('ul/li[2]/text()')[0].split(":")[-1]
# 小说书籍类型
novel_file_type = div.xpath('ul/li[3]/text()')[0].split(":")[-1]
# 小说更新日期
novel_update_time = div.xpath('ul/li[4]/text()')[0].split(":")[-1]
# 小说连载状态
novel_status = div.xpath('ul/li[5]/text()')[0].split(":")[-1]
# 小说作者
novel_author = div.xpath('ul/li[6]/text()')[0].split(":")[-1]
# 小说运行环境
novel_run_envir = div.xpath('ul/li[7]/text()')[0].split(":")[-1]
# 小说最新章节
novel_last_chapter = div.xpath('ul/li[8]/a/text()')[0]
# 小说图片的地址
novel_img_url = "https://www.qisuu.la" + html_obj.xpath('//div[@class="detail_pic"]/img/@src')[0]
# 小说的下载地址
# 根据正则表达式提取
pattern_obj = re.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值