教你用Python批量爬取小说！这年头了谁看小说还充钱啊!

爬遍天下无敌手

于 2021-04-06 14:18:41 发布

阅读量1.2k

点赞数

分类专栏： Python 文章标签： python 正则表达式 html 数据挖掘编程语言

本文链接：https://blog.csdn.net/weixin_43881394/article/details/115459864

版权

本文介绍了如何使用Python爬取小说的详细步骤，包括获取小说地址、分析地址结构、拼接地址、解析章节内容结构，并提供了保存文本的完整代码。通过正则表达式和HTML解析，实现小说的自动化抓取。

摘要由CSDN通过智能技术生成

加载需要的包：

import re
from bs4 import BeautifulSoup as ds
import requests

获取小说目录文件，返回<Response [200]>，表示可正常爬取该网页

base_url='https://www.soshuw.com/XuLiangShangYouWangFei/'
chapter_html=requests.get(base_url)
print(chapter_html)

解析目录网页 , 输出结果为目录网页的源代码

chapter_page_html=ds(chapter_page,'lxml')
print(chapter_page)

打开目录网页，发现在正文的目录前面有一个最新章节目录（这里有九个章节），再完整的目录中是包含最新章节的，所以这里最新章节是不需要的。
在这里插入图片描述

在网页单击右键选择“检查”（或者“属性”，不同的浏览器的叫法不一致，我用的是IE）选择“元素”列

关注

专栏目录