爬取小说的思路:
- 首先获取小说的地址。
- 分析目录地址结构。
- 进行地址的拼接。
- 分析章节内容结构。
- 获取并保存文本。
- 完整代码
1.获取小说地址
加载需要的包:
import re from bs4 import BeautifulSoup as ds import requests
获取小说目录文件,返回<Response [200]>,表示可正常爬取该网页
base_url='https://www.soshuw.com/XuLiangShangYouWangFei/' chapter_html=requests.get(base_url) print(chapter_html)
2.分析小说地址结构
解析目录网页 , 输出结果为目录网页的源代码
chapter_page_html=ds(chapter_page,'lxml') print(chapter_page)
打开目录网页,发现在正文的目录前面有一个最新章节目录(这里有九个章节),再完整的目录中是包含最新章节的,所以这里最新章节是不需要的。
在网页单击右键选择“检查”(或者“属性”,不同的浏览器的叫法不一致,我用的是IE)选择“元素”列