教你用Python批量爬取小说!这年头了谁看小说还充钱啊!

本文介绍了如何使用Python爬取小说的详细步骤,包括获取小说地址、分析地址结构、拼接地址、解析章节内容结构,并提供了保存文本的完整代码。通过正则表达式和HTML解析,实现小说的自动化抓取。
摘要由CSDN通过智能技术生成

爬取小说的思路:

  1. 首先获取小说的地址。
  2. 分析目录地址结构。
  3. 进行地址的拼接。
  4. 分析章节内容结构。
  5. 获取并保存文本。
  6. 完整代码

1.获取小说地址

加载需要的包:

import re
from bs4 import BeautifulSoup as ds
import requests

获取小说目录文件,返回<Response [200]>,表示可正常爬取该网页

 

base_url='https://www.soshuw.com/XuLiangShangYouWangFei/'
chapter_html=requests.get(base_url)
print(chapter_html)

2.分析小说地址结构

解析目录网页 , 输出结果为目录网页的源代码

 

chapter_page_html=ds(chapter_page,'lxml')
print(chapter_page)

打开目录网页,发现在正文的目录前面有一个最新章节目录(这里有九个章节),再完整的目录中是包含最新章节的,所以这里最新章节是不需要的。
在这里插入图片描述

在网页单击右键选择“检查”(或者“属性”,不同的浏览器的叫法不一致,我用的是IE)选择“元素”列

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值