python爬取小说章节目录

最新推荐文章于 2024-08-22 16:29:39 发布

奔波儿灞啵儿奔

最新推荐文章于 2024-08-22 16:29:39 发布

阅读量1.3k

点赞数

分类专栏： python 爬虫文章标签： python 正则表达式 excel

本文链接：https://blog.csdn.net/weixin_45389177/article/details/110942358

版权

本文介绍如何在Python3环境下，利用requests库获取网页内容，通过正则表达式提取小说章节目录及其对应的网址，然后使用xlwt库将这些数据存储到Excel表格中。涉及的正则表达式技巧包括限定匹配、偷懒匹配、贪婪匹配等。

摘要由CSDN通过智能技术生成

python爬虫初级实战

python3环境

python3环境

爬取电子书章节目录及对应网址，并存入excel
引用库包括import requests , import re ,import xlwt

原理

各库的使用：

利用requests模拟请求，获取网页内容；
利用re进行正则表达式提取；
利用字典将目录与对应网址键值存放；
实例化excel将目录及网址键值写入sheet页；

相关知识点

正则表达式：re.findall(参数1，参数2) 参数1表示提取规则，参数2表示从哪里提取，返回是一个列表

str1='abcdkjsklcdjldddacd'
print(re.findall('d.',str1))           #不加括号都显示
print(re.findall('cd(.)',str1))         #加括号只显示括号里的内容
# *表示a后面有若干个b的字符，包括0个的情况
str2='abbaccabcb'
print(re.findall('ab*',str2))
# +表示a后面有若干个b，不包括