python爬取小说章节目录

本文介绍如何在Python3环境下,利用requests库获取网页内容,通过正则表达式提取小说章节目录及其对应的网址,然后使用xlwt库将这些数据存储到Excel表格中。涉及的正则表达式技巧包括限定匹配、偷懒匹配、贪婪匹配等。
摘要由CSDN通过智能技术生成

python爬虫初级实战

python3环境

爬取电子书章节目录及对应网址,并存入excel
引用库包括import requests , import re ,import xlwt

原理

各库的使用:

  1. 利用requests模拟请求,获取网页内容;
  2. 利用re进行正则表达式提取;
  3. 利用字典将目录与对应网址键值存放;
  4. 实例化excel将目录及网址键值写入sheet页;

相关知识点

正则表达式:re.findall(参数1,参数2) 参数1表示提取规则,参数2表示从哪里提取,返回是一个列表

str1='abcdkjsklcdjldddacd'
print(re.findall('d.',str1))           #不加括号都显示
print(re.findall('cd(.)',str1))         #加括号只显示括号里的内容
# *表示a后面有若干个b的字符,包括0个的情况
str2='abbaccabcb'
print(re.findall('ab*',str2))
# +表示a后面有若干个b,不包括
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值