python3环境
爬取电子书章节目录及对应网址,并存入excel
引用库包括import requests , import re ,import xlwt
原理
各库的使用:
- 利用requests模拟请求,获取网页内容;
- 利用re进行正则表达式提取;
- 利用字典将目录与对应网址键值存放;
- 实例化excel将目录及网址键值写入sheet页;
相关知识点
正则表达式:re.findall(参数1,参数2) 参数1表示提取规则,参数2表示从哪里提取,返回是一个列表
str1='abcdkjsklcdjldddacd'
print(re.findall('d.',str1)) #不加括号都显示
print(re.findall('cd(.)',str1)) #加括号只显示括号里的内容
# *表示a后面有若干个b的字符,包括0个的情况
str2='abbaccabcb'
print(re.findall('ab*',str2))
# +表示a后面有若干个b,不包括