python爬虫——xpath 爬取一本小说,初级爬虫入门。
import requests
from lxml import etree
import time
'''
思路:
1、确定想要爬取的小说及入口url
2、在入口url通过解析获取小说所有章节名称及各章节href
3、通过字符串拼接得到所有章节详情页的地址
4、爬取每章具体内容的文本
5、将每章小说以章节名称命名并保存为txt文件
'''
# 设置请求头
headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537..
原创
2020-07-07 23:18:07 ·
2942 阅读 ·
3 评论