学了好几天的渗透测试基础理论,周末了让自己放松一下,最近听说天蚕土豆有一本新小说,叫做《元尊》,学生时代的我可是十分喜欢读天蚕土豆的小说,《斗破苍穹》相信很多小伙伴都看过吧。今天我们就来看看如果一步一步爬下来《元尊》的所有内容。
首先我们需要选择一个网站进行爬取,我这边使用的是书家园网站,其它网站的操作也是类似原理。
相关库文件
我们使用的库有requests、re和time,其中re和time都是python自带库,我们只需要安装一个requests库。
pip install requests
编码过程
我们可以先访问书家园网站找到《元尊》书籍首页的url——https://www.shujy.com/5200/9683/。
通过requests进行请求,然后将html打印出来。
import requests url ='https://www.shujy.com/5200/9683/' response = requests.get(url) html = response.text print(html)
打印出来如下图:
我们找到html中关于文章标题和作者的部分
我们通过正则表达式将标题和作者提取出来
title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0] author = re.findall(r'<