详细记录了python爬取小说《元尊》的整个过程，看了你必会！

最新推荐文章于 2024-01-02 14:56:05 发布

VIP文章爬遍天下无敌手

最新推荐文章于 2024-01-02 14:56:05 发布

阅读量306

点赞数

本文链接：https://blog.csdn.net/weixin_43881394/article/details/107863759

版权

学了好几天的渗透测试基础理论，周末了让自己放松一下，最近听说天蚕土豆有一本新小说，叫做《元尊》，学生时代的我可是十分喜欢读天蚕土豆的小说，《斗破苍穹》相信很多小伙伴都看过吧。今天我们就来看看如果一步一步爬下来《元尊》的所有内容。

首先我们需要选择一个网站进行爬取，我这边使用的是书家园网站，其它网站的操作也是类似原理。

编码过程

我们可以先访问书家园网站找到《元尊》书籍首页的url——https://www.shujy.com/5200/9683/。

通过requests进行请求，然后将html打印出来。

import requests
url ='https://www.shujy.com/5200/9683/'
response = requests.get(url)
html = response.text

print(html)

打印出来如下图：

我们找到html中关于文章标题和作者的部分

我们通过正则表达式将标题和作者提取出来

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
author = re.findall(r'<

关注