详细记录了python爬取小说《元尊》的整个过程,看了你必会!

学了好几天的渗透测试基础理论,周末了让自己放松一下,最近听说天蚕土豆有一本新小说,叫做《元尊》,学生时代的我可是十分喜欢读天蚕土豆的小说,《斗破苍穹》相信很多小伙伴都看过吧。今天我们就来看看如果一步一步爬下来《元尊》的所有内容。

首先我们需要选择一个网站进行爬取,我这边使用的是书家园网站,其它网站的操作也是类似原理。

相关库文件

我们使用的库有requests、re和time,其中re和time都是python自带库,我们只需要安装一个requests库。

pip install requests

编码过程

我们可以先访问书家园网站找到《元尊》书籍首页的url——https://www.shujy.com/5200/9683/。

通过requests进行请求,然后将html打印出来。

import requests
url ='https://www.shujy.com/5200/9683/'
response = requests.get(url)
html = response.text

print(html)

打印出来如下图:

 

 

我们找到html中关于文章标题和作者的部分

我们通过正则表达式将标题和作者提取出来

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
author = re.findall(r'<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值