Python爬虫学习——爬取小说章节

之前学了Python好久都没有用,感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习,巩固python的知识。

 

爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习:

Python3 网络爬虫(二):下载小说的正确姿势(2020年最新版)_Jack-Cui-CSDN博客


练习 - 爬取章节

前面的爬虫基础部分就看大佬的上一篇博文,讲的非常棒:

Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)_Jack-Cui-CSDN博客

 

这里我就直接上手开始练习了。首先打开审查界面,可以看到这个网站的这个结构确实比较简单。

 

首先我们来提取数据为,div, id = 'list'的内容:

可以看到可以提取出所有章节的标题和一个网址,但是数据纠缠到一起要进行一下处理。

 

 

回到网址,进行进一步的数据解析。可以看到每个章节的网址,都存在url标签为href的内容中:

 

因此这里可以使用get方法,去得网址。另外对于章节名部分,由于每一个chapter里面章节名均为string格式的文字,可以筛选出每行数据里为文字的数据:

 

运行效果:

 


 

下载每章节小说

 

大佬的原版代码如下:

 

但是由于不想要下载完整小说(但是需要注意里面get_content()方法的作用!),这里改为保存小说标题和对应链接:

点击运行,可以在下面console看到下载进度:

下载结果如下,可以看到就成功下载了我们想要的小说标题和对应链接:

 


 

最后引用一下大佬的总结:

 

  • 10
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值