Python爬虫实战：爬取全站小说排行榜

最新推荐文章于 2024-05-01 08:58:45 发布

wwy__123

最新推荐文章于 2024-05-01 08:58:45 发布

阅读量8.8k

点赞数 2

分类专栏： Python 爬虫 Scrapy 文章标签： python 排行榜爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wwy__123/article/details/78943010

版权

本文介绍了如何使用Python爬虫爬取全站小说排行榜，包括单本小说的爬取和利用Scrapy框架批量抓取。在爬取过程中，详细讲述了设置请求头、解析网页、存储数据到MongoDB数据库的步骤，并分享了Scrapy框架在爬虫工程中的应用。文章提供了一些关键代码片段和资源链接。

摘要由CSDN通过智能技术生成

喜欢看小说的骚年们都知道，总是有一些小说让人耳目一新，不管是仙侠还是玄幻，前面更了几十章就成功圈了一大波粉丝，成功攀上飙升榜，热门榜等各种榜，扔几个栗子出来：

新笔趣阁是广大书友最值得收藏的网络小说阅读网,网站收录了当前......我就不打广告了（其他满足下文条件的网站也行，之前已经有做过简单爬取章节的先例了，但效果不太理想，有很多不需要的成分被留下了，来链接：http://python.jobbole.com/88560/。我们本文就爬取这个网站的上千本小说。重点在和大家一起分享一些爬虫的思路和一些很常遇到的坑。

本文的行文脉络：
1、先构造一个单本的小爬虫练练手；
2、简要分享一下安装MongoBD数据库时的几个易错问题；
3、运用Scrapy框架爬取新笔趣阁全站排行榜。

一、爬取单本小说

爬取该网站相对来讲还是很容易的，打开编辑器（推荐使用PyCharm，功能强大），首先引入模块urllib.request(Python2.x的引入urllib和urllib2即可，待会我把2.x的也写出来给大家看看)，给出网站URL，写下请求，再添加请求头（虽然这个网站不封号，但作者建议还是要养成每次都写请求头的习惯，万一那天碰到像豆瓣似的网站，一不留神就把你封了）话不多说，直接上图：

然后再将请求发送出去，定义变量response，用read（）方法观察，注意将符号解码成utf-8的形式，省的乱码：

打印一下看结果：

看到这么一大条就对喽，对比一下网页源码，发现是一致的。

这步观察很重要，因为这就说明该网站没有使用AJAX异步加载，

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

1
原创

2
点赞

6
收藏

2
粉丝

关注

私信

热门文章

Python爬虫实战：爬取全站小说排行榜 8831

分类专栏

Python 1篇
爬虫 1篇
Scrapy 1篇

最新评论

Python爬虫实战：爬取全站小说排行榜
weixin_43752143: 能不能可视化呢？比如转化为图表

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。