某小说论坛网爬虫演示

最新推荐文章于 2023-08-07 21:21:37 发布

老身聊发少年狂

最新推荐文章于 2023-08-07 21:21:37 发布

阅读量5.4k

点赞数 1

分类专栏：爬虫（Python）文章标签：爬虫 Python MongoDB

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43850016/article/details/100551295

版权

本文通过Python爬虫技术，抓取长佩小说论坛的原创文窟完结前50页信息，包括小说名称、简介和链接，旨在改善阅读体验，便于在自建的sheet中跟踪阅读进度和收藏状态。

摘要由CSDN通过智能技术生成

如果带着一定的目的去做事，尤其这目的还特别有意思的话，做事效率都会高很多。笔者能说学习爬虫的初衷是是为了更愉快地看小说吗？
在这里插入图片描述

长佩是一个笔者特别喜欢逛的小说论坛，但时间久了发现有一些不太方便的地方，比如从目录页跳转到对应的正文后，并不会保留原来的目录页，如果后续看正文看到了20页，想回到刚刚的目录位置，要不得一直返回，返回20次，要不就凭记忆从主页进去重新来一次。再比如所有的文章在目录是动态排列的，在阅读的过程中很难做到不重不漏，现在读的一篇，很可能后面又会出现，而没有读过的但马上要读的，可能又排到前面去了。此外，不能保存阅读进度，收藏功能也很坑爹啊。
在这里插入图片描述

为了更好的阅读体验，笔者决定，把名称、简介以及链接一同爬下来，展示到一个sheet里面，想看哪篇点链接就好了，在sheet里标识收藏和进度岂不美哉。
在这里插入图片描述

下面以原创文窟完结的前50页为例，进行爬虫演示。

import requests
from bs4 import BeautifulSoup
import time
import random
im

最低0.47元/天解锁文章

老身聊发少年狂

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。