某小说论坛网爬虫演示

本文通过Python爬虫技术,抓取长佩小说论坛的原创文窟完结前50页信息,包括小说名称、简介和链接,旨在改善阅读体验,便于在自建的sheet中跟踪阅读进度和收藏状态。
摘要由CSDN通过智能技术生成

如果带着一定的目的去做事,尤其这目的还特别有意思的话,做事效率都会高很多。笔者能说学习爬虫的初衷是是为了更愉快地看小说吗?
在这里插入图片描述

长佩是一个笔者特别喜欢逛的小说论坛,但时间久了发现有一些不太方便的地方,比如从目录页跳转到对应的正文后,并不会保留原来的目录页,如果后续看正文看到了20页,想回到刚刚的目录位置,要不得一直返回,返回20次,要不就凭记忆从主页进去重新来一次。再比如所有的文章在目录是动态排列的,在阅读的过程中很难做到不重不漏,现在读的一篇,很可能后面又会出现,而没有读过的但马上要读的,可能又排到前面去了。此外,不能保存阅读进度,收藏功能也很坑爹啊。
在这里插入图片描述

为了更好的阅读体验,笔者决定,把名称、简介以及链接一同爬下来,展示到一个sheet里面,想看哪篇点链接就好了,在sheet里标识收藏和进度岂不美哉。
在这里插入图片描述

下面以原创文窟完结的前50页为例,进行爬虫演示。

import requests
from bs4 import BeautifulSoup
import time
import random
im
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值