python爬虫初战之小说爬取

最新推荐文章于 2021-06-29 12:32:06 发布

「已注销」

最新推荐文章于 2021-06-29 12:32:06 发布

阅读量246

点赞数

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_52701277/article/details/112424757

版权

本文介绍了使用Python进行小说爬取的初步实践。通过构建函数，利用正则表达式获取标题和各章节链接，再获取每个章节的内容，实现了小说的自动化爬取。曾经的阅读回忆随着技术实现而唤起，也带有一丝怀旧之情。

摘要由CSDN通过智能技术生成

废话不多说，上代码。
总体思路是构建函数然后循环。
函数分两块，第一个函数得到标题和每一章节的网址，第二个函数得到每一章节的具体内容，然后循环就ok。

import urllib.request as req
import re
#打开页面，找到正文
url = 'https://www.gulongwang.com/liu/'
name = '流星蝴蝶剑'
def get_url_title(url):
    the_url = 'https://www.gulongwang.com/'
    webpage &

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫之爬取小说

青柚的博客

06-12

9889

(^_−)☆本喵的放松方式是看小说，而且类型不限，属于偏好成谜的那一种。所以从爬取完天气预报开始，我就开始想着爬取小说，编写了一个还不算完善的爬取小说程序，期待你们的完善。小说来源：努努书坊：https://www.kanunu8.com/ 山海经：https://www.kanunu8.com/book3/7766/index.html 解析页面源代码：在页面源...

python 小说爬虫_小说爬虫python

weixin_39517202的博客

11-23

118

在线观看多费劲呀，不如爬下来看小说网站地址：http://www.quanshuwang.com/分析：第一种方法：首先随便打开一个小说章节详情页，比如莽荒记发现这个详情页，居然包含了所有章节的url。故第一种实现思路就是从这个页面找到所有章节的url，存为一个列表，然后批量去匹配小说内容下载小说。第二种方法：在第一个章节点开任意一章小说，对页面进行分析发现这里有下一章的链接，故方法二就是在当前...

参与评论您还未登录，请先登录后发表或查看评论

Python小说爬虫

xiaoxiao的博客

03-04

309

今天做的练习是在网站上爬虫某一部小说，并将其存入到文档中~~ 首先，按照上一次爬虫的步骤，获取到该小说目录页的url url=“https://www.kanunu8.com/book2/10881/” 注：若print出该页内容为乱码时，因考虑到编码方式的转换；在这次爬虫过程中，我们需要将编码进行转换，将其转换为gbk形式，所使用的语句如下： txt=requests.get(url).con...

python爬虫--小说爬取

一名在读学生

02-16

5731

使用requests+bs4模块完成简单的爬虫实例--笔趣阁篇。并且利用列表，将所有的小说内容放在一个txt文件中。

python 小说爬虫_用python爬虫获取小说

weixin_39587822的博客

11-23

121

import requestsimport bs4import osimport timedef folder_func(folder_name='小说收藏'):"""生成文件夹"""if os.path.exists(folder_name):os.chdir(folder_name)folder = os.getcwd()else:os.mkdir(folder_name)os.chdir(f...

S16-初战java破解之DEE可视化工具认证破解1

08-03

S16-初战java破解之DEE可视化工具认证破解1

高中历史之历史百科二战史：苏联初战失利斯大林杀一儆百素材

09-09

2. **巴甫洛夫将军的失误**：西方面军司令员巴甫洛夫的决策失误是苏联失利的主要原因之一。他在比亚韦斯托克地区过于集中兵力，没有充分利用机动性来抵御德军的装甲进攻。他的保守战术使得苏联军队变成了固定的防御...

高中历史之历史百科西路军正面迎战马家军狭路相逢勇者胜初战告捷素材

09-09

高中历史之历史百科西路军正面迎战马家军狭路相逢勇者胜初战告捷素材

消防初战指挥PPT课件.pptx

10-13

消防初战指挥是消防作战指挥的重要基础部分，决定了灭火救援的成败。研究消防初战指挥理论，增强和提高初级指挥员素质和能力，最大限度发挥初级指挥员快速反应和临机处置能力，最有效地控制灾情发展，最低限度减少...

Python超简单超基础的免费小说爬虫！爬虫入门从这开始！

爬遍所有网站

10-23

601

需要准备的环境 1.python 3.0及以上皆可 2.requests库，os，re 选取网页找一个免费的小说网站，我在这里拿http://www.zanghaihua.org/wanlishiwunian/ 来举例子思路 PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入 1.首先来看看网页的结构右键网页，点击“查看网页源代码” 不难发现看到章节链接的格式都是</span><span&gt

08-22

sars945的博客

03-14

1762

通过网页看小说经常会有广告弹窗，而网上的教程大多是下载小说。所以我做了个可以通过CMD看小说的程序。纯属兴趣爱好，菜的一批，大神勿喷。如有不懂，点击打开链接全能解决这里用到python爬虫最简单的两个库：requests和re我看小说选择的网站是顶点小说网：http://www.23us.so/ 可自行更改网站（1）首先，要做到在网页内搜索小说。譬如搜索：龙王传说跳转后网址：http://zh...

使用python爬取小说（附python源码）

陌雨’的博客

02-23

7609

笔记

python 小说爬虫_初次尝试python爬虫，爬取小说网站的小说。

weixin_39892615的博客

11-20

154

本次是小阿鹏，第一次通过python爬虫去爬一个小说网站的小说。下面直接上菜。1.首先我需要导入相应的包，这里我采用了第三方模块的架包，requests。requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多，因为是第三方库，所以使用前需要cmd安装。cmd安装方式，打开cmd，输入以下命令：pip install requests2.添加相应的包后，我们需要一个...

python超简单超基础的免费小说爬虫

mo_long_dada的博客

10-22

817

python超简单超基础的免费小说爬虫需要准备的环境选取网页思路代码总结需要准备的环境 1.python 3.0及以上皆可 2.requests库，os，re 选取网页找一个免费的小说网站，我在这里拿http://www.zanghaihua.org/wanlishiwunian/ 来举例子思路 1.首先来看看网页的结构右键网页，点击“查看网页源代码” 不难发现看到章节链接的格式都是</span><span> <a href="章节网址">章节名称</

python爬虫小说系统_python3小说爬虫

weixin_39621427的博客

12-05

413

作为一个很喜欢看书的人，有时候在网页上看小说，会被数不胜数的广告弄的很烦，刚好最近在研究python，就自己写了一个小说爬虫，并用pyqt做了图形界面。下面介绍一下主要思路，不过就不开源了，因为我的程序目前写的也不怎么样，可以使用，但用起来不怎么舒服，性能也有待优化。一、需求分析需求分析很重要，不过我要做的只是一个小项目，而且我既是用户也是开发者，就没仔细的做需求分析。简单来说，功能需求有：搜索小...

Python爬虫 - 简单的完整小说爬取