python初级实战系列教程《二、爬虫之爬取网页小说》

最新推荐文章于 2024-04-18 13:54:36 发布

小志伟

最新推荐文章于 2024-04-18 13:54:36 发布

阅读量1.2k

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/yzwty/article/details/79434267

版权

上节中我们学习了下简单的爬虫技术，本节我们将写一个爬取网页小说的小项目。

1、首先介绍下Beautiful Soup库

官方介绍如下：
Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为 Unicode 编码，输出文档转换为 utf-8 编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup 就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

PyCharm上安装Beautiful Soup：
File -> Default Settings -> Project Interpreter 选择Python的版本
-> 点+号 -> 搜索bs4 安装即可
（注意：Python3的选择bs4进行安装，Python2的选择beautifulSoup）

2、开始爬取小说

网络上随便找个小说就好，这里我们选用，笔趣看的《寒门状元》作为本文要爬取的小说《http://www.biqukan.com/2_2537/》

这里写图片描述

1、打开网址，然后打开Chrome开发者工具（或者右键，检查）
然后选择Elements
找到如图位置就是我们各个章节的标题
这里写图片描述

直接find_all(attrs={‘class’: ‘listmain’}) 就可以得到这块东西了
print出来如下：

<div class="listmain">
<dl>
<dt>《寒门状元》最新章节列表</dt>
<dd><a href="/2_2537/18252451.html">第一八六五章 蛇鼠一窝</a></dd>
<dd><a href="/2_2537/18240646.html">第一八六四章 举荐</a></dd>
<dd><a href="/2_2537/18228084.html">第一八六三章 对峙之局</a></dd>
<dd>