上节中我们学习了下简单的爬虫技术,本节我们将写一个爬取网页小说的小项目。
1、首先介绍下Beautiful Soup库
官方介绍如下:
Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
PyCharm上安装Beautiful Soup:
File -> Default Settings -> Project Interpreter 选择Python的版本
-> 点+号 -> 搜索bs4 安装即可
(注意:Python3的选择bs4进行安装,Python2的选择beautifulSoup)
2、开始爬取小说
网络上随便找个小说就好,这里我们选用,笔趣看的《寒门状元》作为本文要爬取的小说《http://www.biqukan.com/2_2537/》
1、打开网址,然后打开Chrome开发者工具(或者右键,检查)
然后选择Elements
找到如图位置就是我们各个章节的标题
直接find_all(attrs={‘class’: ‘listmain’}) 就可以得到这块东西了
print出来如下:
<div class="listmain">
<dl>
<dt>《寒门状元》最新章节列表</dt>
<dd><a href="/2_2537/18252451.html">第一八六五章 蛇鼠一窝</a></dd>
<dd><a href="/2_2537/18240646.html">第一八六四章 举荐</a></dd>
<dd><a href="/2_2537/18228084.html">第一八六三章 对峙之局</a></dd>
<dd>