网路爬虫,一般爬取的东西无非也就四种:文字、图片、音乐、视频。
这是明面上,能想到的东西,除了这些还有一些危险的操作,容易被请喝茶的,就不讨论了。
咱们循序渐进,先谈谈如何下载文字内容。
诡秘之主
说到下载文字内容,第一个想到的就是下载小说了。
准备工作
话不多说,直接进入我们今天的正题,网络小说下载。
1、背景介绍
小说网站,“新笔趣阁”:
https://www.xsbiquge.com/
盗版小说网站有很多,曾经爬过“笔趣看”,这回咱换一家,爬“新笔趣阁”,雨露均沾嘛!
“新笔趣阁”只支持在线浏览,不支持小说打包下载。本次实战就教大家如何“优雅”的下载一篇名为《诡秘之主》的网络小说。
2、爬虫步骤
要想把大象装冰箱,总共分几步?
要想爬取数据,总共分几步?
爬虫其实很简单,可以大致分为三个步骤:
- 发起请求:我们需要先明确如何发起 HTTP 请求,获取到数据。
- 解析数据:获取到的数据乱七八糟的,我们需要提取出我们想要的数据。
- 保存数据:将我们想要的数据,保存下载。
发起请求,我们就用 requests 就行,上篇文章已经介绍过。
解析数据工具有很多,比如xpath、Beautiful Soup、正则表达式等。本文就用一个简单的经典小工具,Beautiful Soup来解析数据。
保存数据,就是常规的文本保存。
3、Beautiful Soup
简单来说,Beautiful Soup 是 Python 的一个第三方库,主要帮助我们解析网页数据。
在使用这个工具前&