【实战案例】python快速的爬-取小说的正确姿势

网路爬虫,一般爬取的东西无非也就四种:文字、图片、音乐、视频。

这是明面上,能想到的东西,除了这些还有一些危险的操作,容易被请喝茶的,就不讨论了。

咱们循序渐进,先谈谈如何下载文字内容。

诡秘之主

说到下载文字内容,第一个想到的就是下载小说了。

准备工作

话不多说,直接进入我们今天的正题,网络小说下载。

1、背景介绍

小说网站,“新笔趣阁”:

https://www.xsbiquge.com/

盗版小说网站有很多,曾经爬过“笔趣看”,这回咱换一家,爬“新笔趣阁”,雨露均沾嘛!

“新笔趣阁”只支持在线浏览,不支持小说打包下载。本次实战就教大家如何“优雅”的下载一篇名为《诡秘之主》的网络小说。

2、爬虫步骤

要想把大象装冰箱,总共分几步?

要想爬取数据,总共分几步?

爬虫其实很简单,可以大致分为三个步骤:

  • 发起请求:我们需要先明确如何发起 HTTP 请求,获取到数据。
  • 解析数据:获取到的数据乱七八糟的,我们需要提取出我们想要的数据。
  • 保存数据:将我们想要的数据,保存下载。

发起请求,我们就用 requests 就行,上篇文章已经介绍过。

解析数据工具有很多,比如xpath、Beautiful Soup、正则表达式等。本文就用一个简单的经典小工具,Beautiful Soup来解析数据。

保存数据,就是常规的文本保存。

3、Beautiful Soup

简单来说,Beautiful Soup 是 Python 的一个第三方库,主要帮助我们解析网页数据。

在使用这个工具前&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值