python初级实战系列教程《二、爬虫之爬取网页小说》

上节中我们学习了下简单的爬虫技术,本节我们将写一个爬取网页小说的小项目。

1、首先介绍下Beautiful Soup库

官方介绍如下:
Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

PyCharm上安装Beautiful Soup:
File -> Default Settings -> Project Interpreter 选择Python的版本
-> 点+号 -> 搜索bs4 安装即可
(注意:Python3的选择bs4进行安装,Python2的选择beautifulSoup)

2、开始爬取小说

网络上随便找个小说就好,这里我们选用,笔趣看的《寒门状元》作为本文要爬取的小说《http://www.biqukan.com/2_2537/》

这里写图片描述

1、打开网址,然后打开Chrome开发者工具(或者右键,检查)
然后选择Elements
找到如图位置就是我们各个章节的标题
这里写图片描述

直接find_all(attrs={‘class’: ‘listmain’}) 就可以得到这块东西了
print出来如下:

<div class="listmain">
<dl>
<dt>《寒门状元》最新章节列表</dt>
<dd><a href="/2_2537/18252451.html">第一八六五章 蛇鼠一窝</a></dd>
<dd><a href="/2_2537/18240646.html">第一八六四章 举荐</a></dd>
<dd><a href="/2_2537/18228084.html">第一八六三章 对峙之局</a></dd>
<dd>
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值