python爬虫(BeautifulSoup库入门)

最近在学习爬虫,本篇是MOOC中的北理嵩天老师的课程笔记:python网络爬虫与信息提取。
适合小白入门BeautifulSoup库,阅读全篇需要6、7分钟。
欢迎大佬指正,谢谢哦~

Beautiful Soup(bs4)

1. 基础知识
它是一个用于解析html 和 xml 的功能库。
1.1首先,我们知道html文件,是由一对对的<>组成的,所以,我们又可以说,Beautiful Soup库是解析、遍历、维护“标签树”的功能库,把标签树转换成BeautifulSoup类
在这里插入图片描述
1.2属性由键值对构成:
标签举例
1.3 Beautiful Soup 库解析器:

解析器使用方法
bs4的html解析器BeautifulSoup(mk, ’ html.parser’ )
lxml的html解析器BeautifulSoup(mk, ’ lxml’ )
lxml的xml解析器BeautifulSoup(mk, ’ xml’ )
html5lib解析器BeautifulSoup(mk, ’ html5lib’ )

但是我们主要是用第一种

1.4 Beautiful Soup 类的5种基本元素
在这里插入图片描述
(以下代码也可以在IDLE中实现)
在这里插入图片描述

我们对b标签(注释,有<!>)和p标签分别用 .string 的时候,都能产生一段文本,但是当文本是注释的时候,它并没有标明它是注释。所以,我们在分析文本时,要对注释作判断,而判断依据就是它的类型
在这里插入图片描述
2 基于bs4库的HTML遍历方法
2.1 HTML的基本格式
在这里插入图片描述
2.2下行遍历
在这里插入图片描述
下面我们举几个例子:
在这里插入图片描述
可以用 for in 的方式,遍历所有儿子 或者 子孙 节点。

2.3上行遍历
在这里插入图片描述

2.4平行遍历

注意哦:
平行遍历是有条件的,必须发生在同一个父节点下的各节点间
而且,平行遍历获得的下一个节点,不一定是标签类型

在这里插入图片描述
同样,我们也可以用:

for sibling in soup.a.next_siblingsL
    print(sibling)

来遍历后续节点。

3. 基于bs4库HTML格式化

这部分我们主要回答一个问题:如何让内容,更加友好的显示?
不仅是使html的内容更加让人容易阅读,也使程序能够更好地运行和分析

这里我们就要谈到一个方法:prettify
在这里插入图片描述
可以看到,它在每一行标签后,都加了一个换行符 \n。这使得print后,结构更清晰。
当然,它还可以应用于一个标签:
在这里插入图片描述

感谢您的阅读~

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Simone Zeng

给作者来杯咖啡吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值