Beautifulsoup4爬虫介绍

打爆火星

已于 2023-04-05 19:44:45 修改

阅读量334

点赞数

文章标签：爬虫 python

于 2023-04-05 19:39:21 首次发布

本文链接：https://blog.csdn.net/weixin_45804646/article/details/129975119

版权

Beautiful Soup：一款优雅的HTML解析库

Beautiful Soup 是一个用于解析HTML和XML文档的Python库，它非常适合用于网络爬虫。本文将介绍 Beautiful Soup 中的主要功能和参数。

Beautiful Soup 提供了一种简单、直观的方式来解析和导航HTML和XML文档。它将文档转换为嵌套的数据结构，让我们能够轻松提取所需信息。

使用pip安装 Beautiful Soup：

pip install beautifulsoup4

注意：Beautiful Soup 4 是目前的主要版本，因此请安装 beautifulsoup4 而不是 beautifulsoup。

首先，导入必要的库：

from bs4 import BeautifulSoup
import requests

获取HTML内容并创建一个 Beautiful Soup 对象：

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

使用 find() 和 find_all() 方法查找特定标签：

# 查找第一个<div>标签
div = soup.find('div')

# 查找所有<div>标签
divs = soup.find_all('div')

可以通过传递属性作为关键字参数来查找具有特定属性的标签：

# 查找 class 为 'example' 的<div>标签
div = soup.find('div', class_='example')

使用字典语法获取标签属性：

# 获取链接的 href 属性
link = soup.find('a')
href = link['href']

使用 get_text() 方法或 .string 属性提取标签内的文本内容：

# 使用 get_text() 方法
title = soup.find('title').get_text()

# 使用 .string 属性
title = soup.find('title').string

使用 .parent、.children、.next_sibling、.previous_sibling 等属性导航标签树：

# 获取父标签
parent = soup.find('div').parent

# 获取所有直接子标签
children = soup.find('div').children

# 获取下一个兄弟标签
next_sibling = soup.find('div').next_sibling

创建 Beautiful Soup 对象时，需要指定解析器。Beautiful Soup 支持多种解析器，如：

根据实际需求选择合适的解析器。例如，使用 lxml 解析器解析 HTML：

soup = BeautifulSoup(response.text, 'lxml')

若要使用 lxml 或 html5lib 解析器，请先使用 pip 安装：

pip install lxml html5lib

这些解析器之间的主要区别在于解析速度、容错性和对 HTML5 的支持。

‘html.parser’：这是 Python 标准库提供的 HTML
解析器。它的优点是无需安装第三方库即可使用，速度适中，适合大多数应用场景。但它的容错性和解析速度可能不如其他解析器。
‘lxml’：这是一个由第三方库提供的解析器，可以解析 HTML 和 XML。lxml
解析器速度非常快，且容错性较好。若项目对速度和稳定性有较高要求，建议使用这个解析器。需要注意的是，要使用 lxml 解析器，需要先安装
lxml 库。
‘html5lib’：这是一个由第三方库提供的解析器，可以解析 HTML5。html5lib
解析器具有非常好的容错性，能够解析非规范的、不完整的 HTML 代码。然而，相较于其他解析器，它的解析速度较慢。若对 HTML5
支持和容错性有较高要求，建议使用这个解析器。与 lxml 类似，要使用 html5lib 解析器，需要先安装 html5lib 库。