Python 爬虫笔记：使用 BeautifulSoup 解析 HTML

小码的头发丝、

已于 2024-09-26 06:37:58 修改

阅读量264

点赞数 1

文章标签： beautifulsoup

于 2024-09-26 00:23:25 首次发布

本文链接：https://blog.csdn.net/weixin_52424354/article/details/142535788

版权

1. BeautifulSoup 简介

BeautifulSoup 是一个用于从 HTML 和 XML 文档中提取数据的 Python 库，易于使用且功能强大，特别适合网页抓取。

2. 基本用法

2.1 导入库并解析 HTML

首先，需要导入 BeautifulSoup，并用它解析 HTML 字符串：

from bs4 import BeautifulSoup

html = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time...</p>
</body></html>"""

soup = BeautifulSoup(html, 'lxml')

2.2 获取元素

获取标题：

print(type(soup.title))  # 输出元素类型
print(soup.title.string)  # 输出标题内容

获取头部内容：

print(soup.head)  # 输出 <head> 标签

获取第一个 < p > 标签：

print(soup.p)  # 只返回第一个 <p> 标签

获取标题名称：

print(soup.title.name)  # 输出标签名称

2.3 访问属性

获取标签属性：

print(soup.p.attrs)  # 返回所有属性，格式为字典
print(soup.p.attrs['name'])  # 获取特定属性值
print(soup.p.attrs['class'])  # 获取 class 属性

使用字典访问属性：

print(soup.p['class'])  # 直接通过键访问属性
print(soup.p['name'])  # 获取 name 属性

3. 重点说明

解析器选择：使用 ‘lxml’ 解析器，可以提高解析速度和准确性。
标签查找：当有多个相同标签时，默认只返回第一个，可以使用 soup.find_all() 获取所有匹配的标签。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小码的头发丝、

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python通过Lxml库解析网络爬虫抓取到的html

weixin_42098295的博客

02-11

1610

Lxml是基于 libxml2解析库的Python封装。libxml2是使用C语言编写的，解析速度很好，不过安装起来稍微有点复杂。安装说明可以参考(http: //Lxml.de/installation.html)，在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/)，使用lxml库来解析网络爬虫抓取到的HTML是一种非常高效的方式。

Python:用lxml解析HTML

热门推荐

BetaBin

04-24

5万+

先演示一段获取页面链接代码示例： #coding=utf-8 from lxml import etree html = ''' 　　　　　　　　　　友情链接查询 - 站长工具　　　　　　　　　　　　　　　　　　　　Top News 　　　　World News only on this page 　　　　Ah, and here

参与评论您还未登录，请先登录后发表或查看评论

Python 通过 xpath、CSS 解析 HTML / XML、scrapy 内置 ( xpath、re、css )、LinkExtractor

freeking101的博客

03-21

1万+

Python 通过 xpath、CSS 解析 HTML / XML、scrapy 内置 ( xpath、re、css )、LinkExtractor

lxml模块

记录软件测试过程中遇到的问题

05-13

348

lxml是一个Python库，使用它可以轻松处理XML和HTML文件，还可以用于web爬取。市面上有很多现成的XML解析器，但是为了获得更好的结果，开发人员有时更愿意编写自己的XML和HTML解析器。这时lxml库就派上用场了。这个库的主要优点是易于使用，在解析大型文档时速度非常快，归档的也非常好，并且提供了简单的转换方法来将数据转换为Python数据类型，从而使文件操作更容易。创建HTML / XML文档使用etree模块，我们可以创建XML/HTML元素及其子元素，这在我们试图写入或操作HTML

python 使用lxml解析html（xpath）

Alvin__Yang的博客

07-11

1004

举个栗子好了：#coding:utf-8 import urllib2 from lxml import etree f = urllib2.urlopen("http://www.ydylcn.com/skwx_ydyl/sublibrary?ID=8724&SiteID=1&showDetail=true&RootFlag=Y") conent = f.read() articl

python爬虫学习笔记之Beautifulsoup模块用法详解

09-17

总结，Beautifulsoup是Python爬虫中强大的HTML和XML解析库，它的易用性、灵活性以及与其他解析器的兼容性，使得它成为数据抓取任务的首选工具。通过熟练掌握其基本用法和理解解析器的差异，可以更高效地从网页中提取...

Python爬虫入门：BeautifulSoup与Scrapy实战解析

"这是一份关于Python爬虫的学习笔记，涵盖了BeautifulSoup库，正则表达式（re库）以及Scrapy框架的使用。笔记详细讲解了如何利用这些工具进行网页数据的抓取和处理。" 在Python爬虫领域，BeautifulSoup是一个非常...

python爬虫学习笔记-使用BeautifulSoup解析html

懒懒的书虫

11-24

1138

之前抓取豆瓣图书Top250的时候，获取内容使用的方法是正则表达式匹配，看上去是一种比较简洁的方法，但问题在于，正则表达式的编写必须非常细心，一旦出了任何小问题，就会导致得不到想要的结果。熟悉html的话，不难想到可以利用节点之间的结构和层级关系来作区分并进一步获取节点内想要的文本。于是BeautifulSoup库为我们实现了这种更加直接的匹配方法，BeautifulSoup是一个python的...

Python电影数据分析抓取工具：使用BeautifulSoup解析***

1. Python脚本：这是使用BeautifulSoup库创建的网络爬虫，能够访问'***'网站，解析网页内容，提取出所需的数据。该脚本支持对数据抓取的细节进行配置，例如，用户可以通过修改代码来改变抓取数据的范围和类型。 2. ...

python3爬虫笔记之BeautifulSoup

瓜瓜的笔记

06-09

771

是http或者xml的解析库，可以很方便的从网页上提取数据，在解析时时依赖解析器的，还支持第三方解析器比如lxml。相关用法：准备工作需要安装两个库基本使用节点选择器提取信息获取名称 #获取节点名称获取属性一个节点可能有多个属性，例如id和class等，选择这个节点之后用attrs获取其所有属性获取内容嵌套选择关联选择用的比较少，不做解释子节点和子孙节点兄弟节点提取信息方法选择器 find_all 查询符合条件的元素，api如下 find_all(name，at

Python 爬虫笔记：使用 lxml 解析 HTML

weixin_52424354的博客

09-26

481

lxml 是一个用于处理 XML 和 HTML 的 Python 库，提供了高效的解析和查询功能，特别适合处理复杂的网页数据。

Python使用lxml解析HTML response

测试不将就

08-09

3175

lxml是一个功能强大、易于使用的Python第三方库，用来解析XML和HTML。在基于HTTP的web服务中，经常需要从HTML格式的response中提取某个我们需要的信息。这时，lxml库就能派上用场。from lxml import etreeresponse = '''<!DOCTYPE html> <html> <head> <title>This is a title</t

python3 lxml解析html_Python 使用 lxml 库解析 HTML

weixin_28882565的博客

03-01

1566

python 爬虫中，必然会接触到 HTML 解析。 lxml是一个Python库，使用它可以轻松处理XML和HTML文件，还可以用于web爬取。市面上有很多现成的XML解析器，但是为了获得更好的结果，开发人员有时更愿意编写自己的XML和HTML解析器。这时lxml库就派上用场了。这个库的主要优点是易于使用，在解析大型文档时速度非常快，归档的也非常好，并且提供了简单的转换方法来将数据转换为Pyth...

python lxml_【记录】Python中尝试用lxml去解析html

weixin_39552179的博客

12-03

138

【背景】Python中，之前一直用BeautifulSoup去解析html的：后来听说BeautifulSoup很慢，而lxml解析html速度很快，所以打算去试试lxml。【折腾过程】1.去lxml主页看了看简介：lxml is the most feature-rich and easy-to-use library for processing XML and HTML in the Pyt...

python简单易懂的lxml读取HTML节点及常用操作方法

qq_74177889的博客

09-13

1591

处理HTML或XML文档时，获取节点的属性和属性值是非常常见的需求。下面详细解释如何获取标签的全部属性以及如何分别获取单个属性和属性值。接下来，我们根据子节点的属性构建一个完整的XPath路径。如果你只需要获取某个特定属性的值，可以直接通过键访问字典中的值。下面是一个综合示例，展示了如何获取节点的所有属性、单个属性以及如何处理特殊情况下的属性值。来获取节点的所有子节点，node.getparent()获取节点的所有父节点。首先，我们遍历一个节点的所有子节点，并获取每个子节点的XPath路径。

Python 爬虫实战：在大众点评抓取餐厅评分数据，推荐美食打卡地

最新发布

u014481728的博客

01-31

1786

大众点评作为国内知名的在线餐厅评价平台，汇聚了海量的餐厅评分和用户评价。了解这些餐厅的评分数据，对于美食爱好者选择餐厅、餐厅经营者优化服务以及相关市场分析等方面都具有重要意义。因此，本文将深入探讨如何运用 Python 爬虫技术从大众点评平台抓取餐厅评分数据，为相关行业提供有益参考。本文深入探究了利用 Python 爬虫技术从大众点评平台抓取餐厅评分数据的全流程。从前期的环境搭建、模拟登录，到核心的数据抓取、存储，再到后续的数据分析与可视化，都详细展开讲解并提供代码支持。

Python 爬虫实战：攻克小红书种草笔记，抓取美妆好物推荐数据

u014481728的博客

01-29

2138

通过本次 Python 爬虫实战，我们成功地从小红书爬取了美妆种草笔记的数据，并进行了存储、处理、分析和可视化展示。在这个过程中，我们不仅掌握了爬虫技术的基本应用，还学会了如何对动态加载的数据进行处理和分析。然而，本次爬虫任务也存在一些局限性，例如仅爬取了部分笔记的数据，且未对笔记中的图片和视频内容进行分析。在未来的工作中，我们可以进一步优化爬虫程序，爬取更多笔记的数据，并深入分析笔记中的多媒体内容、用户行为模式等，为美妆品牌和消费者提供更有价值的数据支持。

Python爬虫编程思想（39）：使用lxml解析HTML与XML

一个被知识诅咒的人

10-06

484

目录 1. 安装lxml 2. 操作XML 3. 操作HTML lxml是Python的一个解析库，用于解析HTML和XML，支持XPath解析方式。由于lxml底层是使用C语言编写的，所以解析效率非常高。本节会介绍lxml在Windows、Linux和Mac OS X下的安装方式，以及lxml的基本使用方法。 1. 安装lxml （1）相关链接 lxml官网：https://lxml.de lxml在Github的地址：https://github.c...

Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例

09-20

主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下

用lxml解析HTML

jggnice的博客

08-27

132

比如在整个HTML文档中查找id为“leftmenu”的 div，可以用“/descendant::div[@id='leftmenu']”，也可以简单地使用“ //div[@id='leftmenu']”。别担心，lxml还有一个属性叫做“tail”，它的意思是结束节点前面的内容，也就是说在“<br />”与“</div>”之间的内容。此外，“*”可以代替所有的节点名，比如用"/html/body/*/span"可以取出body下第二级的所有span，而不管它上一级是div还是p或是其它什么东东。