快速入门 Python 爬虫常用解析库(xpath、bs4)

最新推荐文章于 2024-06-22 10:30:53 发布

Amo Xiang

最新推荐文章于 2024-06-22 10:30:53 发布

阅读量1.7k

点赞数 23

分类专栏： Python3入门与进阶文章标签： python xpath lxml bs4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xw1680/article/details/119846344

版权

Python3入门与进阶专栏收录该内容

128 篇文章 29 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Python中lxml模块使用XPath解析HTML的方法，包括解析本地文件、字符串、服务器返回的HTML等，展示了XPath的多种选择节点的方式。此外，还详细讲解了BeautifulSoup模块，通过实例演示了如何解析HTML、获取节点内容、属性等。文章适合Python爬虫初学者参考。

摘要由CSDN通过智能技术生成

目录

- 第一章 XPath 解析
- 第二章 Beautiful Soup 模块

第一章 XPath 解析

在 Python 中可以支持 XPath 提取数据的解析模块有很多，本文主要介绍 lxml 模块，该模块可以解析 HTML 与 XML，并且支持 XPath 解析方式。由于 lxml 模块 为第三方模块，需要通过 pip install lxml 命令安装该模块。lxml 模块 的底层是通过C语言编写的，所以在解析效率方面是非常优秀的。xpath 语法参考学习网站：https://www.w3school.com.cn/xpath/xpath_nodes.asp。

【示例1】使用 parse() 方法解析本地的 HTML 文件。(一般不怎么常用)

笔者在自己本地新建了一个 demo.html，内容如下：

<!DOCTYPE html>
<html

了解本专栏

超级会员免费看

关注

23
点赞
踩
39

收藏

觉得还不错? 一键收藏
打赏
13
评论
快速入门 Python 爬虫常用解析库(xpath、bs4)

目录第一章 XPath 解析第二章 Beautiful Soup 模块第一章 XPath 解析在 Python 中可以支持 XPath 提取数据的解析模块有很多，本文主要介绍 lxml 模块，该模块可以解析 HTML 与 XML，并且支持 XPath 解析方式。由于 lxml 模块为第三方模块，需要通过 pip install lxml 命令安装该模块。lxml 模块的底层是通过C语言编写的，所以在解析效率方面是非常优秀的。xpath 语法参考学习网站：https://www.w3school.co
复制链接

扫一扫

专栏目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Amo Xiang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。