快速入门 Python 爬虫常用解析库(xpath、bs4)

本文介绍了Python中lxml模块使用XPath解析HTML的方法,包括解析本地文件、字符串、服务器返回的HTML等,展示了XPath的多种选择节点的方式。此外,还详细讲解了BeautifulSoup模块,通过实例演示了如何解析HTML、获取节点内容、属性等。文章适合Python爬虫初学者参考。
摘要由CSDN通过智能技术生成

第一章 XPath 解析

在 Python 中可以支持 XPath 提取数据的解析模块有很多,本文主要介绍 lxml 模块,该模块可以解析 HTML 与 XML,并且支持 XPath 解析方式。由于 lxml 模块 为第三方模块,需要通过 pip install lxml 命令安装该模块。lxml 模块 的底层是通过C语言编写的,所以在解析效率方面是非常优秀的。xpath 语法参考学习网站:https://www.w3school.com.cn/xpath/xpath_nodes.asp。

【示例1】使用 parse() 方法解析本地的 HTML 文件。(一般不怎么常用)

笔者在自己本地新建了一个 demo.html,内容如下:

<!DOCTYPE html>
<html 
  • 23
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 13
    评论
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Amo Xiang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值