爬虫训练（五）：Lxml库与Xpath语法

最新推荐文章于 2022-07-17 00:04:06 发布

Asparagus fern

最新推荐文章于 2022-07-17 00:04:06 发布

阅读量302

点赞数

分类专栏：日常训练之爬虫文章标签： python xpath html

本文链接：https://blog.csdn.net/weixin_43916181/article/details/105753299

版权

基础内容主要参考《从零开始学python网络爬虫》。
今天主要练习lxml库和xpath语法的使用，本文主要记录个人操作中的问题。

lxml库为XML解析库，但也很好的支持了HTML文档的解析功能。lxml库很实用的功能就是自动修正HTML代码。

xpath是一门在XML文档中查找信息的语言，对HTML文档也有很好的支持。
1、节点关系

2、节点选择

节点选择表达式	描述	实例
nodename	选取此节点的所有子节点	user_database：选取元素user_database的所有子节点
/	从根节点选取	/user_database：选取根元素user_database。（注释：假如路径起始于正斜杠（/），则此路径始终代表到某元素的绝对路径）。user_database/user：选取属于user_database的子元素的所有user元素。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置	//user：选取所有user子元素，而不管它们在文档中的位置。user_database//user：选取属于user_database元素的后代的所有user元素，而不管它们位于user_database之下的什么位置。
.	选取当前节点	-----
…	选取当前节点的父节点	-----
@	选取属性	//@attribute：选取名为attribute的所有属性

谓语路径表达式	结果
/user_database/user[1]	选取属于user_database子元素的第一个user元素
//li[@attribute]	选取所有拥有名为attribute属性的li元素
//li[@attribute=‘red’]	选取所有li元素，且这些元素拥有值为red的attribute属性

# coding=utf-8
import csv
from lxml import etree
import requests

fp=

关注