lxml是一个Python库,用于处理XML和HTML。它支持XPath、CSS选择器等查询方式,可以快速、灵活地处理XML和HTML文档。
以下是lxml库的使用方法:
1. 安装lxml
使用pip命令安装lxml库:
```python
pip install lxml
```
2. 解析HTML或XML
使用lxml库可以大概分为两步:解析和查询。首先我们需要解析HTML或XML文档。lxml提供了两个类来解析HTML或XML文档:etree.ElementTree和etree.HTML。
```python
from lxml import etree
# 解析HTML文档
html = '<html><body><div><p>hello world.</p></div></body></html>'
doc = etree.HTML(html)
# 解析XML文档
xml = '<?xml version="1.0" encoding="UTF-8"?><root><name>John</name><age>25</age></root>'
doc = etree.XML(xml)
```
3. 查询文档
解析完成后,我们可以使用XPath或CSS选择器等方式查询文档中的元素。
```python
# 查询HTML文档中的p元素文本
p_text = doc.xpath('//p//text()')[0]
# 查询XML文档中的name元素文本
name_text = doc.xpath('//name//text()')[0]
```
lxml库的功能非常丰富,支持文档序列化、元素操作等,可以根据具体需求进行更深入的使用。