1. lxml的认识
在前面学习了xpath的语法,那么在代码中我们如何使用xpath呢,对应的我们需要lxml
安装方式:pip install lxml
2. lxml的使用
2.1 lxml模块的入门使用
-
导入lxml 的 etree 库 (导入没有提示不代表不能用)
from lxml import etree
-
利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据
html = etree.HTML(text)
ret_list = html.xpath(“xpath字符串”)
3.把转化后的element对象转化为字符串,返回bytes类型结果 etree.tostring(element)
假设我们现有如下的html字符换,尝试对他进行操作
<div> <ul>
<li class="item-1"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li