一:简述
基于Python做爬虫,在html页面爬取,解析方面,Xpath有极大的优势,也是由于LXML库的丰富功能,使爬虫越来越简单。
二:LXML库安装
pip install lxml
1:AttributeError: module ‘lxml’ has no attribute ‘etree’;
原因:anaconda中base环境中如果有lxml包的话,虚拟环境就会报错。
解决方案:在base环境中执行: pip uninstall -y lxml。
三:示例
from lxml import etree
text = """
<div>
<ul>
<li name="zhang" class="two">张三</li>
<li name="li" class="three">李四</li>
<li name="wang" class="four">王五</li>
</ul>
</div>
"""
html = etree.HTML(text)
results = html.xpath('//li&#