问题描述:使用lxml.etree.parse()解析html文件,该方法默认使用的是“XML”解析器,所以如果碰到不规范的html文件时就会解析错误,报错代码如下:
解决方法:自己创建html解析器,增加parser参数
from lxml import etree
parser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse("b.html", parser=parser)
result = tree.xpath('/html')
print(result)