etree.tostring 输出到文件时会将中文字符转换为看不懂的编码形式,如果在 etree.tostring 中添加如下设置,可以正常输出中文。
先编码,再解码 :)
# 准备使用xpath
html = etree.HTML(content)
rst = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")
# 根据rst写出xpath
print(rst)