基本 代码
1.头文件
from lxml import etree
- 解析html字符串,使用的lxml.etree.HTML进行解析
htmlElement = etree.HTML(tengxun)
print(htmlElement.xpath("//div/a/h4/text()"))# 打印岗位信息
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8')) # 打印整个html内容
- 解析标准的html文件,使用的是lxml.etree.parse进行解析
本例的拉钩是不标准的,腾讯是标准的html 结构
htmlElement = etree.parse("lagou.html")
<