结构化数据
JSON 文件
- JSON Path
- 转化成Python类型进行操作(json类)
XML 文件
- 转化成Python类型(xmltodict)
2.XPath - CSS选择器
- 正则表达式
非结构化数据
文本、电话号码、邮箱地址
HTML 文件
1.正则表达式
2. XPath
3. CSS选择器
Xpath
可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素
- 先使用etree.HTML()或者etree.parse()解析HTML文件
- 使用html.xpath()进行文本匹配筛选