1.xpath
1.xpath的基本语法
- 路径查询
- //: 查找所有子孙节点,不考虑层级关系
- /: 找直接节点
- 谓词查询
- //div[@id]
- //div[@id=“maincontent”]
- 属性查询
- /@class
- 内容查询
- //div/h1/text()
- 逻辑运算
- //div[@id=“head” and @class=“s_down”]
- //title | //price
2.Jsonpath
1.jsonpath的安装及使用方式:
- pip安装: pip install jsonpath
- jsonpath的使用:
- obj=json.load(open(‘json文件’,‘r’,encoding=‘utf-8’))
- ret=jsonpath.jsonpath(obj,‘jsonpath语法’)
- 教程链接: (55条消息) JSONPath-简单入门_luxideyao的专栏-CSDN博客_jsonpath.jsonpath
3.BeautifulSoup
1.基本简介:
- BeautifulSoup简称:bs4
- BeautifulSoup和lxml一样,是一个html解析器,主要功能也是解析和提取数据
- 优缺点:
- 缺点:效率没有lxml的效率高
- 优点:接口设计人性化,使用方便
2.安装以及创建
-
安装
pip install bs4
-
导入:
from bs4 import BeautifulSoup
-
创建对象
-
服务器响应的文件生成对象
soup = BeautifulSoup(respond.read().decode(),‘lxml’)
-
本地文件生成对象
soup=BeautifulSoup(open(‘1.html’),‘lxml’)
注意:默认打开文件的编码格式为gbk所以需要指定打开编码的格式
-