爬虫(2)——解析

最新推荐文章于 2024-07-25 09:36:40 发布

Enchant!

最新推荐文章于 2024-07-25 09:36:40 发布

阅读量270

点赞数

分类专栏：爬虫文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45634839/article/details/123560727

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

1.xpath

1.xpath的基本语法

路径查询
- //: 查找所有子孙节点，不考虑层级关系
- /: 找直接节点
谓词查询
- //div[@id]
- //div[@id=“maincontent”]
属性查询
- /@class
内容查询
- //div/h1/text()
逻辑运算
- //div[@id=“head” and @class=“s_down”]
- //title | //price

2.Jsonpath

1.jsonpath的安装及使用方式：

pip安装： pip install jsonpath
jsonpath的使用：
- obj=json.load(open(‘json文件’,‘r’,encoding=‘utf-8’))
- ret=jsonpath.jsonpath(obj,‘jsonpath语法’)
教程链接： (55条消息) JSONPath-简单入门_luxideyao的专栏-CSDN博客_jsonpath.jsonpath

3.BeautifulSoup

1.基本简介：

BeautifulSoup简称：bs4
BeautifulSoup和lxml一样，是一个html解析器，主要功能也是解析和提取数据
优缺点：
- 缺点：效率没有lxml的效率高
- 优点：接口设计人性化，使用方便

2.安装以及创建

安装

pip install bs4
导入：

from bs4 import BeautifulSoup
创建对象
- 服务器响应的文件生成对象
  
  soup = BeautifulSoup(respond.read().decode(),‘lxml’)
- 本地文件生成对象
  
  soup=BeautifulSoup(open(‘1.html’),‘lxml’)
  
  注意：默认打开文件的编码格式为gbk所以需要指定打开编码的格式

3.节点定位

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫(2)——解析

文章目录1.xpath1.xpath的基本语法2.Jsonpath1.jsonpath的安装及使用方式：3.BeautifulSoup1.基本简介：2.安装以及创建3.节点定位1.xpath1.xpath的基本语法路径查询//: 查找所有子孙节点，不考虑层级关系/: 找直接节点谓词查询//div[@id]//div[@id=“maincontent”]属性查询/@class内容查询//div/h1/text()逻辑运算//div[@id=“head”
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。