Scrapy JSON请求

本文介绍了如何使用Scrapy框架处理JSON请求。在遇到网页内容不在HTML中,而是通过JSON请求加载时,可以通过开发者工具找到JSON请求,并从中提取所需数据。文章详细阐述了从Request请求、JSON获取、URL生成到JSON请求的整个过程,指导读者如何解析JSON并构造URL进行数据抓取。
摘要由CSDN通过智能技术生成

以下步骤建议在写python代码前用 scrapy shell 进行尝试。

Request 请求

首先对目标网站进行请求:
scrapy shell <url>
之后使用xpath语法进行标签内容提取:

In [1]: response.xpath(<xpath_info>)
Out [1]: []

发现提取内容为空,则此网页不是将内容直接写入HTML文件中,此时可以response.text观察返回内容,发现并没有待爬取信息的内容。

JSON 获取

对于上述情况,常用的方法是网页进行JSON 请求获取渲染数据。
通过开发者工具获取JSON 请求:

  • XHR中寻找JSON
    通常JSON内容在开发者工具的 Network 选项卡下的 XHR 中:
  • 解析response
    在XHR中找到渲染内容对应的JSON请求,点击右边的Preview逐层寻找待提取的内容:
URL生成

接下来就是怎么提取待爬取信息了。因为具体的信息在下一个网页中,但是JSON中没有直接的URL内容,那么就是通过查询得到的,任意点开几个待爬取页面的链接,可以发现对应的页面URL中只有某个参数(以infoId为例)不同,那么就知道每个具体页面详情通过

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值