Scrapy JSON请求

最新推荐文章于 2024-06-12 20:06:51 发布

Chen.Junbao

最新推荐文章于 2024-06-12 20:06:51 发布

阅读量871

点赞数

分类专栏： Scrapy 文章标签： python json

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43864314/article/details/105121920

版权

本文介绍了如何使用Scrapy框架处理JSON请求。在遇到网页内容不在HTML中，而是通过JSON请求加载时，可以通过开发者工具找到JSON请求，并从中提取所需数据。文章详细阐述了从Request请求、JSON获取、URL生成到JSON请求的整个过程，指导读者如何解析JSON并构造URL进行数据抓取。

摘要由CSDN通过智能技术生成

以下步骤建议在写python代码前用 scrapy shell 进行尝试。

Request 请求

首先对目标网站进行请求：
scrapy shell <url>
之后使用xpath语法进行标签内容提取：

In [1]: response.xpath(<xpath_info>)
Out [1]: []

发现提取内容为空，则此网页不是将内容直接写入HTML文件中，此时可以response.text观察返回内容,发现并没有待爬取信息的内容。

JSON 获取

对于上述情况，常用的方法是网页进行JSON 请求获取渲染数据。
通过开发者工具获取JSON 请求：

XHR中寻找JSON
通常JSON内容在开发者工具的 Network 选项卡下的 XHR 中：
解析response
在XHR中找到渲染内容对应的JSON请求，点击右边的Preview逐层寻找待提取的内容：

URL生成

接下来就是怎么提取待爬取信息了。因为具体的信息在下一个网页中，但是JSON中没有直接的URL内容，那么就是通过查询得到的，任意点开几个待爬取页面的链接，可以发现对应的页面URL中只有某个参数（以infoId为例）不同，那么就知道每个具体页面详情通过

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Scrapy JSON请求

以下步骤建议在写python代码前用 scrapy shell 进行尝试。Request 请求首先对目标网站进行请求：scrapy shell <url>之后使用xpath语法进行标签内容提取：In [1]: response.xpath(<xpath_info>)Out [1]: []发现提取内容为空，则此网页不是将内容直接写入HTML文件中，此时可以re...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。