爬虫怼API接口的优雅姿势

前言:

爬虫的知识点很多,大量的网络知识编程知识。而对于业余的来说最多的是:

对于某些接口,伪造请求拿想要的数据。最近“一不小心”拿下了某个系统的部分接口

就来“水”一篇文章,分享下我感觉效率很高的姿势。

工具准备:

  • 浏览器的F12

  • 爬虫工具网站

  • Burpsuit

开始寻找目标:

进入对应的页面,找到自己想要的数据,然后打开F12 => 网络

image-20220404171619551

注意是搜索而不是过滤然后回车就会发现在哪个接口下

image-20220404171745062

载荷就是Payload也就是参数 预览就是回来的数据

模拟请求:

image-20220404171850353

然后到工具网站:https://spidertools.cn/#/curl2Request

image-20220404172015057

直接把Pthon代码贴出来了,到这里可以在session/cookie没有失效的前提下进行测试。确定哪些参数是必须的

倒推找cookie

你会发现有的cookie是怎么来的,那么就需要Burpsuit的帮忙了

  1. 清除目标网站的已经又的cookie
  2. 浏览器走8080端口
  3. 设置好Burp但不用拦截
image-20220404172404786

然后你就正常操作一遍,然后到Burp里面进行分析

image-20220404172614689

*很重要👉 注意几个点 1. 按照时间排序 2.注意cookie设置的时机

然后右键丢给重发器可以模拟请求猜测字段,然后根据cookie一步一步倒退回去

基本搞定~

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用API接口进行爬虫可以简化数据获取的过程,以下是使用API接口进行爬虫的一般步骤: 1. 确定目标网站:首先确定你想要爬取数据的目标网站,并到该网站提供的API接口文档。 2. 注册和获取API密钥:有些网站需要注册并获取API密钥才能使用他们的API接口。根据目标网站的要求,完成注册并获取API密钥。 3. 了解API接口文档:仔细阅读目标网站提供的API接口文档,了解接口的请求方式、参数、返回数据格式等信息。 4. 发送API请求:使用编程语言中的HTTP库,如Python中的requests库,发送HTTP请求到目标网站的API接口,并传递所需的参数。 5. 处理API响应:接收到API的响应后,根据返回的数据格式进行解析和处理。通常,API会返回JSON或XML格式的数据,可以使用相应的库对数据进行解析。 6. 提取所需数据:根据你想要获取的具体数据,从API响应中提取所需字段,并进行相应的处理和存储。 7. 循环请求和处理:如果需要获取大量数据,可能需要进行循环请求和处理,直到获取到所有数据为止。 8. 遵守API使用规则:在使用API接口时,要遵守目标网站的API使用规则,包括请求频率限制、数据使用限制等。 请注意,具体的实现方式和代码可能因目标网站的API接口而异,以上是一般的步骤和原则。在实际操作中,你可能需要根据目标网站的API文档和具体需求进行适当的调整和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值