爬虫（js逆向）网络基础协议与抓包原理-chrome开发工具-fiddler抓包-重放攻击（1）

最新推荐文章于 2024-06-22 09:48:19 发布

稳稳C9

最新推荐文章于 2024-06-22 09:48:19 发布

阅读量2.9k

点赞数 9

分类专栏：爬虫逆向-javascript 文章标签： python 爬虫加密解密 js 网络协议

本文链接：https://blog.csdn.net/weixin_44238683/article/details/118468491

版权

爬虫逆向-javascript 专栏收录该内容

6 篇文章 22 订阅

订阅专栏

创作不易，希望点个赞！
如果本文有任何问题错误，欢迎评论指正！

（点个赞！点个赞！点个赞！点个赞！点个赞！点个赞！）

在这里插入图片描述

一、网络协议

OSI模型与TCP/IP五层模型

一种概念模型，由国际标准化组织提出，一个试图使各种计算机在世界范围内互连为网络的标准框架。
在这里插入图片描述

在这里插入图片描述

OSI模型有7层，TCP/IP为五层
爬虫的处理，只需要关注应用层：

应用层
表示层
会话层

2、HTTP发起请求的典型场景

在这里插入图片描述

3、HTTPS

HTTPS是身披SSL外壳的HTTP。HTTPS是一种通过计算机网络进行安全通信的传输协议，经由HTTP进行通信，利用SSL/TLS建立全信道，加密数据包。HTTPS使用的主要目的是提供对网站服务器的身份认证，同时保护交换数据的隐私与完整性。

PS:TLS是传输层加密协议，前身是SSL协议，TLS由网景（ Netscape ）公司1995年发布，有时候两者不区分。

SSL是Netscape开发的专门用户保护Web通讯的，目前版本为3.0。TLS 1.0是IETF(工程任务组)制定的一种新的协议，它建立在SSL 3.0协议规范之上，是SSL 3.0的后续版本。两者差别极小，可以理解为SSL 3.1。

4、TCP协议的“三次握手”与“四次挥手”

在这里插入图片描述

归根结底，开始，停止都是由客户端决定

详解（转载）：
https://www.cnblogs.com/AhuntSun-blog/p/12028636.html
https://www.cnblogs.com/AhuntSun-blog/p/12037852.html

5、报文在抓包的时候是如何产生的

在这里插入图片描述

报文，通过headers每次经过层级，都会在层级前后加入首位

二、抓包原理

1、爬虫常见抓包工具

Fiddler Windows平台专用抓包软件（课程演示工具）

Charles macOS 平台下最好用的抓包分析工具之一

AnyProxy 阿里巴巴开源的 HTTP 抓包工具，基于 NodeJS 实现，可以进行二次开发

Mitmproxy 基于 Python，支持 SSL 的抓包工具。可以使用python代码控制（爬虫的一些很骚的操作都是用该软件实现）

Wireshark 相对更加底层，更加古老的抓包工具，可以直接从网卡角度抓到包。这个工具不适合于PC爬虫领域。（PC 99.999%都是http协议【也就是应用层】）

2、fiddler抓包工具原理

在这里插入图片描述

结论：

在TCP/IP模型中，Fiddler只能抓到应用层的包。如果想要看到 TCP/UDP、IP 甚至于 mac地址相关的报文，则需要更换抓包工具。这也就是为什么有很多数据包无法被Fiddler/Charles 捕获到的原因

3、HTTP协议工作原理

HTTP并不严格限制在 TCP/IP框架中，事实上HTTP可以在任何互联网协议上，或其他网络上实现。但是目前几乎都是在这个框架下进行实现的。

4、HTTP协议工作原理-浏览器地址栏键入URL后发生了什么？

浏览器构建请求行：GET / HTTP/1.1
查找强缓存（若命中则直接使用） HTTP/1.1中使用的是Cache-Control
浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址;
解析出 IP 地址后，根据该 IP 地址和默认端口 80，和服务器建立TCP连接;
浏览器发出读取文件(URL 中域名后面部分对应的文件)的HTTP 请求，该请求报文作为 TCP 三次握手的第三个报文的数据发送给服务器;
服务器对浏览器请求作出响应，并把对应的 html 文本发送给浏览器;
释放 TCP连接（如果 keep-alive为关闭状态）;
浏览器将该 html 文本并显示内容;

5、配置fiddler工具

非常棒的文章

https://blog.csdn.net/qq_22803691/article/details/104243501

6、利用fiddler工具autoresponder

6.1 编写规则

丁香人才招聘网
https://www.jobmd.cn/

fiddler抓到的包
在这里插入图片描述
添加规则（规则正确匹配到url，那么显示绿色，否则条目显示红色，比如我加了XXX）

将该url，报文响应保存到本地txt文件改名为html，添加规则指向文件

crtl+x快速清理fiddler抓包工具包，然后刷新丁香网
在这里插入图片描述
可以看到丁香网下面没有显示数据

并且抓包工具，出现紫色条目

这是因为，本地写了规则，规则是精确，其它非相关的接口并没有执行

更改为EXACT,记得保存，然后重新刷新丁香

显示了数据

在这里插入图片描述

6.2 本地修改映射html文件

pycharm打开规则指向的html文件，添加alert语句

在这里插入图片描述

刷新丁香网页，会看到先执行这个语句
在这里插入图片描述

6.3 结论

可以利用这一特性，进行调试，魔改！！！等等！一系列操作，debugger啥的

三、chrome开发者工具（DevTool）

DevTool官方文档：https://developers.google.cn/web/tools/chrome-devtools/

非常详细的文章（使用，面板说明都有，此处讲述常用的）

https://blog.csdn.net/kissazhu/article/details/80865819

1、调试面板说明

下图摘自上述连接博客
在这里插入图片描述

2、逐步调试功能

在这里插入图片描述
1（Resume）：恢复执行，直到下一个断点。如果没有遇到断点,则恢复正常执行
2（Step Over）：执行下一行中发生的任何操作,并跳转到下一行
3（Step Into）：如果下一行包含一个函数调用，Step Into将跳转到该函数并在该函数的第一行暂停
4（Step Out）：执行当前函数的剩余部分,然后在函数调用后的下一个语句处暂停
5（Deactivate Breakpoints）：暂时禁用所有断点。用于恢复完整的执行，而不实际删除已有的断点。再次单击可以重新激活断点