http协议简单学习

最新推荐文章于 2023-10-03 10:40:28 发布

菜鸡儿齐

最新推荐文章于 2023-10-03 10:40:28 发布

阅读量140

点赞数

分类专栏： python爬虫学习文章标签：爬虫学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaosi1524/article/details/107144295

版权

python爬虫学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

掌握http以及https的概念和默认端口
掌握爬虫关注的请求头和响应头
了解常见的响应状态码
理解浏览器和爬虫爬取的区别

1. http以及https的概念和区别

http：超文本传输协议，默认端口号是80
- 超文本：指不限于文本，还包括图片，视频和音频等文件
- 传输协议：使用约定的固定格式来传输转换成字符串的超文本内容
https:HTTP+SSL(安全套接字层)，即带有安全套接字的超文本传输协议，默认端口号：443
SSL对于传输的内容进行加密

2. 爬虫特别关注的请求头和响应头(*为常用请求头)

2.1请求头（伪装）

content-type

在这里插入图片描述

host （域名）

在这里插入图片描述

Connection（链接类型，(https://blog.csdn.net/LL845876425/article/details/89743593)）

在这里插入图片描述

*User-Agent（用户代理，提供系统信息和浏览器信息）

在这里插入图片描述

*Referer（页面跳转处，从哪个页面跳转过来的，检查请求是否合法）

在这里插入图片描述

*Cookie(状态保持,辨别用户身份)

2.2响应头

*Set-Cookie(对方服务器设置cookie到用户浏览器的缓存)

在这里插入图片描述
无痕模式

3 常见状态码

https://blog.csdn.net/banana960531/article/details/85621865

所有状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据，elements中的源码时渲染之后的源码，不能作为判断标准

在这里插入图片描述

4 浏览器运行过程

4.1http请求过程

浏览器在拿到域名对应的ip后，先向地址栏中的url发送请求，并获取响应
在返回的响应内容（html）中，会带有css，js，图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取响应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部相应，并在展示的结果中添加内容或修改-----这个过程叫做浏览器的渲染

4.2 注意：

爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应内容可以是html、css、js、图片等）
浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，因为爬虫不具备渲染的能力

浏览器页面
骨骼文件（html静态文件）
肌肉文件（js/ajax请求）
皮肤（css/font/图片）
抓包过程：根据发送请求的流程分别在骨骼/肌肉/皮肤响应中查找数据

在这里插入图片描述

知识点：理解浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来，而爬虫是一次请求对应一个响应

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。