Http基本原理（网页的请求与响应）

最新推荐文章于 2024-08-11 08:28:05 发布

山河锦绣放眼好风光

最新推荐文章于 2024-08-11 08:28:05 发布

阅读量571

点赞数

本文链接：https://blog.csdn.net/weixin_47249161/article/details/113959980

版权

Request URL:其中URL ，也叫统一资源定位符，通过它可以访问到服务器中的具体资源，也就是告诉浏览器你想要它存储的哪些信息
Request headers:请求头，用来指定服务器要使用的附加信息，下面列举一些比较重要的请求头信息cookie:用来维持登录状态，每次你打开网址时，例如优酷视频时发现不用自己输入账号密码就可以登录这都是cookie的功劳
User-agent:用户代理，给自己的爬虫附加上这个信息，可以把爬虫伪装成浏览器
content-type：表示具体请求中媒体类型信息，常见的时text，json
``
请求头时请求的重要组成部分，大部分爬虫都要附加上这个信息，也就是说有的爬虫可以不包含报请求头信息
Request method :请求方法，这里只介绍两个最实用的post：POST请求大多用于提交表单，这些表单通常包含一些加密信息，同时也可以处理上传文件的功能，可以说这是一个比较低调的大佬
GET：相比POST，GET的所有行为都会在URL中体现
Request body :一般而言，这是个相对于POST请求而存在的东西，这里面包含了发送的请求中包含的表单数据，只有这种比较低调的大佬才配有这种待遇吧，哈哈

服务器的响应

Response status code:状态码，这里列出常用的状态码:
100:继续，服务器已收到请求等待下一波攻击；200：服务器已经成功处理的请求；202：服务器已经接受请求但是尚未处理；204：服务器已经成功处理了请求但是没有返回任何内容；301：网页永久搬家；400：错误请求，服务器无法解析该请求；；401：未授权；403：拒绝访问；404：找不到网页；
响应头：这里列举几个常见的值content-type:说明返回内容的格式，applicatio/json，返回的内容就是json格式的内容，text/html:html文件；content-enconding:指定响应内容的编码方式
响应体：这才是大哥，我们爬虫就是对响应体的解析，是我们对URL发起请求之后获得的响应的正文数据。