爬虫笔记(一)请求报文
个人建议学习爬虫之前把html,css先有个大致的了解,这样的话方便继续学习爬虫,浏览器的话推荐用谷歌或者火狐。
HTTP 请求报文由四部分组成(请求行+请求头+空行+请求体)
请求行
请求类型+请求网址+http协议及版本 这个是请求行的组成形式
-
请求类型
请求类型一共有八个:GET、POST、DELETE、HEAD、OPTIONS、PUT、TRACE、CONNECT
GET和POST是最常用的两个
GET请求:GET请求用于使用给定的URI从给定服务器中检索信息,即从指定资源中请求数据。
比较便捷 缺点:不安全,明文参数长度有限制
POST请求:POST请求用于将数据发送到服务器以创建或更新资源
比较安全,数据整体没有限制,可以上传文件
其他的请求方式使用的几率太少
-
请求网址
这个就是你想访问的网址
-
http协议及版本
一般为 HTTP/1.1
请求头
什么是请求头呢? 如果你托人帮你办点事,那你肯定要搞诉对方你要干什么,还有你的一些信息。
请求头就是这样的东西,你希望从服务器获取资源,那你肯定要告诉服务器你的要求是什么,还有你的信息,
请求头就是你的这些要求和信息。
一些常见的请求头属性
Accept:文本的格式
Accept-Encoding:编码格式
Connection:长链接,短链接
Cookie:验证用的
Host:域名
Referer:标志从哪个页面跳转过来的
User-Agent:浏览器和用户的信息
空行
不要以为这空的一行是因为各种原因产生的,它真的就只是单纯的空了一行而已
请求体
当你托人办事的时候,一般还会提一些具体的要求还有一些附加条件。
请求体也是如此,你让服务器帮你做一些事,一定要告诉它你具体要干什么,
请求体里包含的就是这些具体要求
本人爬虫小白一枚,此博客用于记录自己的学习历程,也希望有更多的伙伴一起交流学习,不喜勿喷。