爬虫日记之06HTTP协议
2022-3-5
请求
1 请求行 -> 请求方式(get/post) 请求url地址 协议
2 请求头 -> 放一些服务器要使用的附加信息
3 请求体 -> 一般放一些请求参数
响应
1 状态行 -> 协议 状态码
2 响应头 -> 放一些客户端要使用的一些附加信息
3 响应体 -> 服务器返回的真正客户端要用的内容(HTML,json)等
请求头中常见的一些重要内容(爬虫需要):
- User-Agent:请求载体的身份标识
- Regerer:防盗链(这次请求时从哪个页面中来的,反爬常用)
- cookie:本地字符串数据信息(用户登录信息,反爬的token)
响应头中常见的一些重要内容:
- cookie:本地字符串数据信息(用户登录信息,反爬的token)
- 各种字符串(需要经验识别,一般是用于防止各种攻击和反爬的token字样)
请求方式:
- GET
- POST
*参考视频教程