爬虫(补)

关于通信过程

1、浏览器会通过dns服务器查找域名对应的IP地址
2、向IP地址对应的web服务器取发送请求
3、web服务器会根据请求进行响应,发送你需要的数据回浏览器
4、浏览器接收服务器发送过来的数据或者网页,会进行渲染,展示在页面中
在这里插入图片描述

关于路径

URL:统一资源定位符
http://tieba.baidu.com/f/index/forumpark?cn=%E7%BE%8E%E9%A3%9F
https://tieba.baidu.com/f?kw=%E7%81%B5%E7%AC%BC

协议(HTTP https ftp): //服务器的域名或者ip地址[端口]/访问资源的路径?查询字符串(键值结构)#锚点
http:超文本传输协议,是一种发布和接收html页面的方法,一般80端口
https:相当与http的安全版本,在http加入ssl层 443端口
SSL(安全套接层),在传输层对网络进行加密,保障数据传输的安全性

关于请求方法

根据Http标准

HTTP 0.9: 只支持get

HTTP 1.0 :支持get post head

HTTP1.1:在1.0 基础上更新, get post head options put delete trace connect

HTTP2.0:

方法说明
1get请求指定的页面信息,并且返回数据
2post向指定的资源请求提交数据
3head类似get,返回的是响应中没有具体的内容,用于获取报头
4options允许客户端查看服务器性能
5put从客户端向服务端传递的数据取代指定的文档内容,更新操作
6delete请求服务器删除指定的页面
7trace主要用于测试或者诊断
8connect代理服务器

get和post的区别

1、get是从服务器获取信息,post向服务器提交数据并获取页面信息
2、 get会将参数全部显示在url地址上,服务器根据请求URL地址的参数返回响应
post请求参数在请求体中,消息的长度没有限制的,而且隐式的方式进行传送,用来向服务器提交量比较大的数据

常见的请求头

Connection: keep-alive
1、client发起一个包含Connection: keep-alive的请求(HTTP1.1 默认值)
2、在server接收请求之后,
server支持keep-alive,回复一个包含Connection: keep-alive的响应,不关闭连接
server不支持keep-alive,回复一个包含Connection: close,关闭连接
3、如果client收到包含Connection: keep-alive的响应,则同一个连接下发送下一个请求,直到一 方主动关闭连接

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9

指浏览器或者其他的客户端可以接收的MIME(多用途互联网邮件扩展)文件类型,服务器可以根据它判断并返回适当的文件格式

text/html 希望接收的是html文本
application/xhtml+xml XHTML和xml文档

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36

验证。爬取时加上这个,切忌裸奔。

状态码

100-199 表示服务器成功的接收部分请求,要求客户端继续提交其余的请求才能完成整个处理过程
200-299:表示的是服务器成功的接收请求并且完成整个处理过程
300-399:为了完成请求,客户需要进一步细化请求 如:304使用缓存资源
400-499:客户端的请求有问题 常见的404 not found 403 服务器拒绝没有权限
500-599:服务器出现错误 500

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值