学习笔记(04):21天搞定分布式Python网络爬虫-HTTP协议介绍(2)

立即学习:https://edu.csdn.net/course/play/24756/280652?utm_source=blogtoedu

1. 200:请求正常,服务器正常的返回数据。

2. 301:永久重定向。比如在访问www.jingdong.com的时候会重定向到www.jd.com。 例如:网页换了域名,以前的域名不用了,就重定向到现在的网址。

3. 302:临时重定向。比如在访问一个需要登录的页面的时候,而此时没有登录,那么就会重 定向到登录页面。例如:访问知乎,我没有登录,它会重定向到登录界面。 

4. 400:请求的url在服务器上找不到。换句话说就是请求url错误。

5. 403:服务器拒绝访问,权限不够。 6. 500:服务器内部错误。可能是服务器出现bug了。

1. User-Agent:浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候,服 务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请 求,那么我们的User-Agent就是Python,这对于那些有反爬虫机制的网站来说,可以轻易 的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值,来伪装我们的爬 虫。

2. Referer:表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果 不是从指定页面过来的,那么就不做相关的响应。例如:你进入这个页面必须从上一个页面进入,如果你直接进入该网址就可以认为可能是爬虫。

3. Cookie:http协议是无状态的。也就是同一个人发送了两次请求,服务器没有能力知道这 两个请求是否来自同一个人。因此这时候就用cookie来做标识。一般如果想要做登录后才能 访问的网站,那么就需要发送cookie信息了。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值