第9期-通过简书爬取文章

这又是一次历史性的突破,他来了,他来了,他脚踏祥云走来了!

没错,那就是,截止到现在为止,终于出现了,第一个,依靠user-agent来反爬的网站了

# 通过requests不修改请求头,直接发送请求
# 出现下面字样

<h1>403 Forbidden</h1>
<p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/>

在默认的user-agent下发送请求,被拦了,报了403 forbidden

然后将user-agent随便改了几个字母,就可以正常访问了

说实话,前几年这种反爬还是很多的,比如说现在的百度应该也是这么设置的

但是这种依靠user-agent进行反爬的越来越少了,现在几乎都看不到了

而这种反爬方式不再被使用的一个非常重要的原因就是,和robots.txt差不多,就是一个君子协议,谁都拦不住。

那么很简单的想法,与其做毫无意义的事情,还不如就直接允许你访问算了。这就是为什么现在通过user-agent反爬几乎已经销声匿迹的原因了

现在有幸能在这里看到,我们要感谢简书对我们的信任---那就是,他们真的愿意相信,我们会自觉遵守

那么问题来了,看到这里的诸位,我想问问你们,遇到这样愿意相信你的好的网站,你还忍心继续去爬吗?

查看2021更多爬虫分析,点击这里​​​​​​​

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值