这又是一次历史性的突破,他来了,他来了,他脚踏祥云走来了!
没错,那就是,截止到现在为止,终于出现了,第一个,依靠user-agent来反爬的网站了
# 通过requests不修改请求头,直接发送请求
# 出现下面字样
<h1>403 Forbidden</h1>
<p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/>
在默认的user-agent下发送请求,被拦了,报了403 forbidden
然后将user-agent随便改了几个字母,就可以正常访问了
说实话,前几年这种反爬还是很多的,比如说现在的百度应该也是这么设置的
但是这种依靠user-agent进行反爬的越来越少了,现在几乎都看不到了
而这种反爬方式不再被使用的一个非常重要的原因就是,和robots.txt差不多,就是一个君子协议,谁都拦不住。
那么很简单的想法,与其做毫无意义的事情,还不如就直接允许你访问算了。这就是为什么现在通过user-agent反爬几乎已经销声匿迹的原因了
现在有幸能在这里看到,我们要感谢简书对我们的信任---那就是,他们真的愿意相信,我们会自觉遵守
那么问题来了,看到这里的诸位,我想问问你们,遇到这样愿意相信你的好的网站,你还忍心继续去爬吗?
查看2021更多爬虫分析,点击这里