第9期-通过简书爬取文章

「已注销」

于 2021-09-10 10:22:59 发布

阅读量296

点赞数

分类专栏： xiaspider2021 文章标签： python 爬虫

本文链接：https://blog.csdn.net/xiaspider/article/details/120216309

版权

xiaspider2021 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

这又是一次历史性的突破，他来了，他来了，他脚踏祥云走来了！

没错，那就是，截止到现在为止，终于出现了，第一个，依靠user-agent来反爬的网站了

# 通过requests不修改请求头，直接发送请求
# 出现下面字样

<h1>403 Forbidden</h1>
<p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/>

在默认的user-agent下发送请求，被拦了，报了403 forbidden

然后将user-agent随便改了几个字母，就可以正常访问了

说实话，前几年这种反爬还是很多的，比如说现在的百度应该也是这么设置的

但是这种依靠user-agent进行反爬的越来越少了，现在几乎都看不到了

而这种反爬方式不再被使用的一个非常重要的原因就是，和robots.txt差不多，就是一个君子协议，谁都拦不住。

那么很简单的想法，与其做毫无意义的事情，还不如就直接允许你访问算了。这就是为什么现在通过user-agent反爬几乎已经销声匿迹的原因了

现在有幸能在这里看到，我们要感谢简书对我们的信任---那就是，他们真的愿意相信，我们会自觉遵守

那么问题来了，看到这里的诸位，我想问问你们，遇到这样愿意相信你的好的网站，你还忍心继续去爬吗？

查看2021更多爬虫分析，点击这里

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第9期-通过简书爬取文章

这又是一次历史性的突破，他来了，他来了，他脚踏祥云走来了！没错，那就是，截止到现在为止，终于出现了，第一个，依靠user-agent来反爬的网站了# 通过requests不修改请求头，直接发送请求# 出现下面字样<h1>403 Forbidden</h1><p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/&g
复制链接

扫一扫