爬虫
成小七
计算机研究生
展开
-
robots协议怎么查看以及解释
学习爬虫首先就要知道什么东西是不能爬的。所以先来了解一下robots协议吧。robots协议在哪看呢?直接在目标网站后面加上/robots.txt就能看见了,以csdn为例访问https://www.csdn.net/robots.txt,得到下面的信息:User-agent: *Disallow: /scriptsDisallow: /publicDisallow: /css/Disallow: /images/Disallow: /content/Disallow: /ui/.原创 2021-07-30 16:11:20 · 7607 阅读 · 0 评论 -
爬当当网遇见418
今天爬取当当网的时候突然遇见了418状态码,整个人都不好了。应该是有反爬机制。于是我先试了一下增加User-Agent,假装我是一个浏览器,看看能不能返回200状态码。很幸运,完美的返回了200状态码。总结,当当网也有了反爬机制,现在需要添加User-Agent。...原创 2021-07-27 12:28:06 · 161 阅读 · 0 评论