Python爬虫——爬虫是什么都可以爬的吗?
初识“爬虫”这个词时,想必大家都会和我一样,认为“爬虫”就是爬取网站上的各种内容,可以抓取网站的信息为我们所用。
但事实并不是这么“简单”
也并不是网站上的所有内容你想爬就爬
在爬虫界有一种叫Robots协议来限制爬虫的范围。
Robots协议
Robots协议全程“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
以下是淘宝网的robots.txt部分代码:
从这里的代码里我们可以看到,Robots协议是对搜索的搜索范围进行了限制的
并不是可以让爬虫在网站里“肆意妄爬”