爬虫协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。(来源: 百度百科)
爬虫百度图片
目标:爬取百度的图片,并保存电脑中
- 能不能爬?
首先数据是否公开?能不能下载?
从图中可以看出,百度的图片是完全可以下载,说明了图片可以爬取
- 先爬取一张图片
首先,明白图片是什么?