robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt

1、 robots.txt放置位置:网站根目录下,如果你的域名是解析到web,那么robots文件就房在web下。

对于主域名下有多个2级域名的问题,应该是每一个二级域名都有自己独立的robots文件和sitemap。

例如:当spider访问一个网站​​http://www.jiangxiaoyu.com​​时,首先会检查该网站中是否存在​​http://www.jiangxiaoyu.com/robots.txt​​,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

2、 robots.txt语法:

1)User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot。

2)Disallow 禁止爬取。如,我想禁止爬取我的admin文件夹,那就是Disallow: /admin/。禁止爬取admin文件夹下的​​login.html​​,

Disallow: /admin/login.html。

3)Allow 允许。Disallow禁止。例如禁止admin文件夹下的所有文件,除了.html的网页,

Allow: /admin/.html$

Disallow: /admin/。

4)$ ​​结束符​​。例:Disallow: .php$ 这句话的意思是,屏蔽所有的以.php结尾的文件,不管前面有多长的URL,如abc/aa/bb//index.php也是屏蔽的。

5)* 通配符符号0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有的动态URL。

6)Sitemap: 网站地图 告诉爬虫这个页面是网站地图

Sitemap分类: ①首页+分类页