Robots协议(也称爬虫协议,机器人协议等)的全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots.txt的作用:
- 可以让蜘蛛更高效的爬行网站;
- 可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;
- 可以减少蜘蛛爬行无效页面,节省服务器带宽;
如何制作Robots.txt文件?
创建一个文本文档,重命名为Robots.txt,编写规则,用FTP把文件上传到空间;
创建robots.txt文件需要注意的问题:
- 必须是txt结尾的纯文本文件;
- 文件名所有字母必须是小写;
- 文件必须要放在网站根目录下;
Robots参数:
User-agent:
作用:用于描述搜索引擎蜘蛛的名字;
技巧:
1,当robots.txt不为空的时候,必须至少有一条user-agent的记录;
2,相同名字,只能有一条,但是不同的蜘蛛,可以有多条记录;
Disallow:
作用:用于描述不允许搜索引擎蜘蛛爬行和抓取的url;
使用技巧:
- 在robots.txt中至少要有一条disallow;
- Disallow记录为空,则表示网站所有页面都允许被抓取;
- 使用disallow,每个页面必须单独分开声明;
- 注意disallow:/abc/和disallow:/abc的区别;
Allow:
作用:用于描述搜索引擎蜘蛛爬行和抓取的url;
使用技巧:搜索引擎默认所有的url是Allow;
Sitemap:主要作用:向搜索引擎提交网站地图,增加网站收录;
注意事项:
可以使用#进行注释;
参数后面的冒号要加一个空格;
参数开头第一个字母要大写;
注意蜘蛛名称的大小写;
使用建议:
写完robots.txt文件,到站长平台检查是否有误;
内容越简单越好,遵守规范,不要放置其他内容;
无特殊情况,可以建立空robots.txt文件;
新站不要使用robots.txt文件屏蔽所有内容;