Robots.txt详解

Robots协议(也称爬虫协议,机器人协议等)的全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

 

Robots.txt的作用:

  1. 可以让蜘蛛更高效的爬行网站;
  2. 可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;
  3. 可以减少蜘蛛爬行无效页面,节省服务器带宽;

 

如何制作Robots.txt文件?

创建一个文本文档,重命名为Robots.txt,编写规则,用FTP把文件上传到空间;

 

创建robots.txt文件需要注意的问题:

  1. 必须是txt结尾的纯文本文件;
  2. 文件名所有字母必须是小写;
  3. 文件必须要放在网站根目录下;

 

Robots参数:

User-agent:

作用:用于描述搜索引擎蜘蛛的名字;

技巧:

1,当robots.txt不为空的时候,必须至少有一条user-agent的记录;

2,相同名字,只能有一条,但是不同的蜘蛛,可以有多条记录;

 

Disallow:

作用:用于描述不允许搜索引擎蜘蛛爬行和抓取的url;

使用技巧:

  1. 在robots.txt中至少要有一条disallow;
  2. Disallow记录为空,则表示网站所有页面都允许被抓取;
  3. 使用disallow,每个页面必须单独分开声明;
  4. 注意disallow:/abc/和disallow:/abc的区别;

 

Allow:

作用:用于描述搜索引擎蜘蛛爬行和抓取的url;

使用技巧:搜索引擎默认所有的url是Allow;

 

Sitemap:主要作用:向搜索引擎提交网站地图,增加网站收录;

 

注意事项:

可以使用#进行注释;

参数后面的冒号要加一个空格;

参数开头第一个字母要大写;

注意蜘蛛名称的大小写;

 

使用建议:

写完robots.txt文件,到站长平台检查是否有误;

内容越简单越好,遵守规范,不要放置其他内容;

无特殊情况,可以建立空robots.txt文件;

新站不要使用robots.txt文件屏蔽所有内容;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值