robots.txt存放的位置robots.txt文件的作用及写法 (搜索引擎)

网站推广优化yetaoaiueo

于 2021-12-07 15:22:09 发布

阅读量1.1k

点赞数

文章标签：搜索引擎

版权声明：叶涛SEO网站优化网络推广专栏,本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yetaodiao/article/details/127369041

版权

本文深入解读robots.txt的作用，讲解其放置位置、语法规则，并说明如何通过User-agent、Disallow和Allow设置搜索引擎权限。了解如何利用Sitemap指定地图，涵盖常见搜索引擎和示例配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt

1、 robots.txt放置位置：网站根目录下,如果你的域名是解析到web，那么robots文件就房在web下。

对于主域名下有多个2级域名的问题，应该是每一个二级域名都有自己独立的robots文件和sitemap。

例如：当spider访问一个网站http://www.jiangxiaoyu.com时，首先会检查该网站中是否存在http://www.jiangxiaoyu.com/robots.txt，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

2、 robots.txt语法：

1)User-agent 定义搜索引擎。一般情况下，网站里面都是：User-agent: *，这里*的意思是所有，表示定义所有的搜索引擎。比如，我想定义百度，那么就是User-agent: Baiduspider;定义google，User-agent: Googlebot。

2)Disallow 禁止爬取。如，我想禁止爬取我的admin文件夹，那就是Disallow: /admin/。禁止爬取admin文件夹下的login.html，

Disallow: /admin/login.html。

3)Allow 允许。Disallow禁止。例如禁止admin文件夹下的所有文件，除了.html的网页，

Allow: /admin/.html$

Disallow: /admin/。

4)$ 结束符。例：Disallow: .php$ 这句话的意思是，屏蔽所有的以.php结尾的文件，不管前面有多长的URL，如abc/aa/bb//index.php也是屏蔽的。

5)* 通配符符号0或多个任意字符。例：Disallow: *?* 这里的意思是屏蔽所有带“?”文件，也是屏蔽所有的动态URL。

6)Sitemap: 网站地图告诉爬虫这个页面是网站地图

Sitemap分类： ①首页+分类页

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。