我们知道在做SEO优化的过程中少不了用到一个文件,这个文件能够帮我们很大的忙,这个文件就是robots.txt,这个文件服务器下面没有,可以在本地编写好之后上传到服务器根目下,下面鄙人给大家举例它的有关功能以及编写方法。(注意我的语句大小写,大小写必须要一致,因为这个文件区分大小写。)
(允许所有搜索引擎抓取任何内容)
User-agent: *
Disallow:
或者写成
User-agent: *
Allow:/
(禁止所有搜索引擎抓取任何内容)
User-agent: *
Disallow:/
(仅允许百度抓取任何内容)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow:/
(告诉所有搜索引擎不爬行aaa跟bbb目录下的这是一个神奇的网站。。。内容和123.html文件)
User-agent: *
Disallow:/aaa/
Disallow:/bbb/
Disallow:/这是一个神奇的网站。。。/123.html
(告诉除百度意外所有搜索引擎不准爬aaa目录下的123.htm文件)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow:/aaa/
Disallow:/123.htm
(告诉搜索引擎不准爬aaa目录和文件,但是可以爬aaa目录下bbb的内容)
User-agent: *
Disallow:/aaa/
Allow:/aaa/bbb/
(告诉谷歌允许抓取所有.html为后缀的URL,不允许百度抓取所有以.html为后缀的URL,禁止所有所有搜索引擎抓取.jpg格式的文件)
User-agent: googlebot
Allow:.html$
User-agent: baiduspider
Disallow:.html$
User-agent: *
Disallow:.jpg$
(告诉蜘蛛禁止抓取任何带.asp后缀的文件)
User-agent: *
Disallow:/*.asp
(告诉蜘蛛禁止访问带问号(?)的网址的)
User-agent:*
Disallow:/*?*
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
我们常用的搜索引擎类型有: (User-agent区分大小写)
Google蜘蛛:Googlebot
Google Adsense蜘蛛:Mediapartners-Google
百度蜘蛛:Baiduspider
Soso蜘蛛:Sosospider
Yahoo蜘蛛:Yahoo!slurp
有道蜘蛛:YodaoBot
Alexa蜘蛛:ia_archiver
Bing蜘蛛:MSNbot
Altavista蜘蛛:scooter
Lycos蜘蛛:lycos_spider_(t-rex)
Alltheweb蜘蛛:fast-webcrawler
Inktomi蜘蛛: slurp
以上是robots.txt文件在网站中作用,供大家借鉴。
本文来源于熊向阳SEO博客 http://www.xiongxiangyang.com/
熊向阳:如何理解robots.txt文件
最新推荐文章于 2024-09-23 19:00:20 发布