Google 抓取工具(Googlebot)汇总

原文:http://www.52web-analytics.com/google-googlebot-gather.html


抓取工具”是一个通用名称,泛指通过跟踪从一个网页指向另一个网页的链接,从而自动发现并扫描网站的程序(如漫游器或“蜘蛛”程序)。Google 的主要抓取工具称为 Googlebot。此表格列出了在引用页日志中常能见到的 Google 抓取工具的相关信息,以及在 robots.txt、漫游器元标记和 X-Robots-Tag HTTP 指令中指定这些抓取工具应采用的方法。

抓取工具 用户代理 HTTP(S) 请求用户代理
Googlebot(Google 网页搜索) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html ) 
或 
(较少使用): Googlebot/2.1 (+http://www.google.com/bot.html )
Googlebot 新闻 Googlebot-News 
(Googlebot )
Googlebot-News
Googlebot 图片 Googlebot-Image 
(Googlebot )
Googlebot-Image/1.0
Googlebot 视频 Googlebot-Video 
(Googlebot )
Googlebot-Video/1.0
Google 移动 Googlebot-Mobile [各种移动设备类型]( compatible; Googlebot-Mobile/2.1 ; +http://www.google.com/bot.html )
Google Mobile AdSense Mediapartners-Google

或 

Mediapartners
 
(Googlebot )
[各种移动设备类型]( compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html )
Google AdSense Mediapartners-Google 
Mediapartners 
(Googlebot )
Mediapartners-Google
Google AdsBot 目标网页质量检查 AdsBot-Google AdsBot-Google  ( +http://www.google.com/adsbot.html )

robots.txt

如果 Google 在 robots.txt 文件中识别出多个用户代理,则它会跟踪最具体的用户代理。如果您希望 Google 的所有抓取工具都能够抓取您的网页,则根本不需要 robots.txt 文件。如果您希望禁止或允许 Google 的所有抓取工具访问您的某些内容,则只需将 Googlebot 指定为用户代理即可。例如,如果您希望自己所有的网页都显示在 Google 搜索中,并希望在自己的网页上显示 AdSense 广告,则不需要 robots.txt 文件。同样,如果您不希望 Google 的所有抓取工具访问您的某些网页,则可禁止用户代理 Googlebot(系统会同时禁止 Google 的其他所有用户代理)。

但是,如果您希望进行更精确的控制,则可以设置地更加具体。例如,您可能希望自己所有的网页都显示在 Google 搜索的结果中,但又不希望 Google 抓取您个人目录中的图片。在这种情况下,您可以使用 robots.txt 禁止用户代理 Googlebot-image 抓取您 /personal 目录中的文件(同时允许 Googlebot 抓取所有文件),具体如下:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

再举个例子,假设您希望自己的所有网页上都显示广告,但不希望这些网页出现在 Google 搜索的结果中。这时,您可以禁止 Googlebot,同时允许 Mediapartners-Google,具体如下:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

漫游器元标记

某些网页会使用多个漫游器 meta  标记针对不同的抓取工具指定不同的指令,例如:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

在此示例中,Google 会综合使用所有的否定指令,因而 Googlebot 会同时遵循 noindex  和  nofollow  指令。

原文转载自:Google站长工具帮助文档

原文链接: https://support.google.com/webmasters/answer/1061943?hl=zh-Hans


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值