Googlebot研究报告

引言

以前看别人爬虫的时候,直接设置ROBOTSTXT_OBEY = False就完事了,却不知道那是什么东西。此报告即是对Googlebot相关的研究。

工程结构及关键代码

RobotsXmind图
图片链接

可改进内容

1. robots.cc 354

使用’strlen(str)> 0’构造来识别空字符串,不如检查:str [0]!=’\ 0’。如果整个字符串不为空,则不必遍历整个字符串。

From

bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
 {	 .... 
 	*key = line;
 	 .... 
  	if (strlen(*key) > 0)
 	{	 .... 
 		return true; 
 	}	 
 	return false; 
 }

To

bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
 {	 .... 
 	*key = line;
 	 .... 
  	if (*key [0]= '\0')
 	{	 .... 
 		return true; 
 	}	 
 	return false; 
 }
2. robots.cc

没用过的变量path。

From

std::string GetPathParamsQuery(....)
{
  std::string path;
  ....
}

To

std::string GetPathParamsQuery(....)
{
  ....
}
3. robots.cc 645

这两个函数功能一模一样。

int MatchAllow(absl::string_view path, absl::string_view pattern)
{
  return Matches(path, pattern) ? pattern.length() : -1;
}

int MatchDisallow(absl::string_view path, absl::string_view pattern)
{
  return Matches(path, pattern) ? pattern.length() : -1;
} 

参考文献:
[1]https://developers.google.com/search/reference/robots_txt
[2]https://github.com/google/robotstxt
[3]https://www.zhihu.com/robots.txt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值