引言
以前看别人爬虫的时候,直接设置ROBOTSTXT_OBEY = False
就完事了,却不知道那是什么东西。此报告即是对Googlebot相关的研究。
工程结构及关键代码
可改进内容
1. robots.cc 354
使用’strlen(str)> 0’构造来识别空字符串,不如检查:str [0]!=’\ 0’。如果整个字符串不为空,则不必遍历整个字符串。
From
bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
{ ....
*key = line;
....
if (strlen(*key) > 0)
{ ....
return true;
}
return false;
}
To
bool RobotsTxtParser::GetKeyAndValueFrom(char **key, ....)
{ ....
*key = line;
....
if (*key [0]!= '\0')
{ ....
return true;
}
return false;
}
2. robots.cc
没用过的变量path。
From
std::string GetPathParamsQuery(....)
{
std::string path;
....
}
To
std::string GetPathParamsQuery(....)
{
....
}
3. robots.cc 645
这两个函数功能一模一样。
int MatchAllow(absl::string_view path, absl::string_view pattern)
{
return Matches(path, pattern) ? pattern.length() : -1;
}
int MatchDisallow(absl::string_view path, absl::string_view pattern)
{
return Matches(path, pattern) ? pattern.length() : -1;
}
参考文献:
[1]https://developers.google.com/search/reference/robots_txt
[2]https://github.com/google/robotstxt
[3]https://www.zhihu.com/robots.txt