Nginx 防爬虫

最新推荐文章于 2024-07-24 07:11:43 发布

xiaoyu_0217

最新推荐文章于 2024-07-24 07:11:43 发布

阅读量1.2k

点赞数

经常会有一些不遵守robots规则的垃圾爬虫爬取网站信息，浪费了网站的带宽以及资源，可通过nginx对其进行屏蔽，示例如下：

~*代表不区分大小写匹配，所以大小写都无所谓的

屏蔽AhrefsBot垃圾爬虫

if ($http_user_agent ~* AhrefsBot) {

return 403;

}

如果需要屏蔽多个爬虫，可配置如下：

if ($http_user_agent ~* AhrefsBot|MSNBot) {

return 403;

}

具体的配置信息如下：
server {
listen 80;
server_name *****;
if ($http_user_agent ~*"qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo!Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou webspider|MSNBot|ia_archiver|Tomato Bot")
{
return 403;
}