在深入讨论爬取一个网站 之前,我们首先需要对目标站点的规模和结构进行一定程度的了解。 网站自身的robots.txt 和Sitemap文件都可以为我 们提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Goog le 搜索和WHOIS。
- robots.txt
Robot.txt规定了网站对于爬虫的限制。
Section1:禁止用户代理为B adCrawler 的爬虫爬取该网站 , 不过这种写法可能无法起到应有的作用, 因为恶意爬虫根本不会遵从robots. txt 的要求。
Section2:无论使用哪种用户代理, 都应该在两次下载请求之 间给出5秒 的抓取延迟./trap 链接,用于封禁那些爬取了不允许链接的恶意爬虫。如果你访问 了这个链接,服务器就会封禁你的 IP 一