爬虫背景调研

在实施网络爬虫前,需对目标网站进行调研,包括分析robots.txt来了解爬虫限制,利用Sitemap获取内容,估算网站规模,识别网站技术栈,并通过whois查找网站所有者。恶意爬虫可能忽视robots.txt规定,应注意遵守规则,避免被封禁。
摘要由CSDN通过智能技术生成

来自用pathon写网络爬虫

       在深入讨论爬取一个网站 之前,我们首先需要对目标站点的规模和结构进行一定程度的了解。 网站自身的robots.txt 和Sitemap文件都可以为我 们提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Goog le 搜索和WHOIS。

  • robots.txt

Robot.txt规定了网站对于爬虫的限制。

Section1:禁止用户代理为B adCrawler 的爬虫爬取该网站 , 不过这种写法可能无法起到应有的作用, 因为恶意爬虫根本不会遵从robots. txt 的要求。

Section2:无论使用哪种用户代理, 都应该在两次下载请求之 间给出5秒 的抓取延迟./trap 链接,用于封禁那些爬取了不允许链接的恶意爬虫。如果你访问 了这个链接,服务器就会封禁你的 IP 一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值