网络爬虫:引发的问题和Robots协议

问题

规模

爬取网页(规模小、Requests库)-----》爬取网站和系列网站(中规模、数据规模大、Scrapy库)------》爬取全网(大规模,搜索引擎、爬取速度是关键、定制开发)

问题

堆网站带来骚扰功能,爬虫利用其快速访问的特性,可能会造成服务器的性能崩溃
具有法律风险,因为服务器的数据具有产权数据
具有隐私泄露的风险、有的网络爬虫可以突破访问控制

限制

通过来源审查来限制爬虫、通过特定的User-Agent
通过公告方法:Robots协议

Robots协议

在网站的根目录下的robot.txt文件,说明哪些内容可以

例:
https://www.qq.com/robots.txt

User-agent: * Disallow: Sitemap: http://www.qq.com/sitemap_index.xml

https://www.baidu.com/robots.txt
^^^^^^

类人行为可以不参考Robots协议

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值