问题
规模
爬取网页(规模小、Requests库)-----》爬取网站和系列网站(中规模、数据规模大、Scrapy库)------》爬取全网(大规模,搜索引擎、爬取速度是关键、定制开发)
问题
堆网站带来骚扰功能,爬虫利用其快速访问的特性,可能会造成服务器的性能崩溃
具有法律风险,因为服务器的数据具有产权数据
具有隐私泄露的风险、有的网络爬虫可以突破访问控制
限制
通过来源审查来限制爬虫、通过特定的User-Agent
通过公告方法:Robots协议
Robots协议
在网站的根目录下的robot.txt文件,说明哪些内容可以
例:
https://www.qq.com/robots.txt
User-agent: * Disallow: Sitemap: http://www.qq.com/sitemap_index.xml
https://www.baidu.com/robots.txt
^^^^^^
类人行为可以不参考Robots协议