目录
二、网络爬虫的盗亦有道
1、网络爬虫的尺寸
(1)爬取网页,玩转网页
小规模,数据量小,爬取速度不敏感;Requests库; 90%以上。
(2)爬取网站,爬取系列网站
中规模,数据规模较大,爬取速度敏感;Scrapy库。
(3)爬取全网
大规模,搜索引擎,爬取速度关键;定制开发。
2、网络爬虫引发的问题
(1)网络爬虫的“骚扰”
受限于编写水平和目的,网络爬虫将会为web服务器带来巨大的资源开销。
(2)网络爬虫的法律风险
服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。
(3)网络爬虫泄露隐私
网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。