网络爬虫的尺寸:
-
爬取网页 玩转网页
小规模,数据量小,爬取速度不敏感,Requests库 > 90%
-
爬取网站 爬取系列网站
中规模、数据规模较大、爬取速度敏感 Scrapy库
-
爬取全网
大规模、搜索引擎,爬取速度关键,定制开发
网络爬虫引发的问题
-
性能骚扰
-
法律风险
-
隐私泄露
网络爬虫的限制
-
来源审查,判断User-Agent进行限制
检查来访HTTP 协议头的User-Agent域,只响应浏览器或友好爬虫的访问
-
公布公告:Robots协议
告知所有网站的爬取策略,要求爬虫遵守
Robots协议 Robots Exclusion Standard,网络爬虫排除标准
作用:网站告知网络爬虫那些网页可以爬取,那些不行
形式:在网站根目录下的robots.txt
robots协议基本语法
# 注释,* 代表所有,/ 代表根目录
User-agent:*
Disallow:/
使用:
约束性:robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
原则:类人行为可不参考robots协议