- 目录
- “盗亦有道 ”
- 反爬小知识
- 抓包工具Fiddler
- “盗亦有道”
- 爬虫尺寸
- 问题
- 限于编写者的水平与目的,给服务器带来具大负荷,“性能骚扰”
- 产权归属问题,获取数据后牟利有法律风险
- 隐私泄露
- Web端会对网络爬虫的限制
- 来源审查
检查来访HTTP协议 - 发布公告
告知看爬取策略,要求遵守。可在根目录下查看网站公告,如:
http://www.baidu.com/robots.txt
http://news.qq.com/robots.txt
- 来源审查
- 反爬
- 检查HTTP协议头的User-Agent域,只响应浏览器
# 模拟标准浏览器:mozilla/5.0;Chrom/10 >>> kv = {'user-agent':'Mozilla/5.0'} >>> url = 'https://www.amazon.cn/gp/product/B01M8L5z3Y' >>> r = requests.get(
- 检查HTTP协议头的User-Agent域,只响应浏览器