爬虫基础(2)

最新推荐文章于 2024-06-05 19:29:20 发布

Fergus awsl

最新推荐文章于 2024-06-05 19:29:20 发布

阅读量174

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_43650411/article/details/90721710

版权

本文介绍了网络爬虫可能遇到的反爬措施，包括服务器负荷限制、产权法律风险和隐私保护。讲解了Web端如何通过User-Agent、Referer和Authorization等HTTP头部信息来限制非正常访问，并以Fiddler为例展示了抓包工具在识别这些信息中的作用。此外，还提及了JS动态加载和需要登录的情况，以及如何通过Fiddler辅助分析和应对反爬策略。

摘要由CSDN通过智能技术生成

“盗亦有道 ”
反爬小知识
抓包工具Fiddler

“盗亦有道”

爬虫尺寸
问题
- 限于编写者的水平与目的，给服务器带来具大负荷，“性能骚扰”
- 产权归属问题，获取数据后牟利有法律风险
- 隐私泄露
Web端会对网络爬虫的限制
- 来源审查
  检查来访HTTP协议
- 发布公告
  告知看爬取策略，要求遵守。可在根目录下查看网站公告，如：
  http://www.baidu.com/robots.txt
  http://news.qq.com/robots.txt

反爬

检查HTTP协议头的User-Agent域，只响应浏览器

# 模拟标准浏览器：mozilla/5.0；Chrom/10
>>> kv = {'user-agent':'Mozilla/5.0'}
>>> url = 'https://www.amazon.cn/gp/product/B01M8L5z3Y'
>>> r = requests.get(

最低0.47元/天解锁文章

Fergus awsl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录