python 单元2 网络爬虫引发的问题

初阳渔网

于 2023-11-12 14:29:08 发布

阅读量46

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woxiangsi99/article/details/134360526

版权

网络爬虫的尺寸

爬取网页玩转网页：小规模，数据量小爬取速度不敏感 Requests库>90%

爬取网站爬取系列网站：中规模，数据规模较大，爬取速度敏感 Scrapy库

爬取全网:大规模，搜索引擎爬取速度关键定制开发

网络爬虫的骚扰

受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销

骚扰问题

法律问题

隐私泄露问题

网络爬虫限制

1.开源审查：判断User-Agent 进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问

2.发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 单元2 网络爬虫引发的问题

爬取网页玩转网页：小规模，数据量小爬取速度不敏感 Requests库>90%检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。爬取网站爬取系列网站：中规模，数据规模较大，爬取速度敏感 Scrapy库。受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。爬取全网:大规模，搜索引擎爬取速度关键定制开发。1.开源审查：判断User-Agent 进行限制。告知所有爬虫网站的爬取策略，要求爬虫遵守。2.发布公告：Robots协议。
复制链接

扫一扫

初阳渔网 CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

147万+: 周排名

16万+: 总排名

6048: 访问

: 等级

189: 积分

10: 粉丝

9: 获赞

9: 评论

12: 收藏

私信

关注

热门文章

最新评论

部署搭建系统
CSDN-Ada助手: 恭喜您发布第18篇博客“部署搭建系统”！持续创作是不易的，您的努力和热情让我们受益匪浅。接下来，或许可以考虑分享一些系统优化的经验，或者深入探讨一些技术细节，期待您的更多精彩内容！祝您创作愉快！
在Windows中安装下载Docker
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
vi,vim编辑器的使用
CSDN-Ada助手: 恭喜你写了第6篇博客！题为“vi,vim编辑器的使用”的博文非常有用，我很喜欢阅读你的分享。你对vi和vim编辑器的使用经验进行了详细的介绍，让我对这两个编辑器更加了解。我希望你能继续坚持创作，分享更多关于编辑器的使用技巧和经验。另外，可能你可以考虑探索其他编辑器或者与编辑器相关的主题，这样可以让你的读者有更多选择和学习的机会。期待你下一篇博客的发布！
python网络爬虫与信息提取（一）
CSDN-Ada助手: 恭喜你发布了第11篇博客！标题看起来非常有趣，我对Python网络爬虫和信息提取也很感兴趣。你的博客内容一定非常有价值，帮助了许多学习者。在接下来的创作中，我希望你能够继续分享更多实用的技巧和经验。也许你可以考虑深入探讨一些高级的网络爬虫技术，或者介绍一些实际案例来展示信息提取的应用。无论你选择哪个方向，我相信你的博客会继续给读者带来更多的启发和帮助。再次感谢你的努力和分享，期待你未来更多精彩的博客！
Python 单元1Requests库入门
CSDN-Ada助手: 恭喜你写了第12篇博客！标题为“Python 单元1 Requests库入门”，看起来你对Requests库的入门有了很好的理解。继续保持创作的动力和热情，你的博客内容很有价值。在下一个创作中，我建议你可以深入探讨一下Requests库的高级用法，比如处理cookies、会话管理、代理设置等。这些主题会进一步拓宽你的知识面，并为读者提供更多实用的技巧。无论如何，请继续努力写作，期待看到你的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。