爬虫的初始深入

最新推荐文章于 2024-07-12 17:01:23 发布

那个她，

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量139

点赞数

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44189343/article/details/105220594

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫再使用场景中的分类

1.通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据。
2.聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
3.增量式爬虫：检测网站中数据更新的情况。只会抓取网站中最新更细出来的数据。

爬虫的矛盾

反爬机制：

相关的门户网站通过定制相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

反反爬策略：

爬虫程序通过制定相关的策略或者技术手段用来破解门户网站具备的反爬机制，从而获取门户网站中的相关数据。

robots.txt协议

robots协议明确规定了网站中哪些数据可以被网站爬取，哪些数据不可以被爬取。
访问方法：域名/robots.txt 例如：www.taobao.com/robots.txt

爬虫带来的风险：

1.爬虫干扰了被访问网站的正常运营。
2.爬虫抓取了受到法律保护的特定类型的数据或信息。

如何在使用编写爬虫的过程中避免风险

1.时常优化自己的程序，避免干扰被访问网站的正常运行。
2.在使用或者传播爬取到的数据时，审查抓取到的内容，如果发现涉及到用户隐私或者商业机密等敏感内容需要及时停止爬取或传播。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

那个她， CSDN认证博客专家 CSDN认证企业博客

码龄6年

20: 原创

15万+: 周排名

208万+: 总排名

1万+: 访问

: 等级

360: 积分

7: 粉丝

32: 获赞

10: 评论

81: 收藏

私信

关注

热门文章

分类专栏

#随笔 12篇
数据分析 1篇
mysql 1篇
爬虫 11篇
Numpy 4篇
matplotlib 1篇
pandas 1篇
线程

最新评论

Numpy高级索引
君忘逝梦繁华: 例三的print(c)的结果应该是： [[5 6] [8 9]] 我搁着看了半天，怎么都想不通，运行一下结果和你的不一样
通过网易云API爬取评论
亲爱的三姐，我爱你: 可以问问R_SO那个文件在哪找吗
通过网易云API爬取评论
让小五飞一会儿: 太强了，看了解密的文，没看懂，你这个一下就出来了
关于Python安装wordcloud库的方法和出现问题的解决方法
墨鸦and白凤: 这个我也有，就是说你的有新版本可以更新，不用管，可以正常使用
关于Python安装wordcloud库的方法和出现问题的解决方法
泽didi: 后面升级完也不行更改路径也不太对后面直接全部卸载安装过了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。