爬虫基础简介

最新推荐文章于 2024-06-25 23:49:22 发布

*一闪一闪亮晶晶*

最新推荐文章于 2024-06-25 23:49:22 发布

阅读量1.4k

点赞数 18

文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74118846/article/details/135629180

版权

爬虫带来的风险

爬虫干扰了被访问网站的正常运营
爬虫爬取了受到法律保护的特定类型的数据或信息

如何正确使用爬虫

时长优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取或传播

爬虫的分类

通用爬虫：搜索引擎抓取系统（封装的爬虫程序）的重要组成部分。抓取的是互联网中的一整张页面数据
聚焦爬虫：建立在通用爬虫的基础之上。抓取的是页面中的局部内容先使用通用爬虫，再使用聚焦爬虫
增量式爬虫：检测网站中数据更新的情况,只会爬取网站中更新的数据

反爬机制

相关门户网站可以通过指定相应的策略或技术手段防止爬虫程序进行网站数据的爬取

反反爬策略

爬虫程序也能应用相关技术破解反爬机制

robots.txt协议

规定了网站中哪些能够被爬虫爬取，哪些不能被爬取

robots文件是一个纯文本文件，也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。因此，robots的优化会直接影响到搜索引擎对网站的收录情况。

robots文件必须要存放在网站的根目录下。也就是域名/robots.txt 是可以访问文件的。

> <https://taobao.com/robots.txt>

> 更多关于robots协议的见：<https://zhuanlan.zhihu.com/p/342575122>

>

http协议纯文本传输协议

概念：就是服务器与客户端进行数据交互的一种形式。
常用的请求头信息：

User-Agent:请求载体的身份标识
Connection：请求完毕后是断开连接还是保持连接。

常用的相应头信息：

Content-Type:服务器响应回客户端的数据类型

https协议安全的http（超文本传输协议）协议

区别：比http多了数据加密
加密方式：

对称密钥加密：客户端把要发送给服务器的数据进行加密（密文），将密文和密钥一起打包发给服务器端，服务器就能使用密钥把数据解密，从而使用数据。但是在数据传输过程中密文和密钥容易同时被截取就会被第三方获取到数据。
非对称密钥加密:服务器将“公开密钥”发送给客户端，客户端按照公密将数据加密后再把数据发送给服务器，服务器接受到信息在通过自己的“私有密钥”进行解密。解密的要是根本就不会进行传输，因此也就避免了被挟持的风险的。但这种方式的效率比较低，处理起来比较复杂；如何保证接收端想发送端发出公开密钥的时候，发送端确保收到的是预先要发送的，而不会被挟持，只要是发送密钥就有可能有被挟持的风险。

证书密钥加密https采用的加密方式:服务器端指定加密方式（公钥），发送给证书认证机构审核公钥，对公钥进行数字签名用于防伪，将防伪后的公钥封装到证书中，再将证书发送给客户端。客户端接受公钥后，使用携带数字签名的公钥对数据进行加密，发送给服务器，服务器再使用私钥解密。能够保证客户端接受到的公钥是服务器发来的

*一闪一闪亮晶晶*

关注

18
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
爬虫基础简介

简单介绍了关于Python爬虫的相关概念以及反爬机制和反反爬策略
复制链接

扫一扫

*一闪一闪亮晶晶* CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

113万+: 周排名

6万+: 总排名

9947: 访问

: 等级

356: 积分

195: 粉丝

241: 获赞

6: 评论

172: 收藏

私信

关注

热门文章

最新评论

vue简介
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“vue简介”确实很吸引人。您在博客中对vue进行了简洁明了的介绍，让读者对vue有了初步的了解。接下来，我建议您可以进一步探索vue的各个方面，如vue的组件化开发、响应式原理等，这将为读者提供更深入的知识和实践指导。请继续保持创作，并期待您更多有见地的博客！
JavaScript基础
CSDN-Ada助手: 恭喜你写了第7篇博客！JavaScript基础是一个很重要的话题，你写得非常好。接下来，我建议你可以尝试深入一些JavaScript的高级特性或者一些实际应用场景的案例分析，这样可以让读者更加深入地了解JavaScript的知识。当然，我知道你一定会写得很棒的！加油！
爬虫数据解析
CSDN-Ada助手: 恭喜作者能够写出这样一篇精彩的博客！对于爬虫数据解析这一主题，您的文章写得非常详细和清晰，让读者能够轻松理解并学习。希望您能够继续保持创作的热情，不断分享更多有价值的知识和经验。或许在下一篇博客中，可以结合实际案例，分享一些数据解析中的技巧和注意事项，让读者能够更加深入地了解这一领域。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Web简介
CSDN-Ada助手: 恭喜您写了第四篇博客！对于Web的简介，您的介绍清晰明了，让读者快速了解了Web的基本概念。希望您能继续保持创作的热情，不断分享更多有趣的内容。或许下一步可以深入探讨Web的发展历程或者未来趋势，让读者对Web有更深入的了解。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
HTTP协议
CSDN-Ada助手: 恭喜作者撰写了关于HTTP协议的博客，内容详尽，让人受益匪浅。希望作者能够继续保持创作的热情和动力，不断丰富博客内容，可以尝试探讨一些与HTTP协议相关的实际应用案例，让读者更加深入地理解和应用这一知识。期待作者的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。