Task02打卡：自动识别初体验

最新推荐文章于 2024-08-21 23:40:53 发布

xiaoyu471

最新推荐文章于 2024-08-21 23:40:53 发布

阅读量90

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoyu471/article/details/119738449

版权

一、学习内容（链接）

自动识别初体验

注：本文章涉及内容均来自以上学习链接

二、学习过程

（一）微博数据抓取

（二）豆瓣数据

首先，将网页的书和网址先爬取出来

其次，再分别对里面的每一本书进行提取详细内容：

三.练习与思考

1.抓取的微博数据算不算是个人隐私数据，在使用中需要注意什么？

在信息化时代，爬取网络数据可以提高工作和学习效率，节省大量时间和成本。八爪鱼抓取的微博数据其实是模拟人浏览网页，将这个工作速度加快，微博网页上的信息都是用户在遵守相应守则情况下，愿意共享的信息，不算是爬取私人隐私数据（除非用户将自己的一些私人信息放在微博上）。

所以在使用过程中，应当注意，如果爬虫程序采集了商业机密或公民个人信息（包括但不限于公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等）这些就算是抓取了个人隐私数据。因此：

要明确自己制作的爬虫程序是否涉及抓取对象的个人信息，如社交信息、财产信息、联系信息等；
要明确自己爬取的数据是否涉及国防安全、商业机密以及其它相关敏感信息
要明确自己的爬虫程序是否会对对方服务器的的正常运营产生相应的影响

参考链接：

https://www.bazhuayu.com/tutorial8/81azwthz

https://zhuanlan.zhihu.com/p/88872696

2.设置Cookie登陆的优势是什么？Cookie在手机和电脑使用中体现在哪些方面？

如果我们能在打开网页时使用指定的Cookie，这样网页就能辨别我们的身份，从而避免了每次登陆网站需要登陆的问题

3.豆瓣图书数据采集中选择第一个思路的优势是什么？选择第二个思路的优势是什么？

参考链接：https://www.bazhuayu.com/tutorial8/81xsrm9

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。