Task02打卡:自动识别初体验

一、学习内容(链接)

自动识别初体验

  1. 微博数据抓取(登陆Cookie设置)
  2. 豆瓣图书数据抓取(翻页与循环)
  3. 采集流程逻辑*
  4. 练习与思考

注:本文章涉及内容均来自以上学习链接

二、学习过程

(一)微博数据抓取

视频1

(二)豆瓣数据

首先,将网页的书和网址先爬取出来

视频2

其次,再分别对里面的每一本书进行提取详细内容:

视频3

三.练习与思考

1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?

在信息化时代,爬取网络数据可以提高工作和学习效率,节省大量时间和成本。八爪鱼抓取的微博数据其实是模拟人浏览网页,将这个工作速度加快,微博网页上的信息都是用户在遵守相应守则情况下,愿意共享的信息,不算是爬取私人隐私数据(除非用户将自己的一些私人信息放在微博上)。

所以在使用过程中,应当注意,如果爬虫程序采集了商业机密或公民个人信息(包括但不限于公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等)这些就算是抓取了个人隐私数据。因此:

  • 要明确自己制作的爬虫程序是否涉及抓取对象的个人信息,如社交信息、财产信息、联系信息等;
  • 要明确自己爬取的数据是否涉及国防安全、商业机密以及其它相关敏感信息
  • 要明确自己的爬虫程序是否会对对方服务器的的正常运营产生相应的影响

 

参考链接:

https://www.bazhuayu.com/tutorial8/81azwthz

https://zhuanlan.zhihu.com/p/88872696

2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?

如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题

3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?

参考链接:https://www.bazhuayu.com/tutorial8/81xsrm9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值