一、学习内容(链接)
注:本文章涉及内容均来自以上学习链接
二、学习过程
(一)微博数据抓取
(二)豆瓣数据
首先,将网页的书和网址先爬取出来
其次,再分别对里面的每一本书进行提取详细内容:
三.练习与思考
1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么?
在信息化时代,爬取网络数据可以提高工作和学习效率,节省大量时间和成本。八爪鱼抓取的微博数据其实是模拟人浏览网页,将这个工作速度加快,微博网页上的信息都是用户在遵守相应守则情况下,愿意共享的信息,不算是爬取私人隐私数据(除非用户将自己的一些私人信息放在微博上)。
所以在使用过程中,应当注意,如果爬虫程序采集了商业机密或公民个人信息(包括但不限于公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等)这些就算是抓取了个人隐私数据。因此:
- 要明确自己制作的爬虫程序是否涉及抓取对象的个人信息,如社交信息、财产信息、联系信息等;
- 要明确自己爬取的数据是否涉及国防安全、商业机密以及其它相关敏感信息
- 要明确自己的爬虫程序是否会对对方服务器的的正常运营产生相应的影响
参考链接:
https://www.bazhuayu.com/tutorial8/81azwthz
https://zhuanlan.zhihu.com/p/88872696
2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面?
如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题
3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么?