爬取了豆瓣11W+网页,获取了5W+有效书籍信息

博主通过爬虫获取了豆瓣11W+网页的5W+有效书籍信息,分析了有效书籍的定义、评分趋势和出版社分布。发现评分7.9分以上、有简介和热评的书籍受欢迎,同时揭示了用户口味的共通性。此外,还探讨了技术书籍出版社的排名,并指出存在无法访问的书籍页面现象。
摘要由CSDN通过智能技术生成

爬取了豆瓣11W+网页,获取了5W+有效书籍信息

标签:爬虫 Python


之前写了一篇博文:利用爬虫获取豆瓣上可能喜欢的书籍,这篇博文中的爬虫可以以给定的url为原点,慢慢的向外扩散爬取书籍信息,可以获取到自己可能喜欢的书籍,但是有一个大缺点,就是只能提供一个初始url,即以一本书为基础进行推荐,而不能针对一个用户喜欢的所有书籍进行推荐。

后来想了想,可以把所有的书籍信息爬取下来,然后根据推荐算法推荐书籍。说干就干,一边调试一边爬取,一个礼拜就爬完了“大部分的”有效书籍信息。

本文主要根据原始数据进行一些简单的数据分析。

什么是有效书籍?

满足一下要求的书籍称为有效书籍

  • 至少包含书名、作者、出版社、出版年、定价、ISBN
  • 评分至少大于等于7.9
  • 有内容简介
  • 有热评

经过观察,不满足以上所有要求的书,或者是外文书籍,或者是绝版书籍,或者是旧版书籍,或者是“垃圾书籍”,或者是“不值得”推荐书籍。之所以选择7.9作为评分阈值,是因为在博主觉得可以接受的书中,最低分为7.9分。当然,下载了源码之后,你可以修改书籍的评分阈值。

爬虫都爬取了哪些信息

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值