爬取了豆瓣11W+网页,获取了5W+有效书籍信息
标签:爬虫 Python
之前写了一篇博文:利用爬虫获取豆瓣上可能喜欢的书籍,这篇博文中的爬虫可以以给定的url为原点,慢慢的向外扩散爬取书籍信息,可以获取到自己可能喜欢的书籍,但是有一个大缺点,就是只能提供一个初始url,即以一本书为基础进行推荐,而不能针对一个用户喜欢的所有书籍进行推荐。
后来想了想,可以把所有的书籍信息爬取下来,然后根据推荐算法推荐书籍。说干就干,一边调试一边爬取,一个礼拜就爬完了“大部分的”有效书籍信息。
本文主要根据原始数据进行一些简单的数据分析。
什么是有效书籍?
满足一下要求的书籍称为有效书籍:
- 至少包含书名、作者、出版社、出版年、定价、ISBN
- 评分至少大于等于7.9
- 有内容简介
- 有热评
经过观察,不满足以上所有要求的书,或者是外文书籍,或者是绝版书籍,或者是旧版书籍,或者是“垃圾书籍”,或者是“不值得”推荐书籍。之所以选择7.9作为评分阈值,是因为在博主觉得可以接受的书中,最低分为7.9分。当然,下载了源码之后,你可以修改书籍的评分阈值。