引言
为了能更方便地选择自己喜欢的书籍,我自己写了一个Scrapy项目用来抓取豆瓣上的书籍。抓取的内容包括书籍的书名、作者、书信息、1到5星的百分数、评分和评论数。通过获取到的这些数据,我们可以做相应的分析。比如:我们可以抓取某一类书箱,看看哪本书的评论数最多或者评价分数最高。当然了,我指的这个是最简单的处理了。复杂一点的你可以用Python或R来分析相应变量之间的关系,比如:是否评论数越多书的评分越高?
总之,有了这些数据之后你可以做任何你想要的数据分析,你可以尽情地发挥自己的想像力。
安装Scrapy
如果你的操作系统是ubuntu : 请参考Ubuntu 安装Scrapy
如果你的操作系统是Mac OS X : 请参考Mac 安装Scrapy
如果你的操作系统是Windows:请参考Windows 安装Scrapy
运行爬虫
如果你已经安装了Python和Scrapy,你可以运行一下我写好的爬虫了。具体步骤请参考:运行爬虫
抓取到的数据部分截图如下: