《流浪地球》豆瓣影评的文本分析-基于R(一)数据采集
准备以后没事儿更新一下博客,第一篇博客就从前段时间和小伙伴冯小可爱做的电影评论文本分析开始吧。
数据采集
爬取豆瓣数据的时候有一个问题,就是豆瓣只允许爬取前200条数据,基于R的话需要
安装动态爬取安装包,当时安装包没有安装上,于是想了一个小法子,爬取好评200条,中评200条,差评200条,将数据合并最终得到600条数据,虽然数据还是不多,不过基本满意,可以进行下面的操作。这里爬虫我使用的rvest包和stringr包。具体代码见下
首先提取了豆瓣全部200条数据的网页,基于网页提取评论
提取网页后将所有评论提取出来然后合并
到现在,想要的数据就爬取出来了可以继续进行下一步操作了。
这是采集评论的前20条,可以看一下。
其实简单的数据采集并不难,只要使用好rvest包中的几个函数就比较简单。针对于我的学习过程,我感觉可能比较难的是使用stringr包进行正则化表示,所以在学习数据采集之前最好还是现将基本的正则表达式规则学习一下。下面我介绍一下几个stringr中我常用的函数和基本的正则表达式。