《流浪地球》豆瓣影评的文本分析-基于R(一)数据采集

这篇博客介绍了如何使用R的rvest和stringr包进行豆瓣影评数据采集,通过爬取好评、中评和差评各200条,合并成600条数据。作者建议在学习数据采集前先掌握正则表达式,并列举了stringr包中常用函数。后续将进行情感分析。
摘要由CSDN通过智能技术生成

《流浪地球》豆瓣影评的文本分析-基于R(一)数据采集

准备以后没事儿更新一下博客,第一篇博客就从前段时间和小伙伴冯小可爱做的电影评论文本分析开始吧。

数据采集

爬取豆瓣数据的时候有一个问题,就是豆瓣只允许爬取前200条数据,基于R的话需要
安装动态爬取安装包,当时安装包没有安装上,于是想了一个小法子,爬取好评200条,中评200条,差评200条,将数据合并最终得到600条数据,虽然数据还是不多,不过基本满意,可以进行下面的操作。这里爬虫我使用的rvest包和stringr包。具体代码见下

首先提取了豆瓣全部200条数据的网页,基于网页提取评论

提取网页后将所有评论提取出来然后合并

到现在,想要的数据就爬取出来了可以继续进行下一步操作了。
这是采集评论的前20条,可以看一下。

在这里插入图片描述
其实简单的数据采集并不难,只要使用好rvest包中的几个函数就比较简单。针对于我的学习过程,我感觉可能比较难的是使用stringr包进行正则化表示,所以在学习数据采集之前最好还是现将基本的正则表达式规则学习一下。下面我介绍一下几个stringr中我常用的函数和基本的正则表达式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值