《流浪地球》豆瓣影评的文本分析-基于R（一）数据采集

最新推荐文章于 2021-06-30 21:52:06 发布

weixin_43727564

最新推荐文章于 2021-06-30 21:52:06 发布

阅读量1.1k

点赞数

分类专栏：《流浪地球》文本分析文章标签：数据采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43727564/article/details/96423937

版权

这篇博客介绍了如何使用R的rvest和stringr包进行豆瓣影评数据采集，通过爬取好评、中评和差评各200条，合并成600条数据。作者建议在学习数据采集前先掌握正则表达式，并列举了stringr包中常用函数。后续将进行情感分析。

摘要由CSDN通过智能技术生成

《流浪地球》豆瓣影评的文本分析-基于R（一）数据采集

数据采集

准备以后没事儿更新一下博客，第一篇博客就从前段时间和小伙伴冯小可爱做的电影评论文本分析开始吧。

数据采集

爬取豆瓣数据的时候有一个问题，就是豆瓣只允许爬取前200条数据，基于R的话需要
安装动态爬取安装包，当时安装包没有安装上，于是想了一个小法子，爬取好评200条，中评200条，差评200条，将数据合并最终得到600条数据，虽然数据还是不多，不过基本满意，可以进行下面的操作。这里爬虫我使用的rvest包和stringr包。具体代码见下

首先提取了豆瓣全部200条数据的网页，基于网页提取评论

提取网页后将所有评论提取出来然后合并

到现在，想要的数据就爬取出来了可以继续进行下一步操作了。
这是采集评论的前20条，可以看一下。

在这里插入图片描述
其实简单的数据采集并不难，只要使用好rvest包中的几个函数就比较简单。针对于我的学习过程，我感觉可能比较难的是使用stringr包进行正则化表示，所以在学习数据采集之前最好还是现将基本的正则表达式规则学习一下。下面我介绍一下几个stringr中我常用的函数和基本的正则表达式。

最低0.47元/天解锁文章

weixin_43727564

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weixin_43727564 CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

153万+: 周排名

203万+: 总排名

1178: 访问

: 等级

24: 积分

0: 粉丝

0: 获赞

0: 评论

5: 收藏

私信

关注

热门文章

《流浪地球》豆瓣影评的文本分析-基于R（一）数据采集 1179

分类专栏

《流浪地球》文本分析 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。