以2020年新冠疫情期间爬取的部分微博热搜内容为例,爬取数据存储在excel表格中,将数据命名为Weibo_2020Coron.xlsx,数据样式如下:
在这里要提示大家:最好将Rstudio文件和数据存储在一个文件夹下便于数据导入!!!
library(readxl)
library(tidyverse)
orders <- read_excel("Weibo_2020Coron.xlsx") %>% #导入数据
select("title") #只保留"title"一列
在Rstudio中查看导入的数据情况,如下图所示:
由于之后想要进行的文本特征提取、情感分析、可视化等都需要将数据框中的title列存储为字符串样式,下面将分别进行介绍。
1.均为单独的字符串,并未连接为整个字符串
order <- orders$title #当数据框里面title列本来就是字符串类型的时候
order <- as.character(orders$title) #当数据框里面title列不是字符串类型的时候
输出的order形式为:
2.输出为整个字符串
order <- paste(orders$title[1:3276],sep = "",collapse=",")
输出的order形式为: