自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 使用R语言进行文本特征提取的四种方法(三) —— 基于word2vec的词嵌入

word2vec是一组用于生成词向量的自然语言处理工具,主要是基于双层神经网络,经过训练后可以为单词生成一个向量空间,为每一 个单词都分配一个向量。在生成的向量空间中,意思越相近的单词向量之间的距离越小,反之则越大。 word2vec有两种模式,分别是CBOW 和skip-gram。前者的全称是“Continuous Bag-Of-Words”,即连续词袋模型,它能够在一定长度的窗口中根据上下文的单词(不分顺序)来预测当前词。后者的全称是“continuous skip-gr...

2021-11-12 12:15:29 2400

原创 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

在对一段文本进行分词之后,有的词出现的次数会比较多,因此往往对其出现的频次进行统计,作为该词重要程度的度量。基于这个思想,词频(Term Frequency,TF)被广泛应用于基本的文本数据挖掘。在实际应用中,分词过后经常出现的词包含一些常用而又不带有信息量的词,例如中文里面的“的”“了”“呢”,英文中的“the”“it”“is”。 为了在评估的时候降低这种词的重要性比重,产生了逆文档频率(Inverse Document Frequency,IDF)这一概 念。它的计算公式为...

2021-11-12 09:28:22 1379 1

原创 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取

文本的基本特征可以由内容以及与内容无关的一些形式诸如字符的数量、句子的数量、每个词的长度、标点符号等。在R语言中,textfeatures包提供了从字符对象中提取这些基本特征的便捷方法,而且使用起来极其便捷。以下结合实例进行说明。 所要分析的数据对象为2020年新冠疫情期间微博热搜话题数据,数据样式如下图所示:#首先进行数据处理library(readxl)library(tidyverse)library(dplyr)orders <- read_exc...

2021-11-10 15:56:50 1143

原创 Rstudio将excel数据导入并将数据框其中一列转变为字符串或向量

以2020年新冠疫情期间爬取的部分微博热搜内容为例,爬取数据存储在excel表格中,将数据命名为Weibo_2020Coron.xlsx,数据样式如下:在这里要提示大家:最好将Rstudio文件和数据存储在一个文件夹下便于数据导入!!!library(readxl)library(tidyverse)orders <- read_excel("Weibo_2020Coron.xlsx") %>% #导入数据 select("title") #只保留"titl.

2021-11-10 14:42:04 6758

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除