快乐星黛露-CSDN博客

原创使用R语言进行文本特征提取的四种方法(三) —— 基于word2vec的词嵌入

word2vec是一组用于生成词向量的自然语言处理工具，主要是基于双层神经网络，经过训练后可以为单词生成一个向量空间，为每一个单词都分配一个向量。在生成的向量空间中，意思越相近的单词向量之间的距离越小，反之则越大。 word2vec有两种模式，分别是CBOW 和skip-gram。前者的全称是“Continuous Bag-Of-Words”，即连续词袋模型，它能够在一定长度的窗口中根据上下文的单词（不分顺序）来预测当前词。后者的全称是“continuous skip-gr...

2021-11-12 12:15:29 2447

原创针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

在对一段文本进行分词之后，有的词出现的次数会比较多，因此往往对其出现的频次进行统计，作为该词重要程度的度量。基于这个思想，词频（Term Frequency，TF）被广泛应用于基本的文本数据挖掘。在实际应用中，分词过后经常出现的词包含一些常用而又不带有信息量的词，例如中文里面的“的”“了”“呢”，英文中的“the”“it”“is”。为了在评估的时候降低这种词的重要性比重，产生了逆文档频率（Inverse Document Frequency，IDF）这一概念。它的计算公式为...

2021-11-12 09:28:22 1431 1

原创针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取

文本的基本特征可以由内容以及与内容无关的一些形式诸如字符的数量、句子的数量、每个词的长度、标点符号等。在R语言中，textfeatures包提供了从字符对象中提取这些基本特征的便捷方法，而且使用起来极其便捷。以下结合实例进行说明。所要分析的数据对象为2020年新冠疫情期间微博热搜话题数据，数据样式如下图所示：#首先进行数据处理library(readxl)library(tidyverse)library(dplyr)orders <- read_exc...

2021-11-10 15:56:50 1154

原创 Rstudio将excel数据导入并将数据框其中一列转变为字符串或向量

以2020年新冠疫情期间爬取的部分微博热搜内容为例，爬取数据存储在excel表格中，将数据命名为Weibo_2020Coron.xlsx，数据样式如下：在这里要提示大家：最好将Rstudio文件和数据存储在一个文件夹下便于数据导入！！！library(readxl)library(tidyverse)orders <- read_excel("Weibo_2020Coron.xlsx") %>% #导入数据 select("title") #只保留"titl.

2021-11-10 14:42:04 6842

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用R语言进行文本特征提取的四种方法(三) —— 基于word2vec的词嵌入

原创 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

原创 针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取

原创 Rstudio将excel数据导入并将数据框其中一列转变为字符串或向量

空空如也

空空如也

原创使用R语言进行文本特征提取的四种方法(三) —— 基于word2vec的词嵌入

原创针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(二) —— 基于TF-IDF的特征提取

原创针对新冠肺炎微博热搜话题使用R语言进行文本特征提取的四种方法(一) —— 基本特征提取