bind_tf_idf()
函数是tidytext包中的一个函数,用于计算TF-IDF(Term Frequency-Inverse Document Frequency)值。它的作用是将词频(TF)和逆文档频率(IDF)相乘,得到每个词语在文档中的重要性。
该函数的用法如下所示:
bind_tf_idf(data, term, document, n)
其中,参数说明如下:
data
:包含词频信息的数据框或数据表。term
:表示词语的列名或变量名。document
:表示文档编号的列名或变量名。n
:表示词频的列名或变量名。
该函数会返回一个新的数据框或数据表,其中包含了每个词语的TF-IDF值。
范例:
library(tidyverse) library(tidytext) # 导入数据 order <- read_excel("E:/code/data/data mining/Weibo_2020Coron.xlsx") %>% select("id", "title") # 分词与计数 order %>% unnest_tokens(title, title) %>% count(id, title) -> count_table # 计算TF-IDF count_table %>% bind_tf_idf(title, id, n)