词频-逆文档频率(TF-IDF) 词频-逆文档频率(term frequency - inverse document frequency,TF-IDF),由词频(TF)和逆文档频率(IDF)两部分组成。给定语料库 D = { d j } \mathcal{D} = \{ d_{j} \} D={ dj}, n i , j 表 示 n_{i, j}表示 ni,j表示词条 t i t_{i} ti在文档 d j d_{j} dj中出现的次数。 词频(TF):词条 t i t_{i} ti在文档 d j d_{j} dj中的出现的频率 TF i , j = n i , j ∑ k