GBASE南大通用技术分享：关于GBase UP数据库特征处理算法介绍-CSDN博客

本文链接：https://blog.csdn.net/weixin_47390342/article/details/136644585

GBASE南大通用技术分享：

关于GBase UP数据库特征处理算法介绍：

其二：词频-逆文本频率（term frequency–inverse document frequency，TF-IDF）是一种用于信息检索与数据挖掘的常用加权技术。 TF-IDF 是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。 TF-IDF 加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级；在自然语言处理领域，结合 TF-IDF 关键词抽取方法和中文具有的自然语言词语间相互关联的特性，总结出的关键词提取技术是文本分类、文本聚类、信息检索等技术的基础，有着非常广泛的应用；在新闻推荐系统中，通常使用 TF-IDF 权重技术结合余弦相似性度量方法，对海量的新闻文稿进行分类处理。

GBASE南大通用数据库GBase UP词频-逆文本频率(TF-IDF) 算法介绍

如果某个词或短语在一篇文章中出现的频率 TF 高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF 实际上是：TF * IDF，TF 词频(Term Frequency)，IDF 逆向文件频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d 中出现的频率。IDF 的主要思想是：如果包含词条 t 的文档越少，也就是 n 越小，IDF 越大，则说明词条 t 具有很好的类别区分能力。如果某一类文档 C 中包含词条 t 的文档数为 m，而其它类包含 t 的文档总数为 k，显然所有包含 t 的文档数 n = m + k，当 m 大的时候，n 也大，按照 IDF 公式得到的 IDF 的值会小，就说明该词条 t 类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语来说，它的重要性可表示为：