GBASE南大通用技术分享: 关于GBase UP数据库特征处理算法介绍

GBASE南大通用技术分享:

关于GBase UP数据库特征处理算法介绍:

其二:词频-逆文本频率(term frequency–inverse document frequency,TF-IDF)是一种用于信息检 索与数据挖掘的常用加权技术。 TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的 重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出 现的频率成反比下降。 TF-IDF 加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评 级;在自然语言处理领域,结合 TF-IDF 关键词抽取方法和中文具有的自然语言词语间相互关联 的特性,总结出的关键词提取技术是文本分类、文本聚类、信息检索等技术的基础,有着非常广 泛的应用;在新闻推荐系统中,通常使用 TF-IDF 权重技术结合余弦相似性度量方法,对海量的 新闻文稿进行分类处理。

GBASE南大通用数据库GBase UP词频-逆文本频率(TF-IDF) 算法介绍

如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF 实际上是:TF * IDF,TF 词频(Term Frequency),IDF 逆向文件频率(Inverse Document Frequency)。TF 表示词条 t 在文档 d 中出现的频 率。IDF 的主要思想是:如果包含词条 t 的文档越少,也就是 n 越小,IDF 越大,则说明词条 t 具 有很好的类别区分能力。如果某一类文档 C 中包含词条 t 的文档数为 m,而其它类包含 t 的文档 总数为 k,显然所有包含 t 的文档数 n = m + k,当 m 大的时候,n 也大,按照 IDF 公式得到的 IDF 的值会小,就说明该词条 t 类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频 繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权 重,并选来作为该类文本的特征词以区别与其它类文档。这就是 IDF 的不足之处。在一份给定的 文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字 是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件 有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来说,它的重要性可表示 为:

以上式子中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。 逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定 词语的 IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:

其中 |D| 是语料库中的文件总数;包含词语的文件数目(即的文件数目) 如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用

作为 分母。然后再计算 TF 与 IDF 的乘积: 。

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高 权重的 TF-IDF。因此,TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值