向量空间模型（VSM）与TF-IDF

最新推荐文章于 2021-04-04 19:48:29 发布

zhyueln

最新推荐文章于 2021-04-04 19:48:29 发布

阅读量4k

点赞数 3

分类专栏：机器学习文章标签： NLP TF-IDF 向量空间模型

本文链接：https://blog.csdn.net/zhyueln/article/details/82903184

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

向量空间模型，可用于计算文本相似度。
首先我们希望将文章向量化。可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量。

但如何提取文章的关键词和他的权重？ e.g. TF-IDF（词频-逆文档频率）
当然首先我们要对文档向量降维：去除文章中的停用词，e.g. 的，这，那，是 …
然后：

第一步，计算词频：

或

第二步，计算逆文档频率：

即判断每个词在该文章中的重要程度（权重），若在本文中出现的多，而平时又不常见，则该词更能体现文章的特性，即越重要，如一文中中国和蜂蜜词频相同，中国更常见，故蜂蜜相对更能体现主题。
（已经提供了语料库）词约常见，分母越大，IDF越小，

第三步，计算TF-IDF：

$TF \times逆文档频率(IDF)$

以上
自动提取关键词的算法。计算每个词的TF-IDF值，按降序排列，取排在最前面的几个词。
「
用处：
1.自动提取文档关键词；
2.信息检索。对于每篇文档，计算搜索词的TF-IDF值，值最高的文档即为与搜索词最相关的文档。
缺点：词频衡量标准，不全面；忽略了词的位置信息（对全文第一段和每段第一句，给予较大权重）。

」

对文章进行向量空间建模
文本用D(Document)表示，特征项（Term）用 $t_i$ 表示，即出现在文本D中且经过提取的能够代表D的内容的基本语言单位（方法 $e . g .$ TF-IDF）。于是文本可表示成D( $t_1$ , $t_2$ ,…, $t_n$ )。通常在建立向量空间模型时，一般会给每个特征项一个权值来表示该特征项对该文本的重要性，常见的是取TF-IDF值（ $w_i$ ）。
于是文章可用此向量表示：D( $t_1$ , $w_1$ ,…, $t_n$ , $w_n$ ) ,简化为D( $w_1$ , $w_2$ ,…, $w_n$ ) . 文本的向量表示
$e . g .$