csdn博客推荐系统实战-1文本相似度-TF-IDF模型和余弦相似度

最新推荐文章于 2025-03-26 20:37:24 发布

王睿编程20年

最新推荐文章于 2025-03-26 20:37:24 发布

阅读量4k

点赞数 8

分类专栏：推荐系统实战文章标签： csdn python tf-idf 相似性推荐余弦相似度 gensim 结巴分词

本文链接：https://blog.csdn.net/worryabout/article/details/79792880

版权

推荐系统实战专栏收录该内容

16 篇文章

订阅专栏

github:https://github.com/worry1613/csdn-blog-recommend

数据集下载地址 https://pan.baidu.com/s/1qzJDmpzAMe1vmtvuCXSfIw

数值型数据相似度计算可以用那些传统的算法，余弦，欧氏，Jaccard，曼哈顿，传统算法总共11种。这些算法都是处理数值型数据的，可现在是文本比较，没有数字，怎么用这样算法呢？那就把文字转换成数学的内容(向量)叫，文字向量化，对于向量数据，就可以用那些算法了。

向量空间模型(VSM)

就是文字向量化的官方说法。

向量空间模型(VSM, Vector SpaceModel)由Salton等人于20世纪70年代年提出。向量空间模型的主要思想是将文本内容的处理简化为向量空间中的向量运算，这样将空间上的相似度转化为语义上的相似度。当文档被表示为文档空间的向量时，便可通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似度计算方式是余弦距离。

向量空间模型的基本思想：

给定一篇文档D=D(T₁,T₂,…T_i,…,T_n)，若T_i在文档中既可以重复出现又存在先后次序，因此分析起来会较为困难。针对上述情况，暂不考虑T_i的顺序，并要求T_i互异，此时可将T₁,T₂,…T_i,…,T_n看作n维坐标，每一维对应相应值W_i，因此D(W₁,W₂,…,W_i,…,W_n)便可以看作一个n维向量。

最简单应用非常广泛的模型就是词袋模型。把一篇文本想象成一个个词构成的，所有词放入一个袋子里，没有先后顺序、没有语义。

A：我喜欢看电视，不喜欢看电影。

B：我不喜欢看电视，也不喜欢看电影。

1.分词

句子A：我/喜欢/看/电视，不/喜欢/看/电影。

句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

2.写出所有的词

我，喜欢，看，电视，电影，不，也。

3.统计词频

句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

4.写出词频向量

句子A：[1, 2, 2, 1, 1, 1, 0]

句子B：[1, 2, 2, 1, 1, 2, 1]

2个句子已经被转换成了2个向量。使用余弦相似度公式处出结果如下

结果越接近1，就表示2个相量越相似。

上面的例子，把句子转换成了向量，是以词频为依据的，词频就是词在句子中出现的次数。只用词和词频来计算相似度，可以吗？还有更好的算法吗？当然有，那就是TF-IDF模型。

TF-IDF模型

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时，我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。