2021-03-20

最新推荐文章于 2023-07-11 18:20:10 发布

Loser@jing

最新推荐文章于 2023-07-11 18:20:10 发布

阅读量170

点赞数 1

本文链接：https://blog.csdn.net/zjj1910066023/article/details/115031545

版权

TF-IDF计算文本相似度

在这里插入图片描述

下面我们介绍使用余弦相似度计算两段文本的相似度。思路：1、分词；2、列出所有词；3、分词编码；4、词频向量化；5、套用余弦函数计量两个句子的相似度。

句子A：这只皮靴号码大了。那只号码合适。
句子B：这只皮靴号码不小，那只更合适。

1、分词：
使用结巴分词对上面两个句子分词后，分别得到两个列表：
listA=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘大‘, ‘了‘, ‘那‘, ‘只‘, ‘号码‘, ‘合适‘]
listB=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘不小‘, ‘那‘, ‘只‘, ‘更合‘, ‘合适‘]

2、列出所有词，将listA和listB放在一个set中，得到：
set={‘不小’, ‘了’, ‘合适’, ‘那’, ‘只’, ‘皮靴’, ‘更合’, ‘号码’, ‘这’, ‘大’}
将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘这’:1这样的形式。
dict1={‘不小’: 0, ‘了’: 1, ‘合适’: 2, ‘那’: 3, ‘只’: 4, ‘皮靴’: 5, ‘更合’: 6, ‘号码’: 7, ‘这’: 8, ‘大’: 9}，可以看出“不小”这个词在set中排第1，下标为0。

3、将listA和listB进行编码，将每个字转换为出现在set中的位置，转换后为：
listAcode=[8, 4, 5, 7, 9, 1, 3, 4, 7, 2]
listBcode=[8, 4, 5, 7, 0, 3, 4, 6, 2]
我们来分析listAcode，结合dict1，可以看到8对应的字是“这”，4对应的字是“只”，9对应的字是“大”，就是句子A和句子B转换为用数字来表示。

4、对listAcode和listBcode进行oneHot编码，就是计算每个分词出现的次数。oneHot编号后得到的结果如下：
listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1]
listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0]
下图总结了句子从分词，列出所有词，对分词进行编码，计算词频的过程
在这里插入图片描述
5、得出两个句子的词频向量之后，就变成了计算两个向量之间夹角的余弦值，值越大相似度越高。
listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1]
listBcodeOneHot = [1, 0, 1, 1, 2, 1, 1, 1, 1, 0]

根据余弦相似度，句子A和句子B相似度很高。

部分内容摘自：https://blog.csdn.net/qq_20989105/article/details/89133856

Loser@jing

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
2021-03-20

TF-IDF计算文本相似度下面我们介绍使用余弦相似度计算两段文本的相似度。思路：1、分词；2、列出所有词；3、分词编码；4、词频向量化；5、套用余弦函数计量两个句子的相似度。句子A：这只皮靴号码大了。那只号码合适。句子B：这只皮靴号码不小，那只更合适。1、分词：使用结巴分词对上面两个句子分词后，分别得到两个列表：listA=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘大‘, ‘了‘, ‘那‘, ‘只‘, ‘号码‘, ‘合适‘]listB=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘,
复制链接

扫一扫