三、NLP中的句子关系判断

zly_ir

已于 2024-03-13 10:57:55 修改

阅读量1.2k

点赞数 22

分类专栏： NLP自然语言处理文章标签：自然语言处理人工智能

于 2024-03-13 10:57:32 首次发布

本文链接：https://blog.csdn.net/zly_ir/article/details/136673921

版权

NLP自然语言处理专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文详细介绍了如何利用机器学习和深度模型如单塔和双塔结构来判断句子之间的关系，包括相似度计算的各种方法如欧氏距离、余弦相似度和深度模型的比较，以及在语义关系推理和问答对判断中的应用。

摘要由CSDN通过智能技术生成

句子关系判断是指判断句子是否相似，是否包含，是否是问答关系等，常应用在文本去重、检索（用户输入和文档的相关性）、推荐（和用户喜好文章是否相似）等场景中。

3.0、文本相似度计算

3.0.0 传统机器学习判断句子相似度

首先，将句子对转换成向量，参考第零章节给出的方法。

其次，计算句子间的距离，计算距离的常用方式：

（1）欧式距离：

（2）曼哈顿距离：

（3）切比雪夫距离

（4）余弦相似度

（5）Jaccard系数（词袋模型适用）

（6）皮尔逊相关系数

以下是计算示例

两个向量：X = [80, 85, 90, 75, 95]
Y = [70, 75, 85, 60, 90]
平均分：
meanX = (80 + 85 + 90 + 75 + 95) / 5 = 85
meanY = (70 + 75 + 85 + 60 + 90) / 5 = 76
协方差：
Cov(X, Y) = [(80-85)*(70-76) + (85-85)*(75-76) + (90-85)*(85-76) + (75-85)*(60-76) + (95-85)*(90-76)] / 5
= (-5 * -6 + 0 * -1 + 5 * 9 + -10 * -16 + 10 * 14) / 5 = 75
标准差：
σX = √[((80-85)^2 + (85-85)^2 + (90-85)^2 + (75-85)^2 + (95-85)^2) / 5]
= √[(25 + 0 + 25 + 100 + 100) / 5]
= √[50] ≈ 7.07
σY = √[((70-76)^2 + (75-76)^2 + (85-76)^2 + (60-76)^2 + (90-76)^2) / 5]
= √[(36 + 1 + 81 + 256 + 196) / 5]
= √[114] ≈ 10.68
皮尔逊相关系数：
r = Cov(X, Y) / (σX * σY) = 75 / (7.07 * 10.68) ≈ 1.06

（7）汉(海)明距离（需要基于one-hot编码）

就是对两个向量中每一位进行异或（xor）运算，并计算出异或运算结果中1的个数。例如[1,1,0]和[0,1,1]这两个向量，对它们进行异或运算，其结果是110⊕011=101，海明距离即为2

（8）编辑距离

Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑（加词、减词、移词）操作次数，如果它们的距离越大，说明它们越是不同。RD最常见的算法题之一。

（9）SimHash

一种搜索常用的相似度算法【深度好文】simhash文本去重流程