计算向量余弦相似度是自然语言处理中常用的方法之一,它可以在多个任务中发挥重要作用,例如文本分类、信息检索等。在Python中,我们可以使用简单的代码来计算向量余弦相似度,本文将为您展示如何实现这个过程。
余弦相似度的定义
首先,让我们来看看余弦相似度的定义公式:
c o s ( θ ) = A ⋅ B ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ cos(\theta) = \frac{A \cdot B}{||A|| ||B||}cos(θ)=∣∣A∣∣∣∣B∣∣A⋅B
其中 A AA 和 B BB 是两个向量,θ \thetaθ 是它们之间的夹角,∣ ∣ A ∣ ∣ ||A||∣∣A∣∣ 和 ∣ ∣ B ∣ ∣ ||B||∣∣B∣∣ 分别是 A AA 和 B BB 的模长。余弦相似度的值介于 [ − 1 , 1 ] [-1,1][−1,1] 之间,当两个向量越相似时,它们的余弦相似度越接近于 1 11。当两个向量完全相同时,它们的余弦相似度等于 1 11;当两个向量完全不同时,它们的余弦相似度等于 − 1 -1−1。