from sklearn.metrics.pairwise import cosine_similarity

GOU92

于 2025-03-10 14:26:05 发布

阅读量426

点赞数 3

文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/weixin_62533513/article/details/146153979

版权

cosine_similarity 是 scikit-learn 库中 sklearn.metrics.pairwise 模块提供的一个函数，用于计算两个向量之间的余弦相似度。余弦相似度是通过测量两个向量在多维空间中的夹角来评估它们的相似性，值范围在 [-1, 1] 之间，其中 1 表示完全相同，-1 表示完全相反，0 表示不相关。

以下是 cosine_similarity 的使用方法和一些示例：

基本用法

from sklearn.metrics.pairwise import cosine_similarity

# 定义两个向量
vector1 = [1, 2, 3]
vector2 = [4, 5, 6]

# 计算余弦相似度
similarity = cosine_similarity([vector1], [vector2])

print(similarity)  # 输出: [[0.97463184]]

多个向量之间的相似度计算

可以计算一个向量与多个向量之间的余弦相似度，或者多个向量之间的两两相似度。

from sklearn.metrics.pairwise import cosine_similarity

# 定义多个向量
vectors = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

# 计算多个向量之间的两两相似度
similarity_matrix = cosine_similarity(vectors)

print(similarity_matrix)

应用场景

文本相似度计算：在自然语言处理中，可以将文本表示为向量（如词袋模型、TF-IDF、嵌入向量等），然后使用余弦相似度来衡量文本之间的相似性。
推荐系统：用于计算用户或物品之间的相似性，以实现基于内容的推荐。
聚类分析：作为相似度度量用于聚类算法，如 K-Means、层次聚类等。

示例：文本相似度计算

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 定义一些文本
texts = [
    "The quick brown fox jumps over the lazy dog",
    "A quick brown dog jumps over the lazy fox",
    "The quick brown fox jumps over the lazy cat"
]

# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(texts)

# 计算文本之间的余弦相似度
similarity_matrix = cosine_similarity(tfidf_matrix)

print(similarity_matrix)

示例：嵌入向量的相似度计算

在使用 sentence-transformers 生成句子嵌入后，可以使用 cosine_similarity 计算句子之间的相似度。

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# 加载模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 定义一些句子
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector",
    "The vectors can be used for semantic search"
]

# 生成嵌入
embeddings = model.encode(sentences)

# 计算嵌入之间的余弦相似度
similarity_matrix = cosine_similarity(embeddings)

print(similarity_matrix)