Python实用技巧：两个不同列表给出相似度（int、str类型）

袁袁袁袁满

已于 2025-02-22 11:38:22 修改

阅读量7.7k

点赞数 10

分类专栏： Python实用技巧大全文章标签： python 开发语言

于 2023-05-07 21:47:08 首次发布

本文链接：https://blog.csdn.net/yuan2019035055/article/details/130338656

版权

Python实用技巧大全专栏收录该内容

33 篇文章

订阅专栏

Python数据开发工作中的需求两个不同列表给出相似度，本文实现判断数字类型相似度和字符串类型相似度，非常实用！

文章目录

数字类型相似度
字符串类型相似度

数字类型相似度

可以使用余弦相似度来计算两个列表的相似度。具体步骤如下：

将两个列表转化为向量形式，即将列表中的元素作为向量的分量。
计算向量的点积。
计算向量的模长。
计算余弦值。
将余弦值作为相似度。

以下是Python代码实现：

import math

def cosine_similarity(list1, list2):
    dot_product = sum([list1[i]*list2[i] for i in range(len(list1))])
    norm1 = math.sqrt(sum([x**2 for x in list1]))
    norm2 = math.sqrt(sum([x**2 for x in list2]))
    similarity = dot_product / (norm1 * norm2)
    return similarity

# 示例
list1 = [1, 2, 3, 4, 5]
list2 = [3, 4, 5, 6, 7]
similarity = cosine_similarity(list1, list2)
print(similarity)

输出结果为：

0.9970544855015815

表示两个列表的相似度很高。

字符串类型相似度

可以使用Jaccard相似度来计算两个字符串列表的相似度。Jaccard相似度是通过计算两个集合的交集与并集之比来衡量它们的相似程度。具体步骤如下：

将两个列表转化为集合形式，即将列表中的元素作为集合的元素。
计算两个集合的交集。
计算两个集合的并集。
计算交集与并集之比。
将比值作为相似度。

以下是Python代码实现：

def jaccard_similarity(list1, list2):
    set1 = set(list1)
    set2 = set(list2)
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    similarity = intersection / union
    return similarity

# 示例
list1 = ['apple', 'banana', 'orange']
list2 = ['apple', 'pear', 'peach']
similarity = jaccard_similarity(list1, list2)
print(similarity)