步骤:
1、先对下面两字符串进行分词处理:
s1 = "hi,今天温度是12摄氏度。"
s2 = "hello,今天温度很高。"
分词结果:
['hi', '今', '天', '温', '度', '是', '12', '摄', '氏', '度']
['hello', '今', '天', '温', '度', '很', '高']
2、再讲上面的分词结果转成向量形式:
合并分词列表:['12', '天', '今', '高', '是', '度', '氏', '温', 'hello', 'hi', '摄', '很']
s1转为向量: word_vector1 = [1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
s2转为向量: word_vector2 = [0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]
2、再利用余弦相似度公式计算 两字符串对应的向量的相似度。
s1和s2的相似度为: 0.545544725589981
代码: