python--利用余弦相似度公式计算两字符串的相似性

步骤:

1、先对下面两字符串进行分词处理:

	s1 = "hi,今天温度是12摄氏度。"
    s2 = "hello,今天温度很高。"

分词结果:

    ['hi', '今', '天', '温', '度', '是', '12', '摄', '氏', '度']
    ['hello', '今', '天', '温', '度', '很', '高']

2、再讲上面的分词结果转成向量形式:

	合并分词列表:['12', '天', '今', '高', '是', '度', '氏', '温', 'hello', 'hi', '摄', '很']
	s1转为向量: word_vector1 = [1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
	s2转为向量: word_vector2 = [0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]

2、再利用余弦相似度公式计算 两字符串对应的向量的相似度。

   s1和s2的相似度为:	0.545544725589981

代码:

  • 7
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值