字符串相似度算法 -- 余弦相似

关于字符串相似度, 网上有很多算法,我在项目中用到过编辑距离算法余弦相似度算法.

  • 编辑距离算法是根据单个字符来比较的,是一个字符串替换成另一个字符串的难度系数, 对距离很敏感. 两个句子中的字词一样, 但是位置变化, 编辑距离算出来的相似的也变化,而且对比较短的字符串不友好,例如:"中国你好"和"你好中国"两个字符串的相似度是0;"你好呀中国"和"中国你好呀"相似度0.19
  • 余弦相似度是一词为单位的, 对距离不敏感. "中国你好"和"你好中国"的相似度是1, 因为他们包含相同的词语且词语数量一样.

可以根据具体的使用场景,选择…

下面是余弦相似的的Java实现:对来个字符串比较需要先切词,在比较, 切词工具也很多,可以自行选择

public static double getSimilarity(String s1, String s2) {
   
        if (StringUtils.isEmpty(s1) && StringUtils.isEmpty(s2)) {
   
            return 1;
        }
        if (StringUtils.isEmpty(s1) || StringUtils.isEmpty(s2)) {
   
            return 0;
        }
        // 先切词
        List<String> segment1 = AliboSeg.segmentMergeNum(s1);
        List<String> segment2 =  AliboSeg.segmentMergeNum(s2);
        return getSimilarity(segment1, segment2);
    }

	// 切好词的集合, 直接比较
    public static double getSimilarity
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值