LevenshteinDistance计算文本相似度

代码


package sdsrf;

public class StringSimilarity {

    public static double similarity(String s1, String s2) {
        String longer = s1, shorter = s2;
        if (s1.length() < s2.length()) { // longer should always have greater length
            longer = s2;
            shorter = s1;
        }
        int longerLength = longer.length();
        if (longerLength == 0) {
            return 1.0; /* both strings are zero length */
        }
        return (longerLength - editDistance(longer, shorter)) / (double) longerLength;

    }

    public static int editDistance(String s1, String s2) {
        s1 = s1.toLowerCase();
        s2 = s2.toLowerCase();

        int[] costs = new int[s2.length() + 1];
        for (int i = 0; i <= s1.length(); i++) {
            int lastValue = i;
            for (int j = 0; j <= s2.length(); j++) {
                if (i == 0)
                    costs[j] = j;
                else {
                    if (j > 0) {
                        int newValue = costs[j - 1];
                        if (s1.charAt(i - 1) != s2.charAt(j - 1))
                            newValue = Math.min(Math.min(newValue, lastValue),
                                    costs[j]) + 1;
                        costs[j - 1] = lastValue;
                        lastValue = newValue;
                    }
                }
            }
            if (i > 0)
                costs[s2.length()] = lastValue;
        }
        return costs[s2.length()];
    }

    public static void printSimilarity(String s, String t) {
        System.out.println(String.format(
                "%.3f is the similarity between \"%s\" and \"%s\"", similarity(s, t), s, t));
    }

    public static void main(String[] args) {
        /**
         * Tom 和 Jerry 发现树底下有条狗 <---> Tom 和 Jerry 发现树底下有只猫
         */
        printSimilarity("Tom y Jerry encontraron un perro debajo del árbol.", "Tom y Jerry encontraron un gato debajo del árbol.");
        /**
         * Tom 和 Jerry 发现树底下有条狗 <---> 昨天Tom 和 Jerry 发现树底下有条狗
         */
        printSimilarity("Tom y Jerry encontraron un perro debajo del árbol.", "Ayer Tom y Jerry encontraron un perro debajo del árbol.");
        /**
         * Tom 和 Jerry 发现树底下有条狗 <---> 有条狗发现tom和Jerry在树底下
         */
        printSimilarity("Tom y Jerry encontraron un perro debajo del árbol.", "Un perro encontró a Tom y Jerry debajo del árbol.");
    }
    
}

运行结果

0.920 is the similarity between "Tom y Jerry encontraron un perro debajo del árbol." and "Tom y Jerry encontraron un gato debajo del árbol."
0.909 is the similarity between "Tom y Jerry encontraron un perro debajo del árbol." and "Ayer Tom y Jerry encontraron un perro debajo del árbol."
0.680 is the similarity between "Tom y Jerry encontraron un perro debajo del árbol." and "Un perro encontró a Tom y Jerry debajo del árbol."

莱茵斯坦文本相似度匹配是通过计算字符相似度,有一定的作用,但是跟单词匹配相比,存在一定的准确度差异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xinqing5130

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值