相似度匹配算法

package com.tmzh.ppd.business.util;

/**
 * @ClassName: Levenshtein  相似度匹配算法
 * @Author: Cui-wz
 * @Date: 2022-01-19 10:26
 **/
public class Levenshtein {

    public int compare(String str, String target) {
        int d[][]; // 矩阵

        int n = str.length();

        int m = target.length();

        int i; // 遍历str的

        int j; // 遍历target的

        char ch1; // str的

        char ch2; // target的

        int temp; // 记录相同字符,在某个矩阵位置值的增量,不是0就是1

        if (n == 0) {
            return m;

        }
        if (m == 0) {
            return n;
        }
        d = new int[n + 1][m + 1];

        for (i = 0; i <= n; i++) { // 初始化第一列
            d[i][0] = i;
        }

        for (j = 0; j <= m; j++) { // 初始化第一行
            d[0][j] = j;
        }

        for (i = 1; i <= n; i++) { // 遍历str

            ch1 = str.charAt(i - 1);
        // 去匹配target
            for (j = 1; j <= m; j++) {
                ch2 = target.charAt(j - 1);
                if (ch1 == ch2) {
                    temp = 0;
                } else {
                    temp = 1;
                }
            // 左边+1,上边+1, 左上角+temp取最小
                d[i][j] = min(d[i - 1][j] + 1, d[i][j - 1] + 1, d[i - 1][j - 1]
                        + temp);
            }
        }

        return d[n][m];
    }


    private int min(int one, int two, int three) {
        return (one = one < two ? one : two) < three ? one : three;
    }

}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
文本相似度匹配算法是一种用于衡量文本之间相似程度的算法。在Java中,可以使用不同的方法来实现文本相似度匹配算法,下面我将介绍一种常用的方法:余弦相似度算法。 余弦相似度算法是通过计算两个文本向量之间的夹角来度量文本之间的相似度。具体步骤如下: 1. 首先,将文本转换为向量表示。可以使用词袋模型或者TF-IDF模型将文本转换为向量。在词袋模型中,每个文本被表示为一个向量,向量的每个维度代表一个词,词在文本中出现的次数即为该维度上的取值;而在TF-IDF模型中,向量的每个维度代表一个词,取值为该词在文本中的TF-IDF权重。 2. 计算两个文本向量的内积。通过计算两个向量的对应维度上的值的乘积之和,可以得到两个向量的内积。 3. 分别计算两个文本向量的模长。通过计算向量的模长,即向量各个维度上值的平方之和的开方,可以得到向量的模长。 4. 使用余弦公式计算余弦值。通过将步骤2中得到的内积除以步骤3中得到的模长的乘积,可以得到余弦值。 5. 最后,将余弦值转换为相似度得分。通常将余弦值的取值范围从[-1,1]映射到[0,1],取值越接近1,表示两个文本的相似度越高。 在Java中,可以使用开源的文本相似度计算库如Jaccard-Text-Similarity或Similarity3来实现上述算法。这些库提供了丰富的API和函数,可以方便地计算文本相似度匹配。 总之,文本相似度匹配算法在Java中的实现可以采用余弦相似度算法,通过计算两个文本向量之间的夹角来度量文本之间的相似度

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值