找出两个字符串中相同的词语，返回一个分值

最新推荐文章于 2025-05-03 09:07:35 发布

安迪爸爸

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.7k

点赞数

分类专栏：数据结构 Web前端文章标签：字符串相似匹配

本文链接：https://blog.csdn.net/wzmde007/article/details/83304542

版权

数据结构同时被 2 个专栏收录

7 篇文章

订阅专栏

Web前端

3 篇文章

订阅专栏

前言：

由于笔者工作的需求，给定一个字符串，需要从一堆字符串中找出与其最相似的字符串，网络的一些算法发现跟自己的需求不匹配，于是自己写了一个，话不多说，请看下文。

目标：

给定两个字符串，能将两个字符串中相同词语的相似度返回一个分值。

计分方式：

分值跟次数的个数有关，具体举例如下：

source="我有一个小毛驴，我从来都不骑"

target="我哈一个哈哈哈，我从来哈哈哈"

上边两个词语中，相同的字有“我，一个，我从来”，因为我们说的是词，所以我不算

所以相同词语为“一个，我从来”，“一个”有两个字，记两分，“我从来”有三个字记三分，共计5分。

代码思想：

取source的第一个词“我有”，看target中是否包含，如果不包含则不计分，继续看下一个词“有一”，如果包含，继续扩大

词的长度“有一个”，还是继续前边的方法，直到将source全部遍历完，

代码实现：

本文选用C#来实现代码，如果读者使用其他语言，看代码注释自己修改一下即可，注释写的很详细。

        /// <summary>
        /// 目标：
        ///     给定两个字符串，能将两个字符串中相同词语的相似度返回一个分值
        /// 计分方式：
        ///     分值跟次数的个数有关，具体举例如下：
        ///     source="我有一个小毛驴，我从来都不骑"
        ///     target="我哈一个哈哈哈，我从来哈哈哈"
        ///     上边两个词语中，相同的字有“我，一个，我从来”，因为我们说的是词，所以我不算
        ///     所以相同词语为“一个，我从来”，“一个”有两个字，记两分，“我从来”有三个字记三分，共计5分。
        /// 代码思想：
        ///     取source的第一个词“我有”，看target中是否包含，如果不包含则不计分，继续看下一个词“有一”，如果包含，继续扩大
        ///     词的长度“有一个”，还是继续前边的方法，直到将source全部遍历完，
        /// </summary>
        /// <param name="source"></param>
        /// <param name="target"></param>
        /// <returns>分数</returns>
        public static int CountSameWords(string source,string target) {
            //对于长度为0的字符串返回分数0
            int sum = 0;
            int columnSize = source.Length;
            int rowSize = target.Length;
            if (columnSize == 0)
            {
                return rowSize;
            }
            if (rowSize == 0)
            {
                return columnSize;
            }
            //定义一个集合，用来存储相同的词语，防止一个字符串中出现重复词语，重复计分
            ArrayList tempList=new ArrayList();
            //遍历source的词语，
            for (int i=0;i<source.Count()-1;i++) {
               
                //定义词语初始的长度
                int k = 2;
                //while循环后的k值就是这个词语的长度
                while (i+k<=source.Count()&&target.Contains(source.Substring(i, k)))
                {
                    //也可把K++放在source.Substring(i, k++)中
                    k++;
                }
                //k=2时，说明没有相同的，同时判断是否有重复词语
                if (k>2) {
                    string tempStr = source.Substring(i, k - 1);
                    if (!tempList.Contains(tempStr)) {
                        //满足条件的话加入到键值对集合中
                        tempList.Add(tempStr);
                        //防止下次循环继续计算重复的词
                        i = i + k - 2;
                        //计入总分
                        sum = sum + k - 1;
                    }

                }

            }

            return sum;
        }

以上方法可以用于两个字符串的匹配，如有问题，请留言。