找出两个字符串中相同的词语,返回一个分值

前言:

由于笔者工作的需求,给定一个字符串,需要从一堆字符串中找出与其最相似的字符串,网络的一些算法发现跟自己的需求不匹配,于是自己写了一个,话不多说,请看下文。

目标:

给定两个字符串,能将两个字符串中相同词语的相似度返回一个分值。

计分方式:

分值跟次数的个数有关,具体举例如下:

source="我有一个小毛驴,我从来都不骑"

target="我哈一个哈哈哈,我从来哈哈哈"

上边两个词语中,相同的字有“我,一个,我从来”,因为我们说的是词,所以我不算

所以相同词语为“一个,我从来”,“一个”有两个字,记两分,“我从来”有三个字记三分,共计5分。

代码思想:

取source的第一个词“我有”,看target中是否包含,如果不包含则不计分,继续看下一个词“有一”,如果包含,继续扩大

词的长度“有一个”,还是继续前边的方法,直到将source全部遍历完,

代码实现:

本文选用C#来实现代码,如果读者使用其他语言,看代码注释自己修改一下即可,注释写的很详细。

        /// <summary>
        /// 目标:
        ///     给定两个字符串,能将两个字符串中相同词语的相似度返回一个分值
        /// 计分方式:
        ///     分值跟次数的个数有关,具体举例如下:
        ///     source="我有一个小毛驴,我从来都不骑"
        ///     target="我哈一个哈哈哈,我从来哈哈哈"
        ///     上边两个词语中,相同的字有“我,一个,我从来”,因为我们说的是词,所以我不算
        ///     所以相同词语为“一个,我从来”,“一个”有两个字,记两分,“我从来”有三个字记三分,共计5分。
        /// 代码思想:
        ///     取source的第一个词“我有”,看target中是否包含,如果不包含则不计分,继续看下一个词“有一”,如果包含,继续扩大
        ///     词的长度“有一个”,还是继续前边的方法,直到将source全部遍历完,
        /// </summary>
        /// <param name="source"></param>
        /// <param name="target"></param>
        /// <returns>分数</returns>
        public static int CountSameWords(string source,string target) {
            //对于长度为0的字符串返回分数0
            int sum = 0;
            int columnSize = source.Length;
            int rowSize = target.Length;
            if (columnSize == 0)
            {
                return rowSize;
            }
            if (rowSize == 0)
            {
                return columnSize;
            }
            //定义一个集合,用来存储相同的词语,防止一个字符串中出现重复词语,重复计分
            ArrayList tempList=new ArrayList();
            //遍历source的词语,
            for (int i=0;i<source.Count()-1;i++) {
               
                //定义词语初始的长度
                int k = 2;
                //while循环后的k值就是这个词语的长度
                while (i+k<=source.Count()&&target.Contains(source.Substring(i, k)))
                {
                    //也可把K++放在source.Substring(i, k++)中
                    k++;
                }
                //k=2时,说明没有相同的,同时判断是否有重复词语
                if (k>2) {
                    string tempStr = source.Substring(i, k - 1);
                    if (!tempList.Contains(tempStr)) {
                        //满足条件的话加入到键值对集合中
                        tempList.Add(tempStr);
                        //防止下次循环继续计算重复的词
                        i = i + k - 2;
                        //计入总分
                        sum = sum + k - 1;
                    }

                }

            }

            return sum;
        }

以上方法可以用于两个字符串的匹配,如有问题,请留言。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值