前言:
由于笔者工作的需求,给定一个字符串,需要从一堆字符串中找出与其最相似的字符串,网络的一些算法发现跟自己的需求不匹配,于是自己写了一个,话不多说,请看下文。
目标:
给定两个字符串,能将两个字符串中相同词语的相似度返回一个分值。
计分方式:
分值跟次数的个数有关,具体举例如下:
source="我有一个小毛驴,我从来都不骑"
target="我哈一个哈哈哈,我从来哈哈哈"
上边两个词语中,相同的字有“我,一个,我从来”,因为我们说的是词,所以我不算
所以相同词语为“一个,我从来”,“一个”有两个字,记两分,“我从来”有三个字记三分,共计5分。
代码思想:
取source的第一个词“我有”,看target中是否包含,如果不包含则不计分,继续看下一个词“有一”,如果包含,继续扩大
词的长度“有一个”,还是继续前边的方法,直到将source全部遍历完,
代码实现:
本文选用C#来实现代码,如果读者使用其他语言,看代码注释自己修改一下即可,注释写的很详细。
/// <summary>
/// 目标:
/// 给定两个字符串,能将两个字符串中相同词语的相似度返回一个分值
/// 计分方式:
/// 分值跟次数的个数有关,具体举例如下:
/// source="我有一个小毛驴,我从来都不骑"
/// target="我哈一个哈哈哈,我从来哈哈哈"
/// 上边两个词语中,相同的字有“我,一个,我从来”,因为我们说的是词,所以我不算
/// 所以相同词语为“一个,我从来”,“一个”有两个字,记两分,“我从来”有三个字记三分,共计5分。
/// 代码思想:
/// 取source的第一个词“我有”,看target中是否包含,如果不包含则不计分,继续看下一个词“有一”,如果包含,继续扩大
/// 词的长度“有一个”,还是继续前边的方法,直到将source全部遍历完,
/// </summary>
/// <param name="source"></param>
/// <param name="target"></param>
/// <returns>分数</returns>
public static int CountSameWords(string source,string target) {
//对于长度为0的字符串返回分数0
int sum = 0;
int columnSize = source.Length;
int rowSize = target.Length;
if (columnSize == 0)
{
return rowSize;
}
if (rowSize == 0)
{
return columnSize;
}
//定义一个集合,用来存储相同的词语,防止一个字符串中出现重复词语,重复计分
ArrayList tempList=new ArrayList();
//遍历source的词语,
for (int i=0;i<source.Count()-1;i++) {
//定义词语初始的长度
int k = 2;
//while循环后的k值就是这个词语的长度
while (i+k<=source.Count()&&target.Contains(source.Substring(i, k)))
{
//也可把K++放在source.Substring(i, k++)中
k++;
}
//k=2时,说明没有相同的,同时判断是否有重复词语
if (k>2) {
string tempStr = source.Substring(i, k - 1);
if (!tempList.Contains(tempStr)) {
//满足条件的话加入到键值对集合中
tempList.Add(tempStr);
//防止下次循环继续计算重复的词
i = i + k - 2;
//计入总分
sum = sum + k - 1;
}
}
}
return sum;
}
以上方法可以用于两个字符串的匹配,如有问题,请留言。