昨天在论坛看到有人提出怎么识别两个字符串最大的相同的部分,很遗憾没人回帖,在此发布一个原创的算法,可以快速的找出两个字符串中所有的最长的相同的部分。
public class BestLike
{
private string strString1="";
private string strString2="";
private string strFormat="";
private string strLargeLen="1";
private int intStart=0;
private List<string> listResult = new List<string>();
public BestLike(string strString1,string strString2)
{
this.strString1 = strString1;
this.strString2 = strString2;
}
public List<string> GetString()
{
//格式化字符串
for(int i = 0; i <= strString1.Length-1;i++)
{
if (strString1.Substring(i, 1) == strString2.Substring(i, 1))
strFormat = strFormat + "1";
else
strFormat = strFormat + "0";
}
//查找最大相同长度
while (strFormat.IndexOf(strLargeLen,0) != -1)
{
strLargeLen = strLargeLen + "1";
}
strLargeLen = strLargeLen.Substring(0, (strLargeLen.Length - 1));
//提取数据并返回
while (strFormat.IndexOf(strLargeLen, intStart)!=-1)
{
listResult.Add(strString1.Substring(strFormat.IndexOf(strLargeLen, intStart),strLargeLen.Length));
intStart = strFormat.IndexOf(strLargeLen, intStart) + strLargeLen.Length;
}
return listResult;
}
}
在实例化这个类的时候传入构造方法的参数---要比较的两个字符串,然后调用这个类的GetString ()方法即可,返回的是一个字符串型的泛型集合。因为两个字符串同等长度的部分可能有很多,所以用集合存放。
这个算法可以快速的找出两个字符相同的、最长的部分,而且是所有的。比如,a=”你好asdb12”,b=”你好csdn12”,那么返回的集合就包含了”你好”、”sd”、”12”三个字符串。如果a=”你好asdb123”,b=”你好csdn123”,返回的集合只包含”123”一个字符串,因为它比”sd”和”你好”长。
算法的思想是化繁为简,将两个字符串所有对应的字符一一的进行对比,相同标记为”1”,不同标记为”0”,然后寻找最长的连续的”1”,再根据所找到的”1…1”的位置到原字符串中截取就达到目的了。算法很好的支持了中文,不仅仅是中文,它支持任何一种编程语言支持的字符。
需要注意的是要比较的两个字符串必须等长。
这个算法是C#代码,学习了新语言,想熟悉一下,就没用最拿手的VB,估计以后也比较少用VB了。