字符串比较是一个老话题了。但是我一直没有找到一篇文章能够很好的总结一下。传统上的比较都是基于C#中默认的编码格式进行比较。不论你用的是
string.Equals(...);string.Compare(...);string.ReferenceEquals(...)或者是“==”关于他们的详细比较请参考下面的文章。这里我要说的是。如果你要比较的字符串若不在统一的编码格式下。结果会怎样?比如在英文环境下编程,却在中文,俄文等其他环境下运行;或者同是在英文环境下,从不同的地方 取数据进行比较,比如从word里读取数据和code的数据进行比较。
字符串比较:
http://msdn.microsoft.com/zh-cn/library/cc165449.aspx
http://www.cnblogs.com/sicket/archive/2010/10/18/1853950.html
http://blog.csdn.net/wzhiu/article/details/7870366
1. 通常在C#中默认的是Unicode编码。虽然你从不同的地方读取数据,但是现实的结果是一样,但是变量里存储的内容是不一致的。大家可以先把你的字符串统一转化成UTF8的格式在进行比较,这样就可以发现问题在哪里了。参考ToUTF8
2. 如果发现有些字符串只是空格等一些少数的串不一致导致的。那么可以考虑跳过他们。参考IsEqual
public static string ToUTF8(string myString) { byte[] bytes = Encoding.Default.GetBytes(myString); return Encoding.UTF8.GetString(bytes); }
public static bool IsEqual(this String self, string other) { bool isEqual = true; // Deal with empty string if (string.IsNullOrWhiteSpace(self) && string.IsNullOrWhiteSpace(other)) { isEqual = true; } else if (string.IsNullOrWhiteSpace(self)) { isEqual = false; } else if (string.IsNullOrWhiteSpace(other)) { isEqual = false; } if (self.Length != other.Length) { isEqual = false; } else { for (int i = 0; i < self.Length; i++) { if ((int)self[i] == 32 && (int)other[i] == 160) { continue; } if ((int)self[i] == 160 && (int)other[i] == 32) { continue; } if ((int)self[i] != (int)other[i]) { isEqual = false; break; } } } return isEqual; }