关于字符串相似度, 网上有很多算法,我在项目中用到过编辑距离算法 和余弦相似度算法.
- 编辑距离算法是根据单个字符来比较的,是一个字符串替换成另一个字符串的难度系数, 对距离很敏感. 两个句子中的字词一样, 但是位置变化, 编辑距离算出来的相似的也变化,而且对比较短的字符串不友好,例如:"中国你好"和"你好中国"两个字符串的相似度是0;"你好呀中国"和"中国你好呀"相似度0.19
- 余弦相似度是一词为单位的, 对距离不敏感. "中国你好"和"你好中国"的相似度是1, 因为他们包含相同的词语且词语数量一样.
可以根据具体的使用场景,选择…
下面是余弦相似的的Java实现:对来个字符串比较需要先切词,在比较, 切词工具也很多,可以自行选择
public static double getSimilarity(String s1, String s2) {
if (StringUtils.isEmpty(s1) && StringUtils.isEmpty(s2)) {
return 1;
}
if (StringUtils.isEmpty(s1) || StringUtils.isEmpty(s2)) {
return 0;
}
// 先切词
List<String> segment1 = AliboSeg.segmentMergeNum(s1);
List<String> segment2 = AliboSeg.segmentMergeNum(s2);
return getSimilarity(segment1, segment2);
}
// 切好词的集合, 直接比较
public static double getSimilarity