pysparnn与siame network模型
pysparnn
pysparnn
使用的是一种cluster pruning(簇修剪)
的技术,即,开始的时候对数据进行聚类,后续再有限个类别中进行数据的搜索,根据计算的余弦相似度返回结果。
数据预处理过程如下:
-
随机选择个样本作为leader
-
选择非leader的数据(follower),使用余弦相似度计算找到最近的leader
当获取到一个问题q的时候,查询过程:
-
计算每个leader和q的相似度,找到最相似的leader
-
然后计算问题q和leader所在簇的相似度,找到最相似的k个,作为最终的返回结果
在上述的过程中,可以设置两个大于0的数字b1和b2
-
b1表示在
数据预处理
阶段,每个follower选择b1个最相似的leader,而不是选择单独一个lader,这样不同的簇是有数据交叉的;