检索式模型介绍(二)
- 这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的representation,然后利用representation计算score,这个的score可以是相似度(cosine,欧式距离等)。当然一般的处理是直接用dot pruduct。 第二种方式是利用sentence中不同词的特征直接计算相似度。这类的方法如deepMatch等。
- 当然,大部分的算法模型,都是从相关的论文里面总结,由于个人水品有限,还是会有一些疏漏,请多多指正。
六 ARC-I模型[1]
6.1 简介
- 模型主要是来自华为发的一篇paper,论文里面提出了两个模型分别为ARC-I和ARC-II。这里主要介绍一下ARC-I模型。首先,ARC-I模型是基于CNN的网络结构。主要的思路是针对q和r分别利用cnn提取特征,学习到对应的向量表示。然后在这两个向量表示基础上,加上一层MLP,最后得到相应的匹配程度得分。算法具体结构图如下所示: