SentenceTransformers 之重复问题预测

xiao4816

已于 2023-10-01 12:10:45 修改

阅读量317

点赞数

文章标签： python tensorflow

于 2023-09-13 17:18:56 首次发布

本文链接：https://blog.csdn.net/xiao4816/article/details/132835391

版权

背景

基于Python库，SentenceTransformers，实现重复问题预测任务。

SentenceTransformers Documentation ：https://www.sbert.net/index.html

重复问题预测

可以使用的预训练模型

SentenceTransformers库可以选用的预训练模型：

distilbert-base-nli-stsb-quora-ranking：
distilbert-multilingual-nli-stsb-quora-ranking：将上述模型扩展为多语言模型，目前支持50种语言，包括中文。
另外，SentenceTransformers也可以支持使用本地模型，例如bert_base_chinese模型等等。

预训练模型的使用方法

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('model_name')

数据集

我们可以使用Quora 重复问题数据集，对模型进行精调。
数据集如下所示：

id	qid1	qid2	question1	question2	is_duplicate
0	1	2	What is the step by step guide to invest in share market in india?	What is the step by step guide to invest in share market?	0
1	3	4	What is the story of Kohinoor (Koh-i-Noor) Diamond?	What would happen if the Indian government stole the Kohinoor (Koh-i-Noor) diamond back?	0

使用方法

重复问题挖掘

给定一个句子集合（在该场景下是所有的问题集合），识别其中所有的相似句子。例子详见：Paraphrase Mining,该例子使用暴力搜索的方法，枚举所有的句子对，并对该句子对是否为相似句子进行分类。
扩展性一般，适用于几万个句子的场景。

语义检索

该模型也可以用于信息召回/语义检索的场景。给定一个问题，我们在数十万语料库中检索相似的问题。假设你有足够的内存或者显存，该方法可以扩展到数百万的语料库的场景中。

模型训练

为了获得质量较好的句子向量，选择合适的损失函数是比较重要的。对于重复问题识别任务，有两个损失函数比较合适：对比损失函数（ContrasiveLoss）和多负样本排序损失函数(MultipleNegativesRankingLoss)。

对比损失函数 ContrasiveLoss

对比损失函数适用于label为0，1的数据。在原始数据集中，label=0代表不重复的数据，label=1代表重复的数据。在这种情况下，就可以对比损失函数：标签为1的相似问题样本的向量表示被拉近、标签为0的不相似问题样本的向量表示被推远。
定义：
$Y(sim(x_i-x_j))+(1-Y)max(0,\theta-sim(x_i-x_j))$
其中的Y表示如果句子 $x_i$ 与 $x_j$ 为相似句，则Y=1。 $\theta$ 表示间隔参数，表示不相似句子的相似度上限。 $sim(x_i,x_j)$ 表示两个句子的相似度，可以有不同的定义方式，例如定义为范式的形式，则对比损失函数为：
$Y(||x_i-x_j||^2)+(1-Y)max(0,\theta-||x_i-x_j||^2)$
其中，选择合适的距离计算函数和间隔对于对比损失来说是非常重要的。
改进版本
对比损失的一个改进版本为在线对比损失（OnlineContrasiveLoss）。该损失函数寻找一个batch中的困难样本（negative pairs have a lower distance that the largest positive pair and which positive pairs have a higher distance than the lowest distance of negative pairs），并只计算困难样本的损失函数。