背景
基于Python库,SentenceTransformers,实现重复问题预测任务。
SentenceTransformers Documentation :https://www.sbert.net/index.html
重复问题预测
可以使用的预训练模型
SentenceTransformers库可以选用的预训练模型:
- distilbert-base-nli-stsb-quora-ranking:
- distilbert-multilingual-nli-stsb-quora-ranking:将上述模型扩展为多语言模型,目前支持50种语言,包括中文。
- 另外,SentenceTransformers也可以支持使用本地模型,例如bert_base_chinese模型等等。
预训练模型的使用方法
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('model_name')
数据集
我们可以使用Quora 重复问题数据集,对模型进行精调。
数据集如下所示:
id qid1 qid2 question1 question2 is_duplicate
0 1 2 What is the step by step guide to invest in share market in india? What is the step by step guide to invest in share market? 0
1 3 4 What is the story of Kohinoor (Koh-i-Noor) Diamond? What would happen if the Indian government stole the Kohinoor (Koh-i-Noor) diamond back? 0
使用方法
重复问题挖掘
给定一个句子集合(在该场景下是所有的问题集合),识别其中所有的相似句子。例子详见:Paraphrase Mining,该例子使用暴力搜索的方法,枚举所有的句子对,并对该句子对是否为相似句子进行分类。
扩展性一般,适用于几万个句子的场景。
语义检索
该模型也可以用于信息召回/语义检索的场景。给定一个问题,我们在数十万语料库中检索相似的问题。假设你有足够的内存或者显存,该方法可以扩展到数百万的语料库的场景中。
模型训练
为了获得质量较好的句子向量,选择合适的损失函数是比较重要的。对于重复问题识别任务,有两个损失函数比较合适:对比损失函数(ContrasiveLoss)和多负样本排序损失函数(MultipleNegativesRankingLoss)。
对比损失函数 ContrasiveLoss
对比损失函数适用于label为0,1的数据。在原始数据集中,label=0代表不重复的数据,label=1代表重复的数据。在这种情况下,就可以对比损失函数:标签为1的相似问题样本的向量表示被拉近、标签为0的不相似问题样本的向量表示被推远。
定义:
l
o
s
s
=
Y
(
s
i
m
(
x
i
−
x
j
)
)
+
(
1
−
Y
)
m
a
x
(
0
,
θ
−
s
i
m
(
x
i
−
x
j
)
)
loss = Y(sim(x_i-x_j))+(1-Y)max(0,\theta-sim(x_i-x_j))
loss=Y(sim(xi−xj))+(1−Y)max(0,θ−sim(xi−xj))
其中的Y表示如果句子
x
i
x_i
xi与
x
j
x_j
xj为相似句,则Y=1。
θ
\theta
θ表示间隔参数,表示不相似句子的相似度上限。
s
i
m
(
x
i
,
x
j
)
sim(x_i,x_j)
sim(xi,xj)表示两个句子的相似度,可以有不同的定义方式,例如定义为范式的形式,则对比损失函数为:
l
o
s
s
=
Y
(
∣
∣
x
i
−
x
j
∣
∣
2
)
+
(
1
−
Y
)
m
a
x
(
0
,
θ
−
∣
∣
x
i
−
x
j
∣
∣
2
)
loss = Y(||x_i-x_j||^2)+(1-Y)max(0,\theta-||x_i-x_j||^2)
loss=Y(∣∣xi−xj∣∣2)+(1−Y)max(0,θ−∣∣xi−xj∣∣2)
其中,选择合适的距离计算函数和间隔对于对比损失来说是非常重要的。
改进版本
对比损失的一个改进版本为在线对比损失(OnlineContrasiveLoss)。该损失函数寻找一个batch中的困难样本(negative pairs have a lower distance that the largest positive pair and which positive pairs have a higher distance than the lowest distance of negative pairs),并只计算困难样本的损失函数。
完整的代码见, training_OnlineContrastiveLoss.py
多负样本排序损失函数MultiNegativeRankingLoss
该损失函数比较适合于语义检索和信息召回任务。优点在于不需要构造负样本,因为该损失函数会将一个batch中的所有非正样本作为负样本,在最终结果的概率分布上,正样本的概率高于其他负样本。
多任务学习
可以在一个任务中同时计算对比损失和多负样本排序损失函数,然后优化模型。