SentenceTransformers 之重复问题预测

背景

基于Python库,SentenceTransformers,实现重复问题预测任务。

SentenceTransformers Documentation :https://www.sbert.net/index.html

重复问题预测

可以使用的预训练模型

SentenceTransformers库可以选用的预训练模型:

  1. distilbert-base-nli-stsb-quora-ranking:
  2. distilbert-multilingual-nli-stsb-quora-ranking:将上述模型扩展为多语言模型,目前支持50种语言,包括中文。
  3. 另外,SentenceTransformers也可以支持使用本地模型,例如bert_base_chinese模型等等。

预训练模型的使用方法

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('model_name')

数据集

我们可以使用Quora 重复问题数据集,对模型进行精调。
数据集如下所示:

id	qid1	qid2	question1	question2	is_duplicate
0	1	2	What is the step by step guide to invest in share market in india?	What is the step by step guide to invest in share market?	0
1	3	4	What is the story of Kohinoor (Koh-i-Noor) Diamond?	What would happen if the Indian government stole the Kohinoor (Koh-i-Noor) diamond back?	0

使用方法

重复问题挖掘

给定一个句子集合(在该场景下是所有的问题集合),识别其中所有的相似句子。例子详见:Paraphrase Mining,该例子使用暴力搜索的方法,枚举所有的句子对,并对该句子对是否为相似句子进行分类。
扩展性一般,适用于几万个句子的场景。

语义检索

该模型也可以用于信息召回/语义检索的场景。给定一个问题,我们在数十万语料库中检索相似的问题。假设你有足够的内存或者显存,该方法可以扩展到数百万的语料库的场景中。

模型训练

为了获得质量较好的句子向量,选择合适的损失函数是比较重要的。对于重复问题识别任务,有两个损失函数比较合适:对比损失函数(ContrasiveLoss)和多负样本排序损失函数(MultipleNegativesRankingLoss)。

对比损失函数 ContrasiveLoss

对比损失函数适用于label为0,1的数据。在原始数据集中,label=0代表不重复的数据,label=1代表重复的数据。在这种情况下,就可以对比损失函数:标签为1的相似问题样本的向量表示被拉近、标签为0的不相似问题样本的向量表示被推远。
定义
l o s s = Y ( s i m ( x i − x j ) ) + ( 1 − Y ) m a x ( 0 , θ − s i m ( x i − x j ) ) loss = Y(sim(x_i-x_j))+(1-Y)max(0,\theta-sim(x_i-x_j)) loss=Y(sim(xixj))+(1Y)max(0,θsim(xixj))
其中的Y表示如果句子 x i x_i xi x j x_j xj为相似句,则Y=1。 θ \theta θ表示间隔参数,表示不相似句子的相似度上限。 s i m ( x i , x j ) sim(x_i,x_j) sim(xi,xj)表示两个句子的相似度,可以有不同的定义方式,例如定义为范式的形式,则对比损失函数为:
l o s s = Y ( ∣ ∣ x i − x j ∣ ∣ 2 ) + ( 1 − Y ) m a x ( 0 , θ − ∣ ∣ x i − x j ∣ ∣ 2 ) loss = Y(||x_i-x_j||^2)+(1-Y)max(0,\theta-||x_i-x_j||^2) loss=Y(∣∣xixj2)+(1Y)max(0,θ∣∣xixj2)
其中,选择合适的距离计算函数和间隔对于对比损失来说是非常重要的。
改进版本
对比损失的一个改进版本为在线对比损失(OnlineContrasiveLoss)。该损失函数寻找一个batch中的困难样本(negative pairs have a lower distance that the largest positive pair and which positive pairs have a higher distance than the lowest distance of negative pairs),并只计算困难样本的损失函数。

完整的代码见, training_OnlineContrastiveLoss.py

多负样本排序损失函数MultiNegativeRankingLoss

该损失函数比较适合于语义检索和信息召回任务。优点在于不需要构造负样本,因为该损失函数会将一个batch中的所有非正样本作为负样本,在最终结果的概率分布上,正样本的概率高于其他负样本。

多任务学习

可以在一个任务中同时计算对比损失和多负样本排序损失函数,然后优化模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Sentence Transformer是一个Python框架,用于生成句子、文本和图像的嵌入(Embedding)表示。通过使用该框架,可以将文本转化为向量表示,从而在文本相似度计算、文本分类等任务中使用。这个框架使用了预训练的语言模型,例如MiniLM等,来生成高质量的文本嵌入,以捕捉句子的语义信息。 使用Sentence Transformer的过程是比较简单的。首先,需要导入框架并加载相应的模型。然后,将待处理的句子作为一个字符串列表传入模型的encode方法中,即可获取到对应的嵌入向量。最后,可以根据需要对这些嵌入向量进行进一步的处理和应用。 通过使用Sentence Transformer,我们可以方便地将文本转化为向量表示,并在各种NLP任务中发挥作用,比如文本相似度计算、文本分类、信息检索等。这个框架提供了一种简单而有效的方式来处理文本数据,并获得具有丰富语义信息的嵌入表示。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [SentenceTransformers库介绍](https://blog.csdn.net/m0_47256162/article/details/129380499)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [5分钟 NLP系列 — SentenceTransformers 库介绍](https://blog.csdn.net/m0_46510245/article/details/122516399)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值