实习笔记12-Keyword-Attentive Deep Semantic Matching

本文提出了一种基于BERT的改进方法,通过关键词提取和关键字注意力层来解决问答库中的语义匹配问题。通过关键词重叠和实体替换优化负样本选择,解决了传统方法对领域关键词敏感和正负样本不平衡的问题。
摘要由CSDN通过智能技术生成

Keyword-Attentive Deep Semantic Matching

1.论文试图解决什么问题?(输入是什么,输出是什么)

此论文尝试解决语义匹配的问题。

输入是:用户的问题Query,输出是:问答库中与Query最匹配的问题。


输入的是用户的Query==》

送到问答库里面检索出比较相似的候选问题

==》

再进行一个语义匹配,找到最匹配的问题。

核心:Query-Question语义匹配问题。

img


2.这是一个新问题吗?以前的研究工作有没有解决相同或类似的问题。

(如果是一个新问题,那这个问题为什么值得研究?
如果不是一个新问题,那之前的研究方法为什么不好,它改善了哪一点?)


不是一个新的问题。

之前的研究分为主要是基于TF-IDF分数或者深度语义匹配。

深度语义匹配:

二元分类:

语义相似,就标记为正

语义不同,就标记为负


缺陷:

(1)对领域关键词比较敏感,对没有出现过的问题对,就会失效。

(2)模型训练中正负样本之间的平衡问题,枚举所有负样本是不可行的。


这篇文章改善了哪一点?

第(1)(2)点。

3.这篇论文做了什么工作

(1)关键词提取:提出了一种适用于领域信息的关键词提取算法

(2)提出了关注关键词的BERT:关键字注意力层,与BERT的最后一层并列。为什么要加入这个注意力层:强调注意力机制中关键词和非关键词之间的成对交互。告诉模型什么是重要的。

(3)改变负抽样的方法。

利用关键词重叠得分来选择信息性的负问题对。

4.有哪些相关研究,如何归类,是什么启发了作者的这个思路

检索:

相互信息、术语对齐分数

用来测量查询-问题对之间的成对交互。

编码

改善网络结构

交叉网络、具有核池的卷积网络、对抗性网络、更简单的网络结构但更多特征、专注的自动编码器

长文本:

从单词级别到段落级别都考虑了文本分类法

基于哈希技巧提出无监督或若监督模型

注入主题和关键字知识以更好的建模

训练一个LDA模型,将主题预测为先验知识,并设计一个利用主题的知识门。

将关键字应用到产品QA

直接使用文本序列中的前K个单词作为关键词,并在注意力机制中形成关键词掩码


本文主要是关键词,但是是在BERT的基础上构建了一个关键字注意transformer层。


对于正负样本的选择问题:

随机抽样

距离得分

负面信息


本文引入:

关键词重叠得分

关键词替换

5.与早期的论文相比,这篇论文的关键区别和开创性工作是什么?

(1)使用BERT,并加入一个注意力层

(2)使用关键词重叠得分和关键词替换进行构建负样本


如何获取原始查询的良好表示?

基于领域的关键词提取方法,提取查询对中的高质量关键词。

如何将查询表示形式合并到匹配模型中?

关注关键词的BERT,将关键词集成到端到端模型训练中。

6.论文中的实验是如何设计的?

传统的检索方法:

TSUBAKI

Elasticsearch

OKAPI BM25

Lucene similarity

来测量查询问题距离。


关键词质量低。

在这里插入图片描述

(1)分词:PMI

(2)关键字词典

利用领域信息来衡量单词的重要性

首先计算每个单词的IDF分数

diff-idf评分来衡量领域词的重要性


利用的是语料库的领域信息提取领域关键词

无需手动编辑哦i关键词

无重型的模型结构


关键词关注机制:

关键词差异向量:

在这里插入图片描述

关键字关注层:

关键字信息被注入到更接近输出目标的位置,而不是BERT中输入的原始序列中。


负采样方法

语义匹配转化为二进制分类

(1)创建查询对的负采样

(2)随机采样生成负样本

使用搜索引擎来使用关键字增强查询进行检索

关键字来扩充原始输入查询

负样本相似性的得分低于阈值,则检索到的候选者往往是负的。

查询q和候选q之间的关键词重叠率。

7.用于定量评估的数据集是什么,代码有没有开源?

自己构建的数据集

数据集来源是中国QA社区网站

10万个QA对,代码没有开源的

8.实验的结果有没有充分支持该工作是有意义的?

这不是屁话嘛,如果没有意义,这怎么能发表呢?

最高好了3.1%

9.用自己的话总结出来这篇论文的具体贡献,到底在哪些知识点上有创新?

首先QA语义检索

用关键词

之后如何用呢?在BERT里面添加一个关键词注意力层

之后构建正负样本的时候,采用的是关键词重叠和实体替换的方法

10.这篇文章有哪些课完善提高之处?

语义相似性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向上Claire

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值