Keyword-Attentive Deep Semantic Matching
1.论文试图解决什么问题?(输入是什么,输出是什么)
此论文尝试解决语义匹配的问题。
输入是:用户的问题Query,输出是:问答库中与Query最匹配的问题。
输入的是用户的Query==》
送到问答库里面检索出比较相似的候选问题
==》
再进行一个语义匹配,找到最匹配的问题。
核心:Query-Question语义匹配问题。
2.这是一个新问题吗?以前的研究工作有没有解决相同或类似的问题。
(如果是一个新问题,那这个问题为什么值得研究?
如果不是一个新问题,那之前的研究方法为什么不好,它改善了哪一点?)
不是一个新的问题。
之前的研究分为主要是基于TF-IDF分数或者深度语义匹配。
深度语义匹配:
二元分类:
语义相似,就标记为正
语义不同,就标记为负
缺陷:
(1)对领域关键词比较敏感,对没有出现过的问题对,就会失效。
(2)模型训练中正负样本之间的平衡问题,枚举所有负样本是不可行的。
这篇文章改善了哪一点?
第(1)(2)点。
3.这篇论文做了什么工作
(1)关键词提取:提出了一种适用于领域信息的关键词提取算法
(2)提出了关注关键词的BERT:关键字注意力层,与BERT的最后一层并列。为什么要加入这个注意力层:强调注意力机制中关键词和非关键词之间的成对交互。告诉模型什么是重要的。
(3)改变负抽样的方法。
利用关键词重叠得分来选择信息性的负问题对。
4.有哪些相关研究,如何归类,是什么启发了作者的这个思路
检索:
相互信息、术语对齐分数
用来测量查询-问题对之间的成对交互。
编码
改善网络结构
交叉网络、具有核池的卷积网络、对抗性网络、更简单的网络结构但更多特征、专注的自动编码器
长文本:
从单词级别到段落级别都考虑了文本分类法
基于哈希技巧提出无监督或若监督模型
注入主题和关键字知识以更好的建模
训练一个LDA模型,将主题预测为先验知识,并设计一个利用主题的知识门。
将关键字应用到产品QA
直接使用文本序列中的前K个单词作为关键词,并在注意力机制中形成关键词掩码
本文主要是关键词,但是是在BERT的基础上构建了一个关键字注意transformer层。
对于正负样本的选择问题:
随机抽样
距离得分
负面信息
本文引入:
关键词重叠得分
关键词替换
5.与早期的论文相比,这篇论文的关键区别和开创性工作是什么?
(1)使用BERT,并加入一个注意力层
(2)使用关键词重叠得分和关键词替换进行构建负样本
如何获取原始查询的良好表示?
基于领域的关键词提取方法,提取查询对中的高质量关键词。
如何将查询表示形式合并到匹配模型中?
关注关键词的BERT,将关键词集成到端到端模型训练中。
6.论文中的实验是如何设计的?
传统的检索方法:
TSUBAKI
Elasticsearch
OKAPI BM25
Lucene similarity
来测量查询问题距离。
关键词质量低。
(1)分词:PMI
(2)关键字词典
利用领域信息来衡量单词的重要性
首先计算每个单词的IDF分数
diff-idf评分来衡量领域词的重要性
利用的是语料库的领域信息提取领域关键词
无需手动编辑哦i关键词
无重型的模型结构
关键词关注机制:
关键词差异向量:
关键字关注层:
关键字信息被注入到更接近输出目标的位置,而不是BERT中输入的原始序列中。
负采样方法
语义匹配转化为二进制分类
(1)创建查询对的负采样
(2)随机采样生成负样本
使用搜索引擎来使用关键字增强查询进行检索
关键字来扩充原始输入查询
负样本相似性的得分低于阈值,则检索到的候选者往往是负的。
查询q和候选q之间的关键词重叠率。
7.用于定量评估的数据集是什么,代码有没有开源?
自己构建的数据集
数据集来源是中国QA社区网站
10万个QA对,代码没有开源的
8.实验的结果有没有充分支持该工作是有意义的?
这不是屁话嘛,如果没有意义,这怎么能发表呢?
最高好了3.1%
9.用自己的话总结出来这篇论文的具体贡献,到底在哪些知识点上有创新?
首先QA语义检索
用关键词
之后如何用呢?在BERT里面添加一个关键词注意力层
之后构建正负样本的时候,采用的是关键词重叠和实体替换的方法
10.这篇文章有哪些课完善提高之处?
语义相似性。