DPR和REALM论文笔记

最新推荐文章于 2023-03-24 14:06:36 发布

YakultGo

最新推荐文章于 2023-03-24 14:06:36 发布

阅读量513

点赞数

分类专栏： nlp 文章标签：论文阅读机器学习深度学习

本文链接：https://blog.csdn.net/weixin_43869610/article/details/127349908

版权

nlp 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

DPR(2020 EMNLP)

该论文的模型主要是一个双塔结构如下所示：

整个模型的训练数据D包含m个例子，其中每个例子由一个问题 $q_i$ 、一个相关段落 $p_i^+$ 、n个不相关段落 $p_{i,1}^-,\cdots,p_{i,n}^-$
$\mathcal{D}=\left\{\left\langle q_i, p_i^{+}, p_{i, 1}^{-}, \cdots, p_{i, n}^{-}\right\rangle\right\}_{i=1}^m$
loss函数：

负样本的选择方式：

Random：从语料库中随机抽取一个passage，基本上都是跟当前question无关的；
BM25：使用基于BM25的文本检索方式在语料库中检索跟question最相关的文本, 但要求不包含答案;
Gold: 在训练样本中, 其他样本中的positive passage。即对于训练样本 $i$ 和 $j, q_i$ 对应的正样本是 $p_i^{+}$ , 而这个 $p_i^{+}$ 可以作为 $q_j$ 的负样本。

In-batch negatives

一个批次的大小为B，则Q和P就是一个大小 $B\times d$ 的矩阵， $S=QP^T$ 则是一个大小为 $B\times B$ 的矩阵，其中第i行表示 $q_i$ 和B个段落的相似度，其中 $p_i$ 是 $q_i$ 的相关段落，因此剩下的 $B - 1$ 个段落就可以当做问题 $q_i$ 的负样本段落。

REALM(2020 ICML)

knowledge Retriever:
$\mid x)=\frac{\exp f(x, z)}{\sum_{z^{\prime}} \exp f\left(x, z^{\prime}\right)}$

$z)=\text { Embed }_{\text {input }}(x)^{\top} \text { Embed }_{\text {doc }}(z)$

然后经过一个线性层降维(作者在google ai发布的blog里面显示维度降到了128)：

Knowledge-Augmented Encoder:
$\begin{aligned} p(y \mid z, x) & \propto \sum_{s \in S(z, y)} \exp \left(\operatorname{MLP}\left(\left[h_{\mathrm{START}(\mathrm{s})} ; h_{\mathrm{END}(\mathrm{s})}\right]\right)\right) \\ h_{\mathrm{START}(\mathbf{s})} &=\operatorname{BERT}_{\mathrm{START}(\mathbf{s})}\left(\text { join }_{\mathrm{BERT}}\left(x, z_{\mathrm{body}}\right)\right) \\ h_{\mathrm{END}(\mathrm{s})} &=\operatorname{BERT}_{\mathrm{END}(\mathrm{s})}\left(\text { join }_{\mathrm{BERT}}\left(x, z_{\mathrm{body}}\right)\right) \end{aligned}$

Inverse Cloze Task(ICT)
$P_{\mathrm{ICT}}(b \mid q)=\frac{\exp \left(S_{\text {retr }}(b, q)\right)}{\sum_{b^{\prime} \in \text { ЄATCH }} \exp \left(S_{\text {retr }}\left(b^{\prime}, q\right)\right)}$
公式(1)两边log求导的推导过程如下：