论文笔记-Generating Radiology Reports via Memory-driven Transformer

xxxx_HeXi

已于 2022-03-13 09:44:15 修改

阅读量2.9k

点赞数 3

分类专栏：论文笔记文章标签： transformer 深度学习计算机视觉

于 2022-02-27 11:00:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xxxx_HeXi/article/details/123161141

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文笔记-Generating Radiology Reports via Memory-driven Transformer

创新点：使用记忆驱动的transformer（将记录报告生成过程中关键信息的关系存储器使用归一化的方法整合到transformer中）

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9INiRKqI-1645930489810)(E:\markdown图片\image-20220227095002331.png)]$

细节

视觉提取器：将给的图像通过预先训练的卷积神经网络cnn提取视觉特征 $X=\{\pmb{x_1},\pmb{x_2},...,\pmb{x_S}\}$ ，这里 $\pmb{x_s}\in{R^d}$ ，根据图片中patch features部分我们可以看出，是每个点是 $R^d$ 的向量，然后将编码的结果用于后续的模型
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FmfcJaK5-1645930489814)(E:\markdown图片\image-20220226114540605.png)]$
编码器：使用transformer编码器，对输入 $\pmb{x_i}$ 进行编码输出隐藏状态 $h_i$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CMMGC79a-1645930489815)(E:\markdown图片\image-20220226140359428.png)]$
解码器：使用transformer解码器，另外引用一个内存模块，使用MCLN为每个解码层改进原始层归一化，下面公式为解码器公式， $Y=\{y_1,y_2,...,y_T\}$ 为最后生成报告的相应的目标序列， $y_i$ 为生成的标记
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bs1kL4TF-1645930489818)(E:\markdown图片\image-20220226140958379.png)]$
具体的训练过程就变成了在给定img，以及标记输出的条件下用最大似然估计P(Y|Img)求模型参数 $\theta$
- 记忆存储器：增强transformer在模式中的学习能力。存储器在生成步骤使用矩阵一行一行记录存储重要的模式信息然后进行传输。
  
  在生成过程中，矩阵结合前面时间步的输出逐步更新，在时间步t上，将来自时间步t-1的矩阵 $M_{t-1}$ 功能化为q，并与前面的输出连接为k和v送到multi-head attention模块，在multi head attention中每个head的q，k和v通过式子 $Q=M_{t-1}\cdot{W_q};K=[M_{t-1};y_{t-1}]\cdot{W_k};V=[M_{t-1};y_{t-1}]\cdot{W_v}$ 求得， $y_{t-1}$ 是上一个时间步的输出嵌入。然后使用self attention公式 $Z=softmax(QK^T/\sqrt{d_k})V$ 对q，k，v建模求得Z。
  
  考虑到该记忆存储器会随着解码递归方式执行会受到梯度消失和爆炸，因此引入剩余连接和门机制。
  - 剩余连接：使用多层感知器（MLP）
  - 门机制：首先使用forget gate和input gate来平衡 $M_{t-1}$ 和 $y_{t-1}$ ，并且为了确保这两项可以进行运算，将 $y_{t-1}$ 复制多行，然后扩展为矩阵 $Y_{t-1}$ 。这两个门的公式为：
    
    门机制最后的输出就变成了
    
    其中 $\odot$ 表示为hadamard product。
    
    于是 $M_t$ 为整个记忆存储在t时间步的输出。
    
    门机制的模型如下
- Memory-driven Conditional Layer Normalization（MCLN）：将记忆存储的输出合并到 $\gamma和\beta$ 中， $\gamma和\beta$ 在传统的transformer中分别用来放大学习表征和偏差矫正的。
  
  在transformer的解码层中使用了三个mcln，其中第一个的输出作为multi head attention中的q值，multi head attention的k和v值来自编码器。
  
  将RM的输出 $M_t$ 将所有行连接扩展成向量 $\pmb{m_t}$ ，然后使用mlp预测其与 $\gamma$ 和 $\beta$ 的变化 $\Delta\gamma$ 和 $\Delta\beta$ ，用这两个变化更新 $\gamma$ $\beta$
  
  然后将这两个值应用到Multi head self attention的qui均值和偏差结果中。 $\pmb{r}$ 指的是上一个模块的输出， $\mu$ 和 $\nu$ 是 $\pmb{r}$ 的均值和标准差

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。