论文笔记-Generating Radiology Reports via Memory-driven Transformer

论文笔记-Generating Radiology Reports via Memory-driven Transformer
创新点:使用记忆驱动的transformer(将记录报告生成过程中关键信息的关系存储器使用归一化的方法整合到transformer中)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9INiRKqI-1645930489810)(E:\markdown图片\image-20220227095002331.png)]

细节
  • 视觉提取器:将给的图像通过预先训练的卷积神经网络cnn提取视觉特征 X = { x 1 , x 2 , . . . , x S } X=\{\pmb{x_1},\pmb{x_2},...,\pmb{x_S}\} X={x1x1x1,x2x2x2,...,xSxSxS},这里 x s ∈ R d \pmb{x_s}\in{R^d} xsxsxsRd,根据图片中patch features部分我们可以看出,是每个点是 R d R^d Rd的向量,然后将编码的结果用于后续的模型
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FmfcJaK5-1645930489814)(E:\markdown图片\image-20220226114540605.png)]

  • 编码器:使用transformer编码器,对输入 x i \pmb{x_i} xixixi进行编码输出隐藏状态 h i h_i hi
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CMMGC79a-1645930489815)(E:\markdown图片\image-20220226140359428.png)]

  • 解码器:使用transformer解码器,另外引用一个内存模块,使用MCLN为每个解码层改进原始层归一化,下面公式为解码器公式, Y = { y 1 , y 2 , . . . , y T } Y=\{y_1,y_2,...,y_T\} Y={y1,y2,...,yT}为最后生成报告的相应的目标序列, y i y_i yi为生成的标记
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bs1kL4TF-1645930489818)(E:\markdown图片\image-20220226140958379.png)]
    具体的训练过程就变成了在给定img,以及标记输出的条件下用最大似然估计P(Y|Img)求模型参数 θ \theta θ
    在这里插入图片描述
    在这里插入图片描述

    • 记忆存储器:增强transformer在模式中的学习能力。存储器在生成步骤使用矩阵一行一行记录存储重要的模式信息然后进行传输。

      在生成过程中,矩阵结合前面时间步的输出逐步更新,在时间步t上,将来自时间步t-1的矩阵 M t − 1 M_{t-1} Mt1功能化为q,并与前面的输出连接为k和v送到multi-head attention模块,在multi head attention中每个head的q,k和v通过式子 Q = M t − 1 ⋅ W q ; K = [ M t − 1 ; y t − 1 ] ⋅ W k ; V = [ M t − 1 ; y t − 1 ] ⋅ W v Q=M_{t-1}\cdot{W_q};K=[M_{t-1};y_{t-1}]\cdot{W_k};V=[M_{t-1};y_{t-1}]\cdot{W_v} Q=Mt1Wq;K=[Mt1;yt1]Wk;V=[Mt1;yt1]Wv求得, y t − 1 y_{t-1} yt1是上一个时间步的输出嵌入。然后使用self attention公式 Z = s o f t m a x ( Q K T / d k ) V Z=softmax(QK^T/\sqrt{d_k})V Z=softmax(QKT/dk )V 对q,k,v建模求得Z。

      考虑到该记忆存储器会随着解码递归方式执行会受到梯度消失和爆炸,因此引入剩余连接和门机制。

      • 剩余连接:使用多层感知器(MLP)
        在这里插入图片描述

      • 门机制:首先使用forget gate和input gate来平衡 M t − 1 M_{t-1} Mt1 y t − 1 y_{t-1} yt1,并且为了确保这两项可以进行运算,将 y t − 1 y_{t-1} yt1复制多行,然后扩展为矩阵 Y t − 1 Y_{t-1} Yt1。这两个门的公式为:
        在这里插入图片描述
        门机制最后的输出就变成了
        在这里插入图片描述
        其中 ⊙ \odot 表示为hadamard product。

        于是 M t M_t Mt为整个记忆存储在t时间步的输出。

        门机制的模型如下
        在这里插入图片描述

    • Memory-driven Conditional Layer Normalization(MCLN):将记忆存储的输出合并到 γ 和 β \gamma和\beta γβ中, γ 和 β \gamma和\beta γβ在传统的transformer中分别用来放大学习表征和偏差矫正的。

      在transformer的解码层中使用了三个mcln,其中第一个的输出作为multi head attention中的q值,multi head attention的k和v值来自编码器。

      将RM的输出 M t M_t Mt将所有行连接扩展成向量 m t \pmb{m_t} mtmtmt,然后使用mlp预测其与 γ \gamma γ β \beta β的变化 Δ γ \Delta\gamma Δγ Δ β \Delta\beta Δβ,用这两个变化更新 γ \gamma γ β \beta β
      在这里插入图片描述
      在这里插入图片描述

      然后将这两个值应用到Multi head self attention的qui均值和偏差结果中。 r \pmb{r} rrr指的是上一个模块的输出, μ \mu μ ν \nu ν r \pmb{r} rrr的均值和标准差
      在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值