论文笔记-Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation

该论文提出了一种名为KERP的知识驱动的编码、检索、释义方法,用于医学影像报告生成。核心是图形转换器(GTR),它在异常图、图像和文本序列之间进行动态转换。GTR包含图间和图内消息传递,用于信息融合和传递。首先,通过CNN提取图像特征并编码成异常图,然后结合知识图谱检索模板,最后通过GTR将异常图解码并重写为自然语言报告。此外,模型还能预测常见胸部疾病。
摘要由CSDN通过智能技术生成
论文笔记-Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation
创新点:加入知识图谱
总体框架

论文提出了一种新的知识驱动的编码、检索、释义(KERP)方法。将图像的视觉特征转换成异常图(节点为由先验知识却抵挡的可能的临床异常),然后检索模板,并对模板进行进一步扩充和重写。

细节
  • GTR:KERP的核心是一个通用的实现单元–图形转换器(GTR),它可以在知识图(异常图)、图像和序列(文本)等多个领域的图形结构数据之间进行高级语义的动态转换,GTR的输入 G = ( V , E ) G=(V,E) G=(V,E)和输出 G ′ = ( V ′ , E ′ ) G'=(V',E') G=(V,E)可以有不同的结构和特征,例如节点个数和节点维数可以不同。

    GTR中有两种类型的消息传递,从源图到目标图的消息传递(图间消息传递)和同一图内的消息传递(图内消息传递)

    • 图间信息传递:变换源节点的特征并将相应的权重传递给目标节点, e s i , t j e_{s_i,t_j} esi,tj为图间节点之间的边, s i s_i si为源图中第i个节点, t j t_j tj为目标图中的第j个节点, σ \sigma σ为非线性激活。

      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Mv8vqwFo-1645404560864)(C:\Users\诃西\AppData\Roaming\Typora\typora-user-images\image-20220219194031639.png)]

      e s i , t j e_{s_i,t_j} esi,tj很多情况下不可用,可以增加使用注意力机制进行学习,即使用参数 W s a W^a_s Wsa W t a W_t^a Wta v i v_i vi v j ′ v_j' vj投影到q维的公共空间中,然后使用注意力机制转换成边的关注权重,然后进行归一化处理。



    在这里插入图片描述

    • 图内信息传递:通过相邻节点和自身特征更新目标节点
      在这里插入图片描述

    GTR模块将两种消息传递结合起来,首先在目标图内进行消息传递,然后再源图与目标图之间进行消息传递

  • KERP:一个编码,检索和转译的过程。首先编制了一个包括大范围异常发现的异常图,节点为胸部器官的频繁异常。然后编写一个模板库,由一组覆盖异常描述的频繁语句组成。然后将图像输入cnn提取视觉特征,然后使用GTR转换成异常图,然后再利用GTR将异常图解码成模板序列,然后再有GTR将检索和转述异常图的单词作为生成的报告。此外,还设计了一个常见胸部疾病的疾病图,在模型生成报告的同时,将异常图通过GTR转换成疾病图以便预测常见的胸部疾病。
    在这里插入图片描述

    • encode:将视觉特征编码成异常图。第一个式子将图片 X ∈ R W H d X X\in{R^{W H d_X}} XRWHdX转化成二维图 h u = ( h u 1 ; h u 2 ; . . . , h u N ) ∈ R N , d h_u=(h_{u_1};h_{u_2};...,h_{u_N})\in{R^{N,d}} hu=(hu1;hu2;...,huN)RN,d,第二个式子是将图中节点的潜在特征线性投影为一维概率 u = ( u 1 , u 2 , . . . , u N ) , u i ∈ { 0 , 1 } u=(u_1,u_2,...,u_N),u_i\in{\{0,1\}} u=(u1,u2,...,uN),ui{0,1}
      在这里插入图片描述
      这里的异常属性可以用于诊断疾病,即进行多标签分类
      在这里插入图片描述

      z = ( z 1 , z 2 , . . . , z L ) , z i ∈ { 0 , 1 } z=(z_1,z_2,...,z_L),z_i\in{\{0,1\}} z=(z1,z2,...,zL),zi{0,1}

    • retrieve:使用得到的知识图通过GTR获取模板 t = ( t 1 , t 2 , . . . , t N s ) t=(t_1,t_2,...,t_{N_s}) t=(t1,t2,...,tNs) N s N_s Ns是句子的最大数量。第二个式子是选择最大值索引的操作
      在这里插入图片描述

    • paraphrase:改进模板,并将模板转换成更自然和动态的表达式。将模板 t = ( t 1 , t 2 , . . . , t N s ) t=(t_1,t_2,...,t_{N_s}) t=(t1,t2,...,tNs)转换成报告 R = ( r 1 , r 2 , . . . , r N S ) R=(r_1,r_2,...,r_{N_S}) R=(r1,r2,...,rNS),每个句子 r i = ( w i 1 , w i 2 , . . . , w i N w ) r_i=(w_{i1},w{i2},...,w_{iN_w}) ri=(wi1,wi2,...,wiNw)包括 N w N_w Nw个词。
      在这里插入图片描述

Generating long and semantic-coherent reports to describe medical images poses great challenges towards bridging visual and linguistic modalities, incorporating medical domain knowledge, and generating realistic and accurate descriptions. We propose a novel Knowledge-driven Encode, Retrieve, Paraphrase (KERP) approach which reconciles traditional knowledge- and retrieval-based methods with modern learning-based methods for accurate and robust medical report generation. Specifically, KERP decomposes medical reportgenerationintoexplicitmedicalabnormalitygraphlearning and subsequent natural language modeling. KERP first employs an Encode module that transforms visual features into a structured abnormality graph by incorporating prior medicalknowledge;thenaRetrievemodulethatretrievestext templates based on the detected abnormalities; and lastly, a Paraphrase module that rewrites the templates according to specificcases.ThecoreofKERPisaproposedgenericimplementation unit—Graph Transformer (GTR) that dynamically transforms high-level semantics between graph-structured data of multiple domains such as knowledge graphs, images andsequences.Experimentsshowthattheproposedapproach generates structured and robust reports supported with accurate abnormality description and explainable attentive regions, achieving the state-of-the-art results on two medical report benchmarks, with the best medical abnormality and disease classification accuracy and improved human evaluation performance.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值