论文笔记-Knowledge-driven Encode, Retrieve, Paraphrase for Medical Image Report Generation
创新点:加入知识图谱
总体框架
论文提出了一种新的知识驱动的编码、检索、释义(KERP)方法。将图像的视觉特征转换成异常图(节点为由先验知识却抵挡的可能的临床异常),然后检索模板,并对模板进行进一步扩充和重写。
细节
-
GTR:KERP的核心是一个通用的实现单元–图形转换器(GTR),它可以在知识图(异常图)、图像和序列(文本)等多个领域的图形结构数据之间进行高级语义的动态转换,GTR的输入 G = ( V , E ) G=(V,E) G=(V,E)和输出 G ′ = ( V ′ , E ′ ) G'=(V',E') G′=(V′,E′)可以有不同的结构和特征,例如节点个数和节点维数可以不同。
GTR中有两种类型的消息传递,从源图到目标图的消息传递(图间消息传递)和同一图内的消息传递(图内消息传递)
-
图间信息传递:变换源节点的特征并将相应的权重传递给目标节点, e s i , t j e_{s_i,t_j} esi,tj为图间节点之间的边, s i s_i si为源图中第i个节点, t j t_j tj为目标图中的第j个节点, σ \sigma σ为非线性激活。
e s i , t j e_{s_i,t_j} esi,tj很多情况下不可用,可以增加使用注意力机制进行学习,即使用参数 W s a W^a_s Wsa和 W t a W_t^a Wta将 v i v_i vi v j ′ v_j' vj′投影到q维的公共空间中,然后使用注意力机制转换成边的关注权重,然后进行归一化处理。
- 图内信息传递:通过相邻节点和自身特征更新目标节点
GTR模块将两种消息传递结合起来,首先在目标图内进行消息传递,然后再源图与目标图之间进行消息传递
-
-
KERP:一个编码,检索和转译的过程。首先编制了一个包括大范围异常发现的异常图,节点为胸部器官的频繁异常。然后编写一个模板库,由一组覆盖异常描述的频繁语句组成。然后将图像输入cnn提取视觉特征,然后使用GTR转换成异常图,然后再利用GTR将异常图解码成模板序列,然后再有GTR将检索和转述异常图的单词作为生成的报告。此外,还设计了一个常见胸部疾病的疾病图,在模型生成报告的同时,将异常图通过GTR转换成疾病图以便预测常见的胸部疾病。
-
encode:将视觉特征编码成异常图。第一个式子将图片 X ∈ R W H d X X\in{R^{W H d_X}} X∈RWHdX转化成二维图 h u = ( h u 1 ; h u 2 ; . . . , h u N ) ∈ R N , d h_u=(h_{u_1};h_{u_2};...,h_{u_N})\in{R^{N,d}} hu=(hu1;hu2;...,huN)∈RN,d,第二个式子是将图中节点的潜在特征线性投影为一维概率 u = ( u 1 , u 2 , . . . , u N ) , u i ∈ { 0 , 1 } u=(u_1,u_2,...,u_N),u_i\in{\{0,1\}} u=(u1,u2,...,uN),ui∈{0,1}
这里的异常属性可以用于诊断疾病,即进行多标签分类
z = ( z 1 , z 2 , . . . , z L ) , z i ∈ { 0 , 1 } z=(z_1,z_2,...,z_L),z_i\in{\{0,1\}} z=(z1,z2,...,zL),zi∈{0,1}
-
retrieve:使用得到的知识图通过GTR获取模板 t = ( t 1 , t 2 , . . . , t N s ) t=(t_1,t_2,...,t_{N_s}) t=(t1,t2,...,tNs), N s N_s Ns是句子的最大数量。第二个式子是选择最大值索引的操作
-
paraphrase:改进模板,并将模板转换成更自然和动态的表达式。将模板 t = ( t 1 , t 2 , . . . , t N s ) t=(t_1,t_2,...,t_{N_s}) t=(t1,t2,...,tNs)转换成报告 R = ( r 1 , r 2 , . . . , r N S ) R=(r_1,r_2,...,r_{N_S}) R=(r1,r2,...,rNS),每个句子 r i = ( w i 1 , w i 2 , . . . , w i N w ) r_i=(w_{i1},w{i2},...,w_{iN_w}) ri=(wi1,wi2,...,wiNw)包括 N w N_w Nw个词。
-