一、简介
这篇论文任务是根据医学图像自动生成医学诊断报告,大类属于图像生成自然语言任务。图像生成自然语言这种CV和NLP结合的任务有很多,例如Image/Video Captioning、Image/Video QA、Image/Video Paragraph Description Generation等。这篇论文是CMU那边的,中了ACL 2018,论文链接:https://arxiv.org/pdf/1711.08195.pdf
二、框架
论文用的框架还是前面提到任务用到的基本的编码器-解码器框架,总体来说用CNN来编码图像的信息,再用RNN解码图像信息生成自然语言。
下面简要叙述下框架的整个流程:
首先,对于图像,用CNN提取图像特征(Visual Features)。接着,用提取的图像特征(Visual Features)做一个多标签分类(MLC)得到标签(Tags)。然后,对于得到的标签(Tags)进行Embedding,得到语义特征(Semantic Features)。再然后,对于提取的图像特征(Visual Features)和语义特征(Semantic Features)进行Co-Attention,得到context,用context当作Sentence LSTM的输入。利用Sentence LSTM每个step的输出和context经过Topic Generator生成topic vector,这个topic vector当作Word LSTM的初始化,进而Word LSTM生成一句话word by word。同时,Sentence LSTM每个step的输出还决定了是否生成该句话,即Stop Control。
三、实验结果
数据集IU X-Ray和PEIR Gross,注意IU X-Ray是有一段话,若干个句子;而PEIR Gross只用一句话。
论文做对比的实验CNN-RNN、LRCN、Soft ATT、ATT-RK实验结果基本可靠。
总结
这篇论文思路还行,就是实验结果不一定可靠。我复现过该论文,在IU X-Ray数据集上进行了实验,与论文中差距巨大。
论文问题:
- 实验结果可靠否?
论文中对比的四个实验结果基本可靠,但是它自己框架的结果很受质疑。 - 多标签分类(MLC)结果召回率(Recall)高的可怕?
论文中的召回率很高,我使用论文中的方法用MTI得到Tags,但是论文中手动加了一些Tag,例如“normal”,加“normal”的话,因为数据集大部分的CT图像是normal 的,召回率肯定会大幅度提升,2333。
注:我只是简要介绍一下这个论文,很多细节方面我没有说明,有问题可以评论我会回答。