论文阅读笔记：On the Automatic Generation of Medical Imaging Reports

最新推荐文章于 2022-04-23 12:01:24 发布

忘泪

最新推荐文章于 2022-04-23 12:01:24 发布

阅读量9k

点赞数 5

本文链接：https://blog.csdn.net/wl1710582732/article/details/83148857

版权

论文阅读专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、简介

这篇论文任务是根据医学图像自动生成医学诊断报告，大类属于图像生成自然语言任务。图像生成自然语言这种CV和NLP结合的任务有很多，例如Image/Video Captioning、Image/Video QA、Image/Video Paragraph Description Generation等。这篇论文是CMU那边的，中了ACL 2018，论文链接：https://arxiv.org/pdf/1711.08195.pdf

二、框架

论文用的框架还是前面提到任务用到的基本的编码器-解码器框架，总体来说用CNN来编码图像的信息，再用RNN解码图像信息生成自然语言。
在这里插入图片描述
下面简要叙述下框架的整个流程：
首先，对于图像，用CNN提取图像特征(Visual Features)。接着，用提取的图像特征(Visual Features)做一个多标签分类(MLC)得到标签(Tags)。然后，对于得到的标签(Tags)进行Embedding，得到语义特征(Semantic Features)。再然后，对于提取的图像特征(Visual Features)和语义特征(Semantic Features)进行Co-Attention，得到context，用context当作Sentence LSTM的输入。利用Sentence LSTM每个step的输出和context经过Topic Generator生成topic vector，这个topic vector当作Word LSTM的初始化，进而Word LSTM生成一句话word by word。同时，Sentence LSTM每个step的输出还决定了是否生成该句话，即Stop Control。

三、实验结果

在这里插入图片描述
数据集IU X-Ray和PEIR Gross，注意IU X-Ray是有一段话，若干个句子；而PEIR Gross只用一句话。
论文做对比的实验CNN-RNN、LRCN、Soft ATT、ATT-RK实验结果基本可靠。

总结

这篇论文思路还行，就是实验结果不一定可靠。我复现过该论文，在IU X-Ray数据集上进行了实验，与论文中差距巨大。
论文问题：

实验结果可靠否？
论文中对比的四个实验结果基本可靠，但是它自己框架的结果很受质疑。
多标签分类(MLC)结果召回率(Recall)高的可怕？
论文中的召回率很高，我使用论文中的方法用MTI得到Tags，但是论文中手动加了一些Tag，例如“normal”，加“normal”的话，因为数据集大部分的CT图像是normal 的，召回率肯定会大幅度提升，2333。

注：我只是简要介绍一下这个论文，很多细节方面我没有说明，有问题可以评论我会回答。

忘泪

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
25
评论
论文阅读笔记：On the Automatic Generation of Medical Imaging Reports

一、简介这篇论文任务是根据医学图像自动生成医学诊断报告，大类属于图像生成自然语言任务。图像生成自然语言这种CV和NLP结合的任务有很多，例如Image/Video Captioning、Image/Video QA、Image/Video Paragraph Description Generation等。这篇论文是CMU那边的，中了ACL 2018，论文链接：https://arxiv.org...
复制链接

扫一扫

专栏目录