论文阅读笔记:On the Automatic Generation of Medical Imaging Reports

一、简介

这篇论文任务是根据医学图像自动生成医学诊断报告,大类属于图像生成自然语言任务。图像生成自然语言这种CV和NLP结合的任务有很多,例如Image/Video Captioning、Image/Video QA、Image/Video Paragraph Description Generation等。这篇论文是CMU那边的,中了ACL 2018,论文链接:https://arxiv.org/pdf/1711.08195.pdf

二、框架

论文用的框架还是前面提到任务用到的基本的编码器-解码器框架,总体来说用CNN来编码图像的信息,再用RNN解码图像信息生成自然语言。
在这里插入图片描述
下面简要叙述下框架的整个流程:
首先,对于图像,用CNN提取图像特征(Visual Features)。接着,用提取的图像特征(Visual Features)做一个多标签分类(MLC)得到标签(Tags)。然后,对于得到的标签(Tags)进行Embedding,得到语义特征(Semantic Features)。再然后,对于提取的图像特征(Visual Features)和语义特征(Semantic Features)进行Co-Attention,得到context,用context当作Sentence LSTM的输入。利用Sentence LSTM每个step的输出和context经过Topic Generator生成topic vector,这个topic vector当作Word LSTM的初始化,进而Word LSTM生成一句话word by word。同时,Sentence LSTM每个step的输出还决定了是否生成该句话,即Stop Control。

三、实验结果

在这里插入图片描述
数据集IU X-Ray和PEIR Gross,注意IU X-Ray是有一段话,若干个句子;而PEIR Gross只用一句话。
论文做对比的实验CNN-RNN、LRCN、Soft ATT、ATT-RK实验结果基本可靠。

总结

这篇论文思路还行,就是实验结果不一定可靠。我复现过该论文,在IU X-Ray数据集上进行了实验,与论文中差距巨大。
论文问题:

  1. 实验结果可靠否?
    论文中对比的四个实验结果基本可靠,但是它自己框架的结果很受质疑。
  2. 多标签分类(MLC)结果召回率(Recall)高的可怕?
    论文中的召回率很高,我使用论文中的方法用MTI得到Tags,但是论文中手动加了一些Tag,例如“normal”,加“normal”的话,因为数据集大部分的CT图像是normal 的,召回率肯定会大幅度提升,2333。

注:我只是简要介绍一下这个论文,很多细节方面我没有说明,有问题可以评论我会回答。

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 25
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值