![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CV
文章平均质量分 93
ying wong
你没资格懈怠和偷懒
展开
-
Competence-based Multimodal Curriculum Learning for Medical Report Generation (ACL 2021) 解读+总结
摘要:针对两个问题:【1】严重的数据偏差:视觉数据偏差:数据集中正常样本图像的比例远超于异常样本图像;此外,每个异常样本图像中,正常区域的占比远超于异常区域的占比。 文本数据偏差:放射学家标注的参考报告,通常遍历所有部位生成了描述,使得整个报告中正常本文描述占了绝大多数。此外,描述同一个部位的许多句子重复率极高。【2】有限的医学数据: 大部分现有的方法不会考虑它们的难度,而统一进行随机采样。有限数据的不平衡的数据偏差将会误导模型训练。所以,提出了CMCL(具体做法):...原创 2021-12-10 20:47:56 · 3115 阅读 · 1 评论 -
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 解析+总结
paper:2004.06165.pdf (arxiv.org)code:microsoft/Oscar: Oscar and VinVL (github.com)多模态学习初入门最近,视觉和语言预训练(Vision-Language Pretraining, 简称VLP)在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步:预训练:是以自监督的方式在海量 "图像-文本"数据(Image-Text Pair,或者叫做“图文对”)上训练大型的基于Transform...原创 2021-12-05 11:14:12 · 1765 阅读 · 0 评论