论文推荐
“SFFAI126期来自北京大学信息科学技术学院计算语言学研究所二年级博士生任抒怀推荐的文章主要关注于基础研究的多模态处理领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。”
关注文章公众号
回复"SFFAI126"获取本主题精选论文
01
推荐理由:单流多模态预训练的经典之作。
02
推荐理由:双流多模态预训练的经典之作。
03
推荐理由:提出了统一单流、双流多模态预训练的框架。对单、双流架构中的注意力机制进行了详细分析。
04
推荐理由:提出在多模态预训练中加入实体标签,以加强语言和视觉中的实体语义对齐。
05
推荐理由:使用基于patch的ViT而非基于object的Faster RCNN进行图片特征编码,取得60倍的提速。
06
推荐理由:OpenAI的CLIP。将图片分类任务建模为匹配形式,把图片标签换成对应的文本描述,并利用对比学习进行大规模预训练,取得了良好的zero-shot效果。