video bert & visual bert
最近需要处理一些多模态任务(图文匹配,caption等),需要用到多模态模型/算法。调研之后发现,目前处理此类问题的主流方法都是基于bert的多模态模型,因此总结一下学习过程中遇到的问题,以及自己对这些模型的理解。本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文,给我的最大感受就是:为了让多模态数据(video和文本)能够同时输入到bert模型



