多模态
文章平均质量分 73
佛系调参
这个作者很懒,什么都没留下…
展开
-
多模态大模型总结1(2021和2022年)
CLIP中采用的对比损失,最大化配对文本对的余弦相似度,最小化非配对文本对的余弦相似度,采用交叉熵损失实现BERT中采用的掩码语言建模任务,也是对每一个[MASK]进行分类二分类损失,预测输入的(图像-文本)对是配对的还是非配对的ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision首次提出,在图像编码器中不需要采用目标检测器,直接采用图像的patch embedding。但只采用图像的embedding原创 2023-11-26 19:42:52 · 416 阅读 · 2 评论 -
多模态常见任务介绍
给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题。例如,图像中发生什么事,人物穿的衣服是什么颜色,图像中有多少架飞机等。例如,TDIUC(Task Directed Image Understanding Challege) 是一个任务导向的图像理解数据集。作者收集了 VQAv2 等数据集,并进一步划分为 12 个子任务。原创 2023-11-24 13:54:09 · 726 阅读 · 0 评论