![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Res
文章平均质量分 93
右边是我女神
笔记仓库
展开
-
视觉溯因推理
给定包含一系列事件的视频序列,对其中存在因果性的事件进行遮蔽操作,模型需要给出其余事件描述的同时,给出遮蔽事件的描述。对于视觉Token的编码器(Transformer结构),设计了上下文的、方向的位置编码策略;解码器(Transformer结构),设计了级联的策略,一阶段用于生成基本的语言Token,后续不断进行优化。关于优化,本文采用句子的置信度分数来引导句子之间的信息传递。原创 2023-07-19 14:42:57 · 336 阅读 · 1 评论 -
CLIP概述
目前的视觉模型通过一些预定义好的标签集合作为监督信号进行训练。这类做法局限于当前数据集,因此泛化性能差。出于这一理由,从文本当中获取监督信号,在四亿个图像文本对上进行无监督学习。零样本学习,在超过30个数据集上取得了不错的性能(迁移能力强)。CLIP的魅力在于不需要预定的标签,可以知道语句中是否存在图像内的物体。下游任务包含分类、检测、分割、风格迁移、视频检索…原创 2023-07-18 21:42:51 · 1418 阅读 · 0 评论