多模态
文章平均质量分 84
yul1024
这个作者很懒,什么都没留下…
展开
-
论文阅读:VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
现有的多模态的模态大多对于视频理解的任务能力有限,主要局限于模型对于上下文的记忆能力有限。使用agent的方法,可以在不进行大量的训练和后续工程的情况下,获得更好的表现。从文章的内容来看,前半部分信息量比较大,后面的内容较少。不过,还是可以体会到文章一开始需要去构建记忆的实现花了很多功夫,当然从结果来看是比较直接的。agent在现在很大程度和多模态联系在一起,比较值得关注。从本文来看,进行agent相关的实践很有必要。原创 2024-09-13 20:47:26 · 1147 阅读 · 0 评论 -
论文阅读:How you feelin‘? Learning Emotions and Mental States in Movie Scenes
使用多模态方法的一个案例,其中sequence-to-set的方法可以关注。作者对于现有的数据进行额外的编辑和标注,但主要还是基于较短的视频进行分析和处理,实际数据量较小。特征的来源都是基于当时已有的模型,方法可以借鉴,相关代码已开源。原创 2024-09-09 16:18:22 · 420 阅读 · 0 评论 -
论文阅读:Koala: Key frame-conditioned long video-LLM
vLLM的理解能力通常只在数秒钟级别,而当视频变长,原本的模型使用稀疏采样的方法就不能理解其中的细节,就会出现错误。如上图展示,模型的注意力无法聚集在正确的位置。这是多模态大模型的文章,基于video-llama,数据集是HowTo100M,工作非常充分。本文思路类似LSTM,将短期扩展到长期。其中Q-former的方法值得去学习,这确实可以用到其他的工作当中。同时,language prior现象也值得关注。原创 2024-09-05 20:46:34 · 850 阅读 · 0 评论 -
论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。数据集太小了,同时数据偏向某些任务。数据标注在一些情况下不标准,会误导模型。目标物体会在视频中移动,文本描述很难精确。在该文的观点,现有的标注的数据同样还存在的问题是,数据标注风格不统一,数据标注的粒度不一致。短文本标注过于简单,只说明类别和位置;长文本模型处理起来困难。原创 2024-09-03 21:07:53 · 791 阅读 · 1 评论