自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 论文阅读:VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

现有的多模态的模态大多对于视频理解的任务能力有限,主要局限于模型对于上下文的记忆能力有限。使用agent的方法,可以在不进行大量的训练和后续工程的情况下,获得更好的表现。从文章的内容来看,前半部分信息量比较大,后面的内容较少。不过,还是可以体会到文章一开始需要去构建记忆的实现花了很多功夫,当然从结果来看是比较直接的。agent在现在很大程度和多模态联系在一起,比较值得关注。从本文来看,进行agent相关的实践很有必要。

2024-09-13 20:47:26 530

原创 论文阅读:How you feelin‘? Learning Emotions and Mental States in Movie Scenes

使用多模态方法的一个案例,其中sequence-to-set的方法可以关注。作者对于现有的数据进行额外的编辑和标注,但主要还是基于较短的视频进行分析和处理,实际数据量较小。特征的来源都是基于当时已有的模型,方法可以借鉴,相关代码已开源。

2024-09-09 16:18:22 400

原创 论文阅读:Koala: Key frame-conditioned long video-LLM

vLLM的理解能力通常只在数秒钟级别,而当视频变长,原本的模型使用稀疏采样的方法就不能理解其中的细节,就会出现错误。如上图展示,模型的注意力无法聚集在正确的位置。这是多模态大模型的文章,基于video-llama,数据集是HowTo100M,工作非常充分。本文思路类似LSTM,将短期扩展到长期。其中Q-former的方法值得去学习,这确实可以用到其他的工作当中。同时,language prior现象也值得关注。

2024-09-05 20:46:34 815

原创 论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。数据集太小了,同时数据偏向某些任务。数据标注在一些情况下不标准,会误导模型。目标物体会在视频中移动,文本描述很难精确。在该文的观点,现有的标注的数据同样还存在的问题是,数据标注风格不统一,数据标注的粒度不一致。短文本标注过于简单,只说明类别和位置;长文本模型处理起来困难。

2024-09-03 21:07:53 775 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除