LLM
文章平均质量分 84
yul1024
这个作者很懒,什么都没留下…
展开
-
论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。数据集太小了,同时数据偏向某些任务。数据标注在一些情况下不标准,会误导模型。目标物体会在视频中移动,文本描述很难精确。在该文的观点,现有的标注的数据同样还存在的问题是,数据标注风格不统一,数据标注的粒度不一致。短文本标注过于简单,只说明类别和位置;长文本模型处理起来困难。原创 2024-09-03 21:07:53 · 791 阅读 · 1 评论 -
论文阅读:Koala: Key frame-conditioned long video-LLM
vLLM的理解能力通常只在数秒钟级别,而当视频变长,原本的模型使用稀疏采样的方法就不能理解其中的细节,就会出现错误。如上图展示,模型的注意力无法聚集在正确的位置。这是多模态大模型的文章,基于video-llama,数据集是HowTo100M,工作非常充分。本文思路类似LSTM,将短期扩展到长期。其中Q-former的方法值得去学习,这确实可以用到其他的工作当中。同时,language prior现象也值得关注。原创 2024-09-05 20:46:34 · 850 阅读 · 0 评论