- 博客(16)
- 收藏
- 关注
原创 【学习周报】
最近看过的几篇论文里,VALOR和InstructBLIP模型使用了cross-attention机制,以这两篇论文为基础着重学习cross-attention相关的代码和思路。
2023-07-01 21:23:06 602
原创 【学习周报】
而在InstructBLIP中,指令文本不仅作为输入给到LLM,同时也给到了QFormer,这样做的好处是:指令通过Q-Former的自注意力层与查询进行交互,影响查询提取与指令所描述的任务更相关的图像特征。根据BLIP-2论文的方法,Q-Former已经分成两个阶段进行了预训练,通过预训练,它学会了提取可以被LLM消化的文本对齐的视觉特征,进而在推理过程中,通过将指令附加在视觉提示后引导LLM执行特定的任务。这些查询的输出特征随后被映射为输入视觉提示,提供给冻结的LLM。
2023-06-17 20:17:45 343
原创 【学习周报】
提出了一种统一的视觉-音频-语言跨模态预训练模型VALOR,通过设计的两个预训练任务,包括多模态分组对齐和多模态分组描述,对三模态的理解和生成进行建模。实验结果表明,VALOR具有良好的通用性和可扩展性。提出了第一个强相关的视觉-音频-语言数据集VALOR-1M,以促进三模态预训练研究,提出了VALOR-32K,用于视听-语言检索和字幕基准测试。在VALOR-1m和其他公共视觉-语言数据集上进行训练,VALOR在下游视觉/音频/视听检索、字幕和问答任务上实现了一系列新的最先进的性能。
2023-06-10 21:12:31 301
原创 【学习周报】SAM和CAT学习
上周组会提到了SAM,一个可提示的图像分割基础模型,从github上的star数就可以看出这项工作的意义和价值非凡,在阅读了这篇论文后也开始思考如何与video caption任务进行结合,在这个过程中又发现了五月初CVPR上的一篇文章“Caption Anything”,作者基于 Segment Anything, BLIP/BLIP-2, ChatGPT, Visual ChatGPT, GiT等多个大模型,设计出一个处理图像字母的基础模型,旨在生成可控的图像字幕。论文地址:https://arxiv.
2023-05-27 21:53:59 444 3
原创 【学习周报】
这篇文章针对端到端学习存在的一个问题:“模型消耗内存和数据需求都很大,难以训练。”提出了一种多任务强化学习方法。主要思想是从人工标注视频中挖掘并构建尽可能多的任务,以共同调节端到端神经网络。
2023-05-20 22:46:40 139
原创 【工作周报】
子问题提示旨在利用问答对的历史来生成更多信息和相关的问题,同时遵守特定的约束。通过从可用的问题-答案对进行推理,提示提供了明确的限制来指导这些问题的生成,确保它们是连贯的、相关的并且与目标一致。对于第一个问题,作者固定的从第一帧请求模型给出详细的描述,对于后续的问题,作者指导ChatGPT通过定义明确的目标,指定必要的行动并为下一个问题建立约束来制定询问的问题。首先是魔性的训练速度比之前慢得多,这是强化学习本身决定的,强化学习需要更多的数据和更长的训练时间来学习最优策略,而HMN本身包含的数据也比较多。
2023-04-22 22:17:57 192
原创 【学习周报】研究生论文学习周报
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning论文学习总结
2023-02-04 21:05:52 459 1
原创 【学习周报】强化学习基础内容
在上周,通过结合HMN项目中的video信息与其各项评估分数(BLEU、CIDEr、METEOR、ROUGE)加以分析,发现了模型在某些类别活动上的识别效果一般,为了改善模型在数据集上的表现,尝试借助强化学习的方式,因此本周主要对强化学习的基础内容进行学习。此外除了这种方式,还应从模型输入特征中的context feature(上下文特征)以及模型的目标检测方法上进行剖析,进而改善模型在实体模块表现差的状况。
2022-12-03 21:42:15 1266
原创 【学习周报9.26 ~ 10.1】Hierarchical Modular Network for Video Captioning(CVPR2022)
学习周报
2022-10-01 23:06:45 777
原创 【阅读笔记】Deformable DETR: Deformable transformers for end-to-end object detection
阅读笔记-Deformable DETR: Deformable transformers for end-to-end object detection
2022-08-13 12:28:23 3113
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人