Bohemian_mc-CSDN博客

原创【学习周报】

最近看过的几篇论文里，VALOR和InstructBLIP模型使用了cross-attention机制，以这两篇论文为基础着重学习cross-attention相关的代码和思路。

2023-07-01 21:23:06 703

而在InstructBLIP中，指令文本不仅作为输入给到LLM，同时也给到了QFormer，这样做的好处是：指令通过Q-Former的自注意力层与查询进行交互，影响查询提取与指令所描述的任务更相关的图像特征。根据BLIP-2论文的方法，Q-Former已经分成两个阶段进行了预训练，通过预训练，它学会了提取可以被LLM消化的文本对齐的视觉特征，进而在推理过程中，通过将指令附加在视觉提示后引导LLM执行特定的任务。这些查询的输出特征随后被映射为输入视觉提示，提供给冻结的LLM。

2023-06-17 20:17:45 452

原创【学习周报】

提出了一种统一的视觉-音频-语言跨模态预训练模型VALOR，通过设计的两个预训练任务，包括多模态分组对齐和多模态分组描述，对三模态的理解和生成进行建模。实验结果表明，VALOR具有良好的通用性和可扩展性。提出了第一个强相关的视觉-音频-语言数据集VALOR-1M，以促进三模态预训练研究，提出了VALOR-32K，用于视听-语言检索和字幕基准测试。在VALOR-1m和其他公共视觉-语言数据集上进行训练，VALOR在下游视觉/音频/视听检索、字幕和问答任务上实现了一系列新的最先进的性能。

2023-06-10 21:12:31 400

原创【学习周报】SAM和CAT学习

上周组会提到了SAM，一个可提示的图像分割基础模型，从github上的star数就可以看出这项工作的意义和价值非凡，在阅读了这篇论文后也开始思考如何与video caption任务进行结合，在这个过程中又发现了五月初CVPR上的一篇文章“Caption Anything”，作者基于 Segment Anything, BLIP/BLIP-2, ChatGPT, Visual ChatGPT, GiT等多个大模型，设计出一个处理图像字母的基础模型，旨在生成可控的图像字幕。论文地址：https://arxiv.

2023-05-27 21:53:59 594 3

原创【学习周报】

这篇文章针对端到端学习存在的一个问题：“模型消耗内存和数据需求都很大，难以训练。”提出了一种多任务强化学习方法。主要思想是从人工标注视频中挖掘并构建尽可能多的任务，以共同调节端到端神经网络。

2023-05-20 22:46:40 360

原创【学习周报】

【代码】【学习周报】

2023-05-13 12:27:09 313

原创【工作周报】

子问题提示旨在利用问答对的历史来生成更多信息和相关的问题，同时遵守特定的约束。通过从可用的问题-答案对进行推理，提示提供了明确的限制来指导这些问题的生成，确保它们是连贯的、相关的并且与目标一致。对于第一个问题，作者固定的从第一帧请求模型给出详细的描述，对于后续的问题，作者指导ChatGPT通过定义明确的目标，指定必要的行动并为下一个问题建立约束来制定询问的问题。首先是魔性的训练速度比之前慢得多，这是强化学习本身决定的，强化学习需要更多的数据和更长的训练时间来学习最优策略，而HMN本身包含的数据也比较多。

2023-04-22 22:17:57 263

原创【学习周报】研究生论文学习周报

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning论文学习总结

2023-02-04 21:05:52 547 1

原创【学习周报】HMN项目代码学习

HMN项目代码学习

2023-01-07 23:29:09 1709 1

原创【学习周报】论文阅读学习

视频字幕相关的论文

2022-12-17 22:19:37 594 2

原创【学习周报】强化学习在视频字幕中的应用调查

强化学习与视频字幕调研

2022-12-10 22:10:04 658

原创【学习周报】强化学习基础内容

在上周，通过结合HMN项目中的video信息与其各项评估分数(BLEU、CIDEr、METEOR、ROUGE)加以分析，发现了模型在某些类别活动上的识别效果一般，为了改善模型在数据集上的表现，尝试借助强化学习的方式，因此本周主要对强化学习的基础内容进行学习。此外除了这种方式，还应从模型输入特征中的context feature（上下文特征）以及模型的目标检测方法上进行剖析，进而改善模型在实体模块表现差的状况。

2022-12-03 21:42:15 1535