自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 【学习周报】

最近看过的几篇论文里,VALOR和InstructBLIP模型使用了cross-attention机制,以这两篇论文为基础着重学习cross-attention相关的代码和思路。

2023-07-01 21:23:06 478

原创 【学习周报】

至此,得到了预测序列、对象级别的语义特征、动作级别的语义特征、视频(句子)级别的语义特征。

2023-06-24 20:07:44 197 1

原创 【学习周报】

而在InstructBLIP中,指令文本不仅作为输入给到LLM,同时也给到了QFormer,这样做的好处是:指令通过Q-Former的自注意力层与查询进行交互,影响查询提取与指令所描述的任务更相关的图像特征。根据BLIP-2论文的方法,Q-Former已经分成两个阶段进行了预训练,通过预训练,它学会了提取可以被LLM消化的文本对齐的视觉特征,进而在推理过程中,通过将指令附加在视觉提示后引导LLM执行特定的任务。这些查询的输出特征随后被映射为输入视觉提示,提供给冻结的LLM。

2023-06-17 20:17:45 257

原创 【学习周报】

提出了一种统一的视觉-音频-语言跨模态预训练模型VALOR,通过设计的两个预训练任务,包括多模态分组对齐和多模态分组描述,对三模态的理解和生成进行建模。实验结果表明,VALOR具有良好的通用性和可扩展性。提出了第一个强相关的视觉-音频-语言数据集VALOR-1M,以促进三模态预训练研究,提出了VALOR-32K,用于视听-语言检索和字幕基准测试。在VALOR-1m和其他公共视觉-语言数据集上进行训练,VALOR在下游视觉/音频/视听检索、字幕和问答任务上实现了一系列新的最先进的性能。

2023-06-10 21:12:31 220

原创 【学习周报】SAM和CAT学习

上周组会提到了SAM,一个可提示的图像分割基础模型,从github上的star数就可以看出这项工作的意义和价值非凡,在阅读了这篇论文后也开始思考如何与video caption任务进行结合,在这个过程中又发现了五月初CVPR上的一篇文章“Caption Anything”,作者基于 Segment Anything, BLIP/BLIP-2, ChatGPT, Visual ChatGPT, GiT等多个大模型,设计出一个处理图像字母的基础模型,旨在生成可控的图像字幕。论文地址:https://arxiv.

2023-05-27 21:53:59 363 3

原创 【学习周报】

这篇文章针对端到端学习存在的一个问题:“模型消耗内存和数据需求都很大,难以训练。”提出了一种多任务强化学习方法。主要思想是从人工标注视频中挖掘并构建尽可能多的任务,以共同调节端到端神经网络。

2023-05-20 22:46:40 110

原创 【学习周报】

【代码】【学习周报】

2023-05-13 12:27:09 165

原创 【工作周报】

子问题提示旨在利用问答对的历史来生成更多信息和相关的问题,同时遵守特定的约束。通过从可用的问题-答案对进行推理,提示提供了明确的限制来指导这些问题的生成,确保它们是连贯的、相关的并且与目标一致。对于第一个问题,作者固定的从第一帧请求模型给出详细的描述,对于后续的问题,作者指导ChatGPT通过定义明确的目标,指定必要的行动并为下一个问题建立约束来制定询问的问题。首先是魔性的训练速度比之前慢得多,这是强化学习本身决定的,强化学习需要更多的数据和更长的训练时间来学习最优策略,而HMN本身包含的数据也比较多。

2023-04-22 22:17:57 159

原创 【工作周报】

这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型,下面是一些。暂时还没有找到合适的解决思路能够实现这两种特征方式的转换,目前采取的方法是对HMN项目中的video_feature所对应的mask进行一些调整,使其能够对应上video_feature的第二个维度(videosample_numb=15)。

2023-04-15 21:52:07 152

原创 【学习周报】

VLTinT模型包括了视频格式的转换、视频特征(全局环境特征、视频主体特征、语言视觉特征)的提取、中心帧的提取,还使用了CLIP模型、EMA指数移动平均机制、HAM混合注意力机制,很适合用来学习video caption任务的处理过程,同时它所用到的很多模块都可以迁移到其他模型中进行使用。

2023-04-08 21:47:58 173 1

原创 【学习周报】

研究生周报

2023-03-25 22:01:24 180

原创 【研究生周报】

研究生周报

2023-03-11 21:55:53 608 2

原创 【工作周报】

本周主要进行修改项目代码以及调试工作。

2023-03-04 22:04:15 184

原创 【学习周报】

数据集处理

2023-02-25 22:58:38 679

原创 【学习周报】研究生论文学习周报

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning论文学习总结

2023-02-04 21:05:52 411 1

原创 【学习周报】

研究生学习周报,主要内容:改代码、看论文

2023-01-14 22:27:44 1330

原创 【学习周报】HMN项目代码学习

HMN项目代码学习

2023-01-07 23:29:09 1089 1

原创 【学习周报】研究生学习周报

研究生学习周报

2022-12-31 23:01:43 244

原创 【学习周报】论文阅读学习

视频字幕相关的论文

2022-12-17 22:19:37 447 2

原创 【学习周报】强化学习在视频字幕中的应用调查

强化学习与视频字幕调研

2022-12-10 22:10:04 515

原创 【学习周报】强化学习基础内容

在上周,通过结合HMN项目中的video信息与其各项评估分数(BLEU、CIDEr、METEOR、ROUGE)加以分析,发现了模型在某些类别活动上的识别效果一般,为了改善模型在数据集上的表现,尝试借助强化学习的方式,因此本周主要对强化学习的基础内容进行学习。此外除了这种方式,还应从模型输入特征中的context feature(上下文特征)以及模型的目标检测方法上进行剖析,进而改善模型在实体模块表现差的状况。

2022-12-03 21:42:15 1116

原创 【工作周报】

工作周报

2022-11-19 21:44:14 431 5

原创 【学习周报】

学习目标: HMN结果分析学习内容:将HMN项目中的视频信息保存将视频信息与MSRVTT数据集进行对比分析结论学习时间:10,7 ~ 10.13学习笔记:1. 将HMN项目中的视频信息保存继上周工作,通过调试代码成功输出了HMN项目的predition以及groundtruth,但还没有找到视频的vid,这周在上周工作内容基础上再对代码进行调试,将视频的vid信息也保存在json文件中,代码如下:def language_eval(sample_seqs, groun

2022-11-12 22:03:45 515 1

原创 【学习周报】10.31 ~ 11.5

学习周报

2022-11-05 21:39:47 643 4

原创 【学习周报】

学习周报

2022-10-29 22:02:29 161

原创 【学习周报】10.17-10.22

学习周报

2022-10-21 21:41:41 275

原创 【学习周报】10.10~10.15

学习周报

2022-10-15 22:21:27 396

原创 【学习周报】研究生学习周报

学习周报

2022-10-08 23:05:36 855

原创 【学习周报9.26 ~ 10.1】Hierarchical Modular Network for Video Captioning(CVPR2022)

学习周报

2022-10-01 23:06:45 734

原创 【学习周报】研究生深度学习笔记9.19~9.24

学习周报

2022-09-24 22:13:25 805

原创 【学习周报】研究生深度学习笔记9.12~9.17

学习周总结

2022-09-17 21:15:01 1084

原创 【学习周报】注意力机制的工作原理和主流方法。

研究生学习周报

2022-09-10 20:40:05 895

原创 【学习周报】深度学习花书学习笔记。

深度学习花书笔记

2022-09-02 19:58:06 476

原创 【工作周报】8.22~8.27,研究生学习工作进度汇报。

研究生工作周报

2022-08-27 22:59:05 480

原创 【阅读笔记】Deformable DETR: Deformable transformers for end-to-end object detection

阅读笔记-Deformable DETR: Deformable transformers for end-to-end object detection

2022-08-13 12:28:23 2942

原创 【吴恩达深度学习视频8.1~8.6】学习周报

吴恩达深度学习目标检测(Object detection)章节内容学习总结。

2022-08-06 16:21:50 678

原创 【DeepLearning】学习周报

深度学习周报记录

2022-07-30 20:48:31 273

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除