安徒生在ACL讲一千零一夜-CSDN博客

原创实验-MCAN 复现

优化：源码 optimizer 较差，考虑使用 adam 进行优化实验结果分析：由于使用了 CLEVR 数据集代替 VQA2.0 进行实验，受到数据集较小的影响，可能无法达到原文实验中的准确率。

2023-09-15 11:55:34 220

领域：对话QA本文解决了现存方法中，只利用单一模态源信息，比如的段落或知识图谱，来回答用户的问题，而忽略了重要视觉信息，更不用说多种形式的不同知识来源的信息。多模态会话问答任务，通过多轮对话，用多模态知识回答用户问题。MMCoQA，问题被充分注解，不仅有自然语言的答案，也有相应的证据和有价值的反文本化自包含的问题｜ valuable decontextualized self-contained questions。MMCoQA数据集包含多个监督标签。

2023-09-11 19:30:25 170

原创 Plug-and-Play VQA

VQA 是视觉和语言推理的一个标志，是零样本设置下的一个具有挑战性的任务。我们提出了即插即用的 VQA 模型（PNP-VQA），这是一个零样本VQA 的模块化框架。与大多数现有工作相比，PNP-VQA 不需要对预训练模型（Pretrained Language Model）进行额外的训练。此外，我们建议使用自然语言和网络解释作为中间表示，将预训练模型联系在一起。

2023-09-11 19:26:37 236

原创 A Survey On Deep Learning for Multimodal Fusion

多模态数据融合式多模态数据挖掘的一种基本方法，旨在将不同分布、来源和类型的数据整合到一个能够以统一方式表示多模态和跨模态的全局空间中。可以利用特定的模态信息，提供比单一模态更丰富的信息。多模态数据融合深度学习模型中存在大量的自由权重，特别是冗余参数，这些参数对与感兴趣的任务的影响很有限。为了训练这些参数捕捉数据的特征结构，将大量的数据输入到基于反向传播的多模态数据融合深度学习模型中，计算量大且耗时长。为了提高加权学习的效率，反向传播算法的一些并行体已经在计算密集型架构上执行：CPU 集群、GPU 和云平台。

2023-09-11 19:25:08 153

原创 Scene Text VQA

目前 VQA 数据集没有考虑图像中文本传递的丰富语义信息。

2023-09-11 19:21:12 147

原创 transformers库使用实例

使用 transformers 库实现文本分类任务可以直接使用 transformers 中对应任务的 pipeline ，但是为了理解 transformers 中对应各个环节的细节，还是使用自己封装 pipeline 的方法实现。

2023-08-29 18:57:20 302

原创论文阅读-GAN

提出了一个通过对抗过程估计生成模型的新框架，在这个框架中，我们同时训练两个模型:生成模型，判别模型而不是G的概率。G的训练过程是限度地提高D出错的概率。这个框架对应于一个极大极小的双人博弈。在任意函数G和D的空间中，存在一个唯一解，G恢复训练数据分布，D处处等于21。在G和D由多层感知器定义的情况下，整个系统可以用反向传播进行训练。在样本的训练和生成过程中，。通过对生成的样本进行定性和定量评估，实验证明了该框架的潜力。

2023-08-01 22:39:36 83 2

原创实验-GAN对抗生成图像

D = Discriminator() . to(device) G = Generator(latent_size) . to(device) criterion = nn . BCELoss() # 使用二元交叉熵损失函数 BCELoss d_optimizer = torch . optim . Adam(D . parameters() , lr = 0.0002) g_optimizer = torch . optim . Adam(G . parameters() , lr = 0.0002)

2023-07-29 19:06:02 56

原创论文阅读-Adversarial Text-to-Image Synthesis: A Review

随着生成式对抗网络的出现，从文本描述中合成图像成为近年来研究的热点。这是一种灵活且直观的条件图像生成方法，在过去几年里，在视觉真实感、多样性和语义对齐方面取得了重大进展。然而该领域仍然面临一些挑战，需要进一步研究努力，比如使多目标生成高分辨率图像，以及开发与人类判断相关的，合适可靠的评估指标。这篇综述中，介绍了文本-图像对抗性合成模型的现状，自五年前开始的发展进行了概述，并提出了基于监督水平的分类方法。（创新点）本文以策略来评估文本-图像合成模型，突出缺点，并针对缺点确定新的研究领域。从。

2023-07-26 17:03:46 146 1

原创论文阅读-面向深度学习的多模态融合技术研究综述

面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能。多模态融合技术发展前期，以提升深度学习模型分类与回归性能为出发点，阐述多模态融合架构、融合方法和对齐技术。重点分析联合、协同、解编码器三种融合架构在深度学习中的应用情况与优缺点，以及多核学习、图像模型和神经网络等具体融合方法与对齐技术，在此基础上归纳多模态融合研究的常用公开数据集，并对跨模态转移学习、模态语义冲突消解、多模态组合评价等下一步的研究方向进行展望。

2023-07-16 00:24:41 1404 1

原创论文阅读-基于深度学习的多模态情感分析研究综述

深度学习完成多模态情感分析综述。主要介绍多模态情感分析的概念、背景、意义。总结了多模态融合技术和交互技术，讨论多模态情感分析未来发展。

2023-07-12 13:31:28 2541 1

原创论文阅读-基于深度学习的图像文本匹配研究综述

仅对全局语义信息进行编码与处理，不涉及细粒度语义信息建模，所以匹配效率通常较高。其不能充分理解各模态内蕴含的丰富语义信息，甚至引入噪声为了有效解决图像-文本匹配的模态内语义理解与建模的挑战，基于局部特征的匹配方法设计不同的注意力机制以及图卷积网络，来挖掘各个模态内有用的细粒度实体信息以及实体间关联关系。为了提升模态间语义的对齐和匹配，许多基于注意力机制的模态间关联性关系建模策略提出。通过对关键性跨模态语义信息对进行对齐和聚集，以得到精准的图像-文本匹配的分数估计。

2023-07-11 23:11:26 1046 2

原创 CNN，Transformer，MLP三分天下

随着Transformer这个外来物种的入侵，CV领域逐渐形成了Transformer和CNN二分天下的情况。在原有机器学习模型多层感知机MLP中也逐渐产生了变革，MLP-Mixer就是其产物。在MLP-Mixer工作中，研究人员表明，尽管Conv和attention都足以获得良好的性能，但它们都不是必须的，纯MLP+非线性激活函数+Layer Normalization也能取得不错的性能，其预训练和推理成本可与最新模型相媲美。在MLP-Mixer为什么要使用全连接层，全连接的优点在哪。

2023-07-05 21:06:26 374 2

原创 Transformer in CV

最后，作者在未来将在以下几个方向完善VAN：继续改进它的结构。在本文中，只展示了一个简单的结构，还存在很多潜在的改进点，例如：应用大核、引入多尺度结构和使用多分支结构。大规模的自监督学习和迁移学习。VAN 自然地结合了CNN和ViT的优点。一方面VAN利用了图像的2D结构。另一方面 VAN可以基于输入图片动态的调整输出，它很适合自监督学习和迁移学习。结合了这两点，作者认为VAN可以在这两个领域有更好的性能。更多的应用场景。由于资源有限，作者只展示了它在视觉任务中的优秀性能。

2023-07-03 15:57:17 77 1

原创 BERT实现文本标签分类任务

（通过在bert模型中配置）导入数据集与分类类别名单。

2023-06-29 22:13:29 262 1

原创 BERT预训练模型

参考资料。

2023-06-26 00:09:26 2522 1

原创 Transformer模型

[seq2seq模型]]由两个主要部分组成：编码器Encoder和解码器DecoderEncoder将输入序列转换为一个固定长度的向量，而Decoder将该向量生成输出序列核心思想：将整个序列（输入）encode为一个向量，然后使用该向量来生成（decode）另一个序列（输出）整体上来说，seq2seq是一种先降维后升维的方法Encoder和Decoder通常使用循环神经网络RNN或变体，例如[[LSTM以及GRU模型]]Encoder的输入是一次性全部输入的，而Decoder的输入是。

2023-06-21 00:19:46 1300

原创 Attention模型

seq2seq在应对长序列下效果不明显，会出现Encoder层输出的语义向量c信号丢失严重。在长序列文本输入/输出场景下，RNN/LSTM模型很显然，在加入了Attention机制之后，记忆力缺陷被很好地弥补了。

2023-06-15 02:46:36 60 1

原创 Seq2Seq模型

end to end：已知input和output，去学习input到output 的映射关系，也就是求对应法则f的过程。Encoder层的输出语义向量c包含了输入序列X全部的语义信息，作为Decoder层的输入。可以作为初始化参数参与运算，也可以作为Decoder层每一个STEP的输入参与计算。neural models，也就是end-to-end的NLP文本任务流程。双向LSTM中，每层的输出经过归一化之后，输出各种可能结果的概率分布。Encoder的隐状态输出作为Decoder隐状态的输入。

2023-06-14 23:22:43 363

个人学术整理

原创实验-MCAN 复现

原创 MMCoQA

原创 Plug-and-Play VQA

原创 A Survey On Deep Learning for Multimodal Fusion

原创 Scene Text VQA

原创 transformers库使用实例

原创论文阅读-GAN

原创实验-GAN对抗生成图像

原创论文阅读-Adversarial Text-to-Image Synthesis: A Review

原创论文阅读-面向深度学习的多模态融合技术研究综述

原创论文阅读-基于深度学习的多模态情感分析研究综述

原创论文阅读-基于深度学习的图像文本匹配研究综述

原创 CNN，Transformer，MLP三分天下

原创 Transformer in CV

原创 BERT实现文本标签分类任务

原创 BERT预训练模型

原创 Transformer模型

原创 Attention模型

原创 Seq2Seq模型

原创 Glove模型

原创 word2vec模型

原创 RNN升级模型

原创循环神经网络RNN模型

原创深度学习全连接神经网络优化算法

原创概率论与数理统计基础

原创统计学基础

原创 any环境安装

空空如也

空空如也