文献记录一

拉链夹叼

已于 2024-04-07 20:32:05 修改

阅读量1k

点赞数 30

文章标签：笔记

于 2024-04-07 11:10:14 首次发布

本文链接：https://blog.csdn.net/weixin_45923810/article/details/137454413

版权

论文一 BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

Bert原始论文
预训练模型，预训练部分主要有两个任务；即Masked LM（遮蔽语言模型），Next Sentence Prediction（下一句预测）
模型结构图
原论文地址

论文二 Deep Residual Learning for Image Recognition（ResNet）

Resnet原文
引入残差学习的思想，将每层网络学习残差函数，而非直接学习原始函数，以降低优化难度。
提出了快捷连接的机制，通过将输入直接加到输出，以实现残差学习的形式。
结构图及公式

两种瓶颈结构
原论文地址

论文三 Metaphor Detection via Explicit Basic Meanings Modelling

隐喻检测
通过训练集的基本标注来建模单词的基本意义，然后将其与上下文中的意义进行对比来识别隐喻。核心思想是替换MIP直接使用单词，采用含有本意的句子来作为输入
模型示意图
左边是MIP隐喻检测，右边是本文的BasicMIP模型
原论文

论文四 Attention Is All You Need

transformer原论文
完全基于注意力机制，无需循环和卷积。Transformer包含编码器和解码器，每个都由多层自注意力层和全连接前馈网络组成。通过多头注意力机制，可以同时关注不同表示子空间的信息。
模型结构示意图

模型整体结构

左边是组成多头自注意的单元，右边是多头注意力
原论文地址

论文五 World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

基于快速映射的开放词表学习
这篇文章介绍了一种名为Grounded Open Vocabulary Acquisition (GOVA)的任务，旨在研究开放世界语言学习中的视觉定语和快速映射。作者提出了OctoBERT，这是一种新颖的视觉语言模型，在预训练阶段获得了将词汇与视觉实体联系起来的能力，然后可以快速学习未见词汇。实验结果表明，OctoBERT在预训练阶段可以学习词汇的视觉意义，而且这种能力可以转移到仅通过少数样本学习新词汇。分析显示，模型的行为与人类语言学习存在一致性和差异性。这些发现为开放世界中的视觉语言学习提供了新的见解。
数据模式示意图

4.模型结构示意图

OctoBERT的模型结构，主要包括以下部分：
文本编码器：使用预训练的RoBERTa作为文本编码器，对输入的文本进行编码。
图像编码器：采用预训练的ResNet-50作为图像编码器，对输入的图像进行编码，并在最后加上2D位置编码。
多模态编码器：将文本编码和图像编码进行线性投影，并拼接成多模态表示。然后将该表示输入到一个跨模态的transformer编码器中，包含自注意力层。
对象解码器：从多模态编码器的输出中解码出对象表示，这些对象表示对应图像中的对象。
文本解码器：将对象表示输入到一个文本解码器中，以进行语言建模并预测缺失的词汇。文本解码器可以显式地关注图像中的对象。
预训练目标：OctoBERT在预训练阶段联合进行掩蔽语言建模、对象定位和通过词-区域对齐实现的视觉语义对齐。
下游任务：在下游任务中，OctoBERT使用对象解码器进行对象定位，同时使用文本解码器进行掩蔽语言建模。
原论文

论文六 What the DAAM: Interpreting Stable Diffusion Using Cross Attention

这篇文章介绍了一种名为DAAM的新方法，用于分析大型扩散模型中单词对生成图像的视觉影响。DAAM通过聚合模型中的交叉注意力分数，为每个单词生成一个二维的属性图。文章首先验证了DAAM的有效性，然后使用DAAM分析了语法关系如何映射到图像空间，并提出了几个关于语义现象的假设。研究结果显示，语义相似的词会相互干扰，形容词的修饰范围过于广泛。总体来说，文章为从视觉语言学的角度解释大型扩散模型提供了新见解。
论文地址

论文七 From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models

这篇文章系统地分析了预训练语言模型中的政治偏见。通过提出一种基于政治科学文献的框架，文章测量了不同预训练语言模型在政治价值上的倾向。研究还探讨了预训练语料库中的政治偏见对下游任务的影响，特别是在仇恨言论检测和错误信息识别任务中。实验结果表明，不同政治倾向的预训练语言模型在下游任务中表现出不同的行为，因此政治偏见的存在可能会直接影响模型结果的公平性。此外，文章还讨论了如何缓解这种偏见对下游任务公平性的负面影响。
对预训练模型的下游任务进行分析
论文地址

论文八 Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest

文章提出了一项研究，旨在评估大型神经网络模型在理解幽默方面的能力。该研究围绕《纽约客》杂志的卡通配字竞赛设计了三个任务：将笑话与卡通配对、识别获奖配字以及解释为什么获奖配字有趣。研究发现，无论是多模态模型还是仅语言模型，在这三个任务上都存在困难。例如，在匹配任务上，最先进的多模态模型比人类差30个百分点，即使提供了图像描述，人类撰写的解释也通常比机器撰写的解释更受欢迎。这表明目前的模型在理解幽默方面还无法达到人类的水平。
论文地址

论文九 Distilling Script Knowledge from Large Language Models for Constrained Language Planning

这篇文章提出了一个新问题，即受限语言规划，要求生成与具体目标相关的约束性脚本。作者评估了大型语言模型在处理具有具体约束的目标时的表现，并提出了一种生成-过滤的方法，显著提升了脚本质量。基于这种方法，作者从语言模型中提炼出了一个包含5.5万个脚本的高质量数据集CoScript。实验结果显示，通过在CoScript上训练，小型模型可以取得与大型模型相媲美的受限语言规划能力。
使用受限制模型
论文地址