论文一 BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding
- Bert原始论文
- 预训练模型,预训练部分主要有两个任务;即Masked LM(遮蔽语言模型),Next Sentence Prediction(下一句预测)
- 模型结构图
- 原论文地址
论文二 Deep Residual Learning for Image Recognition(ResNet)
- Resnet原文
- 引入残差学习的思想,将每层网络学习残差函数,而非直接学习原始函数,以降低优化难度。
- 提出了快捷连接的机制,通过将输入直接加到输出,以实现残差学习的形式。
- 结构图及公式
两种瓶颈结构
- 原论文地址
论文三 Metaphor Detection via Explicit Basic Meanings Modelling
- 隐喻检测
- 通过训练集的基本标注来建模单词的基本意义,然后将其与上下文中的意义进行对比来识别隐喻。核心思想是替换MIP直接使用单词,采用含有本意的句子来作为输入
- 模型示意图
左边是MIP隐喻检测,右边是本文的BasicMIP模型 - 原论文
论文四 Attention Is All You Need
- transformer原论文
- 完全基于注意力机制,无需循环和卷积。Transformer包含编码器和解码器,每个都由多层自注意力层和全连接前馈网络组成。通过多头注意力机制,可以同时关注不同表示子空间的信息。
- 模型结构示意图
模型整体结构
左边是组成多头自注意的单元,右边是多头注意力 - 原论文地址
论文五 World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models
- 基于快速映射的开放词表学习
- 这篇文章介绍了一种名为Grounded Open Vocabulary Acquisition (GOVA)的任务,旨在研究开放世界语言学习中的视觉定语和快速映射。作者提出了OctoBERT,这是一种新颖的视觉语言模型,在预训练阶段获得了将词汇与视觉实体联系起来的能力,然后可以快速学习未见词汇。实验结果表明,OctoBERT在预训练阶段可以学习词汇的视觉意义,而且这种能力可以转移到仅通过少数样本学习新词汇。分析显示,模型的行为与人类语言学习存在一致性和差异性。这些发现为开放世界中的视觉语言学习提供了新的见解。
- 数据模式示意图
4.模型结构示意图
OctoBERT的模型结构,主要包括以下部分:
文本编码器:使用预训练的RoBERTa作为文本编码器,对输入的文本进行编码。
图像编码器:采用预训练的ResNet-50作为图像编码器,对输入的图像进行编码,并在最后加上2D位置编码。
多模态编码器:将文本编码和图像编码进行线性投影,并拼接成多模态表示。然后将该表示输入到一个跨模态的transformer编码器中,包含自注意力层。
对象解码器:从多模态编码器的输出中解码出对象表示,这些对象表示对应图像中的对象。
文本解码器:将对象表示输入到一个文本解码器中,以进行语言建模并预测缺失的词汇。文本解码器可以显式地关注图像中的对象。
预训练目标:OctoBERT在预训练阶段联合进行掩蔽语言建模、对象定位和通过词-区域对齐实现的视觉语义对齐。
下游任务:在下游任务中,OctoBERT使用对象解码器进行对象定位,同时使用文本解码器进行掩蔽语言建模。 - 原论文
论文六 What the DAAM: Interpreting Stable Diffusion Using Cross Attention
- 这篇文章介绍了一种名为DAAM的新方法,用于分析大型扩散模型中单词对生成图像的视觉影响。DAAM通过聚合模型中的交叉注意力分数,为每个单词生成一个二维的属性图。文章首先验证了DAAM的有效性,然后使用DAAM分析了语法关系如何映射到图像空间,并提出了几个关于语义现象的假设。研究结果显示,语义相似的词会相互干扰,形容词的修饰范围过于广泛。总体来说,文章为从视觉语言学的角度解释大型扩散模型提供了新见解。
- 论文地址
论文七 From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models
- 这篇文章系统地分析了预训练语言模型中的政治偏见。通过提出一种基于政治科学文献的框架,文章测量了不同预训练语言模型在政治价值上的倾向。研究还探讨了预训练语料库中的政治偏见对下游任务的影响,特别是在仇恨言论检测和错误信息识别任务中。实验结果表明,不同政治倾向的预训练语言模型在下游任务中表现出不同的行为,因此政治偏见的存在可能会直接影响模型结果的公平性。此外,文章还讨论了如何缓解这种偏见对下游任务公平性的负面影响。
- 对预训练模型的下游任务进行分析
- 论文地址
论文八 Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest
- 文章提出了一项研究,旨在评估大型神经网络模型在理解幽默方面的能力。该研究围绕《纽约客》杂志的卡通配字竞赛设计了三个任务:将笑话与卡通配对、识别获奖配字以及解释为什么获奖配字有趣。研究发现,无论是多模态模型还是仅语言模型,在这三个任务上都存在困难。例如,在匹配任务上,最先进的多模态模型比人类差30个百分点,即使提供了图像描述,人类撰写的解释也通常比机器撰写的解释更受欢迎。这表明目前的模型在理解幽默方面还无法达到人类的水平。
- 论文地址
论文九 Distilling Script Knowledge from Large Language Models for Constrained Language Planning
- 这篇文章提出了一个新问题,即受限语言规划,要求生成与具体目标相关的约束性脚本。作者评估了大型语言模型在处理具有具体约束的目标时的表现,并提出了一种生成-过滤的方法,显著提升了脚本质量。基于这种方法,作者从语言模型中提炼出了一个包含5.5万个脚本的高质量数据集CoScript。实验结果显示,通过在CoScript上训练,小型模型可以取得与大型模型相媲美的受限语言规划能力。
- 使用受限制模型
- 论文地址