03-Compositional Semantics-CSDN博客

本文链接：https://blog.csdn.net/zzk0126/article/details/132718158

本文探讨了NLP中组合语义的关键，介绍了加性和乘法二元模型，以及递归神经网络和卷积神经网络等n元模型。重点在于如何在短语和文档表示中利用这些模型构建复杂的语义表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP领域中的许多重要应用都依赖于理解更复杂的语言单元，如短语、句子和单词之外的文档。因此，组合语义仍然是自然语言处理的核心任务。在本章中，我们首先介绍了二进制语义组合的各种模型，包括加性模型和乘法模型。在此之后，我们提出了各种典型的n元语义组成模型，包括递归神经网络、递归神经网络和卷积神经网络。

$\mathbf{p}=f(\mathbf{u},\mathbf{v},\mathscr{R},\mathscr{K}),$

其中，p对应于联合语义单位（u，v）的表示。需要注意的是，这里的u和v可以表示单词、短语、句子、段落，甚至是更高层次的语义单位。其中， $\mathscr{K}$ 表示背景知识。其中， $\mathscr{R}$ 表示两个组成的语义单元之间的句法关系规则

3.2 Semantic Space

3.2.1 Vector Space

一般来说，语义表示的中心任务是将单词从抽象语义空间投射到数学低维空间。如前几章所述，为了使转换合理，目的是在这个新的投影空间中保持单词的相似性。换句话说，这些单词越相似，它们的向量就应该越近。例如，我们希望单词向量w（book）和w（杂志）很接近，而单词向量w（apple）和w（计算机）距离很远。在本章中，我们将介绍几个广泛使用的典型语义向量空间，包括单热表示、分布式表示和分布表示。

3.2.2 Matrix-Vector Space

尽管语义向量空间被广泛使用，但本文提出的另一种语义空间是一种更强大、更通用的组合语义框架。与传统的向量空间不同，矩阵向量语义空间利用矩阵来表示词的意义，而不是瘦向量。这背后的动机是，当在一个特定的上下文下建模语义意义时，人们不仅想知道每个单词的意思是什么，而且还想知道整个句子的整体意义。因此，我们关注每个句子中相邻单词之间的语义转换。然而，语义向量空间不能明确地描述一个词对另一个词的语义转换。在语义转换建模思想的驱动下，一些研究者提出使用矩阵来表示一个词对另一个词的转换操作。与那些向量空间模型不同，它可以包含一些结构信息，如词序和语法组成。

3.3 Binary Composition

其目标是为短语、句子、段落和文档构造向量表示。在不丧失一般性的情况下，我们假设一个短语（句子、段落或文档）的每个组成部分都嵌入到一个向量中，该向量随后将以某种方式组合，为短语（句子、段落或文档）生成一个表示向量。

近年来，二进制组合函数的建模是一个被充分研究但仍具有挑战性的问题。对于这个问题主要有两个观点，包括加性模型和乘法模型。

3.3.1 Additive Model

加性模型有一个约束条件，它假设p、u和v位于同一语义空间中。这本质上意味着所有的语法类型都具有相同的维度。最简单的方法之一是直接使用和来表示联合表示：p=u+v。

。为了克服词序问题，一个简单的变体是应用一个加权和，而不是均匀的权重。也就是说，这个组合的形式如下： $\mathbf{p}=\alpha\mathbf{u}+\beta\mathbf{v},$

其中，α和β对应于两个向量的不同权重。在此设置下，两个序列（u，v）和（v，u）具有不同的表示形式，这与真实的语言现象是一致的。例如，“机器学习”和“学习机器”有不同的含义，需要不同的表征。在这种情况下，我们可以比其他选民更重视头脑。例如，如果我们将α设置为0.3，β设置为0.7,0.3×（机器）=[0、0.9、0.3、1.5、0.6]和0.7×（学习）=[0.7、2.8、1.4、1.4、0]和“机器学习”表示他们添加0.3×w（机器）+0.7×（学习）=[0.7、3.6、1.7、2.9、0.6]。

但是，该模型不能考虑先验知识和语法信息。为了将先验信息合并到加性模型中，一种方法将最近邻域语义组合，推导 $\mathbf{p}=\mathbf{u}+\mathbf{v}+\sum_{i=1}^K\mathbf{n}_i,$

其中，n1，n2，…，nK表示v的所有语义邻居。因此，该方法可以将组件的所有同义词作为一个平滑因子集成到组合函数中，从而减少了语言的方差。例如，如果在“机器”和“学习”的组成，选择的邻居是“优化”，用w（优化）=[1,5,3,2,1]，这导致“机器学习”的表示变成w（机器）+w（学习）+w（优化）=[2,12,6,9,3]。

由于一个加性模型的联合表示仍然与原始分量向量在相同的语义空间中，所以通过余弦相似度来度量其语义关系是很自然的。因此，在一个朴素的加性模型下，我们有以下相似性方程：

$\begin{aligned} s\left(\mathbf{p},\mathbf{w}\right)& =\frac{\mathbf{p}\cdot\mathbf{w}}{\|\mathbf{p}\|\cdot\|\mathbf{w}\|}=\frac{(\mathbf{u}+\mathbf{v})\mathbf{w}}{\|\mathbf{u}+\mathbf{v}\|\|\mathbf{w}\|} && \text{(3.8)} \\ &=\frac{\|\mathbf{u}\|}{\|\mathbf{u}+\mathbf{v}\|}s(\mathbf{u},\mathbf{w})+\frac{\|\mathbf{v}\|}{\|\mathbf{u}+\mathbf{v}\|}s(\mathbf{v},\mathbf{w}),&& \text{(3.9)} \end{aligned}$

3.3.2 Multiplicative Model

其中，pi = ui·vi，表示输出的每个维数只依赖于两个输入向量的相应维数。然而，与最简单的加性模型相似，该模型也缺乏对词序建模的能力，以及缺乏背景句法或知识信息。

与将简单的乘法模型扩展到复杂的乘法模型不同，本文还提出了其他一种减少参数空间的方法。随着参数大小的减小，人们可以大大提高在基于张量的模型中的合成效率，而不是有一个 $O(n^3)$ 的时间复杂度。因此，可以在原张量模型中应用一些压缩技术。

3.4 N-Ary Composition

在现实世界的NLP任务中，输入通常是多个单词的序列，而不仅仅是一对单词。因此，除了设计一个合适的二进制组合算子外，应用二进制运算的顺序也很重要。在本节中，我们将以语言建模为例，介绍n组合中的三种主流策略。

RNN,CNN等，具体可以看我的博客。

3.5 Summary

在本章中，我们首先介绍了组合语义的语义空间。然后，我们以短语表示为例，介绍了二元语义组合的各种模型，包括加法模型和乘法模型。最后，我们介绍了典型的n元语义组成模型，包括递归神经网络、递归神经网络和卷积神经网络。组合语义允许语言从更简单的元素的组合及其二进制语义组合中构建复杂的含义而神经语义组合是多个NLP任务的基础，包括句子表示、文档表示、关系路径表示等。我们将在下面的章节中详细介绍这些场景。