基于 Bi-LSTM 的词义消歧
原论文链接地址:https://ieeexplore.ieee.org/abstract/document/9724032
1. 摘要
词义消歧是自然语言处理中一项非常重要的工作,也是该领域的一项基础性工作。汉语词汇中有很多多义词。使用词义消歧模型可以根据多义词的上下文确定多义词在不同上下文中的正确含义,从而消除汉语中多义词造成的歧义。论文提出了一种基于Bi-LSTM(双向长短记忆)的神经序列学习模型来实现词义消歧。将句子的词向量输入神经网络训练相似度模型,对不同的语义项进行分类,通过相似度比较确定正确的词义项,从而实现了词义的消歧。
2. 论文的主要内容
(1)应用Bi-LSTM研究汉语词义消歧模型;
(2)分类器采用词向量与神经网络相结合的方法进行训练,将消歧过程简化为分类过程
(3)引入注意力机制,在词向量编码中加入词的上下文特征,提高语义分类的准确性
3. 基于Bi-LSTM的词义消歧算法
方法描述:基于Bi-LSTM的词义消歧算法的基本思想是对一个多义词的多个相关语料库进行分割,然后利用词向量模型得到每个词的词向量,并将这些词向量输入到神经网络中训练相似度模型,从而得到每个多义词的分类器。将要消歧的句子与分类器中与其多义相关的句子进行比较,正确的词义是得分最高的句子。
词义消歧步骤如下:
①数据预处理;
②多义词及其上下文由词向量表示;
③建立神经网络模型进行分类训练;
④在测试集中测试歧义词消歧并计算准确率。
模型的网络结构如图所示:
数据预处理:实验使用的数据集分为两部分:70%的数据集用作训练集,30%的数据集用作测试集。将数据集中的所有语料库进行合并,并使用Jieba分词工具的精确模型对语料库进行分割。然后,使用词向量模型将通过分词从训练数据中获得的每个词转换为相应的词向量。
网络的输入:该模型综合了每个句子语料库中每个单词的嵌入编码,并将通过注意力机制获得的上下文特征的最终编码结果作为神经网络的输入。单词嵌入将单词映射到具有唯一映射结果的多维向量空间。这种编码方法可以通过两个多维向量的空间距离来表示词义之间的相似性。两个词的空间距离越近,两个词之间的相关性越高。另外,该模型引入了注意力机制,有助于在神经网络计算之前找到句子中的关键词和与多义词密切相关的词,从而挖掘更多的语言特征,提高文本分类和词义识别的准确性。该模型中注意力机制的基本思想是:使用单词向量计算待编码单词与其上下文中每个单词的相关值,然后对其进行规范化。将归一化相关值作为权重,与对应相关词的编码向量进行线性组合,然后将其添加到待编码词的原始特征向量中,得到一个包含上下文信息的新编码向量。
以句子第一个单词的编码为例:向量q1表示第一个单词的原始特征编码,K(k1…kN)矩阵表示句子中所有单词的特征编码,V(v1…vn)矩阵表示引入注意力机制后每个单词的新特征编码向量。上下文特征提取过程如图所示:
首先,将q1和K矩阵相乘,即q1和k1…kn分别是内积,以获得向量a1,其元素记录为值a11…a1n,表示第一个单词和所有其他单词之间的相关值。值越大,两个单词之间的相关性越大。每个值除以向量序列长度的平方根,以消除向量长度对内积大小的影响。然后,通过softmax函数对该值进行归一化以获得权重向量b1,因此第一个字的新特征编码向量v1为:
v1=b11q11+b12q12+…+b1nq1n
网络的输出:神经网络的输出层是语义概率分布向量,向量的维数由语义类别的个数决定。输出层计算语义相似度,并通过softmax函数将其处理为规范化语义类概率向量。相似度得分最高的维度是最终的语义类。
4. 实验配置及过程
参数配置:
网络结构 | 双向单层LSTM |
---|---|
词向量维度 | 300 |
单个句子的最大长度 | 64 |
隐藏层大小 | 256 |
学习率 | 0.001 |
训练过程:
(1)正向传播过程
在双向 LSTM 网络的前向传播过程中。因为有两个 LSTM 同时在相反的方向上工作,所以时间t的输出通过结合时间t的输入向量、时间 t-1 和 t+1 的隐藏层节点状态来计算语义概率分布向量。
(2)反向传播过程
在反向传播过程中,首先利用损失函数计算t时刻输出的语义概率分布与手动给定的语义概率分布之间的误差,作为反馈正向传播,更新隐藏层的权重参数,生成新的权重矩阵。
测试过程:
将测试集数据映射到特征矩阵中,将输入网络与训练后的权重矩阵相结合,计算隐藏层中的节点状态,并使用 softmax 函数计算输出层中的语义分布概率向量。最大的概率值就是正确的语义类别。
5. 结论
该论文提出了一种基于Bi-LSTM的神经序列学习模型来实现词义消歧。引入注意力机制,将上下文信息添加到词向量编码中进行模型训练,通过文本相似度比较确定不同词的正确含义,实现词义消歧。实验表明,与传统的循环神经网络消歧模型相比,Bi-LSTM网络可以提高消歧精度,并且注意力机制的引入可以捕获更多的单词上下文特征。
原论文链接地址:https://ieeexplore.ieee.org/abstract/document/9724032