摘要: 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。
- 关键词:
- 泰语分词 /
- 词性标注 /
- 联合学习 /
- 局部Transformer /
- 构词特点 /
- 音节特征 /
- 线性条件随机场 /
- 联合模型
泰语分词和词性标注是自然语言处理中的基础性关键任务,是许多泰语后续自然语言处理任务的必要处理步骤。在以往的研究中,通常将泰语分词和词性标注任务建模为使用不同的序列编码器的序列标记任务。
在泰语分词任务中,常用模型包括Sertis[1]、DeepCut[2]和AttaCut[3]。其中Sertis泰语分词模型以双向循环神经网络(bidirectional recurrent neural netwo