基于局部Transformer的泰语分词和词性标注联合模型

最新推荐文章于 2024-05-21 17:06:30 发布

罗伯特之技术屋

最新推荐文章于 2024-05-21 17:06:30 发布

阅读量9

点赞数

分类专栏：智能科学与技术专栏文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57147647/article/details/138379753

版权

智能科学与技术专栏专栏收录该内容

73 篇文章 1 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

摘要: 泰语分词和词性标注任务二者之间存在高关联性，已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能，为此，提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节，音节组成词语的特点，采用局部Transformer网络从音节序列中学习分词特征；考虑到词根和词缀等音节与词性的关联，将用于分词的音节特征融入词语序列特征，缓解未知词的词性标注特征缺失问题。在此基础上，模型采用线性分类层预测分词标签，采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明，模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%，相较基线模型分别提升了0.33%、0.44%和0.12%。

关键词:
泰语分词 /
词性标注 /
联合学习 /
局部Transformer /
构词特点 /
音节特征 /
线性条件随机场 /
联合模型

泰语分词和词性标注是自然语言处理中的基础性关键任务，是许多泰语后续自然语言处理任务的必要处理步骤。在以往的研究中，通常将泰语分词和词性标注任务建模为使用不同的序列编码器的序列标记任务。

在泰语分词任务中，常用模型包括Sertis[1]、DeepCut[2]和AttaCut[3]。其中Sertis泰语分词模型以双向循环神经网络（bidirectional recurrent neural netwo

了解本专栏

超级会员免费看

罗伯特之技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于局部Transformer的泰语分词和词性标注联合模型

泰语分词和词性标注任务二者之间存在高关联性，已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能，为此，提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节，音节组成词语的特点，采用局部Transformer网络从音节序列中学习分词特征；考虑到词根和词缀等音节与词性的关联，将用于分词的音节特征融入词语序列特征，缓解未知词的词性标注特征缺失问题。在此基础上，模型采用线性分类层预测分词标签，采用线性条件随机场建模词性序列的依赖关系。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

罗伯特之技术屋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。