1 相关工作
语言模型有word-level(词级)和character-level(字符级)等,word-level语言模型通常在词序列的基础上建模,而character-level语言模型通常是在字符序列的基础上建模。Word-level语言模型会遇到OOV(out of vocabulary)问题,即词不在词表中的情况,而character-level语言模型则不会出现此问题。
2 解决问题
语言模型一般较多使用RNN网络来建模,而character序列比Word序列更长,因此,模型的优化更难。针对此问题,有文献提出将字符序列分割成多段来处理,相邻段之间有信息的前向传递来学习更长期的依赖,但是梯度的反向传播被截断。而此文也将序列分成多段,不同的是此文使用Transformer来对字符序列建模,取得了state of the art的成果。
3 原理
此文在使用Transformer对字符序列建模,相邻的每段之间没有前向和后向的信息交互,同时增加了辅助损失函数来加速模型的训练。增加的辅助损失函数有3个,一是预测序列中的每个字符,二是在中间层也预测每个字符,三是每次预测多个字符。
先前的语

本文探讨了如何使用Transformer解决字符级语言模型的优化难题,通过分割序列和引入辅助损失函数,实现state of the art的效果,缩短训练时间。
最低0.47元/天 解锁文章
1461

被折叠的 条评论
为什么被折叠?



