论文学习笔记 - Character-Level Language Modeling with Deeper Self-Attention

本文探讨了如何使用Transformer解决字符级语言模型的优化难题,通过分割序列和引入辅助损失函数,实现state of the art的效果,缩短训练时间。
摘要由CSDN通过智能技术生成

1 相关工作

  语言模型有word-level(词级)和character-level(字符级)等,word-level语言模型通常在词序列的基础上建模,而character-level语言模型通常是在字符序列的基础上建模。Word-level语言模型会遇到OOV(out of vocabulary)问题,即词不在词表中的情况,而character-level语言模型则不会出现此问题。

2 解决问题

  语言模型一般较多使用RNN网络来建模,而character序列比Word序列更长,因此,模型的优化更难。针对此问题,有文献提出将字符序列分割成多段来处理,相邻段之间有信息的前向传递来学习更长期的依赖,但是梯度的反向传播被截断。而此文也将序列分成多段,不同的是此文使用Transformer来对字符序列建模,取得了state of the art的成果。

3 原理

  此文在使用Transformer对字符序列建模,相邻的每段之间没有前向和后向的信息交互,同时增加了辅助损失函数来加速模型的训练。增加的辅助损失函数有3个,一是预测序列中的每个字符,二是在中间层也预测每个字符,三是每次预测多个字符。

  先前的语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值