2000年之后的几个里程碑事件:
2001年 - 神经语言模型
2008年 - 多任务学习
2013年 - Word嵌入
2013年 - NLP的神经网络:循环神经网络(recurrent neural networks)、卷积神经网络(convolutionalneural networks)和结构递归神经网络(recursive neural networks)
2014年 - 序列到序列模型:seq2seq属于encoder-decoder结构的一种,这里看看常见的encoder-decoder结构,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder
2015年 - 注意力机制:google又提出了解决Seq2Seq问题的Transformer模型,用全attention的结构代替了lstm,在翻译任务上取得了更好的成绩。
2015年 - 基于记忆的神经网络
2018年 - 预训练语言模型:
BERT:BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构。
XLNet(2019-2020):结合AR语言模型和AE语言模型(BERT)。