本文通过ppt和大家简单聊一下关于nlp模型bert的一些知识,网上很多关于bert的解读,翻来覆去都是那些论文里的翻译之类的,十个人有九个相同的东西。本文简单的摘录了一些大佬之言,仅供参考。
1、Bert简介
先来聊一下nlp领域关于预训练的一个简单的发展历程。总所周知,图像领域的imagenet预训练对于图像处理有着相当大的意义,namenlp领域是否也存在这样的一个通用模型呢?
从word2vec开始,大佬们就开始不断地拓展新的模型。word2vec相应熟悉nlp领域的人都十分清晰它的好处,用它做词嵌入可以做出比较好的文本表征。它算是神经语言模型的一种变种,也是基于句子连个词前后的关系来捕捉句子里的特征。但是它的缺点很明显,对于同义词无能为力。
接下里,带大家认识一下transformer这个网路结构,它算是2017年nlp领域一个比较大的突破,摒弃了rnn这种序列结构,直接用上了attention机制来做,在神经翻译领域取得了很大的成就。
另外,Emlo这个模型使用了两层双向lstm模型来做词表征,词嵌入不再是固定的向量,而是会根据上下文信息进行辩护啊,这样就可以解决了同义词的问题。但是从后期的一些模型出现表现来看这样的双向lstm表征能力不足。
GPT使用的是trandformer结构来做单向的下个词汇预测的一个预训练模型,而bert在此基础上介入了双向,而且预训练任务修改成了完形填空与上下句判断两个任务。这个下面会详细聊一下。
我们可以看一下bert模型的而一些数据,一句话概括“