Bert 与GPT差异

好好学习多睡觉

已于 2024-03-21 17:34:02 修改

阅读量425

点赞数 5

文章标签： bert gpt

于 2024-03-21 17:32:14 首次发布

本文链接：https://blog.csdn.net/weixin_45978522/article/details/136915255

版权

网络架构

在网络架构上，Bert使用的是Transformer的Encoder结构，因此可以输入序列中的每一个token都可以获取整个序列全文的上下文信息(Bidirectional)。而GPT使用的是Transformer的Decoder结构，通过Masked-Attention Layer，序列中的每一个token只能够看到其前方和自身的上下文信息(Left-to-right)。

无监督预训练目标函数

对于Bert使用的是完形填空和下一句判断来进行无监督的模型预训练，具体而言：

完形填空(masked language model): 给定一个语料库中的句子，将其中的部分词进行遮蔽(mask)，希望模型能够对这些词进行预测。
下一句判断(next sentence prediction): 输入两个分隔的句子，让模型进行判断这两个句子在原始文本中是否是连续的上下文句。

对于GPT使用的是下一个词预测进行无监督的模型预训练：

下一个词预测：假设从语料库中挑选出一个文本序列 $U=[u_1,u_2,...,u_n]$ ，将前文序列 $U_{in}=[u_1,u_2,...,u_{n-1}]$ 输入到模型当中，希望模型能够预测出下一个词为 $u_n$ 。

Fine-tuning时的模型和输入变化

由于Bert在预训练时使用了下一句预测任务作为目标函数，在进行Fine-tuning时输入能够自适应处理非连续的文本任务(例如QA)，在进行微调时只需要重新训练分类头即可。在进行预训练和微调时，除了对应每个输入的预测结果外(token level prediction)，还额外包含一个CLS头用来支持分类任务。
在这里插入图片描述

GPT由于在进行预训练时使用的是连续的文本进行下一个词的预测，因此对于非连续的序列信息无法直接进行处理(Entaiment、Similarity、Multiple Choice)。因此，在进行微调时需要对输入信息进行构造，同时添加针对每个任务的线性预测头，针对不同任务具体的构造方式如下图所示。在进行微调时，对应需要额外学习的参数有Delim分句符号的学习以及线性预测头的学习。
在这里插入图片描述