《Improving Language Understanding by Generative Pre-Training》论文笔记

最新推荐文章于 2024-03-01 22:12:45 发布

凯子要面包

最新推荐文章于 2024-03-01 22:12:45 发布

阅读量600

点赞数

分类专栏： NLP 文章标签： NLP

本文链接：https://blog.csdn.net/weixin_44815943/article/details/124492535

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

引言

GPT（Generative Pre-Training）受到《Semi-Supervised Sequence Learning》与《Universal Language Model Fine-tuning for Text Classification》的启发，采用“预训练 + Fine-tune” 两阶段的方式，在不降低模型效果的基础上，以统一的模型结构处理不同的NLP任务，并有效地降低有监督学习对标注数据的依赖。

预训练阶段

GPT 采用 Transformer Decoder 做标准语言模型任务，给定长度为 $N$ 的输入序列 $U = {u_1, u_2, ......, u_n}$ ，最大如下似然：
$\sum_{i=1}^NlogP(u_t|u_1, ......,u_{t-1}; \theta)$

具体计算过程如下：
在这里插入图片描述

Fine-Tune阶段

给定输入序列 $x_1, x_2, ..., x_m$ 与对应的标签 $y$ ，
$P(y|x_1, x_2, ..., x_n) = softmax(h_m^n w_c)$
其中 $h_m^n$ 表示 Decoder 最后一层第 $m$ 个元素对应的向量， $w_c$ 是全连接层的学习参数。目标损失为：
$L_2 = \sum_{x, y} logP(y|x_1, x_2, ..., x_n)$