自监督学习的典型模型,除了BERT,还有GPT。
GPT的任务本质是预测得到一个seq的一部分,预测下一个字(predict next token)。相当于Transformer的decoder
- 01-输入begin of sequence,输出第一个字
- 02-输入BOS和第一个字,输出第二个字
- 重复以上步骤
注:GPT的模型非常大,微调参数都能耗费很大的计算量。
自监督学习的典型模型,除了BERT,还有GPT。
GPT的任务本质是预测得到一个seq的一部分,预测下一个字(predict next token)。相当于Transformer的decoder
注:GPT的模型非常大,微调参数都能耗费很大的计算量。