【学习笔记3】gpt的language modeling head和regression head是什么意思?

Language modeling head

LM头(language modeling head)是语言造型头。Transformer的输出是一个大小向量(batch_size,max_target_len,model_dimension)。在将这些Transformer输出转换为单词的最后一步中,首先将它们线性投影,然后对其应用softmax,返回目标序列中的位置(i)是词汇表中某个单词的概率。所有这些发生的层是LM头。

Regression Head

对于回归任务,可以在没有softmax激活的情况下添加密集层,旨在输出连续值。

补充知识

在GPT-3或BERT等大型语言模型(LLM)的上下文中,术语“头”是指在预训练的基础模型之上添加的附加层或机制,以使其适应特定任务。这些可能包括从用于情感分析等任务的分类层到用于机器翻译或问答等任务的更复杂的架构。

常见的头部类型:
  • Classification Head:对于像文本分类这样的任务,通常会将一个全连接(密集)层添加到基础模型的输出中,然后激活softmax来生成类概率。
  • Regression Head:对于回归任务,可以在没有softmax激活的情况下添加密集层,旨在输出连续值。
  • Token Classification Head:对于命名实体识别或词性标注,通常添加标记级分类器来为输入序列中的每个标记分配标签。
  • Sequence-to-Sequence Head:对于翻译或摘要等任务,可以添加解码器机制以生成一系列标记作为输出。
  • Question-Answering Head: 对于QA任务,模型可能有两个密集层来预测上下文文本中答案跨度的开始和结束位置。
是否微调:

“头”的具体架构将取决于它的设计任务。我们的想法是对特定任务数据的这些附加层进行微调,以使LLM的一般语言理解能力适应手头任务的特定要求。

参考

What is LM head mean?

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值