Language modeling head
LM头(language modeling head)是语言造型头。Transformer的输出是一个大小向量(batch_size,max_target_len,model_dimension)。在将这些Transformer输出转换为单词的最后一步中,首先将它们线性投影,然后对其应用softmax,返回目标序列中的位置(i)是词汇表中某个单词的概率。所有这些发生的层是LM头。
Regression Head
对于回归任务,可以在没有softmax激活的情况下添加密集层,旨在输出连续值。
补充知识
在GPT-3或BERT等大型语言模型(LLM)的上下文中,术语“头”是指在预训练的基础模型之上添加的附加层或机制,以使其适应特定任务。这些可能包括从用于情感分析等任务的分类层到用于机器翻译或问答等任务的更复杂的架构。
常见的头部类型:
- Classification Head:对于像文本分类这样的任务,通常会将一个全连接(密集)层添加到基础模型的输出中,然后激活softmax来生成类概率。
- Regression Head:对于回归任务,可以在没有softmax激活的情况下添加密集层,旨在输出连续值。
- Token Classification Head:对于命名实体识别或词性标注,通常添加标记级分类器来为输入序列中的每个标记分配标签。
- Sequence-to-Sequence Head:对于翻译或摘要等任务,可以添加解码器机制以生成一系列标记作为输出。
- Question-Answering Head: 对于QA任务,模型可能有两个密集层来预测上下文文本中答案跨度的开始和结束位置。
是否微调:
“头”的具体架构将取决于它的设计任务。我们的想法是对特定任务数据的这些附加层进行微调,以使LLM的一般语言理解能力适应手头任务的特定要求。