浅谈feature-based 和 fine-tune_feature base 和 fine tune分别是什么意思-CSDN博客

本文链接：https://blog.csdn.net/weixin_46707326/article/details/123451774

feature-based 和 fine-tune是NLP方向使用预训练模型时常用的两种方式，所以简单总结下。

Feature-based

Feature-based指在使用时，并不直接使用模型本身，而是利用模型产生的结果，即LM embedding，通过预训练的模型处理数据得到额外的特征，引入到要训练的模型中。

例如，在文本分类、序列标注等任务中，对输入的词进行编码得到词的embedding时，

对于静态词向量（word2vec, glove）就是使用查表的方式，每个词根据word2vec或者glove甚至是最原始的one-hot方式，得到的静态词向量，一个词对应一个200或者300维的向量表示，在下游任务中继续更新。所以说其实word2vec就是最原始的预训练语言模型，先用一批数据训练得到一批词的静态词向量。

而动态词向量（elmo和bert）也是一样，可以直接拿下游训练的数据，输入训练好的编码器encoder，然后得到每个词的embedding，也可以拿某层的hidden state输出当做额外的特征，引入到要训练的模型中，在下游任务中只训练这些输出的线性组合（w1 * h1 + w2 * h2 + w3 * h3 …）中的w，而h是不变的。
这样的做法一个明显的缺点就是占用存储太大了，毕竟要把所有的特征都保存一下。

静态词向量指训练以后，不发生改变了，也就是一个词只能唯一确定的向量和它对应，无法解决一词多义问题
动态词向量指同一个词的embedding会因为不同的上下文而发生变化

feature-based方法包括两步：

首先在大的语料A上无监督地训练语言模型，训练完毕得到语言模型
然后构造task-specific model例如序列标注模型，采用有标记的语料B来有监督地训练task-sepcific model，将语言模型的参数固定，语料B的训练数据经过语言模型得到LM embedding，作为task-specific model的额外特征

fine-tune

Fine-tune 方法会根据下游特定的任务，在原来的模型上面进行一些修改，使得最后输出是当前任务需要的，然后在新的语料上重新训练来进行fine-tune。这些修改一般是在模型的最后一层，或者在现有的网络后添加一个网络结构用于匹配下游的各种任务。

GPT1 GPT2 就采用了Fine-tune 方法，GPT3得益于海量的与训练样本和庞大的网络参数，不在需要 fine-tune过程；

BERT论文采用了LM + fine-tuning的方法，同时也讨论了BERT + task-specific model的方法，例如情感分析任务，将数据输入bert模型，将最后的输出取得第一个token的输出，传入一个softmax层，得到一个分类的结果，所以其实就是在最后加了一层softmax。

但是这种方式的话很明显占用资源更大，因为要重新训练，实现的时候又会有各种各样的问题，所以还是需要实践来完善。

fine-tune分为两个步骤：