Introduction
Transformers库的一个使用,用这个库就可以很轻松地去使用和训练自己的一个预训练语言模型。
outline
介绍什么是Transformers,为什么要用它
介绍一些比较常用的接口
最后会给出一个demo,帮助你们快速地入门
what is Transformers?
之前已大概了解了BERT、GPT这样的一些预训练语言模型,在BERT和GPT提出了之后,这样的预训练语言模型在各种各样的下游任务上都大幅超过了以往的神经网络模型,包括像RNN、LSTM之类的一些模型,因此的话越来越多的工作它就致力于去提出有没有可能有更好的一个预训练语言模型,他们的这些工作,有可能是针对架构进行了一些改进,提出了更好的架构,也可能是针对预训练的方式去进行了一些变动,提出了更好的训练方式,也有可能就单纯的用了一个更高质量的语料等等,这样造成了预训练语言模型在BERT之后像雨后春笋一样大量涌现了。
这是一件好事,同时也是一件负担,无论你是工程师或者是一个研究者,这样一个模型的快速迭代对你来说都是一种非常大的压力,比如你是工程师,你对于每一个模型进行实现的时候,你都要保证模型里面的每一处细节都和原论文一样,这个其实是非常困难的,并且如果来一个新的模型你就要重新实现一遍,那显然是不太现实。那例如你是一个研究者,你其实只是想要在之前的模型的基础上作出一点小的改动,那你其实也需要首先去完成这样模型的复现,而且你也需要大量的语料以及非常大量的计算资源来进行一个预训练,因此每一次你都需要从头去实现模型,那对于希望使用预训练模型的人来说其实是一种折磨。
很自然的我们就会想有没有可能有一个就相当于第三方的库,能够帮助我们,第一,帮助我们去很轻松地去复现各种各样预训练语言模型paper的结果,第二