简单来说,GPT的底层架构是transformer,是由pre-training和fine-tuning两部分构成的。
之前有人(好像是张俊林大佬)就说过,如果GPT做成双向的,那就没Bert什么事了(不过Bert的Masked LM和Next Sentence Prediction的思想也是功不可没哒)。之所以这么说,是因为Bert底层架构也是transformer,也是由pre-training和fine-tuning两部分构成的,只不过在transformer那采用的是双向而已
简单来说,GPT的底层架构是transformer,是由pre-training和fine-tuning两部分构成的。
之前有人(好像是张俊林大佬)就说过,如果GPT做成双向的,那就没Bert什么事了(不过Bert的Masked LM和Next Sentence Prediction的思想也是功不可没哒)。之所以这么说,是因为Bert底层架构也是transformer,也是由pre-training和fine-tuning两部分构成的,只不过在transformer那采用的是双向而已