1. BERT的参数量与时代背景
-
BERT-base:约1.1亿参数(12层Transformer,768隐藏维度)。
-
BERT-large:约3.4亿参数(24层Transformer,1024隐藏维度)。
-
对比同期模型:
-
2018年,GPT-1仅有1.17亿参数,与BERT-base相当。
-
相较于传统模型(如LSTM、Word2Vec),BERT参数量显著更大,但在当时属于“大模型”。
-
2. 现代大模型的标准
-
参数量级:通常指百亿(10B)至万亿(1T)参数(如GPT-3:175B,LLaMA-2:70B)。
-
训练数据量:千亿至万亿Token(如GPT-3训练数据量约45TB文本)。
-
硬件需求:需数千GPU/TPU集群训练数周至数月。
BERT的定位:
-
参数量(1.1亿~3.4亿)远低于现代大模型,但远高于传统小模型&#x