第1问:bert算大模型么?

1. BERT的参数量与时代背景

  • BERT-base:约1.1亿参数(12层Transformer,768隐藏维度)。

  • BERT-large:约3.4亿参数(24层Transformer,1024隐藏维度)。

  • 对比同期模型

    • 2018年,GPT-1仅有1.17亿参数,与BERT-base相当。

    • 相较于传统模型(如LSTM、Word2Vec),BERT参数量显著更大,但在当时属于“大模型”。

2. 现代大模型的标准

  • 参数量级:通常指百亿(10B)至万亿(1T)参数(如GPT-3:175B,LLaMA-2:70B)。

  • 训练数据量:千亿至万亿Token(如GPT-3训练数据量约45TB文本)。

  • 硬件需求:需数千GPU/TPU集群训练数周至数月。

BERT的定位

  • 参数量(1.1亿~3.4亿)远低于现代大模型,但远高于传统小模型&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值