Bert base的网络结构:
L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M
使用GPU内存:7G多
Bert base的网络结构:
) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).
使用GPU内存:32G多
Bert base的网络结构:
L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M
使用GPU内存:7G多
Bert base的网络结构:
) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).
使用GPU内存:32G多