第一部分
100B参数的大模型开始出现智能涌现
在code数据集上训练,增强大模型的逻辑推理能力
第二部分
GLM和LLaMA中采用RoPE旋转式编码
BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)
LLaMA采用BF16训练的
大部分内存占用为激活函数
有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数
alpha取0.1,手动降低embedding层的梯度
第三部分