《从GLM-130B到ChatGLM：大模型预训练与微调》笔记

佛系调参

已于 2023-06-06 21:36:53 修改

阅读量790

点赞数 3

分类专栏：自然语言处理文章标签：语言模型自然语言处理人工智能

于 2023-06-05 22:13:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yzy__zju/article/details/131056143

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

第一部分

100B参数的大模型开始出现智能涌现

在code数据集上训练，增强大模型的逻辑推理能力

第二部分

GLM和LLaMA中采用RoPE旋转式编码

BF16牺牲了数据精度（表示由10位降到7位），但扩大了数据的表示范围（有研究表明数据表示范围比精度更重要）

LLaMA采用BF16训练的

大部分内存占用为激活函数

有个参数服务器，模型参数在参数服务器上进行更新，然后所有节点pull模型参数

alpha取0.1，手动降低embedding层的梯度

第三部分

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

佛系调参 CSDN认证博客专家 CSDN认证企业博客

码龄7年

125: 原创

5万+: 周排名

13万+: 总排名

17万+: 访问

: 等级

2276: 积分

45: 粉丝

110: 获赞

37: 评论

514: 收藏

私信

关注

热门文章

分类专栏

最新评论

LLM中损失函数解析
zyr_freedom: https://github.com/DLLXW/baby-llama2-chinese/tree/main 来自于这个
多模态大模型总结1（2021和2022年）
佛系调参: https://www.bilibili.com/video/BV1fA411Z772/?spm_id_from=333.788
多模态大模型总结1（2021和2022年）
不-胜-寒: 博主可以分享下最后一张图片的视频链接吗
LLM中损失函数解析
FlitDu: 代码出自哪里呀，方便贴一下嘛
模型训练-3D并行
云越泽: 流水线并不是每个时刻只有一个在算，像GPipe、PipeDream等，只是需要起步把流水线铺开的时间，铺开以后，流水线的计算和通信是能重叠的(A->B通信时，C可以算)，而张量并行确实同时多个GPU计算，但是通信和计算是不能重叠的。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。