【无标题】

文章资源:


一、摘要

二、中英文名字对照

三、问题

1.LM的发展过程是什么?

1.统计语言模型
2.神经语言模型:word2vec(引入词向量?)
3.预训练语言模型:确定“预训练+微调”的学习范式
4.大语言模型

2.相比PLM,LLM带来的变化

1.模型大小和参数数量得到扩展
2.出现涌现能力
3.访问LLM的主要方式变成了接口
4.不再区分工程和研究

3.LLM着重研究哪四个方面

1.预训练(训练出一个出色的大模型)
2.微调(关于有效性和安全性对模型做出改变)
3.使用(下游任务)
4.能力评估

4.什么是涌现能力

1.上下文学习(催眠?)
	自然语言指令+任务演示,无需额外训练和梯度更新
2.指令遵循(指令微调)
	训练集A+训练集B+指令->没有见过的任务
3.逐步推理TOC
	逻辑

5.LLM的关键技术

扩展:模型大小,数据大小,总计算量
训练:分布式,优化框架(如何训练如此庞大的模型)
能力引导:LLM有通用任务求解器的能力,可以通过上下文学习策略和指令微调激发能力
对齐微调:价值观相关
工具操作:让大模型学会使用工具

6.如何使用大模型资源

API此处留白,以后需要用时补充

7.预训练流程

完成两个任务,语言建模(续写)和去噪自编码(完型填空)

7.1数据收集

数据集的影响:混合来源(配方比例),数量,质量

7.2架构

编码器解码器架构
因果解码器架构	仅解码器
前缀解码器架构	去除mask机制的解码器(那不是编码器吗?)
 详细架构
 标准化Layer Norm,保证训练稳定,最初为后置,现多为前置。最新的还有Deep Norm
 位置编码 注意力机制是对向量做点积,与距离无关,所以需要引入位置编码,有正弦编码和学习编码两种编码产生方式
 注意力机制和偏执???对注意力机制的改进
 激活函数
 建议配置 
 	标准化 前置RMS
 	激活函数 SwiGLU
 	位置编码 ALiBi

7.3模型训练

批量
学习率 动态调整
优化器 ADAMW
稳定训练 权重衰减,梯度裁剪

7.4训练技术

数据并行:参数模型和优化器状态复制到多个GPU,数据并行处理
流水线并行:把LLM不同层分到不同GPU上
张量并行:参数分解(bert?)
ZERO:通过分区对并行技术进行优化
混合精度:运用FP16的运算单元

8.什么是微调

8.1指令微调

8.1.1构建实例

在这里插入图片描述

8.1.2微调策略

平衡任务比例
结合指令微调和预训练:为了使微调过程更加有效和稳定,在指令微调期间加入了预训练数据,这可以看作是对模型的正则化(regularization)。
经过微调,模型的泛用性和性能都能得到提升

8.2对齐微调

在这里插入图片描述
• 监督微调:为了使 LM 具有初步执行所需行为的能力,
通常需要收集一个包含输入提示(指令)和所需输出的监督数
据集,以对 LM 进行微调。
• 训练奖励模型:第二步是使用人类反馈的数据训练 RM。
LMM生成答案,标注人员对答案进行排序,用答案和标签训练RM
• 强化学习微调:在这一步骤中,LM 的对齐微调可以被
形式化为 RL ????问题。用RM来训练LM

8.3高效微调

适配器微调:为模型的transformer中间加入适配器(轻量级参数)
在这里插入图片描述
前缀微调:希望找到一个上下文,可以引导语言模型解决自然语言生成(NLG)任务【前缀】。它在每一层transformer的自注意力模块中的key、value向量前添加一个向量序列,再通过后向传播来求解。训练时加入了一个多层感知网络。
在这里插入图片描述
提示词微调:通过训练少量提示参数来使大型语言模型 (LLM) 适应新任务的技术

9.如何使用

9.1上下文学习

9.2思维链提示

10.能力测评

10.1 语言生成

10.2 知识利用

10.3复杂推理

10.4 与人类对齐

10.5 外部互动

10.6工具操作

11.LLM研究方向

理论和原理
模型架构
模型训练
模型应用
安全与对齐
应用于生态

12.扩展法则

描述模型规模,数据规模,计算量和交叉熵损失的关系。
不能预测涌现能力

总结

  • 15
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值