大模型面试必考问题(一)

目录

1,底座模型基本训练步骤

2,PPO算法如何发挥作用

3,chatGLM中GLM设计思路

4,flashAttention详解

5,multi-query attention详解


6,p-tuning,p-tuningV2对比介绍

7,谈谈对roPE位置编码的理解

8,谈谈对AliBi位置编码的理解

9,swiGLU详解

10,LORA详解


1,底座模型基本训练步骤

满意回答:

  • 我们把LLM的基本训练步骤分为两步,预训练和对齐;预训练我们非常熟悉,是bert-finetuning时代的基本原理,只不过LLM一般遵循自回归的逻辑,因此使用GPT模型的预训练方式:CLM(具备因果关系的MLM);预训练帮助我们在海量语料下,通过自监督的方式确定了模型的基本参数,使得模型存储了大量世界知识和逻辑。而为了使预训练模型能够完成chat功能,我们还有第二步:对齐,这也是LLM“显示出智能”的重要一环,对齐又可以分为三步,分别是:SFT,RM和RLHF。

关键术语:

  • 预训练,对齐,SFT,RM,RLHF

术语解释:

  • SFT:
  • SFT(有监督微调):它的操作方式和之前我们熟悉大模型微调一样,它的目的是为调整自监督学习过程中的知识偏差,对于我们更希望模型注重的领域能够输出更稳定和正确的结果。
  • RM:
  • 获取奖赏模型,这个名字是根据下一步强化学习中该模型的定位来取的,它的操作方式还是针对分类任务做微调,而目的是希望模型能够具有判别问答对是否符合人类问答标准的能力,这个标准更倾向于语言逻辑而非知识对错。

  • RLHF:
  • 人类反馈强化学习,它的训练模式遵循强化学习架构,即:由actor模型做出原始回复,通过之前的RM对该问答进行评估,再通过ppo算法(损失函数)将评估后的奖罚结果用于更新actor和RM参数;在此过程中,人类可以定期替代RM模型做出评估,以便确定训练完成或调整RM判断偏差。

2,PPO算法如何发挥作用

满意回答:

  • ppo称作近邻策略优化算法,是典型的Actor- critic算法,即以两个网络为输入,并可以同时更新两者参数;在RLHF中我们更关注actor网络的更新方式,其损失函数由三部分构成,分别是:1,新旧状态输出比;2,优势函数,3,输入惩罚因子。

关键术语:

  • 新旧状态输出比,优势函数,输入惩罚因子

  • 新旧状态输出比:
  • 用以控制actor输出的新状态与旧状态(即文本内容)有过于大的偏差。
  • 优势函数:
  • 它将利用当前critic网络计算累计的评估得分。
  • 输入惩罚因子:
  • 通过KL散度控制actor模型的输入差异,防止相同输入产生过大的变动。

3,chatGLM中GLM设计思路

满意回答:

  • GLM是结合了MLM和CLM的一种预训练方式,其中G为general;在GLM中,它不在以某个token为粒度,而是一个span(多个token),这些span之间使用自编码方式,而在span内部的token使用自回归的方式,即对于span中的每个token训练时可以使用span外的上下文信息,以及span内该token的上文信息。

关键术语:

  • span,自编码,自回归

4,flashAttention详解

满意回答:

  • flashAttention是一种attention加速计算的精确算法,它的核心有三点:tiling(分块计算),kernel合并,和重计算。

关键术语:

  • 分块计算,kernel合并,重计算

术语解释

  • 分块计算:

  • 希望高效利用GPU中的SRAM部分,相比传统使用的HBM它具有高带宽低存储空间的特性,因为只有将原来的整体张量计算进行分块才可以进行。
  • kernel合并:
  • 即运算融合,因为每一个kernel按照原有的计算步骤,都需要与HBM各进行一次io操作,当融合后,所有计算步骤(如softmax,dropout等)只需一次io,大大缩减整体计算时。
  • 重计算:
  • 在反向传播中,计算QKV往往利用存储在HBM中的中间张量,当使用SRAM时,读取这些中间变量的时间往往大于重新在SRAM计算的时间,因此这里会采用重计算。

5,multi-query attention详解

满意回答:

  • 是multi-head attention的简化计算方式,能够有效的提升模型推理速度;而multi-query是只保留与head同样的数量query,而key和value进行参数共享,以减少计算参数量。而这种方式并不是直接修改模型结构来实现,而是通过一种称为retraining的方式在训练后期进行调整。(为了避免过多的参数共享带来效果衰减严重,也可以将query分组,每组共享对应的key和value,达到增加共享参数量的目的,称为grouped-query attention)

关键术语:

  • multi-head,参数共享,retraining

6,p-tuning,p-tuningV2对比介绍

满意回答:

  • 两者都是LLM的微调方法,在实验效果上都优于传统的fine-tuning;p-tuning通过调整LLM的embedding层参数,形成隐式的prompt表达,以此来提升模型效果;而p-tuningV2为了解决p-tuning中可变参数过于靠前,在多层transformer计算后效果被稀释,因此,它借鉴prefix-tuning的思想,在所有的transformer层前面加入网络层,以便保持隐式的prompt能够一直传递到最后,在多数标准测试集上,p-tuningV2比p-tuning都取得了更好的效果。

关键术语:

  • embedding层参数,隐式的prompt,prefix-tuning,多层transformer

7,谈谈对roPE位置编码的理解

满意回答:

roPE是LLM中使用的位置编码方式,如chatGLM,Llama系列模型。

  • roPE称为旋转位置嵌入,它作用在multi-head之后,qk内积之前,通过“旋转变换”来融入相对位置关系;该方式具有很好的距离衰减特性,同时较“正弦位置编码”具有更好的外推性,最重要的,它与自注意力计算方式即qk内积运算兼容,比“正弦位置编码”更直接的表达相对位置,因此理论上也有更佳的效果。

关键术语:

  • qk内积,旋转变换,距离衰减特性,正弦位置编码,外推性

8,谈谈对AliBi位置编码的理解

满意回答:

AliBi也是是LLM中使用的位置编码方式,如百川系列模型。

  • AliBi称为注意力线性偏置,它并不在embedding或multi-head之后叠加张量,而是在注意力计算过程中实施;即在q点乘k的转置后加上“坡度”乘“相对距离矩阵”,其中坡度与head数量相关,相对距离矩阵由qk中token相对位置索引组成。AliBi同样具有很好的距离衰减特性,同时外推性在目前所有位置编码中表现最好,但由于其改变的attention的计算过程,因此与很多attention优化方法无法兼容。

关键术语:

  • 注意力线性偏置,坡度,相对距离矩阵

9,swiGLU详解

满意回答:

  • glu是一种具有门控机制的线性网络激活函数,该门控机制通过sigmoid函数作用于“门控输出网络”,最后与输入张量进行对位乘法运算,实现更精细化激活;相比传统激活函数,门控机制使其能够像GRU一样捕捉更长的语义关联,通过参数化来避免“硬计算”带来的退化问题;而swiGLU是GLU的一种变体,将输入x先通过swish激活函数后再输入给GLU,这样可以使其导数更加“平滑”,易于求解,同时,使整个激活函数具有非线性表达的能力。

关键术语:

  • 门控机制,门控输出网络,硬计算,swish激活函数,平滑

10,LORA详解

满意回答:

  • lora称为低秩自适应算法,原理是使用两个低维张量相乘的方式,去近似大模型中对应张量的变化,如attention中的q,k,v对应的全连接网络参数,通过“支路”将其变化量用两个“分解网络”来表达,这样可以有效的减少微调训练的计算量;在推理阶段,可以进行权重合并,不会引入推理延迟。(其原理是假定了大模型中的网络参数是非满秩的,认为使用低维张量表达完全可以近似全量微调结果)

关键术语:

  • 低秩自适应,低维张量相乘,支路,权重合并,不会引入推理延迟

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TiSV工作室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值