【每日算法】理论：大模型相关刷题：队列的应用_后置层归一化( post-norm )改为前置层归一化( pre-norm )的原因-CSDN博客

本文链接：https://blog.csdn.net/weixin_47748259/article/details/138183821

上期文章

【每日算法】理论：多模态系列刷题：栈的应用

文章目录

上期文章
一、上期问题
二、本期理论问题
三、力扣刷题回顾-栈与队列
- - 239. 滑动窗口最大值
  - 347.前 K 个高频元素

一、上期问题

GPT
BLIP
Pix2Pix
常见的激活函数及其优缺点
残差模块如何缓解梯度消失
ViLT

二、本期理论问题

1、GPT1，2，3的区别

GPT1是GPT系列的第一个模型，提出了decoder-only架构和预训练-微调范式；
GPT2在GPT1的基础上，
- 在扩展到下游任务时，会有 zero-shot 的设定，不需要再重新训练模型，因此训练好之后在任何任务上都能用。
- 结构上：将后置层归一化（post-norm）改为前置层归一化（pre-norm）；模型最后一个自注意力层之后，额外增加一个层归一化；去掉了fine-tuning 训练，只有无监督的 pre-training阶段。
GPT3在结构上和GPT-1 GPT-2的区别主要在于使用了稀疏的自注意力模块来减少计算复杂度，具体叫局部带状稀疏注意力locally banded sparse attention。

【论文精读】 GPT，GPT-2，GPT-3：大力出奇迹

2、解决过拟合的方法

过拟合是指模型在训练数据上表现非常好，但在未见过的新数据（测试数据）上表现较差。这种现象是由于模型在训练时过度拟合了训练数据的细节和噪声，导致在新数据上泛化能力较差。

数据增强：通过对训练数据进行随机变换（例如旋转、翻转、平移等），增加数据的多样性，从而减少过拟合的可能性。
正则化：添加正则化项（如L1正则化或L2正则化）到损失函数中，限制模型的参数大小，降低过拟合风险。
提前停止（Early Stopping）：在训练过程中，通过监控验证集的性能，当性能不再提升时，停止训练，防止过度拟合。
使用更多数据：增加训练数据量可以降低过拟合风险，让模型更好地学习数据的真实分布。
简化模型：减少模型的复杂度，如减少网络的层数、每层的神经元数量等。

3、LLM的生成原理

生成原理是基于条件概率的文本生成。在训练过程中，LLM学习了文本数据中的统计规律，包括单词之间的关联、句子结构、语法规则等。通过给定一个初始文本序列或部分文本序列，LLM可以利用学到的统计模型来计算下一个最有可能出现的词或字符，然后将其作为生成序列的一部分。这个过程不断迭代，每次根据前面生成的序列预测下一个最合适的词或字符，从而逐步生成出一段连贯的文本。

4、对比LSTM,GRU,transformer

LSTM旨在处理长期依赖关系时遇到RNN中的梯度消失问题。LSTM通过引入门控机制来控制信息的流动，有效地延长了梯度的传播路径，从而减轻了梯度消失的影响
GRU是LSTM的简化版，计算效率和内存占用相对改善很多，但是性能差异不大
transformer引入了自注意力机制，使encoder端后面的列也能看到前面的序列，同时也能够并行计算计算效率有大幅的提升

5、zero-shot

zero-shot是在训练集类别和测试集类别之间没有交集的情况下，通过借助类别的描述来建立训练集和测试集之间的联系，从而实现只利用训练集数据训练模型之后，模型就能对测试集的对象进行分类。zero-shot模型在做到下游任务时，既不需要下游任务的任何标注的信息，也不需要重新训练模型。

6、pre-norm和post-norm的区别？bert用的是哪一种？

Post-Norm和Pre-Norm是根据Normalization在结构中的位置进行划分的。同一设置之下，Pre Norm结构往往更容易训练，效果也更好，但是如果单独调，post norm的最终效果会更好。Post-Norm在残差之后做归一化，对参数正则化的效果更强，进而模型的收敛性也会更好；而Pre-Norm有一部分参数直接加在了后面，没有对这部分参数进行正则化，可以在反向时防止梯度爆炸或者梯度消失，使得训练更容易，大模型的训练难度大，因而使用Pre-Norm较多。

【论文精读】 GPT，GPT-2，GPT-3：大力出奇迹

三、力扣刷题回顾-栈与队列

上期涉及题目：

20. 有效的括号
1047. 删除字符串中的所有相邻重复项
150. 逆波兰表达式求值

本期题目：

239. 滑动窗口最大值
347.前 K 个高频元素

239. 滑动窗口最大值：

给定输入：一个整数数组nums，有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。
要求输出：返回滑动窗口中的最大值。

347.前 K 个高频元素：

给定输入：一个整数数组 nums 和一个整数 k
要求输出：返回其中出现频率前 k 高的元素
补充：可以按任意顺序返回答案。

对比分析：
239. 滑动窗口最大值和347.前 K 个高频元素都是运用队列的题目。239. 滑动窗口最大值一题主要使用单调队列，而347.前 K 个高频元素主要使用优先级队列。

239. 滑动窗口最大值

核心思想：先自行创建一个单调队列，在将大小为k的滑动窗口中元素放进队列中时，如果元素比当前队列中元素值都大，那么就弹出前边的元素，确保当前队列的最外端的元素始终为窗口的最大值。

在这里插入图片描述

from collections import deque

class MyQueue:
    def __init__(self):
        self.queue = deque() #这里需要使用deque实现单调队列，直接使用list会超时
    
    #每次弹出的时候，比较当前要弹出的数值是否等于队列出口元素的数值，如果相等则弹出。
    #同时pop之前判断队列当前是否为空。
    def pop(self,value):
        if self.queue and value == self.queue[0]:
            self.queue.popleft() #list.pop()时间复杂度为O(n),这里需要使用collections.deque()

    #如果push的数值大于入口元素的数值，那么就将队列后端的数值弹出，直到push的数值小于等于队列入口元素的数值为止。
    #这样就保持了队列里的数值是单调从大到小的了。
    def push(self,value):
        while self.queue and value > self.queue[-1]:
            self.queue.pop()
        self.queue.append(value)

    #查询当前队列里的最大值 直接返回队列前端也就是front就可以了。
    def front(self):
        return self.queue[0]

class Solution:
    def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
        queue = MyQueue()
        result = []
        for i in range(k): #先将前k个元素放进队列
            queue.push(nums[i])
        result.append(queue.front()) #result记录前k个元素的最大值
        for i in range(k,len(nums)): 
            queue.pop(nums[i-k]) #滑动窗口移除最前面元素
            queue.push(nums[i]) #滑动窗口前加入最后面的元素
            result.append(queue.front()) #记录对应的最大值
        return result

简略版本：

class Solution:
    def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
        ans = []
        q = deque()  # 双端队列
        for i, x in enumerate(nums):
            # 1. 入
            while q and nums[q[-1]] <= x:
                q.pop()  # 维护 q 的单调性
            q.append(i)  # 入队
            # 2. 出
            if i - q[0] >= k:  # 队首已经离开窗口了
                q.popleft()
            # 3. 记录答案
            if i >= k - 1:
                # 由于队首到队尾单调递减，所以窗口最大值就是队首
                ans.append(nums[q[0]])
        return ans

347.前 K 个高频元素

核心思想：使用map来进行统计元素出现的频率，使用优先级队列对频率进行排序

class Solution:
    def topKFrequent(self, nums: List[int], k: int) -> List[int]:
        map_ = {} #nums[i]:对应出现的次数
        for i in range(len(nums)):
            map_[nums[i]] = map_.get(nums[i],0)+1
        
        #对频率排序
        #定义一个小顶堆，大小为k
        pri_que = [] #小顶堆

        #用固定大小为k的小顶堆，扫描所有频率的数值
        for key,freq in map_.items():
            heapq.heappush(pri_que,(freq,key))
            if len(pri_que) > k:
                heapq.heappop(pri_que)
        
        #找出前k个高频元素，因为小顶堆先弹出的是最小的，所以倒序来输出到数组
        result =[0]*k
        for i in range(k-1,-1,-1):
            result[i] = heapq.heappop(pri_que)[1]
        return result