【每日算法】理论:大模型相关 刷题:队列的应用

上期文章

【每日算法】理论:多模态系列 刷题:栈的应用


一、上期问题

  • GPT
  • BLIP
  • Pix2Pix
  • 常见的激活函数及其优缺点
  • 残差模块如何缓解梯度消失
  • ViLT

二、本期理论问题

1、GPT1,2,3的区别

  • GPT1是GPT系列的第一个模型,提出了decoder-only架构和预训练-微调范式;
  • GPT2在GPT1的基础上,
    • 在扩展到下游任务时,会有 zero-shot 的设定,不需要再重新训练模型,因此训练好之后在任何任务上都能用。
    • 结构上:将后置层归一化(post-norm)改为前置层归一化(pre-norm);模型最后一个自注意力层之后,额外增加一个层归一化;去掉了fine-tuning 训练,只有无监督的 pre-training阶段。
  • GPT3在结构上和GPT-1 GPT-2的区别主要在于使用了稀疏的自注意力模块来减少计算复杂度,具体叫局部带状稀疏注意力locally banded sparse attention。

【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹

2、解决过拟合的方法

过拟合是指模型在训练数据上表现非常好,但在未见过的新数据(测试数据)上表现较差。这种现象是由于模型在训练时过度拟合了训练数据的细节和噪声,导致在新数据上泛化能力较差。

  • 数据增强:通过对训练数据进行随机变换(例如旋转、翻转、平移等),增加数据的多样性,从而减少过拟合的可能性。
  • 正则化:添加正则化项(如L1正则化或L2正则化)到损失函数中,限制模型的参数大小,降低过拟合风险。
  • 提前停止(Early Stopping):在训练过程中,通过监控验证集的性能,当性能不再提升时,停止训练,防止过度拟合。
  • 使用更多数据:增加训练数据量可以降低过拟合风险,让模型更好地学习数据的真实分布。
  • 简化模型:减少模型的复杂度,如减少网络的层数、每层的神经元数量等。

3、LLM的生成原理

生成原理是基于条件概率的文本生成。在训练过程中,LLM学习了文本数据中的统计规律,包括单词之间的关联、句子结构、语法规则等。通过给定一个初始文本序列或部分文本序列,LLM可以利用学到的统计模型来计算下一个最有可能出现的词或字符,然后将其作为生成序列的一部分。这个过程不断迭代,每次根据前面生成的序列预测下一个最合适的词或字符,从而逐步生成出一段连贯的文本。

4、对比LSTM,GRU,transformer

  • LSTM旨在处理长期依赖关系时遇到RNN中的梯度消失问题。LSTM通过引入门控机制来控制信息的流动,有效地延长了梯度的传播路径,从而减轻了梯度消失的影响
  • GRU是LSTM的简化版,计算效率和内存占用相对改善很多,但是性能差异不大
  • transformer引入了自注意力机制,使encoder端后面的列也能看到前面的序列,同时也能够并行计算计算效率有大幅的提升

5、zero-shot

zero-shot是在训练集类别和测试集类别之间没有交集的情况下,通过借助类别的描述来建立训练集和测试集之间的联系,从而实现只利用训练集数据训练模型之后,模型就能对测试集的对象进行分类。zero-shot模型在做到下游任务时,既不需要下游任务的任何标注的信息,也不需要重新训练模型。

6、pre-norm和post-norm的区别?bert用的是哪一种?

Post-Norm和Pre-Norm是根据Normalization在结构中的位置进行划分的。同一设置之下,Pre Norm结构往往更容易训练,效果也更好,但是如果单独调,post norm的最终效果会更好。Post-Norm在残差之后做归一化,对参数正则化的效果更强,进而模型的收敛性也会更好;而Pre-Norm有一部分参数直接加在了后面,没有对这部分参数进行正则化,可以在反向时防止梯度爆炸或者梯度消失,使得训练更容易,大模型的训练难度大,因而使用Pre-Norm较多。

【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹

三、力扣刷题回顾-栈与队列

上期涉及题目:

本期题目:

239. 滑动窗口最大值:

  • 给定输入:一个整数数组nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。
  • 要求输出:返回 滑动窗口中的最大值 。

347.前 K 个高频元素:

  • 给定输入:一个整数数组 nums 和一个整数 k
  • 要求输出:返回其中出现频率前 k 高的元素
  • 补充:可以按 任意顺序 返回答案。

对比分析:
239. 滑动窗口最大值347.前 K 个高频元素都是运用队列的题目。239. 滑动窗口最大值一题主要使用单调队列,而347.前 K 个高频元素主要使用优先级队列。


239. 滑动窗口最大值

核心思想:先自行创建一个单调队列,在将大小为k的滑动窗口中元素放进队列中时,如果元素比当前队列中元素值都大,那么就弹出前边的元素,确保当前队列的最外端的元素始终为窗口的最大值。

在这里插入图片描述

from collections import deque

class MyQueue:
    def __init__(self):
        self.queue = deque() #这里需要使用deque实现单调队列,直接使用list会超时
    
    #每次弹出的时候,比较当前要弹出的数值是否等于队列出口元素的数值,如果相等则弹出。
    #同时pop之前判断队列当前是否为空。
    def pop(self,value):
        if self.queue and value == self.queue[0]:
            self.queue.popleft() #list.pop()时间复杂度为O(n),这里需要使用collections.deque()

    #如果push的数值大于入口元素的数值,那么就将队列后端的数值弹出,直到push的数值小于等于队列入口元素的数值为止。
    #这样就保持了队列里的数值是单调从大到小的了。
    def push(self,value):
        while self.queue and value > self.queue[-1]:
            self.queue.pop()
        self.queue.append(value)

    #查询当前队列里的最大值 直接返回队列前端也就是front就可以了。
    def front(self):
        return self.queue[0]

class Solution:
    def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
        queue = MyQueue()
        result = []
        for i in range(k): #先将前k个元素放进队列
            queue.push(nums[i])
        result.append(queue.front()) #result记录前k个元素的最大值
        for i in range(k,len(nums)): 
            queue.pop(nums[i-k]) #滑动窗口移除最前面元素
            queue.push(nums[i]) #滑动窗口前加入最后面的元素
            result.append(queue.front()) #记录对应的最大值
        return result

简略版本:

class Solution:
    def maxSlidingWindow(self, nums: List[int], k: int) -> List[int]:
        ans = []
        q = deque()  # 双端队列
        for i, x in enumerate(nums):
            # 1. 入
            while q and nums[q[-1]] <= x:
                q.pop()  # 维护 q 的单调性
            q.append(i)  # 入队
            # 2. 出
            if i - q[0] >= k:  # 队首已经离开窗口了
                q.popleft()
            # 3. 记录答案
            if i >= k - 1:
                # 由于队首到队尾单调递减,所以窗口最大值就是队首
                ans.append(nums[q[0]])
        return ans

347.前 K 个高频元素

核心思想:使用map来进行统计元素出现的频率,使用优先级队列对频率进行排序

class Solution:
    def topKFrequent(self, nums: List[int], k: int) -> List[int]:
        map_ = {} #nums[i]:对应出现的次数
        for i in range(len(nums)):
            map_[nums[i]] = map_.get(nums[i],0)+1
        
        #对频率排序
        #定义一个小顶堆,大小为k
        pri_que = [] #小顶堆

        #用固定大小为k的小顶堆,扫描所有频率的数值
        for key,freq in map_.items():
            heapq.heappush(pri_que,(freq,key))
            if len(pri_que) > k:
                heapq.heappop(pri_que)
        
        #找出前k个高频元素,因为小顶堆先弹出的是最小的,所以倒序来输出到数组
        result =[0]*k
        for i in range(k-1,-1,-1):
            result[i] = heapq.heappop(pri_que)[1]
        return result

参考:
代码随想录算法训练营第十一天|239. 滑动窗口最大值,347.前 K 个高频元素,总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值