深度学习
文章平均质量分 95
来杯Sherry
这个作者很懒,什么都没留下…
展开
-
LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
映射规则是人为制定的,比如,将“太好了”、“好”映射为“正面”标签,将“不好”,“糟糕”映射为“负面”标签,将“一般”映射为“中立”标签。由于模型可接受的最大输入长度有限,随着软提示的参数量增多,实际输入序列的最大长度也会相应减小,影响模型性能。:在自然语言处理中,LLM(Large Language Model,大型语言模型)的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。= {“太好了”,“好”,“一般”,“不好”,“糟糕”}是衡量指令数据的重要维度,影响有监督微调过程的关键因素。原创 2023-09-25 21:40:02 · 563 阅读 · 0 评论 -
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
"语料库的似然性"通常是指一个特定文本序列(通常是一段文本或一个句子)在语料库中出现的概率。统计每个相邻字节对的出现频率,合并出现频率最高的字节对,将其作为 新的词元加入词表。构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。输入词序列全词切分,对照词表按词元从长到短顺序遍历匹配。合成全词时,词元表示失败部分视作未登录词,赋予相同表示。2. 全词切分为词元以及词元合并为全词的方法。将字节视为合并的基本符号。将字节视为合并的基本符号。第一个词元出现的频率。第二个词元出现的频率。原创 2023-09-25 21:26:10 · 765 阅读 · 0 评论 -
LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】
解码端则负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被观测的,因此这一额外增加的掩码是用来掩盖后续的文本信息,以防模型在训练阶段直接看到后续的文本序列进而无法得到有效地训练。预训练阶段包括了编码器和解码器的部分,用于学习通用表示,而下游任务通常涉及到对编码器和解码器的微调,以适应具体任务。最底层的输入(x1, x2, x3) 表示输入的序列数据,通过嵌入层(可选)将它们进行初步的embedding得到的a1,a2,a3。原创 2023-09-25 21:12:56 · 726 阅读 · 0 评论 -
循环神经网络——下篇【深度学习】【PyTorch】【d2l】
深度循环神经网络需要大量的调参(如学习率和修剪) 来确保合适的收敛,模型的初始化也需要谨慎。这些额外的信息可以是一些上下文信息,例如输入序列的长度、标点符号和语法结构等。尽管模型产出的困惑度是合理的, 该模型预测未来词元的能力却可能存在严重缺陷。这个架构常用于编码器-解码器架构是一种常用于序列到序列(Seq2Seq)任务的深度学习架构。神经网络机器翻译方法,强调的是端到端的学习。机器翻译的数据集是由源语言和目标语言的文本序列对组成的。并不适合预测未来,它需要上下文,下文(未来)未知逻辑上讲不通的一个结构。原创 2023-09-18 11:01:36 · 1171 阅读 · 8 评论 -
循环神经网络——中篇【深度学习】【PyTorch】【d2l】
在循环神经网络中执行如上计算的层 称为。深度学习框架的高级API对代码进行了更多的优化, 该模型在较短的时间内达到了较低的困惑度。直白理解:不是每个观察都重要,更新门实现关注机制,重置门实现遗忘机制。于是基于循环计算的隐状态神经网络被命名为。隐状态使用的定义与前一个时间步中使用的定义相同, 因此 上式计算是。来衡量,是平均每次可能选项,1为完美,最差为∞。隐状态:(隐藏层数,批量大小,隐藏单元数)用来衡量一个语言模型好坏的标准,可以用。这里是,随即权重预测(效果不好)其中,p为预测概率,原创 2023-09-18 10:59:08 · 390 阅读 · 0 评论 -
循环神经网络——上篇【深度学习】【PyTorch】【d2l】
若没有足够的历史记录来描述前τ个数据样本。一个简单的解决办法是:如果拥有足够长的序列就丢弃这几项;另一个方法是用零填充序列。序列模型主要用于处理具有时序结构的数据, **时序数据是连续的,**随着时间的推移,如电影评分、电影奖项、电影导演演员等。时光机器数据集中的每个文本行不一定是一个句子或一个段落,还可能是一个单词,因此返回的。对过去的数据建模,使用自身过去数据去预测自身未来数据,称为自回归模型。仅处理为单个列表,而不是使用多词元列表构成的一个列表。为了简化,使用字符(而不是单词)实现文本词元化;原创 2023-09-18 10:51:35 · 360 阅读 · 1 评论 -
卷积神经网络——下篇【深度学习】【PyTorch】【d2l】
首先,定期进行系统和软件的更新,保持操作系统和应用程序在最新版本,以获得更好的性能和安全性。其次,保持电脑的清洁,定期清理灰尘和污垢,确保散热良好,避免过热对硬件的损害。批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。在学习方面,合理规划学习时间,避免长时间的连续使用电脑,适时休息,保护眼睛和身体健康。其中,x∈B,x是一个小批量B的输入,比例系数γ,比例偏移β。,才有了批量规范化的名称。原创 2023-08-21 20:14:13 · 937 阅读 · 0 评论 -
卷积神经网络——中篇【深度学习】【PyTorch】【d2l】
为什么提出NiN?全连接层是网络里参数比重最高的地方(参数=输入通道\*高\*宽*输出通道\*高\*宽),尤其是卷积后的第一个全连接层。而卷积层参数就小得多。所以用卷积层替代全连接层,参数会更少。原创 2023-08-21 20:01:20 · 666 阅读 · 0 评论 -
卷积神经网络——上篇【深度学习】【PyTorch】【d2l】
(convolutional neural networks,CNN)是机器学习利用自然图像中一些已知结构的创造性方法,需要更少的参数,在处理图像和其他类型的结构化数据上各类成本,效果,可行性普遍优于全连接层。最大池化,每个窗口最强的模式信号,它针对卷积对空间位置敏感(边缘检测案例),允许输入有一定的偏移。K扩了三倍,所以用小k规模和原来的K相当,因此X 对应扩充前的K,扩充后的小k。一个足够充分的照片数据集,输入,全连接层参数,GPU成本,训练时间是巨大的。每个通道都有一个卷积核,结果为各通道卷积的和。原创 2023-08-21 19:48:09 · 797 阅读 · 0 评论 -
动手学DL——MLP多层感知机【深度学习】【PyTorch】
加入一个或多个隐藏层+激活函数来克服线性模型的限制, 使其能处理更普遍的函数关系类型,这种架构通常称为*多层感知机*(multilayer perceptron)。原创 2023-08-08 23:45:00 · 898 阅读 · 0 评论 -
线性神经网络——softmax 回归随笔【深度学习】【PyTorch】【d2l】
softmax 函数与交叉熵损失函数常用于多分类任务中。softmax 函数用于将模型输出转化为概率分布形式,交叉熵损失函数用于衡量模型输出概率分布与真实标签的差异,并通过优化算法来最小化损失函数,从而训练出更准确的分类模型。softmax 函数是一种常用的激活函数,用于将实数向量转换为概率分布向量。真实标签的概率分布是由数据集中的标签信息提供的,通常使用单热编码表示。之间的差异,是分类问题中常用的 loss 函数。中起到重要的作用,并与交叉熵损失函数结合使用。其中,O为小批量的未规范化的预测,原创 2023-07-23 23:53:18 · 623 阅读 · 0 评论 -
线性神经网路——线性回归随笔【深度学习】【PyTorch】【d2l】
这样得到的是一个NumPy数组,代表散点图中的x轴数据。优化函数没有直接使用损失值,但通过使用损失函数和反向传播计算参数的梯度,并将这些梯度应用于参数更新,间接地优化了模型的损失。来清零参数的梯度,那么参数将会保留上一次迭代计算得到的梯度值,继续沿用该梯度值来求解梯度。labels.detach().numpy() 是一个二维张量labels的分离和转换操作,得到一个NumPy数组,代表散点图中的y轴数据。简单说,就是计算损失值的张量运算不会记录到计算图中,因为没必要,而且不建立计算图,求损失值更快了。原创 2023-07-23 23:30:00 · 2122 阅读 · 0 评论 -
动手学DL——深度学习预备知识随笔【深度学习】【PyTorch】
当计算标量的梯度时,PyTorch会自动计算并传播梯度,而无需明确传入梯度参数。张量的计算通常会生成计算图。:计算图可以帮助自动计算函数的导数,特别是在深度学习中的反向传播算法中。通过在计算图中计算每个节点的梯度,可以从输出端反向传播梯度到输入端,以便优化模型的参数。中的每个分类变量【不是数值的,比如字符串值】都拆分为多个二进制变量,每个变量表示一种可能的分类。向量|张量相加得到了意外的结果,可以考虑是不是误将不同形状的向量相加了,触发了广播机制。,维度同但形状不同,广播,维度同形状也同,可以执行。原创 2023-07-23 23:18:22 · 562 阅读 · 0 评论 -
动手学DL——环境部署随笔【深度学习】【Anaconda】【CUDA】【PyTorch】【jupyter】
在网络环境差时,pytorch 离线安装方法。安装 CUDA,CUDA Toolkit 11.3.0 (April 2021), https://developer.nvidia.com/cuda-toolkit-archive。我认为,深度学习的学习过程中,必须掌握虚拟环境搭建、三大科学计算库、jupyter的使用,再就是有针对性地模型学习,保持对新技术出现的敏锐嗅觉。新环境下包很少,安装科学计算库。原创 2023-07-06 00:49:40 · 1677 阅读 · 0 评论