深度学习
文章平均质量分 78
Mafia.M.A
这个作者很懒,什么都没留下…
展开
-
Transformer代码学习
encoder解码,从解码端的输入到输出,再把输出拿到解码端作为下一册的输入,该过程无法并行(下一时刻的输入取决于上一时刻的输出);size设置为4,有四个样本(4组句子),每组句子包含如上3个句子。一个batch在被模型处理时,采用矩阵化运算,若一个batch中句子长度不一致就无法组成有效矩阵。三个特殊字符:S——start,E——end,P——pad字符填充字符。,大于maxLenth的部分截掉,小于maxLenth的部分用。从整体网络结构来看,分为三个部分:编码层,解码层,输出层。原创 2023-12-21 14:41:47 · 367 阅读 · 0 评论 -
Stanford CS224N《深度学习自然语言处理》——1_Introduction and Word Vectors
Stanford CS224N《深度学习自然语言处理》第一节学习笔记原创 2023-11-06 21:06:20 · 196 阅读 · 1 评论 -
词向量模型Word2Vec
CBOW和skip-gram的目标都是迭代出词向量字典(嵌入矩阵)——embeddings原创 2023-11-02 10:24:25 · 206 阅读 · 0 评论 -
DIDL5_数值稳定性和模型初始化
激活函数sigmoid函数,11exp−x1/1exp−x)),类似于阈值函数。由于早期的人工神经网络受到生物神经网络的启发, 神经元要么完全激活要么完全不激活(就像生物神经元)的想法很有吸引力。然而,它却是导致梯度消失问题的一个常见的原因:当sigmoid函数的输入很大或是很小时,它的梯度都会消失。当反向传播通过许多层时,除非我们在刚刚好的地方, 这些地方sigmoid函数的输入接近于零,否则整个乘积的梯度可能会消失。原创 2023-02-18 15:39:51 · 474 阅读 · 0 评论 -
DIDL4_前向传播与反向传播(模型参数的更新)
计算的顺序与前向传播中执行的顺序相反,因为我们需要从计算图的结果开始,并朝着参数的方向努力。前向传播(forward propagation或forward pass) 指的是:按顺序(从输入层到输出层)计算和存储神经网络中每层的结果。因此,在训练神经网络时,在初始化模型参数后, 我们交替使用前向传播和反向传播,利用反向传播给出的梯度来更新模型参数。然后将这些用于反向传播,其中计算顺序与计算图的相反,用于更新w、b(即神经网络中的参数)。对于前向传播,我们沿着依赖的方向遍历计算图并计算其路径上的所有变量。原创 2023-02-18 15:03:28 · 670 阅读 · 1 评论 -
DIDL3_模型选择、复杂度、过欠拟合的相关概念
丢弃法将一些输出项随机置0来控制模型复杂度常作用在多层感知机的隐藏层输出上丢弃概率是控制模型复杂度的超参数(如果p=1,就是全部丢掉;p=0,就是没有被丢弃;一般取0.9、0.5、0.1)原创 2023-02-14 15:32:34 · 359 阅读 · 0 评论 -
DIDL2_Softmax回归(分类)
回归 vs 分类从回归到多类分类回归:分类:原创 2022-12-24 16:51:51 · 116 阅读 · 0 评论 -
DIDL1_基础优化算法
梯度下降通过不断沿着反梯度方向更新参数求解小批量随机梯度下降时深度学习默认的求解算法两个重要的超参数是批量大小和学习率初始化模型参数、定义模型、定义损失函数、定义优化算法、训练。原创 2022-12-24 12:01:56 · 549 阅读 · 0 评论 -
&7_强化学习 DQN
若使用表格来存储每一个状态state,与其每个行为action所拥有的Q值,占用内存过多。将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样不用在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。原创 2022-10-10 15:40:26 · 734 阅读 · 2 评论 -
&6_自编码 Autoencoder
自编码是一种神经网络形式,神经网络的非监督学习让神经网络直接从上千万个信息源中学习是一件很吃力的工作。解决方法是:将信息源压缩,提取最具代表性的信息,缩减输入信息量;再把缩减过后的信息放进神经网络学习;通过将原数据白色的X 压缩, 解压成黑色的X, 然后通过对比黑白 X ,求出预测误差, 进行反向传递, 逐步提升自编码的准确性.训练好的自编码中间这一部分就是能总结原数据的精髓。原创 2022-10-07 17:34:24 · 1226 阅读 · 0 评论 -
&5_循环神经网络 RNN
循环神经网络RNN用于语言分析, 序列化数据。原创 2022-10-06 19:19:13 · 1052 阅读 · 0 评论 -
&4_卷积神经网络 CNN
卷积神经网络在图片和语言识别方面能够给出更优预测结果。卷积神经网络最常被应用的方面是计算机的图像识别, 不过因为不断地创新, 它也被应用在视频分析, 自然语言处理, 药物发现, 等等。神经网络是由一连串的神经层组成,每一层神经层里面存在有很多的神经元. 这些神经元就是神经网络识别事物的关键. 每一种神经网络都会有输入输出值, 当输入值是图片的时候, 实际上输入神经网络的并不是那些色彩缤纷的图案,而是一堆堆的数字。原创 2022-10-04 16:56:30 · 1337 阅读 · 1 评论 -
&3_神经网络基本操作(快速搭建 保存提取 批训练)
net2 多显示了一些内容,把激励函数也一同纳入进去了, 但是 net1 中, 激励函数实际上是在 forward() 功能中才被调用的. 这也就说明了, 相比 net2, net1 的好处就是, 可以根据你的个人需要更加个性化前向传播过程, 比如(RNN).BATCH_SIZE = 8时, step=0 会导出8个数据, 但是, step=1 时数据库中的数据不够 8个,则会导出剩余的。当需要训练的数据量很大时,无法一次训练完,需要分批进行训练。保存有两种方法:保存整个神经网络,只保存神经网络中的参数。原创 2022-10-04 11:25:43 · 765 阅读 · 0 评论 -
&2_PyTorch神经网络基础
Torch 自称为神经网络界的 Numpy, 因为他能将 torch 产生的 tensor 放在 GPU 中加速运算 (前提是你有合适的 GPU), 就像 Numpy 会把 array 放在 CPU 中加速运算。在 Torch 中的 Variable 就是一个存放会变化的值的地理位置. 里面的值会不停的变化;将所有的计算步骤 (节点) 都连接起来, 最后进行误差反向传递的时候, 一次性将所有 variable 里面的修改幅度 (梯度) 都计算出来, 而 tensor 则不行。原创 2022-09-30 16:01:19 · 502 阅读 · 0 评论 -
&0_神经网络
神经网络系统:由多层神经元构成,为了区分不同的神经层会有不同的名称。输入层input layer:是直接接收信息的神经层,负责传递接收到的信息;输出层output layer:是信息在神经元中传递和中转、分析、权衡形成输出的结果,通过这一层输出的结果可以直接地看出计算机对事物的认知;隐藏层hidden layer:是在输入和输出层之间的众多神经元连接组成的各个层面,隐藏层可以有多层,作用是负责传入信息的加工处理。原创 2022-09-30 14:27:26 · 382 阅读 · 0 评论 -
&1_神经网络(激励函数 Regression and Classification)
Activation Function 激励函数Activation Function 激励函数relu, sigmoid, tanh, softplus三级目录Activation Function 激励函数激励函数是为了解决我们不能用线性方程所概括的问题。Activation Function 激励函数 是一个非线性函数. 比如说relu, sigmoid, tanh. 将这些函数嵌套在原有的结果之上, 强行把原有的线性结果给扭曲了. 使得输出结果 y 也有了非线性的特征。在卷积神经网络 Con原创 2022-02-08 11:14:27 · 789 阅读 · 0 评论