深度学习
文章平均质量分 94
西皮呦
这个作者很懒,什么都没留下…
展开
-
深度学习 | 多模态算法
AIGC也就是AI内容生成已经成为新一轮人工智能发展的热点和必然趋势,它使得大规模高质量的创作变得更加容易。原创 2024-01-04 21:00:50 · 1444 阅读 · 0 评论 -
深度学习 | Transformer模型及代码实现
Transformer 与 RNN 不同,可以比较好地并行训练。Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。原创 2024-01-01 21:37:51 · 1357 阅读 · 0 评论 -
深度学习 | 注意力机制、自注意力机制
卷积神经网络的思想主要是通过卷积层对图像进行特征提取,从而达到降低计算复杂度的目的,利用的是空间特征信息;循环神级网络主要是对序列数据进行建模,利用的是时间维度的信息。而第三种 注意力机制 网络,关注的是数据中重要性的维度,研究怎么充分关注更加重要的信息,从而提高计算的准确度和效率。原创 2023-12-31 19:21:09 · 1455 阅读 · 0 评论 -
深度学习 | DRNN、BRNN、LSTM、GRU
batch_first 为 True时output的tensor为(batch,seq,feature),否则为(seq,batch,feature)# 初始化隐藏状态和细胞状态# 计算输出和最终隐藏状态# 网络结构。原创 2023-12-27 17:38:23 · 1441 阅读 · 0 评论 -
深度学习 | 基本循环神经网络
当前系统的状态,可能依赖很长时间之前系统状态。原创 2023-12-25 14:21:58 · 1121 阅读 · 0 评论 -
深度学习 | 基础卷积神经网络
卷积神经网络是人脸识别、自动驾驶汽车等大多数计算机视觉应用的支柱。可以认为是一种特殊的神经网络架构,其中基本的矩阵乘法运算被卷积运算取代,专门处理具有网格状拓扑结构的数据。原创 2023-12-23 19:13:44 · 1327 阅读 · 0 评论 -
深度学习 | 梯度下降算法及其变体
定义一个简单模型。原创 2023-12-23 15:34:31 · 1055 阅读 · 1 评论 -
深度学习 | 常见问题及对策(过拟合、欠拟合、正则化)
Universal Approximation Theorem:一个具有足够多的隐藏节点的多层前馈神经网络,可以逼近任意连续的函数。w 是仿射变换和偏置 b ,通常情况下我们只考虑对参数 w 作惩罚,这是由于在拟合偏置 b 时所需数据量比较少就可以拟合的很好了。通过在损失函数中加入对模型参数权值矩阵中各元素绝对值之和的惩罚项,来限制模型参数的值。每层每个神经元,以p 的概率保留,以1-p 的概率将权重设为零;泛化能力:训练后的模型应用到新的、未知的数据上的能力。L1正则化更倾向于产生稀疏解,适于特征选择。原创 2023-12-23 13:11:57 · 1088 阅读 · 0 评论 -
深度学习 | 神经网络
如果是在测试(预测)阶段,输出中数值最大的就代表了当前的分类。但是对于用于训练的网络,还远远不够,因为当前的输出y还不够漂亮,他的取值范围是随意的,算出来是什么就是什么,我们想让最终输出是一个概率的形式 —— softmax层 进行归一化。也就是说随着网络层数的增加,进行分类的准确率没有发生明显的变化,甚至可能下降。输入层是特征向量,如果输入的是一张32x32的灰度图像,那么输入层的维度就是32x32,为了处理方便,我们通常会将其reshape成列向量表示。在输出值不是0或1的情况下,具有非常好的非线性。原创 2024-03-20 18:32:36 · 1064 阅读 · 0 评论 -
深度学习 | Pytorch深度学习实践 (Chapter 12 Basic RNN)
由于每一项的数据都和前一项相关,所以送进RNN Cell的数据不止其本身的数据,还要有上一项的数据(也就是图中的红色箭头。—— 将RNN Cell以循环的形式把序列一个一个送进去,然后依次算出隐层的过程,就叫做循环神经网络,其中RNN Cell是其中的一个单元。若使用稠密的网络,把其拼成有九个维度的向量,但如果序列很长而且维度很高,则权重数量太多到难以处理。比如果要通过图像来生成文本,那么h0就设成一个CNN+Fc,如果没有的话就可以把它设成一个对应维度的0向量)。见上面图上面部分的红色笔迹。原创 2023-12-10 16:22:32 · 232 阅读 · 1 评论 -
深度学习 | Pytorch深度学习实践 (Chapter 10、11 CNN)
因为我们的维度是 batch,channel,width,height ,所以是第一个维度dim=1。初始的输入通道并没有写死,而是作为构造函数里的参数,这是因为我们将来实例化时可以指明输入通道是多少。将四个分支可以放到一个列表里,然后用torch提供的函数cat沿着dim=1的维度将他们拼接起来。为了保持输入输出的大小不变,所以要将padding设置为1,输入通道和输出通道都和x保持一致。若输出和输入的维度不一样,也可以做跳连接,可以将x过一个最大池化层转换成同样的大小,如下图。为什么要做成这个样子?原创 2023-10-22 19:31:18 · 400 阅读 · 0 评论 -
深度学习 | Pytorch深度学习实践 (Chapter 1~9)
基于pytorch的深度学习的四个步骤基本如下: 基本概念 注:模型训练可视化wisdom:可视化工具包(基于cost function 即所有样本):如我们想要找到w的最优值 (基于单个样本的损失函数): —— 因为函数可能存在鞍点,使用一个样本就引入了随机性此时梯度更新公式为: 与之前的区别: 对于复杂的网络:举例来讲两层神经网络原创 2023-10-18 21:45:14 · 641 阅读 · 0 评论 -
深度学习 | CNN卷积核与通道
每一个通道的像素值与对应的卷积核通道的数值进行卷积,因此每一个通道会对应一个输出卷积结果,三个卷积结果对应位置累加求和,得到最终的卷积结果(这里卷积输出结果通道只有1个,因为卷积核只有1个。因此整个卷积层的尺寸为(m*n*k1*k2)是一个4维张量,其中m表示卷积核的数量,n表示通道数量,k1表示每一个卷积核通道的宽,k2表示每一个卷积核通道的高。假设卷积核只有1个,卷积核通道为3,每个通道的卷积核大小仍为3x3,padding=0,stride=1。由于只有一个卷积核,因此卷积后只输出单通道的卷积结果。原创 2023-10-18 10:40:58 · 1628 阅读 · 0 评论 -
深度学习 | 大模型领域常见名词解释
传统机器学习的流程往往由多个独立的模块组成,比如在一个典型的自然语言处理(Natural Language Processing)问题中,包括分词、词性标注、句法分析、语义分析等多个独立步骤,每个步骤是一个独立的任务,其结果的好坏会影响到下一步骤,从而影响整个训练的结果,这是非端到端的。举个例子:一张图片模型之前没有见过,但是这张图片与TrainDataSet在同一分布,并满足iid,模型可以很好的预测这张图,这就是模型的泛化,在测试集中,模型预测新数据的准确率越高,就可以说是模型的泛化能力越好。原创 2023-12-18 23:35:34 · 1190 阅读 · 0 评论