糖圆同学-CSDN博客

原创（深度学习记录）第TR6周：Transformer实战-单词预测

🏡我的环境： 2.模型搭建3.创建模型4. 训练模型 5.训练过程6.模型效果7.测试结果8.总结在数据的导入步中多次报错，推荐下载地址“https://aistudio.baidu.com/datasetdetail/230431”先下载数据在进行测试。

2024-06-26 00:46:10 311

原创（深度学习记录）第TR5周：Transformer中的位置编码详解

。

2024-06-21 19:27:36 411

原创（深度学习记录）第TR4周：Pytorch复现Transformer

多头注意力机制拓展了模型关注不同位置的能力，赋予Attention层多个“子表示空间”。

2024-06-07 21:13:20 501 1

原创（深度学习记录）第TR3周：Transformer 算法详解

文本的输入处理中，transformer会将输入文本序列的每个词转化为一个词向量，我们通常会选择一个合适的长度作为输入文本序列的最大长度如果一个句子达不到这个长度就用0填充，超出就做截断。·transformer解码器预测了组概率，就可以将这组概率与正确的概率做对比，然后用反向传播来调整模型的权重，使得输出的概率分布更加接近整数输出。·self- attention机制可以让模型不仅仅关注当前位置的词，还关注句子中其他位置相关的词。

2024-05-31 14:51:37 340

原创（深度学习记录）第TR2周：Pytorch复现Transformer

【代码】（深度学习记录）第TR2周：Pytorch复现Transformer。

2024-05-16 17:51:10 416

原创（深度学习记录）第TR1周：Transformer 起源与发展

Transformer由Encoder和Decoder两个模块组成，Attention Layer作为核心组件之一，主要功能，建立全局联系，捕捉长距离依赖关系，并行计算，自适应权重。原始的Transformer模型结构如下图所示，

2024-05-10 12:24:21 242

原创（深度学习记录）第N9周：seq2seq翻译实战-Pytorch复现

【代码】（深度学习记录）第N9周：seq2seq翻译实战-Pytorch复现。

2024-04-26 15:40:29 345

原创（深度学习记录）第N8周：seq2seq翻译实战-Pytorch复现-小白版

定义了两个常量 SOS_token 和 EOS_token，其分别代表序列的开始和结束。使用了python的unicodedata模块，通过normalize方法将字符串s转化为Unicode规范化形式NFD。·n_words 是单词的数量，初始值为 2，因为序列开始和结束的单词已经被添加。·word2count 是一个字典，记录单词出现的次数。·word2index 是一个字典，将单词映射到索引。·index2word 是一个字典，将索引映射到单词。·剩下的字符通过join组成了一个新的字符串。

2024-04-19 11:35:01 403

原创（深度学习记录）第N7周：seq2seq详解

Decoder是个RNN，也可以是LSTM、GRU等，将encoder得到的语义向量作为初始状态输入到Decoder的RNN中，得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入，而且其中语义向量只作为初始状态参与运算，后面的运算都与语义向量无关。·Encoder是一个RNN，也可以是LSTM、GRU等，接收的是每一个单词的词向量，和上一个时间点的隐藏状态。decoder处理方式还有另外一种，就是语义向量参与了序列所有时刻的运算，上一时刻的输出仍然作为当前时刻的输入，但语义向量会参与所有时刻的运算。

2024-04-11 16:31:50 306

原创（深度学习记录）第N6周：使用Word2vec实现文本分类

在代码的细节上注意格式的缩紧、大小写问题，会导致代码出错。

2024-03-25 18:45:42 500

原创（深度学习记录）第N5周：调用Gensim库训练Word2Vec模型

🏡我的环境：二、训练模型三、模型应用1.计算词汇相似度2.找到不匹配的词汇3.计算词汇的词频word2vec是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations ofWords and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representati

2024-03-19 17:36:48 471 1

原创（深度学习记录）第N4周：中文文本分类——Pytorch实现

train 和 evaluate分别用于训练和评估文本分类模型。·训练函数 train 的工作流程如下：将模型设置为训练模式。初始化总准确率、训练损失和总计数变量。记录训练开始的时间。遍历数据加载器，对每个批次：进行预测、清零优化器的梯度、计算损失（使用一个损失函数，例如交叉熵）、反向传播计算梯度、通过梯度裁剪防止梯度爆炸、执行一步优化器更新模型权重、更新总准确率和总损失、每隔一定间隔，打印训练进度和统计信息。·评估函数 evaluate 的工作流程如下。

2024-03-15 20:11:03 675

原创（深度学习记录）第N3周：Pytorch文本分类入门

embed_dim,1.self.embedding :这是神经网络中的词嵌入层（embedding layer）。词嵌入层的作用是将离散的单词表示（通常为整数索引）映射为固定大小的连续向量。向量捕捉了单词之间的语义关系，作为网络的输入。2.self.embedding.weight: 这是词嵌入层的权重矩阵，它的形状为“vocab_size,embedding_dim,”其中vocab_size是词汇表的大小，embedding_dim是嵌入向量的维度。

2024-03-01 15:51:44 502

原创 (深度学习记录)第N2周：Embeddingbag与Embedding详解

在PyTorch中，EmbeddingBag的输入是一个整数张量和一个偏移量张量，每个整数都代表着一个词汇的索引，偏移量则表示句子中每个词汇的位置，输出是一个浮点型的张量，每个浮点数都代表着对应句子的词嵌入向量的均值或总和。在PyTorch中，Embedding的输入是一个整数张量，每个整数都代表着一个词汇的索引，输出是一个浮点型的张量，每个浮点数都代表着对应词汇的词嵌入向量。one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。

2024-02-22 12:53:13 774

原创 (深度学习记录)第N1周：one-hot编码案例

one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。这种编码方式不仅能够避免不必要的关系假设，还能够提供清晰的输入表示，有助于模型的学习和泛化。在文本表征表示上有些缺点非常突出，首先one-hot 编码是一个词袋模型，是不考虑词和词之间的顺序问题，它是假设词和词之间是相互独立的，但是在大部分情况下词和词之间是相互影响的。one-hot编码得到的特征是离散稀疏的，每个单词的one-hot编码维度是整个词汇表的大小，维度非常巨大，编码稀疏，会使得计算代价变大。

2024-02-02 14:45:49 693

原创 (深度学习记录)第P9周：YOLOv5-backbone模块实现

在卷积神经网络中我们经常看到固定输入的设计，但是如果我们输入的不能是固定尺寸的该怎么办呢？通常来说，我们有以下几种方法：（1）对输入进行resize操作，让他们统统变成你设计的层的输入规格那样。但是这样过于暴力直接，可能会丢失很多信息或者多出很多不该有的信息（图片变形等），影响最终的结果。（2）替换网络中的全连接层，对最后的卷积层使用global average pooling，全局平均池化只和通道数有关，而与特征图大小没有关系。

2024-01-19 18:55:54 1024

原创 (深度学习记录)第P8周：YOLOv5-C3模块实现

backbone（主干网络）通过一系列的卷积层和池化层对输入图像进行处理，逐渐降低特征图的尺寸同时增加通道数。经过backbone提取的特征图会传递给后续的特征金字塔网络（neck）和检测头（detection head）进行处理。文件中，这几个模型的结构基本一样，不同的是depth_multiple模型深度和width_multiple模型宽度这两个参数。右侧卷积也提取了一半的feature，使其经过BottleNeck（有两种）处理后，可以看到左侧卷积提取了一半的feature（特征），什么也不干，

2024-01-12 15:38:18 836

原创 (深度学习记录)第P7周：VGG-16算法实现咖啡豆识别

对于预测模型参数除了调整学习率外，还可以对epochs数进行调整来提升准确率。本模型在epoch为35时的训练准确率已经达到100%，往后的准确率反而有所降低。📌如果将优化器换成 SGD 会发生什么呢？请自行探索接下来发生的诡异事件的原因。训练营往期文章中有详细的介绍。

2024-01-04 14:40:39 959

原创 (深度学习记录)第P6周：VGG-16算法实现人脸识别

【代码】(深度学习记录)第P6周：VGG-16算法实现人脸识别。

2023-12-22 21:37:39 371

原创 (深度学习记录)第P5周：运动鞋识别

所以引入学习率衰减的概念，直白点说，就是在模型训练初期，会使用较大的学习率进行模型优化，随着迭代次数增加，学习率会逐渐进行减小，保证模型在训练后期不会有太大的波动，从而更加接近最优解。学习率 α \alpha α 控制着梯度更新的步长(step)， α \alpha α 越大，意味着下降的越快，到达最优点的速度也越快，如果为 0 0 0，则网络就会停止更新。学习率过大，在算法优化的前期会加速学习，使得模型更容易接近局部或全局最优解。在特定的 epoch 中调整学习率。根据自己定义的函数更新学习率。

2023-12-14 19:19:08 65

原创 (深度学习记录)第P4周：猴痘病识别

torch.unsqueeze()函数起到升维的作用，dim等于几表示在第几维度加一，比如原来x的size=([4])，x.unsqueeze(0)之后就变成了size=([1, 4])，而x.unsqueeze(1)之后就变成了size=([4, 1])，注意dim∈[-input.dim() - 1, input.dim() + 1]是 PyTorch 中用于加载和管理数据的一个实用工具类。在之前的学习基础上，加入了指定图片的分类，和模型的加载与保存。对数据的维度进行压缩，去掉维数为1的的维度。

2023-12-06 20:11:35 63

原创（深度学习记录）第P3周：天气识别

🍨 本文为🔗。

2023-11-28 15:57:48 52

原创 (深度学习记录)第P2周：实现彩色图片识别

在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。model.train()是保证BN层能够用到每一批数据的均值和方差。更具体地说，损失函数loss是由模型的所有权重w经过一系列运算得到的，若某个w的requires_grads为True，则w的所有上层参数（后面层的权重w）的.grad_fn属性中就保存了对应的运算，然后在使用。函数会遍历模型的所有参数，通过内置方法截断反向传播的梯度流，再将每个参数的梯度值设为0，即上一次的梯度记录被清空。

2023-11-20 20:39:54 50

weixin_55952636的博客