CarmenHu-CSDN博客

原创图像分类神经网络综述

特点：解决了AlexNet卷积核过大导致参数量较大的问题，主要贡献在于通过堆叠采用 3。特点：将卷积层替换为多层感知器卷积, 并将全连接层替换为全局平均池化层。通过研究遮挡局部图像对图像分类结果的影响获得了决定图像类别的关键部位。复杂的图像分类任务则需要大规模数据集以及学习能力更强的网络模型。特点：采用了 Inception-v1。其中Inception-ResNet-v1 网络在每个。, 输入图像经过卷积操作和全连接层的操作,每个卷积层和全连接层均有可训练的参数,网络的前几层采用卷积神经网络在图像的。

2024-03-20 15:18:40 1075

原创 Transformer学习笔记（二）

从多头注意力的结构图种，貌似这个所谓的多个头就是指多组线性变换层，其实并不是，只有使用了一组线性变化层，即三个变换张量对QKV分别进行线性变换，这些变换不会改变原有张量的尺寸，因此每个变换矩阵都是方阵，得到输出结果后，多头的作用才开始显现，每个头开始从词义层面分割输出的张量，也就是每个头都想获得一组QKV进行注意力机制的计算，但是句子中的每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量，这就是所谓的多头，将每个头的获得的输入送到注意力机制中，就形成多头注意力机制。

2024-03-16 22:14:31 784

原创 Swin—Transformer学习笔记

bias才是Attention中B的数值，我们训练的是bias table中的参数。二、Patch Merging。六、模型详细配置参数。

2024-03-16 12:45:48 302

原创 ViT学习笔记

拼接[class]token: Cat([1, 768], [196, 768]) -> [197, 768]；叠加Position Embedding: [197, 768]在代码实现中，直接通过一个卷积层来实现以ViT- B/16为例，使用卷积核大小为。在输入Transformer Encoder。但是迁移到ImageNet1K。上或者你自己的数据上时，只有一个 Linear。二、Transformer Encoder层。一、Embedding层。，卷积核个数为768。前有个Dropout。

2024-03-15 20:50:39 315

原创《数据结构》复试问答题总结

请简述深度优先遍历、广度优先遍历的基本思想？深度遍历是在图中先选择一个顶点，随后的每次遍历中选择与顶点相邻并且还没有遍历过的结点进行遍历，类似于树的先序遍历广度遍历是先在图中选择一个顶点，并加入队列中，然后向该顶点的所有未访问过的邻接点进行扩散，加入到队列当中，类似于树的广度遍历简述二叉树，完全二叉树，二叉排序树，平衡二叉树的特性：二叉树（Binary Tree）：要求其任意节点的子节点数量不超过2（分左节点即左子树和右节点即右子树）。

2024-03-14 16:30:59 1140

原创《计算机组成原理》复试问答题总结

计算机内部有控制信息流和数据信息流。控制信息流包括指令信息、状态信息、时序信息，这些信息的组合产生各类控制信号，对数据信息进行加工处理，并控制数据信息的流向，实现计算机的各项功能。何谓“总线仲裁”？连接到总线上的功能模块有主动，被动两种形态。主方可以启动一个总线周期，而从方只能响应主方的请求。每次总线操作，只能有一个主方占用总线控制权，但可以同一时间里有一个或多个从方。

2024-03-14 16:30:55 823

原创《操作系统》复试问答题总结

内存管理有哪些主要功能？它们的主要任务是什么？？有内存的分配和回收：实施内存的分配，回收系统或用户释放的内存空间地址变换：提供地址变换功能，将逻辑地址转换为物理地址扩充内存：借助虚拟存储技术，从逻辑上扩充内存存储保护：保证进入内存的各道作业都在自己的存储空间内运行，互不干扰说明引起进程阻塞或被唤醒的主要事件是什么：向系统申请资源失败：资源被占用所有处于阻塞等待某种操作：启动I/O设备只有完成该操作之后A才能执行，则A启动之后I/O自动进入阻塞。

2024-03-14 16:30:06 597

原创《计算机网络》复试问答题总结

DNS 是一个联机分布式数据库系统，负责主机名和 IP 地址之间的转换，需要进行域名查询的机器主动发起域名解析请求，域名服务器则随时准备做出响应。域名服务器的数据库中存放着它所管辖范围的主机名和 IP 地址之间的映射表，域名服务器之间又可以相互联络和协作，以便分布在 Internet 各个域名服务器数据库中的域名都能被有效地搜索，从而实现主机名与 IP 地址的映射。为了提高解析效率，使用了域名缓存技术。在服务器、主机中设置一个专用的内存缓冲区。服务器用来存放近期解析过的域名及其对应的 IP 地址的映射。

2024-03-14 16:30:02 1460

原创《数据库》复试问答题总结

并发一致性问题有那些？在并发环境下，事务间的隔离性很难保证，因此会出现并发一致性问题。并发一致性问题主要有四类，即：丢失修改问题，读脏数据问题，不可重复读问题，幻影读问题。丢失修改问题：T1和T2两个事务都对同一数据进行修改，T1先修改，T2随后修改，T2的修改覆盖了T1的修改。读脏数据问题：T1修改了一个数据，T2随后读取了这个数据，但是T1又撤销了修改，此时T2读取到的数据就是脏数据。不可重复读问题：T1读取了一个数据，T2随后修改了这个数据，T1再次读取这个数据时与之前读取的值不同。

2024-03-14 16:29:58 714

原创《软件工程》复试问答题总结

面向对象的分析OOA，OOA强调直接针对问题域客观存在的各项事物设立OOA模型中的对象．问题域有哪些值得考虑的事物，OOA模型中就有哪些对象．00A对问题域的观察、分析和认识是很直接的，对问题域的描述也是很直接的．它所采用的概念及其术语与问题域中的事物保持了最大程度的数据一致，不存在语言上的鸿沟。任何一个软件系统本质上都是信息处理系统，系统必须处理的信息和系统应该产生的信息在很大程度上决定了系统的面貌，对软件设计有深远影响，因此，必须分析系统的数据要求，这是软件需求分析的一个重要任务。

2024-03-14 16:29:52 1249

原创 ResNeXt学习笔记

注意：对于block层数小于3的，没有太大作用。二、将block中的卷积层分组。一、更新了block。

2024-03-14 11:02:07 251

原创 ResNet学习笔记

（3）使用Batch Normalization加速训练(丢弃dropout)option B 可以使实线部分的输入矩阵和输出矩阵shape不同。三、Batch Normalization。（1）超深的网络结构(突破1000层)（2）提出residual模块。，即层数深效果反而不好。

2024-03-14 10:29:54 212

原创 Transformer学习笔记（一）

对于一个具有少量数据的任务 A，首先通过一个现有的大量数据搭建一个 CNN 模型 A，由于 CNN的浅层学到的特征通用性特别强，因此在搭建一个 CNN 模型 B，其中模型 B 的浅层参数使用模型 A 的浅层参数，模型 B 的高层参数随机初始化，然后通过冻结或微调的方式利用任务 A 的数据训练模型 B，模型 B 就是对应任务 A 的模型。每个编码器的深度都是两层 LSTM 叠加。只不过 Q的内容也是网络参数，需要学习获得，训练刚开始用随机值初始化矩阵 Q，当这个网络训练好之后，矩阵 Q 的内容被正确赋值，

2024-03-13 21:29:56 1326

原创 AlexNet学习笔记

随机失活神经元操作，以减少过拟合。）在全连接层的前两层中使用了。激活函数，而不是传统的。

2024-03-12 16:32:33 92

原创《PyTorch深度学习实践》第十三讲RNN进阶

双向循环神经网络的作用是在处理序列数据时，提供更全面、更准确的上下文信息，能够捕获序列中前后关系，对于很多序列处理任务（例如自然语言处理、语音识别等）的效果都有很大的提升。在本代码中，设置了 bidirectional=True，意味着使用双向 GRU，提取的特征包含了正向和反向的信息。在正向部分中，输入数据从前往后进行处理，而在反向部分中，输入数据从后往前进行处理。与传统的循环神经网络只考虑历史时刻的信息不同，双向循环神经网络不仅考虑历史时刻的信息，还考虑未来时刻的信息。

2024-03-01 22:03:18 318

原创《PyTorch深度学习实践》第十二讲循环神经网络基础

比如，我们可以通过将前三天每天的特征（是否下雨，是否有太阳等）输入到网络，从而来预测第四天的天气。RNN网络最大的特点就是可以处理序列特征，就是我们的一组动态特征。把input变为稠密的数据。二、RNN cell用法。四、Embedding。

2024-03-01 17:48:01 301

原创《PyTorch深度学习实践》第十一讲卷积神经网络进阶

2、先是1个卷积层(conv,maxpooling,relu)，然后inceptionA模块(输出的channels是24+16+24+24=88)，接下来又是一个卷积层(conv,mp,relu),然后inceptionA模块，最后一个全连接层(fc)。先是1个卷积层(conv,maxpooling,relu)，然后ResidualBlock模块，接下来又是一个卷积层(conv,mp,relu),然后esidualBlock模块模块，最后一个全连接层(fc)。2、1x1卷积核，不同通道的信息融合。

2024-03-01 15:38:56 620

原创《PyTorch深度学习实践》第十讲卷积神经网络基础

2、self.fc = torch.nn.Linear(320, 10)，这个320获取的方式，可以通过x = x.view(batch_size, -1) # print(x.shape)可得到(64,320),64指的是batch，320就是指要进行全连接操作时，输入的特征维度。2、卷积(convolution)后，C(Channels)变，W(width)和H(Height)可变可不变，取决于是否padding。5、卷积(线性变换)，激活函数(非线性变换)，池化；3、卷积层：保留图像的空间信息。

2024-03-01 11:59:23 1061

原创《PyTorch深度学习实践》第九讲多分类问题

3、多分类问题，标签y的类型是LongTensor。比如说0-9分类问题，如果y = torch.LongTensor([3])，对应的one-hot是[0,0,0,1,0,0,0,0,0,0].(这里要注意，如果使用了one-hot，标签y的类型是LongTensor，糖尿病数据集中的target的类型是FloatTensor)(但是标签的one-hot编码是算法完成的，算法的输入仍为原始标签)2、torch.max的返回值有两个，第一个是每一行的最大值是多少，第二个是每一行最大值的下标(索引)是多少。

2024-02-29 18:07:35 394

原创《PyTorch深度学习实践》第八讲加载数据集

用来帮助我们加载数据，比如说做shuffle(提高数据集的随机性)，batch_size,能拿出Mini-Batch进行训练。做了两个实验：（1）输出每批次的loss，不收敛，loss在0.6上下浮动（2）每个epoch都不分批，把所有样本都输入，收敛，最后结果在0.6附近。5、inputs, labels = data中的inputs的shape是[32,8],labels 的shape是[32,1]。4、len函数的返回值除以 batch_size 的结果就是每一轮epoch中需要迭代的次数。

2024-02-29 16:49:02 459

原创《PyTorch深度学习实践》第七讲多维特征的输入

3、该神经网络共3层；第一层是8维到6维的非线性空间变换，第二层是6维到4维的非线性空间变换，第三层是4维到1维的非线性空间变换。2、学习能力越强，有可能会把输入样本中噪声的规律也学到。我们要学习数据本身真实数据的规律，学习能力要有泛化能力。1、乘的权重(w)都一样，加的偏置(b)也一样。b变成矩阵时使用广播机制。神经网络的参数w和b是网络需要学习的，其他是已知的。4、本算法中torch.nn.Sigmoid() # 将其看作是网络的一层，而不是简单的函数使用。

2024-02-29 15:43:53 422

原创《PyTorch深度学习实践》第六讲逻辑斯蒂回归

5、代码F.sigmoid(self.linear(x))会引发warning，此处更改为torch.sigmoid(self.linear(x))BCELoss 是CrossEntropyLoss的一个特例，只用于二分类问题，而CrossEntropyLoss可以用于二分类，也可以用于多分类。2、sigmoid函数：函数值有极限，单调增函数，是饱和函数（导数图像两端趋于0，中间像正态分布）。最常见的sigmoid函数是逻辑斯蒂函数。1、逻辑斯蒂函数，使结果映射到（0，1）之间。

2024-02-29 12:29:20 183

原创《PyTorch深度学习实践》第五讲线性回归

1、Module实现了魔法函数__call__()，call()里面有一条语句是要调用forward()。因此新写的类中需要重写forward()覆盖掉父类中的forward()3、Construct loss and optimizer (using PyTorch API) 其中，计算loss是为了进行反向传播，optimizer是为了更新梯度。2、call函数的另一个作用是可以直接在对象后面加()，例如实例化的model对象，和实例化的linear对象。3、每一次epoch的训练过程，总结就是。

2024-02-28 21:42:42 274

原创《PyTorch深度学习实践》第四讲反向传播

调用该方法后w.grad由None更新为Tensor类型，且w.grad.data的值用于后续w.data的更新。l.backward()会把计算图中所有需要梯度(grad)的地方都会求出来，然后把梯度都存在对应的待求的参数中，最终计算图被释放。2、pytorch基本数据类型tensor，tensor中包含data和grad，其中grad为loss对data的偏导数。1、w是Tensor， forward函数的返回值也是Tensor，loss函数的返回值也是Tensor。第100轮：损失9.0e-13。

2024-02-28 20:13:00 321

原创《PyTorch深度学习实践》第三讲梯度下降算法

1、损失函数由cost()更改为loss()。cost是计算所有训练数据的损失，loss是计算一个训练数据的损失。2、梯度函数gradient()由计算所有训练数据的梯度更改为计算一个训练数据的梯度。随机梯度下降法在神经网络中被证明是有效的。效率较低(时间复杂度较高)，学习性能较好。3、本算法中的随机梯度主要是指，每次拿一个训练数据来训练，然后更新梯度参数。一、对数据集所有元素求loss，后求平均得cost。

2024-02-28 19:07:59 311

原创《PyTorch深度学习实践》第二讲线性模型

【代码】《PyTorch深度学习实践》第二讲线性模型。

2024-02-28 17:33:45 366

原创《动手深度学习》权重衰退与丢弃法

1、一个好的模型需要对输入数据的扰动鲁棒，使用有噪音的数据等价于Tikhonov正则，不同于在输入数据中加噪音，丢弃法是在层之间加入噪音。在推理过程中，丢弃法直接返回输入h=dropout（h），这样也能保证确定性的输出。4、权重衰退通过L2正则项使得模型参数不会过大，从而控制模型复杂度。5、丢弃法将一些输出项随机置0来控制模型复杂度。正则项只在训练中使用：他们影响模型参数的更新。3、通常将丢弃法作用在隐藏全连接层的输出上。正则项权重控制模型复杂度的超参数。丢弃概率是控制模型复杂度的超参数。

2024-02-18 22:11:59 189

原创《动手深度学习》模型选择与过拟合欠拟合

验证数据集：一个用来评估模型好坏的数据集，用来选择模型超参数，不要跟训练数据混在一起。给定一个模型种类，将有两个主要因素：参数的个数，参数值的选择范围。3、k折交叉验证：在没有足够多数据时使用，常用k=5或10。1、训练误差：模型在训练数据上的误差。高容量的模型可以记住所有的训练数据。泛化误差：模型在新数据上的误差。低容量的模型难以拟合训练数据；2、训练数据集：训练模型参数。测试数据集：只用一次的数据集。难以在不同的种类算法之间比较。3、三阶多项式拟合（正常）拟合各种函数的能力；高阶多项式函数过拟合。

2024-02-17 22:19:06 204 1

原创《动手深度学习》多层感知机

H = relu(X @ W1 + b1) # 这里“@”代表矩阵乘法。3、感知机是一个二分类模型，它的求解算法等价于使用批量大小为1的梯度下降。6、多层感知机使用隐藏层和激活函数来得到非线性模型；常用的激活函数是Sigmoid，Tanh，ReLU；2、感知机不能拟合XOR函数，它只能产生线性分割面。2、sigmoid激活函数，将输入投影到（0，1）3、Tanh激活函数，将输入投影到（-1，1）超参数为隐藏层数，和各个隐藏层大小。1、单隐藏层，单分类。4、ReLU激活函数。

2024-02-08 22:15:31 249

原创《动手深度学习》softmax回归和损失函数

1、 softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。二、损失函数：下图中：绿色为似然函数，橙色为导数，蓝色为损失函数。使用softmax操作子得到每个类的预测置信度。2、softmax回归是一个多分类模型；使用交叉熵来衡量预测和标号的区别。一、softmax回归。

2024-02-05 21:56:49 171 1

原创《动手深度学习》线性回归和基础优化算法

梯度下降通过不断沿着反梯度方向更新参数求解。小批量随机梯度下降是深度学习默认的求解算法。使用平方损失来衡量预测值和真实值的差异。线性回归是对n维输入的加权，外加偏差。两个重要的超参数是批量大小和学习率。b是批量大小，另一个重要的超参数。线性回归可以看做是单层神经网络。2、小批量随机梯度下降。

2024-02-04 22:19:48 200 1

原创《动手深度学习》矩阵计算与自动求导

深度学习框架可以自动计算导数：我们首先将梯度附加到想要对其计算偏导数的变量上，然后记录目标值的计算，执行它的反向传播函数，并访问得到的梯度。y.backward() //反向传播函数。1、偏导数（形状很重要）1、自动求导两种模式。

2024-02-03 21:59:26 212 1

原创《动手深度学习》数据操作+数据预处理

5、即使形状不同，也可以通过广播机制来执行按元素操作。a、b都变为（3，2）dim表示维度，dim=0按行拼接，dim=1按列拼接。8、x = x + y，x更新后地址改变；x += y，x的原地操作。2.调用reshape函数，改变张量的形状，而不改变元素数量和元素值。1.通过张量的shape属性来访问张量的形状和张量中元素的总数。x[1:3, :]表示（第一、二行，全部列）的元素。3、标准运算+、-、*、/、**、exp（）7、将大小为1的张量转变为python的标量。6、转为Numpy张量。

2024-02-01 22:45:48 127 1

原创《统计学习》逻辑回归学习笔记

1、模型的输入变量和输出变量之间不存在线性关系；逻辑回归的输入变量可以是连续变量或离散变量；参数估计采用最大似然估计法。一、Logistic的分布。

2024-01-24 21:41:15 322

原创《统计学习》决策树学习笔记

一、决策树：分类决策树模型是一种描述实例进行分类的树形结构。

2024-01-20 20:16:19 392

原创《统计学习》朴素贝叶斯法学习笔记

一、朴素贝叶斯假设：实例特征之间相互独立。二、朴素贝叶斯法基本方法。三、后验概率最大化准则。

2024-01-19 22:03:17 340 1

原创《统计学习》感知机学习笔记

存在某个超平面S将数据集的正负实例点完全正确的划分到超平面两侧，则称数据线为线性可分数据集；否则，为线性不可分。修改次数越多的点，对最终结果影响最大。学习策略：最小化损失函数后求得参数。1、学习算法之原始形式：学习问题。2、原始形式：随机梯度下降法。2.3、感知机学习算法。3、学习算法之对偶形式。对偶形式：Gram矩阵。

2024-01-18 16:44:40 394 1

原创《统计学习》绪论学习笔记

不同的分法得到不同的数据集，从而得到不同的模型，将测试集放到模型中验证，选出误差最小的模型。5、S折交叉验证：随机将数据分为S个互不相交、大小相同的子集，其中以S-1个子集作为训练集，余下的子集作为测试集。4、无监督学习定义：是指从无标注数据中学习预测模型的机器学习问题，其本质是学习数据中的统计规律或潜在结构。1、监督学习定义：是指从标注数据中学习预测模型的机器学习问题，其本质是学习输入输出的映射的统计规律。4、过拟合：学习所得模型包含参数过多，出现对已知数据预测很好，但对未知数据预测很差的现象。

2024-01-17 20:27:04 337

原创《神经网络与深度学习》第八章学习笔记

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络来进行编码来得到一个相同长度的输出向量序列。1、大脑中的信息超载问题：人脑每个时刻接收的外界输入信息非常多，包括来源于视觉、听觉、触觉的各种各样的信息。神经图灵机：把图灵机的每个部件用神经网络来替代，从而使得整个图灵机的架构是可微分的。既然联想记忆具有存储和检索功能，我们可以利用联想记忆来增加网络容量。记忆过程：工作记忆（短期记忆），情景记忆，结构记忆（长期记忆）和结构化的外部记忆相比，联想记忆具有更好的生物学解释性。

2024-01-14 19:20:46 341 1

原创《神经网络与深度学习》第七章学习笔记

平坦最小值：一个平坦最小值的领域内，所有点对应的训练损失都比较接近。1、网络优化的难点：结构差异大，没有通用的优化算法，超参数多。修改网络结构来得到更好的优化地形：好的优化地形通常比较平滑；更有效的优化算法来提高优化方法的效率和稳定性：动态学习率调整；批量大小不影响随机梯度的期望，但会影响随机梯度的方差。更好的参数初始化方法、数据预处理方法来提高优化效率。2、干扰优化过程：早停法、暂退法、权重衰减、SGD。优化地形的可视化：在高维空间中损失函数的曲面形状。1、所有损害优化的方法都是正则化。

2024-01-12 19:51:02 409 1

空空如也

空空如也