满满myno-CSDN博客

每层卷积只能用一种尺寸的卷积核？传统的层叠式网络，基本上都是一个个卷积层的堆叠，每层只用一个尺寸的卷积核，例如VGG结构中使用了大量的3×3卷积层。事实上，同一层 feature map 可以分别使用多个不同尺寸的卷积核，以获得不同尺度的特征，再把这些特征结合起来，得到的特征往往比使用单一卷积核的要好，谷歌的 GoogLeNet，或者说 Inception 系列的网络，就使用了多个卷积核的结构：如上图所示，一个输入的feature map分别同时经过 1×1、3×3、5×5的卷积核的处理，得出

2022-05-11 12:20:15 857 1

原创五、卷积神经网络CNN4(1*1卷积作用)

1x1卷积作用1×1 的卷积大概有两个方面的作用：1. 实现跨通道的交互和信息整合。2. 进行卷积核通道数的降维和升维。下面详细解释一下：1. 1×1 的卷积层（可能）引起人们的重视是在 NIN 的结构中，论文中的想法是利用 MLP 代替传统的线性卷积核，从而提高网络的表达能力。文中同时利用了跨通道 pooling的角度解释，认为文中提出的 MLP 其实等价于在传统卷积核后面接 cccp 层，从而实现多个feature map 的线性组合，实现跨通道的信息整合。...

2022-05-10 10:01:40 640

原创五、卷积神经网络CNN3（2D与3D卷积、池化）

2D卷积2D 卷积操作如图 1 所示，为了解释的更清楚，分别展示了单通道和多通道的操作。且为了画图方便，假定只有 1 个 filter，即输出图像只有一个 chanel。其中，针对单通道，输入图像的 channel 为 1，卷积核尺寸为 (k_h, k_w, 1)，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗和 (k_h,k_w) 窗口内的 values 进行卷积操作（现在都用相关操作取代），得到输出图像中的一个value。针对多通道

2022-05-09 21:04:53 2810

原创五、卷积神经网络CNN2（卷积基本定义与类型）

卷积的几个基本定义卷积核大小（Kernel Size）: 卷积核的大小定义了卷积的视图范围。二维的常见选择大小是3，即 3×3像素。卷积核的步长（Stride）: Stride 定义了内核的步长。虽然它的默认值通常为 1，但我们可以将步长设置为 2，然后对类似于 MaxPooling 的图像进行向下采样。边缘填充（Padding）: Padding 用于填充输入图像的边界。一个(半)填充的卷积将使空间输出维度与输入相等，而如果卷积核大于 1，则未被填充的卷积将会使一些边界消失。输入和输出通道

2022-05-09 09:27:32 2826

原创五、卷积神经网络CNN1（组成层、卷积如何检测边缘信息）

卷积神经网络的组成层在卷积神经网络中，有3种最主要的层：卷积运算层、pooling 层、全连接层。一个完整的神经网络就是由这三种层叠加组成的。（1）一个卷积神经网络由多种不同类型的层(卷几层/全连接层/RELU 层/POOLing层等)叠加而成。（2）每一层的输入结构是 3 维的数据，计算完输出依旧是 3 维的数据。（3）卷积层和全连接层包含训练参数，RELU 和 POOLing 层不包含。（4）卷积层，全连接层和 POOLing 层包含超参数，RELU 层没有。CIFAR-10 数据.

2022-05-07 20:03:11 3214

原创四、经典网络12（ResNet拓展及总结）

ResNet 作为小型网络的组合《具有随机深度的深度网络》提出了一种反直觉的方式，训练一个非常深层的网络，通过在训练期间随机丢弃它的层，并在测试时间内使用完整的网络。Veit 等人有一个更反直觉的发现：我们实际上可以删除一些已训练的 ResNet 的一些层，但仍然具有可比性能。这使得ResNet 架构更加有趣，该论文亦降低了 VGG 网络的层，并大大降低了其性能。该论文首先提供了 ResNet 的一个简单的视图，使事情更清晰。在我们展开网络架构之后，这是很显而易见的，具有 i 个残差块的 ResNet

2022-05-07 16:45:10 3354

原创四、经典网络11（ResNeXt、 DenseNet）

ResNeXtS. Xie，R. Girshick，P. Dollar，Z. Tu 和 K. He 在《深度神经网络的聚集残差变换》中提出了一个代号为 ResNeXt 的 ResNet 变体，它具有以下构建块：左图：《用于图像识别的深度残差学习》中所提及的构建块，右图： ResNeXt 构建块基数=32这可能看起来很熟悉，因为它非常类似于《IEEE 计算机视觉与模式识别会议论文集》中《Going deeper with convolutions》的 Inception 模块，它们都遵循“拆

2022-05-06 10:35:48 380

原创四、经典网络10（resNet）

ResNet 及其变体自从AlexNet 在 LSVRC2012分类比赛中取得胜利之后，深度残差网络（deep Residual Network）可以说成为过去几年中，在计算机视觉、深度学习社区领域中最具突破性的成果了。 ResNet 可以实现高达数百，甚至数千个层的训练，且仍能获得超赞的性能。得益于其强大的表征能力，许多计算机视觉应用在图像分类以外领域的性能得到了提升,如对象检测和人脸识别。自从 2015 年 ResNet 进入人们的视线，并引发人们思考之后，许多研究界人员已经

2022-05-05 20:23:23 1427

原创四、经典网络9（Inception V3、V4）

inception 模块之间特征图的缩小，主要有下面两种方式：右图是先进行 inception 操作，再进行池化来下采样，但是这样参数量明显多于左图(比较方式同前文的降维后inception 模块)，因此 v2采用的是左图的方式，即在不同的inception之间（35/17/8 的梯度）采用池化来进行下采样。但是，左图这种操作会造成表达瓶颈问题，也就是说特征图的大小不应该出现急剧的衰减(只经过一层就骤降)。如果出现急剧缩减，将会丢失大量的信息，对模型的训练造成困难。（上文提到的原则1）

2022-05-04 13:49:34 1315

原创四、经典网络8（Inception v2）

在 V1 的基础之上主要做了以下改进：(1) 使用 BN 层，将每一层的输出都规范化到一个 N(0,1)的正态分布，这将有助于训练，因为下一层不必学习输入数据中的偏移，并且可以专注与如何更好地组合特征（也因为在 v2 里有较好的效果，BN 层几乎是成了深度网络的必备）；（在 Batch-normalized 论文中只增加了 BN 层，而之后的 Inception V3 的论文提及到的 inception v2 还做了下面的优化）(2)使用 2 个 3x3 的卷积代替梯度（特征图，下同）为

2022-05-04 09:45:44 2325

原创四、经典网络7（Inception V1）

Inception v1相比于 GoogLeNet 之前的众多卷积神经网络而言，inception v1 采用在同一层中提取不同的特征（使用不同尺寸的卷积核），并提出了卷积核的并行合并（也称为 Bottleneck layer），如下图这样的结构主要有以下改进： 1. 一层 block 就包含 1x1 卷积，3x3 卷积，5x5 卷积，3x3 池化(使用这样的尺寸不是必需的，可以根据需要进行调整)。这样，网络中每一层都能学习到“稀疏”（3x3、5x5）或“不稀疏”（1x1）的特征，.

2022-05-03 12:20:31 1223

原创四、经典网络6（GoogleNet）

模型结构Inception 结构对上图做以下说明： 1 . 采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合； 2 . 之所以卷积核大小采用 1、3 和 5，主要是为了方便对齐。设定卷积步长 stride=1 之后，只要分别设定 pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了； 3 . 文章说很多地方都表明 pooling 挺有效，所以 Inception 里面也嵌入了。 4 . 网络越到后面.

2022-05-02 21:05:21 448

原创四、经典网络5（Network in Network）

模型结构模型创新点论文的创新点：（1）提出了抽象能力更高的 Mlpconv 层（2）提出了 Global Average Pooling（全局平均池化）层Mlpconv 层传统的卷积神经网络一般来说是由线性卷积层、池化层、全连接层堆叠起来的网络，卷积层通过线性滤波器进行线性卷积运算，然后在接个非线性激活函数最终生成特征图。而这种卷积滤波器是一种 GLM:(Generalized linear model)广义线性模型。然而 GLM 的抽象能力是比较低水平的。抽象

2022-05-02 10:07:20 708

原创四、经典网络4（VGG）

模型结构模型特点1、整个网络都使用了同样大小的卷积核尺寸（3*3）和最大池化尺寸（2*2）2、1*1 卷积的意义主要在于线性变换，而输入通道数和输出通道数不变，没有发生降维。 1、两个3*3的卷积层串联相当于 1 个5*5的卷积层，即一个像素会跟周围5*5的像素产生关联，可以说感受野大小为5*5。而 3 个 3*3 的卷积层串联的效果则相当于 1 个7*7的卷积层。除此之外，3 个串联的 3*3 的卷积层，拥有比 1 个 7*7 的卷积层更少的参数量，只有后者的(3*3*3)/(7

2022-04-30 09:43:28 387 1

原创四、经典网络3（可视化 ZFNet-解卷积）

基本的思想及其过程可视化技术揭露了激发模型中每层单独的特征图，也允许观察在训练阶段特征的演变过程且诊断出模型的潜在问题。可视化技术用到了多层解卷积网络，即由特征激活返回到输入像素空间。同时进行了分类器输出的敏感性分析，即通过阻止部分输入图像来揭示那部分对于分类是重要的。这个可视化技术提供了一个非参数的不变性来展示来自训练集的哪一块激活哪个特征图，不仅需裁剪输入图片，而且自上而下的投影来揭露来自每块的结构激活一个特征图。可视化技术依赖于解卷积操作，即卷积操作的逆过程，将特征映射到像素上。由于解

2022-04-29 12:41:20 276

原创四、经典网络2（AlexNet）

模型结构模型解读conv1 阶段 DFD（data flow diagram）：第一层输入数据为原始的 227*227*3 的图像，这个图像被 11*11*3 的卷积核进行卷积运算，卷积核对原始图像的每次卷积都生成一个新的像素。卷积核沿原始图像的 x 轴方向和 y 轴方向两个方向移动，移动的步长是 4 个像素。因此，卷积核在移动的过程中会生成(227-11)/4+1=55个像素(227 个像素减去 11，正好是 54，即生成 54 个像素，再加上被减去的 11 也对应生成一个像素)，行和

2022-04-28 20:01:36 644

原创四、经典网络1（LeNet5）

一种典型的用来识别数字的卷积网络是 LeNet-5。模型结构

2022-04-28 10:08:02 154

原创三、深度学习基础8（softmax、dropout）

Softmax 定义及作用softmax 函数可以把它的输入，通常被称为 logits 或者 logit scores，处理成0到1之间，并且能够把输出归一化到和为1。这意味着 softmax 函数与分类的概率分布等价。它是一个网络预测多分类问题的最佳输出激活函数。常用的优化器有哪些Optimizer： tf.train.GradientDescentOptimizer tf.train.AdadeltaOptimizer tf.train.AdagradOptimizer

2022-04-27 16:31:19 687 1

原创三、深度学习基础7（微调、初始化）

预训练与微调(fine tuning)深度网络存在问题: （1）网络越深，需要的训练样本数越多。若用监督则需大量标注样本，不然小规模样本容易造成过拟合。深层网络特征比较多，会出现的多特征问题主要有多样本问题、规则化问题、特征选择问题。（2）多层神经网络参数优化是个高阶非凸优化问题，经常得到收敛较差的局部解；（3）梯度扩散问题，BP 算法计算出的梯度随着深度向前而显著下降，导致前面网络参数贡献很小，更新速度慢。解决方法：逐层贪婪训练，无监督预训练（unsupervised p

2022-04-27 09:37:47 2937 2

原创三、深度学习基础6（归一化）

归一化含义归一化的具体作用是归纳统一样本的统计分布性。归一化在 0-1 之间是统计的概率分布，归一化在-1--+1 之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练（概率计算）和预测的，且 sigmoid 函数的取值是 0 到 1 之间的，网络最后一个节点的输出也是如此，所以经常要对样本的输出归一化处理。归一化是统一在 0-1 之间的统计概率分布，当所有样本的输入信号都为正值时，与第一隐含层神经元.

2022-04-26 19:26:42 1865 1

原创三、深度学习基础5（Softmax、Batch_Size）

Softmax 函数softmax 用于多分类过程中，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！形象的映射过程如下图所示：softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用，就映射成为(0,1)的值，而这些值的累和为 1（满足概率的性质），那么我们就可以将它理解成概率，在最后选取输出结点的时候，我们就可以选取概率最大（也就是值对应最大的）结点，作为我们的预测目标！Batch_SizeBatch 的选择，首先决定的是

2022-04-26 09:34:03 1752

原创三、深度学习基础4（激活函数2）

如何选择激活函数选择一个适合的激活函数并不容易，需要考虑很多因素，通常的做法是，如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者测试集上进行评价。然后看哪一种表现的更好，就去使用它。以下是常见的选择情况：1、如果输出是 0、1 值（二分类问题），则输出层选择 sigmoid 函数，然后其它的所有单元都选择 Relu 函数。2、如果在隐藏层上不确定使用哪个激活函数，那么通常会使用 Relu 激活函数。有时，也会使用 tanh 激活函数，但 Relu 的一个优点是：当是负值的时候，

2022-04-25 20:14:48 1007

原创三、深度学习基础3（激活函数1）

为什么需要激活函数？1、激活函数对模型学习、理解非常复杂和非线性的函数具有重要作用。2、激活函数可以引入非线性因素。如果不使用激活函数，则输出信号仅是一个简单的线性函数。线性函数是一个一级多项式，线性方程的复杂度有限，从数据中学习复杂函数映射的能力很小。没有激活函数，神经网络将无法学习和模拟其他复杂类型的数据，例如图像、视频、音频、语音等。3、激活函数可以把当前特征空间通过一定的线性映射转换到另一个空间，让数据能够更好的被分类。为什么激活函数需要非线性函数？1、假若网络中全部是线性部件，那么

2022-04-25 09:44:21 483 2

原创三、深度学习基础2（前、反向传播；超参数）

前向传播与反向传播前向传播反向传播神经网络的输出、卷积神经网络输出值以及Pooling 层输出值（主要作用是下采样）过程皆为比较简单的基础知识，在此不作详细赘述。超参数超参数:比如算法中的 learning rate （学习率）、iterations(梯度下降法循环的数量)、（隐藏层数目）、（隐藏层单元数目）、choice of activation function（激活函数的选择）都需要根据实际情况来设置，这些数字实际上控制了最后的参数和的值，所以它们被称作超参数。...

2022-04-23 18:35:55 701 3

原创三、深度学习基础1（构成、模型）

神经网络组成（输入层、隐藏层、输出层）最简单的神经网络：感知机复杂一些的感知机由简单的感知机单元组合而成：Sigmoid 单元感知机单元的输出只有 0 和 1，实际情况中，更多的输出类别不止 0 和 1，而是[0,1]上的概率值，这时候就需要 sigmoid 函数把任意实数映射到[0,1]上。sigmoid 激活函数图像全连接神经网络即第 i 层的每个神经元和第 i-1 层的每个神经元都有连接。输出层可以不止有 1 个神经元。隐藏层可以只有 1 层，...

2022-04-22 12:27:04 3570 6

原创二、机器学习基础16（GBDT 和随机森林、聚类算法）

GBDT 和随机森林相同点：1、都是由多棵树组成2、最终的结果都是由多棵树一起决定不同点：1、组成随机森林的树可以是分类树，也可以是回归树；而 GBDT 只由回归树组成2、组成随机森林的树可以并行生成；而 GBDT 只能是串行生成3、对于最终的输出结果而言，随机森林采用多数投票等；而 GBDT 则是将所有结果累加起来，或者加权累加起来4、随机森林对异常值不敏感，GBDT 对异常值非常敏感5、随机森林对训练集一视同仁，GBDT 是基于权值的弱分类器的集成6、随机森林是通过减少模型方

2022-04-21 18:55:41 1626 5

原创二、机器学习基础15（SVM优缺点、聚类与降维）

SVM 主要特点及缺点SVM 有如下主要几个特点：(1)非线性映射是 SVM 方法的理论基础,SVM 利用内积核函数代替向高维空间的非线性映射；(2)对特征空间划分的最优超平面是 SVM 的目标,最大化分类边际的思想是 SVM 方法的核心；(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的

2022-04-21 14:27:49 3316 6

原创二、机器学习基础14（核函数）

核函数核函数目的：把原坐标系里线性不可分的数据用 Kernel 投影到另一个空间，尽量使得数据在新的空间里线性可分。核函数方法的广泛应用,与其特点是分不开的：1）核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维数 n 对核函数矩阵无影响，因此，核函数方法可以有效处理高维输入。2）无需知道非线性变换函数Φ的形式和参数.3）核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射，进而对特征空间的性质产生影响，最终改变各种核函数方法的性能。4）核函数方法可以和不同的算法相结

2022-04-20 20:51:11 2398

原创二、机器学习基础13(熵、信息增益、剪枝处理、SVM)

熵：度量随机变量的不确定性。信息增益定义：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 D 划分效果的好坏。假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D，计算划分后的数据子集的熵为H(D|A)则信息增益为：注：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集 D。..

2022-04-20 12:29:06 298 6

原创二、机器学习基础12（类别不平衡、决策树）

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。产生原因：通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大，则会影响学习结果，测试结果变差。常见的类别不平衡问题解决方法：1 、扩大数据集2 、对大类数据欠采样（缺点：欠采样操作时若随机丢弃大类样本，可能会丢失重要信息。）代表算法：EasyEnsemble3 、对小类数据过采样代表算法：SMOTE 和 ADASYN4 、使用新评价指

2022-04-19 19:25:09 956 1

原创二、机器学习基础11（点估计）

点估计：用实际样本的一个指标来估计总体的一个指标的一种估计方法。点估计举例：比如说，我们想要了解中国人的平均身高，那么在大街上随便找了一个人，通过测量这个人的身高来估计中国人的平均身高水平；或者在淘宝上买东西的时候随便一次买到假货就说淘宝上都是假货等；这些都属于点估计。点估计主要思想：在样本数据中得到一个指标，通过这个指标来估计总体指标；比如我们用样本均数来估计总体均数，样本均数就是我们要找到的指标。点估计优良性原则优良性准则有两大类：一类是小样本准则，即在样本大小固定时的优良性准则；另一类是大样本

2022-04-19 12:39:04 2123

空空如也

空空如也