神经网络-随笔

最新推荐文章于 2023-02-11 23:04:57 发布

黑夜的孤独侠

最新推荐文章于 2023-02-11 23:04:57 发布

阅读量1.2k

点赞数 20

文章标签：深度学习神经网络 cnn

本文链接：https://blog.csdn.net/weixin_45093850/article/details/126274401

版权

对于神经网络中，卷积核filter的理解
比如：一张彩色的图片要三通道，这张彩色图片输入到神经网络当中，首先，他要进行卷积操作，在卷积的过程中，假如有两个卷积核，这两个卷积核分别拿出一个卷积核，对这个图片进行三通道的一个卷积，这样子，我们就得到一个三通道的，另一个维度的特征。这样子的话，另一个卷积核也这样，最后得到的是六个通道，然后每三个通道进行一个特征通道的一个叠加，形成一个彩色图片的一个特征图谱，最后出来有两个彩色图片，也就是两个特征图谱，这两张特征图谱的维度取决于，卷积核的维度。卷积核filter如果有深度的话，应该代表说他有多少个卷积核。
多通道卷积过程
多通道卷积的过程，就是说有很多个卷积核，每个卷积核有三通道，因为输入的图片是一张彩色图片，他是三通道的，然后每个卷积和里面的通道数的卷积特征是不一样的，分别跟他对应的绿蓝红通道进行卷积，各自对应卷积得到一个三通道的一个特征图谱，并且将这三个通道进行一个叠加，就得到一个特征图谱通道，这个特征图谱通道，他是他彩色通道是不一样的，然后这样多个卷积和卷积出来就叫做多通道卷积，也就是说，最后出来是一个多通道的特征图谱，然后再将这个特征图谱进行个累加，最后得出一张最好后的特征图谱。
实际上，真实的情况是，卷积过程中，输入层有多少个通道，滤波器就要有多少个通道，但是滤波器的数量是任意的，滤波器的数量决定了卷积后 featuremap 的通道数。

个人理解cnn网络结构
cnn他将一张三通道的输入图片进行一个卷积操作，提取出明显的特征，并且简化像素点，经过之后，最后提取出来的是一个高阶特征图谱，将这个高阶特征图谱，将三个通道的高阶特征图谱进行感受野的部分输入。
那怎么叫做感受野的输入呢，将这个图谱划分区域为3*3多个网络框，然后，拉伸成为一个维度的向量，进行全连接层输入，与真实的图片，进行反向传播求偏导。求出w,h权重值。

正则化的本质是对某一问题加以先验的限制或约束（如L1范数和L2范数），以达到某种特定目的的一种手段或操作（函数的稀疏或者平滑）。在算法中使用正则化的目的是防止模型出现过拟合。那问题来了，函数的稀疏，就是说防止过拟合的意思，函数平滑就是说，防止函数根据目标特征来绘画出区分类别的直线，这样保持了之前已有的f（x）函数特征曲线。

为啥卷积核可以提取边缘和特征呢？
因为他用到了边缘提取的算法，最后确认出卷积核
全连接层和隐藏层它是拟合出一条线性回归的分类直线，更好的分类模型，当然这样会导致过拟合，模型泛化能力不行，所以，需要卷积，提取出抽象泛化能力强，个体代表所有，高级的特征。
卷积神经网络的理解，嘿嘿。
第一
经过卷积核，将一张图片多个的权重，变成了卷积核里的权重数量。大大减小了哦，防止过拟合作用。经过多个卷积核，提取出多个明显特征提取，将这些特征输入到全连接层，进行数据处理，分类。
卷积出来的各种特征图谱，它是由物体身上的各种特征组成的，比如耳朵嘴巴等等。不同卷积核参数可能不一定能提取到这些特征，有些提取到了头发指甲然后叠加成另一张图谱。最后，我们通过这些特征图谱输入到全连接层，找到这些的特征图谱的拟合参数，然后，分类，输出不同分类概率，分类概率高（找到一个分类最好的拟合曲线）即为那个物体，最后，用反向传播的思想求出它的卷积核参数。
预训练模型作用，它是人为规定，比如猫，就需要有猫耳朵，胡须，尾巴等的特征，如果，卷积核提取出来的特征没有这些，那么这个卷积核就不合格，也就是对不上啦，因为，这张图片输入进去训练的时候，我们是知道的他就是猫，我们目的是为了找到这样的卷积核权重，然后，输入，任一张图片，都能输出这些特征的概率高，那这只动物就是猫。

第一次给卷积核的值就是随机的，然后神经网络会得出loss，一般第一次随机给的权重得到的loss都比较高，然后神经网络根据误差反算更新权重，然后再次前向。

预训练模型的作用:迁移学习，它是将你训练出来的卷积核权重，然后去预训练的模型上跑，从而，反馈给你，你训练出来的权重好不好。预训练模型是很大数据上面训练出来的优质的模型。

对于卷积的深度理解
卷积是提取出高阶特征，比如猫耳朵，猫眼睛，猫鼻子，猫胡须。把这些特征提取出来，汇聚到一个二维的坐标上面去，这些我们刚开始是不能准确的提取出这些高阶特征的，因为我们的卷积核参数是随便给的，不是具体的。这个时候我们把这些特征提取出来的特征放到特征图谱，特征图谱将这些特征转化成二维的坐标，上面的一些特征，然后我们通过分类和回归，把这些特征拟合出一条函数直线，对这些特征进行分类（当曲线拟合出来时，卷积核的权重也被得出），然后我们这个时候，假设如果这个，拟合出来的曲线，他具备了能够辨别猫和狗的一个曲线，也就是说，它是不是一只猫？能不能分辨出来，通过这一条拟合出来的曲线。然后我们这个群中进行迁移，通过迁移学习，将这个卷积核的权重迁移到一个晕训练模型进去，如果这个卷积核的权重，它能够在这个预训练模型上面跑出是不是猫的正确结果，如果不正确进行，重新反向传播训练权重值。
全连接层
转化问题，将不同特征图谱上的高阶特征像素进行叠加汇总，然后，转化成关于w权重曲线，然后，进行拟合出曲线，因为特征图谱上面还有一些其他的像素点，我们目的就是要找出目标高级特征像素点，用sigmoid或者relu将他们围起来或者区分开来，转化成了，w的方程和概率问题。如:y=1/1-exp(z1)多个z相加(z1=wx+b)，最后进行化简。

在某知上对卷积神经网络的理解
虽然同一只猫和狗，但是采集的时候暗度和亮度不一致，则得出的结果也不一致。因为提取出来的像素点也不一致，最后，进入全连接层也不一致，导致我们训练的结果都不一致，所以说。为什么要数据增强呢，但是，这可能导致结果有偏差。比如，同一只猫和狗的图片，在暗和凉的情况下，我们可以适当将输入进来的图片统一处理调节一定亮度，然后在进行卷积等操作到全连接层。但是，也可能出现另一种情况，就是。他是一只狗，被你调节亮了点，它成了一只猫啦。还有另一种解决办法，那就是采集一些暗点的猫的数据。记住了，全连接层，他是有限制的，他不可能所有特征，都能表达出一个模型，他需要大数据，做到无限逼近的可能。
sigmiod函数起到了数据分类作用，而线性函数起到了数据模型作用，输入进来的x起到了数据集的作用。不同的w的权重不同，获取到的特征也不同，它激活的隐藏层（感知机、神经元）也不同，分类出的结果也不同。w起到调整sigmoid函数的分类，w越准确分类越准确，模型越准确，即全连接层越准确，通过loss就可以返回来调节w，使w的值越准确，这个调节w过程就是训练的一个过程。由于sigmoid之后的函数处理，使得输出变成了(0到1区间)，由于softmax它是目标的sigmoid除以所有sigmiod的概率，目标概率只有1和0。进行两者求差，反向传播偏导，调节w。

调节w的过程，
其实对于多分类问题下，梯度下降法应该是这样的：
一般来说，因为神经网络的复杂性，我们在训练时会选择一个损失函数（loss function），而非感知机单纯的对/错，来衡量训练时的损失。
比如说对于猫/狗/鸡分类问题，我们可以把神经网络输出的概率值和期望值之间的norm1，作为损失函数。比如说输出的概率是【0.8 0.1 0.1】，期望值是【1 0 0】（代表正确分类是猫），那么损失为0.2+0.1+0.1=0.4。
这时候就可以利用反向传播（back propagation）来计算每个感知机的参数更新值，方法类似于复合函数求导。假设最后一层没有激活函数（实际上分类问题一般会用softmax函数，但这里为了简略就不讲了），那么就有loss=(1-w1@x)+w2@x+w3@x，对于负责输出「猫」的概率的感知机而言，易得其偏导d（loss）/d（w1）=-x，若设定学习率（learning rate）为1，那么只要把「猫」感知机的参数减去x即可更新，其余以此类推。
当然实际上多分类问题一般会用交叉熵（Cross-Entropy）来作为损失函数，不过这个就要复杂的多了。

最后，来说说卷积层到输入层过度的过程讲解。
由于输入进来的数据，它是一个物体多个特征提取出来的结果，我将这些数据进行一个权重处理相加，多元化的结合和统计，输出多个权重隐藏层，得到一个多个权重的多元函数体，然后，通过sigmoid我们进行分类，最后，我们就知道，哪些特征是必须的，才能满足它是猫的一个分类，也就是哪些w的调节，使得它这些特征是必须的，才能使得它为一只猫的得分最大，即趋近于1的得分。

知识点有些零散，请大家见谅，希望能够帮助大家。