深度学习-卷积神经网络CNN学习笔记

最新推荐文章于 2024-09-20 23:39:41 发布

zczczcc

最新推荐文章于 2024-09-20 23:39:41 发布

阅读量265

点赞数

分类专栏：机器学习＋深度学习文章标签：卷积神经网络深度学习

本文链接：https://blog.csdn.net/zczczcc/article/details/109699940

版权

机器学习＋深度学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

深度学习

一、基本概念
二、卷积神经网络CNN
三、用Python代码实现
- 卷积操作函数的参数
- 结果可视化

一、基本概念

发展历程

1.感知机网络（解决线性可分问题，20世纪40年代）
2.BP神经网络（解决线性不可分问题，20世纪80年代）
3.深度神经网络（海量图片分类，2010年左右）

应用领域

1.计算机视觉
2.语音识别
3.自然语言处理
4.人机博弈

与人工智能、机器学习关系

在这里插入图片描述

深度学习VS传统机器学习

在这里插入图片描述

二、卷积神经网络CNN

卷积神经网络结构

卷积神经网络大致过程：
covolutional layer（卷积）、ReLu layer（非线性映射）、pooling layer（池化）、
fully connected layer（全连接）、output（输出）的组合，例如下图所示的结构。
在这里插入图片描述
从左向右，一共分为七层：
卷积层、池化层、卷积层、池化层、全连接层、全连接层、输出层

32×32变成28×28,28=32-5+1（filter=5×5）
A的一个面变成卷积层的6个面，是因为有6个filter对其进行操作，每个filter权值不一样对应形成一个面
28×28变14×14，是因为池化2×2

卷积操作-得到卷积层的输入值

全连接与局部连接

在CNN中，先选择一个局部区域（filter），用这个局部区域去扫描整张图片。局部区域所圈起来的所有节点会被连接到下一层的一个节点上。
在这里插入图片描述

在这里插入图片描述

卷积层－CNN权值共享

在这里插入图片描述

加入非线性映射ReLU

和前馈神经网络一样，经过线性组合和偏移后，会加入非线性增强模型的拟合能力。
经过线性组合和偏移后，会加入非线性增强模型的拟合能力。将卷积所得的Feature Map经过ReLU变换（elementwise）。
在这里插入图片描述

池化操作

即从卷积层输出的结果中，抽取“代表”。且抽取方法取决于池化结构
例如下图：将44转化为22，且抽取规则为取最大值
左上角的“6“是1,1,5,6中的最大值
在这里插入图片描述

全连接层

当抓取到足以用来识别图片的特征后，接下来的就是如何进行分类。
全连接层（也叫前馈层）就可以用来将最后的输出映射到线性可分的空间。
卷积网络的最后会将末端得到一个长长的向量，并送入全连接层配合输出层进行分类。

高维输入处理

filter为2×2×3
在这里插入图片描述

多个filter

卷积层的面数只由filter个数决定
在这里插入图片描述

三、用Python代码实现

卷积操作函数的参数

conv2d(input, filter, strides, padding, use_cudnn_on_gpu=True, data_format=“NHWC”, dilations=[1, 1, 1, 1], name=None):
input即输入的图片，filter即卷积盒, strides即移动的步长, padding即填充（当卷积或池化不能取整时）,
其中input, filter必须是四维
[batch, in_height, in_width, in_channels]样本个数，宽度，高度，通道数
[filter_height, filter_width, in_channels, out_channels]宽度，高度，通道数，个数

import tensorflow as tf
import cv2
import numpy as np

img = cv2.imread('0_3.png')    # 图片读取
img = cv2.resize(img, (64, 64))/255   # 图片尺寸压缩和归一化,即行列尺寸修改
img_new = np.float32(np.reshape(img, [1, 64, 64, 3]))   # 将图片shape改为4维
w1 = tf.random_normal([3, 3, 3, 32])  # filter，行，列，通道，个数

conv1 = tf.nn.conv2d(img_new, w1, strides=[1, 1, 1, 1], padding='SAME')  # 卷积操作，全零值填充
#conv1.shape
#stridesJ中间两个值是指步长，ksize中间两个值是指filter的大小2，2
pool1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')  # 进行池化操作
#pool1.shape
sess = tf.Session()#启动绘画
conv = sess.run(conv1)
#conv
pool = sess.run(pool1)
#pool
sess.close()#关闭
cv2.imwrite('conv.jpg', conv[0, :, :, 10]*500)   # 将卷积结果的某一个面可视化呈现,第零个样本（本身就一个）所有行的所有列的第10个面，*500值放大
cv2.imwrite('pool.jpg', pool[0, :, :, 10]*100)   # 将池化结果的某一个面可视化呈现