深度学习与计算机视觉

最新推荐文章于 2024-05-22 15:20:50 发布

菜园狸花喵

最新推荐文章于 2024-05-22 15:20:50 发布

阅读量1.5k

点赞数

分类专栏：笔记文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/weixin_44934373/article/details/122289469

版权

笔记专栏收录该内容

12 篇文章 5 订阅

订阅专栏

semantic segmentation 语义分割（不区分有几头牛，而是这一个区域都是牛）
instance segmentation 实例分割（相当于同时检测和分割）
object detection 目标检测（它不是分割，而是一个目标对象的框）
语义分割多数时候需要进行后处理，将区域分割开

感知机可以用简单的电路逻辑（与门、与非门、或门逻辑）实现，用感知机来表示电路逻辑，参数有无数多种选择

把θ换成-b。 b是偏置（bias），决定了是否容易被激活的调节项。
w是权重

感知机是神经网络的雏形，也就是一层神经网络。
异或：模二加。0+0=0,0+1=1,1+0=1,1+1=0

单层感知机无法实现异或门，神经网络只有一层的话就是线性的，多层是非线性的。
所以发明了多层感知机
注意：输入层不算一层，因为输入层没有权重。

神经网络：
激活函数和假设函数 h（x）
首先用阶跃函数作为激活函数，但是这个阶跃函数作为激活函数并不好，后来用sigmoid函数（取值范围0~1），它比较好的就是一段上升的曲线。不过后来耦合了，在进行反向传播时，s函数会造成梯度消失。现在用的是ReLU函数（小于等于0，值为0，否则，值为x），y=x时，导数为1，所以不会造成梯度消失。激活函数必须是非线性的，否则网络就失效了。

神经网络全是矩阵运算。
多维数组运算：将矩阵运算转换为多维数组运算，可以高效实现神经网络，
矩阵乘法的实现：np.dot（A,B） #返回矩阵A乘以矩阵B的值
神经网络的内积：每个结点的权重竖着写。X*W=Y
符号w12（1）：
A(1)=XW(1)+b(1) A是a的组合
神经网络的每一层运算其实都是矩阵运算加偏置，再应用s函数
最后一层的激活函数，不用s函数，而是看你想干啥。回归——恒等，二元分类——s函数，多元分类？——softmax函数（就是一个归一化的概率——总和分之自己，其和为1）
分类问题，输出是哈士奇和狼的概率，回归问题输入一个x，输出是y值是多少

输出层有几个神经元就要看目的是干什么，神经网络输出层输出的是概率，谁的概率大结果就是谁
免费公开的数据集MNIST数据集：识别数字0~9

灰度 1通道有黑有白还有很多不同的灰色
彩色 3个通道 RGB 红绿蓝
黑白只有黑白

卷积神经网络在二维图像28*28上提取，而传统的神经网络只能把二维变成一维，比如变成784个输入结点，才能处理

第一层a1计算一次，z1激活一次
第二层a2计算一次，z2激活一次
第三层a3计算一次，再归一化一次

损失就是网络的实际输出和正确输出之间的差值。
将损失函数对w求导，来修正w的值
梯度的方向是各点处函数值减小最多的方向。注意：无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。所以需要不断迭代，不断更新前进的步伐。

超参数：像学习率这样的参数称为超参数。还有num of hidden layers, num of hidden layer units, batch-size, optimizer, activation function 。一般来说，超参数需要尝试多个值，以便找到一种可以使学习顺利进行的设定。

学习算法的实现步骤：
1、mini-batch
从训练数据中随机选出一部分数据，这部分数据称为mini-batch。目标是减小mini-batch的损失函数的值。
2、计算梯度
为了减小mini-batch的损失函数的值，需要求出各个权重参数的梯度。梯度的方向是各点处函数值减小最多的方向。
3、更新参数
将权重参数沿梯度方向进行微小更新
4、重复
迭代，直至损失杉树小于设定的阈值或者达到所设定的迭代次数

SGD（s：stochastic gradient descent）随机梯度下降法
随机的含义：随机选择mini-batch数据

卷积神经网络CNN——图像识别，目标检测，图像分类，语音识别
CNN工作在二维上。普通网络是把二维数据拉成一维的，就丢失了一部分邻近的信息。
全连接（fully-connected）——相邻层的所有神经元之间都有连接，利用Affine层实现。全连接的弊端：网络的参数量太大。数据的形状被“忽视了”（比如人周围的眼睛，鼻子）图像通常是高、长、通道方向上的3位形状，向全连接层输入时，需要将3维数据拉平为1维数据，被排成1列，以784个数据的形式输入到最开始的Affine层。图像是3维形状，这个形状中含有重要的空间信息。全连接层会忽视形状，将全部的输入数据作为相同的神经元。
卷积层：只有最后两层用全连接，前面的都是卷积、激活、池化。（五层：1、卷积、激活、池化 2、卷积、激活、池化 3、卷积、激活 4、全连接Affine、激活、全连接、softmax。普通网络的五层：全连接、激活）二维的情况下网络的参数量是可控的。
卷积层的输入输出数据称为特征图（feature map）
卷积运算相当于图像处理中的滤波器
池化（Pooling）层

一开始卷积盒中都是随机数，同一个通道下，九个权重参数值不变。

拒不连接：每个神经元仅与输入神经元的一块区域连接，这块局部区域称作感受野生（receptive field）。局部连接保证了学习后的滤波器能够对于局部的输入特征有最强的相应（受启发于生物学中的视觉系统结构）
权值共享
填充
步幅/步长（stride）
公式计算除数大小

池化：把数据缩量降维
两种池化：平均池化（4个点取平均值）、最大池化（4个点取最大值）。
其实现在很少用平均池化，都用最大池化
池化不算一层，只是有的层里带了池化，当然不能每一层都带池化
神经网络的一层必须带可学习的参数。

苹果笔记本的CPU和IBM、惠普的小型机的unix的架构

dropped out：随机失活

菜园狸花喵

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习与计算机视觉

semantic segmentation 语义分割（不区分有几头牛，而是这一个区域都是牛）instance segmentation 实例分割（相当于同时检测和分割）object detection 目标检测（它不是分割，而是一个目标对象的框）语义分割多数时候需要进行后处理，将区域分割开感知机可以用简单的电路逻辑（与门、与非门、或门逻辑）实现，用感知机来表示电路逻辑，参数有无数多种选择把θ换成-b。 b是偏置（bias），决定了是否容易被激活的调节项。w是权重感知机是神经网络的雏形，
复制链接

扫一扫

专栏目录