AlexNext:现在神经网络起源:
传统方法:图片特征的提取,机器学习分类
pooling是对每个layer分别选择最大值,位置是不固定的
normalization:分batch进行normalization
全连接(传统神经网络)的神经元个数最好在两边的求和(pooling和labels)。两个全链接层能更好的表达出数据。意义:链接featuer maps的信息,就是让他们表达了一种关系,融合他们的位置信息。到最后的时候,每个featuer maps中的数据可能都会包含大量的信息,而featuer map把写着数据链接起来来做预测
分为上下两部分:倾向独立学习,效果更好
参数计算:全连接层(传统神经网络)计算量最大
VGG:AlexNet增强版(Visual Geometry Group)
图二十位VGG只要增加了卷积运算
可以看出map featuers大小在减少,但是维数在增多(卷积核在增多)
计算方法:当前的卷积核大小*卷积核的个数*乘以卷积核的输入维数(in_channels).
卷积是一个线性的运算,但是拥有非线性的激励函数,所以可以解决线性不可分的问题
VGG作用:
结果简单: AlexNet 结果类似,均为卷基层,池化层,全连接层的组合
性能优异:同Alexnet提升明显,同GoogleNet,ResNet相比,表现接近
选择最多的基本模型:方便进行结构化优化,设计,SSD,RCNN,等他任务的基本模型(basal model)
GoogLeNet:多维度识别
信息的scale确定不确定:不同事物所占的pix不一样,例如有的占5*5(近的),有的占远的3*3(远点),可能更小的可能就站1*1(更远),如果只用大的会忽滤了一些有用的特征。从不同纬度上进行了相应的学习.
结构问题:参数暴增
1*1 卷积额好处,减少参数,定义下一次卷积的层数,从而减少运算量。从前一个层数改为自己想要的层数
用全卷积结构(FCN),不用全连接层(一般的会是卷积层+全链接层(FC)
特定:输入图片无大小的限制!空间信息有丢失!参数更少,表现力更强!
ResNet:机器超越人类识别
层数更多: AlexNet (8 layers) VGG(19 layers) ResNet(152 layers)
训练时间:8GPU, 三周
与VGG相比: 层数8倍,速度更快
结构特性:
加法的融合(卷积以后和未卷积相加)
为什么ResNet有效:
1 向前计算:底层卷积网络高层卷积信息融合;层数越深,模型的表现力越强
2反向计算:导数传递更直接,越过模型,直达各层
卷积层越多,0越多,超多36层,可能就会无信息了。因为当一个数据变为0,这个就不会对后边的信息有影响了。过拟合
DeepFace:结构化图片的特殊处理
人脸数据特点:
结构化:所有人脸,组成相似,理论上能够实现对齐
差异化:相同位置,形貌不同
传统方法:1卷积核同整张图片卷积预算,卷积核参数共享,不同区域局部特性对参数影响互相削弱
2 解决方法; 不同区域,不同参数
1 人脸对齐,二维对准,二维矩阵(R,T)运算:三维对准,三维标准模板映射,三维投影二维
2局部卷积: 每个卷积核固定在摸一个区域,不移动;不同区域之间不共享卷积核;卷积核参数由固定区域参数确定
全局部卷积链接的缺陷: 1 预处理:大量对准,对对准要求高,原始信息可能丢失2卷积参数数量很大,模型收敛难度大,需要大量的数据,3模型的可扩展性差,进本限于人脸识别
U-Net:鱼片生成网络