AlexNet:
卷积层+池化层+全连接层:卷积神经网络的基本构成
参数计算:
Maxpool3:66256
FC1:409636256
FC2:40964096
Final:10004096
大约6千万参数
VGG(Visual Geometry Group):AlexNet增强版
VGG—AlexNet对比
构成: 卷积层—卷积群
参数个数: 138m—60m
识别率: 7.3%—15.3%
结构简单:同AlexNet结构类似,均为卷积层,池化层,全连接层的组合
性能优异:同AlexNet提升明显,同GoogleNet,ResNet相比,表现接近
该模型是选择最多的基本模型:方便进行结构的优化,设计,SSD、RCNN等其他任务的基本模型
GoogleNet:多分辨率识别
由Inception module构成,由于该结构会造成参数增多,则可以通过1*1的卷积核进行降维,减少参数,整个网络是全卷积结构(FCN),没有全连接层,FCN的特点包括:
1)输入图片大小无限制
2)空间信息有丢失
3)参数更少,表达力更强(体现在更多参数参与作用且分布均衡)
ResNet:机器超越人类识别(Revolution of Depth)
AlexNet-8层,VGG-19层,ResNet-152层
优点:
1)前向计算:低层卷积网络和高层卷积网络信息融合,层数越深,模型的表现了越强
2)反向计算:导数传递更直接,越过模型,直达各层
DeepFace:
人脸识别数据特点:
结构化:所有人脸,组成相似,理论上能够实现对齐
差异化:位置相同,形貌不同
卷积核采用不同区域,不同参数
人脸对准:
二维对准:二维矩阵(R,T)运算
三维对准:三维标准模板映射、三维投影二维
全局部卷积连接的缺陷:
1)预处理:大量对准,对对准要求高、原始信息可能丢失
2)卷积参数数量很大,模型收敛难度大,需要大量数据
3)模型可扩展性差,基本限于人脸计算
U-Net:图片生成网络
Conv-Fc-Conv
通过卷积神经网络生成特殊类型的图片,图片的所有pixel需要生成,多目标回归任务
反池化:记住原有位置填充
逆卷积:有学习能力的上采样,通过乘以卷积核对应位置填充,重叠区域相加
优点:生成图片具有更好的连贯性,更好的空间表达能力。