关于图像识别的零零散散理论知识

最新推荐文章于 2021-03-02 23:22:43 发布

nora and kalais

最新推荐文章于 2021-03-02 23:22:43 发布

阅读量174

点赞数

分类专栏： Python 图像识别

本文链接：https://blog.csdn.net/weixin_44042810/article/details/102998598

版权

Python 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

图像识别

2 篇文章 0 订阅

订阅专栏

基础知识

矩阵
维度（方向的个数）
0维标量
1维向量（矢量）
2维矩阵（行列式）
3维及3维以上的数据张量
存储单位最小为一个字节
字节byte
为bit
1byte=8bit

one-Hot编码

独热编码（数组）形象化例子
猫【1,0,0,0】
狗【0,1,0,0】
猪【0,0,1,0】
牛【0,0,0,1】

CNN卷积神经网络（不同于MLP，无需全部数据，但计算量大）

结构介绍：

包括：输入层（用于数据输入）
卷积层（使用卷积核进行特征提取和特征映射）
激励层:由于卷积也是一种线性运算，因此需要增加非线性映射池化层:进行下采样，对特征图稀疏处理，减少数据运算量
全连接层:通常在CNN的尾部进行重新拟合，减少特征信息的损失输出层:用于输出结果
当然中间还可以使用一些其他的功能层:
归一化层( Batch Normalization) :在CNN中对特征的归一化
切分层:对某些(图片)数据的进行分区域的单独学习
融合层:对独立进行特征学习的分支进行融合

计算次数公式：

每个格子提取一样的频率，当步长过大的时候，可以多加padding（0）
【一可以避免数据尚未被卷到二是使得每个格子被提取的频率一样】,卷多次效果更好
注意：池化视野跟步长一致！！！
out_feature= (n-k+2padding)/stride+1(n为原数据大小，k为卷积核大小，padding为填充，stride为步长
Input: h_in, w_in, c_in
kernel: kk
out: h_out, w_out, c_out
参数量：kkc_in*c_out

输入图片（大小为h_inw_in 次数为kkc_in）
卷积核（kkc_in）c_out
输出（kkc_inw_outh_outc_out）
eg:输入为28283
卷积核为33
输出10
计算次数（333262610）【卷积】（282810）【全连接】对比卷积比全连接【MLP】计算量大
备注：多层小卷积核代替一个大卷积核，可以减少计算量。