斯坦福深度学习CS230课程cheatsheet学后总结笔记（1）

最新推荐文章于 2020-11-01 13:59:19 发布

Marshal Zheng

最新推荐文章于 2020-11-01 13:59:19 发布

阅读量434

点赞数

分类专栏：深度学习机器学习-深度学习-从分析到实践文章标签：深度学习斯坦福笔记翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zysps1/article/details/89241264

版权

机器学习-深度学习-从分析到实践同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

斯坦福深度学习CS230课程cheatsheet学后总结提纲1

Marshal Zheng 2019-04-12

Overview

传统CNN的结构：输入图像——卷积——池化——全连接

其中，卷积层和池化层可根据超参微调

TYPES OF LAYER

卷积层

使用滤波器filter执行卷积操作。其超参包括滤波器尺寸F和步幅（窗口移动长度）S，输出是特征映射或叫激活映射feature mapor activation map

池化层：

下采样操作，卷积层之后进行，空间不变性，最大池化（每一个池化操作选择当前view最大值），平均池化（每一个池化操作选择当前view平均值），最大池化广泛使用，平均池化在LeNet中使用

全连接层

一般在CNN的最后，用来优化目标

FILTER HYPERPARAMETERS

滤波器维度

$\times F$ 大小，包含 $C$ 个通道，体积为 $\times F \times C$ ，输入大小： $\times I \times C$ 输出feature map大小： $\times O \times 1$ ，应用 $K$ 个滤波器，输出大小为： $\times O \times K$

步幅S

每次操作窗口移动的像素

0-填充

增加 $P$ 个0到每个输入的边界，可以手动可以自动。

TUNING HYPERPARAMETERS

卷积层参数适应性（兼容）

$\frac{I-F+P_{start}+P_{end}}{S}+1$

理解模型复杂性

以参数的数量来决定（一般）

容纳域

第 $k$ 层，第 $k$ 个激活映射，输入大小： $R_k \times R_k$ ，其中
$R_k = 1+\sum_{j=1}^{k}(F_j-1)\prod_{i=0}^{j-1}S_i$

COMMONLY USED ACTIVATION FUNCTIONS

ReLU(rectified(矫正) Linear unit)

目标要表示网络中的非线性，通常还有Leaky ReLU,ELU

Softmax：可以看成一个生成式的logistics函数，输入x的打分向量，输出概率p，定义为：
$\left\{ \begin{matrix} p_1 \\ p_2 \\ \cdots \\ p_k \end{matrix} \right\}\tag{2} \quad where \quad p_i= \frac{e^{x_i}}{\sum_{j=1}^{n}e^{x_j}}$

OBJECT DETECTION

模型类别-三种主要识别算法

图像识别：传统CNN
分类和目标位置识别：简单YOLO, R-CNN
目标检测：YOLO, R-CNN

检测-两种主要方法

约束框检测（BOUNDING BOX DETECTION)
标志检测(LANDMARK DETECTION)

交并比（IoU）

$IoU(B_p,B_a) = \frac{B_p \cap B_a}{B_p \cup B_a}$

锚盒

预测重叠的约束框（bounding boxes），允许网络同时预测多余一个框，每个框有一个给定的集合形状特点。

Non-max suppression

去除重叠的约束框。首先选择最有代表性的一个框，之后选出所有预测概率小于0.6的框。WHILE 仍然有框剩下，则执行以下步骤：

step 1：选出最大概率的框
step 2：抛弃所有IoU $\geq0.5$ 的框

YOLO：YOU ONLY LOOK ONCE

算法步骤：

step 1：将输入图像分成 $\times G$ 的栅格
step 2：对每个栅格单元，跑 CNN，预测小面格式的y

$[\underbrace{p_c,b_x,b_y,b_h,b_w,c_1,c_2,\cdots,c_p}_{重复k次},\cdots]^T \in R^{G\times G\times k \times (5+p)}$

其中， $p_c$ 是检测目标的可能性， $b_x,b_y,b_h,b_w$ 是检测约束框的特征， $c_1,\cdots,c_p$ 是one-hot哪个p类被检测到的代表， $k$ 是锚框的数量

step 3：运行non-max suppression算法来去除潜在的重叠的约束框

remark： $p_c = 0$ 的时候，网络没有检测目标，相应的预测 $c_x,b_x$ 也被忽略。

R-CNN：REGION WITH CONVOLUTIONAL NEURAL NETWORKS

首先分割图像找到潜在相关的约束框
然后，运行检测算法在这些约束框中找到最可能的目标

remark：虽然原始的算法计算代价很大，运算很慢，但是新的架构让算法运行更快乐，比如Fast R-CNN，和Faster R-CNN

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
斯坦福深度学习CS230课程cheatsheet学后总结笔记（1）

斯坦福深度学习CS230课程cheatsheet学后总结笔记（1）Marshal Zheng2019-04-12文章目录斯坦福深度学习CS230课程cheatsheet学后总结笔记（1）OverviewTYPES OF LAYER卷积层池化层：全连接层FILTER HYPERPARAMETERS滤波器维度步幅0-填充TUNING HYPERPARAMETERS卷积层参数适应性（兼容）理解模型...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。