本次学习笔记主要记录学习深度学习时的各种记录,包括吴恩达老师视频学习、花书。作者能力有限,如有错误等,望联系修改,非常感谢!
卷积神经网络(三)- 目标检测
- 一、目标定位(Object localization)
- 二、特征点检测(Landmark detection)
- 三、目标检测(Object detection)
- 四、滑动窗口的卷积实现(Convolutional implementation of sliding windows)
- 五、Bounding Box预测(Bounding Box predictions)
- 六、交并比(Intersection over union)
- 七、非极大值抑制(Non-max suppression)
- 八、Anchor Boxes
- 九、YOLO算法(Putting it together:YOLO algorithm)
- 十、(选)候选区域(Region proposals)
第一版 2022-07-18 初稿
一、目标定位(Object localization)
图片分类任务是算法遍历图片,判断对象是不是汽车;
次节为定位分类问题,不仅有单个的定位和分类,还有多个对象的定位。
图片分类并不陌生,输入图片到卷积神经网络,输出一个特征向量,反馈给softmax单元来预测图片类型。
若正在构建汽车自动驾驶系统,对象可能包括:行人、汽车、摩托车和背景。定位可以让神经网络多输出4个数字,记为bx,by,bh,bw,是被监测对象的边界框的参数化表示。
图左上角为(0,0),右下角为(1,1),确定边界框具体位置,需指定红色方框的中心点(bx,by),边界框高度bh,宽度bw。
为监督学习任务定义目标标签:
目标标签y的定义如下: y = ( p c b x b y b h b w c 1 c 2 c 3 ) y=\left( \begin{array}{l} pc\\ bx\\ by\\ bh\\ bw\\ c1\\ c2\\ c3\\ \end{array} \right) y=<