【CS231n 学习笔记】Lecture1：Introduction

最新推荐文章于 2022-11-04 14:44:21 发布

Panpanpan！

最新推荐文章于 2022-11-04 14:44:21 发布

阅读量294

点赞数

文章标签： computer vision deep learning

本文链接：https://blog.csdn.net/weixin_44564705/article/details/119699328

版权

CS231n学习笔记目录（2016年Andrej Karpathy主讲课程）

计算机视觉是人工智能领域中发展最为迅猛的一个分支，我们进入了一个视觉图片和视频的时代。

视觉信息或者像素信息是最难被利用的信息——“互联网中的暗物质”，很难被检测和观察到。

计算机视觉是一个与很多领域紧密相连的学科，例如计算机科学、数学、物理、生物、心理学等。

简史

543 million years ago，生物圈中的结构很简单，对于食物，open the mouth and grab it，物种爆发后，进化出了各种各样的工具来帮助自我生存， Andrew Parker提出，这一切都源于eyes的出现。有了眼睛，就能知道食物在哪儿，为了不被吃掉，各个物种开始进化，寻求生存。——That’s when vision began.

文艺复兴时期，vision出现在工程技术方面，达芬奇描述了第一份“相机暗盒”，这就是现在视觉工程技术的开端，我们开始想要copy the world。但仅仅是duplicating，没有涉及到understanding。

在科学上，哈佛的博士后Hubel和Wiesel进行了一项重要研究：生物的大脑是如何处理视觉信息的？将电极探针插入猫的大脑内的基础视觉皮质层中，观察神经元是否会兴奋。他们给猫看了鱼、老鼠、花的图片，结果没有任何脉冲，但却发现，把图片拿出去的动作反而激活了神经元。这表明更换图片的动作，生成了一个“边缘”。也就表明，视觉处理的第一步，并不是对整体的鱼或者老鼠进行处理，而是对简单的形状结构处理，oriented edges，

现代计算机视觉领域的先驱是Lary Roberts在1963年的一篇论文——Block World。我们大脑对视觉信息的处理是基于边缘和形状的。

计算机视觉的诞生是在1966年夏天，MIT（麻省理工学院）人工智能实验室。David Marr的《Vision》一书认为视觉处理流程从一些简单形状开始，以及，视觉是分层的（把图像想象成有多个层构成），第一层应该是边缘结构（Hubel和Wiesel的研究）；第二层被称作2.5D，大自然是3D的，人的眼睛是2D的，将两只眼睛的信息整合在一起形成了真实世界。计算机视觉也一样，先要解决2.5D的问题，最终还需要把一切整合起来得到一个3D的世界模型。——representation

不久，涌现出了第一波紧随3D模型思路的视觉识别算法（representation的目标就是为了构建3D）。来自斯坦福AI实验室的Tomas Binford教授和他的学生Brooks提出了Generalized Cylinder模型（1979），提出整个世界都是由例如圆柱体的简单现状构成的，世界上的所有实体都只不过是这些简单形状的组合。来自斯坦福研究院的Fischler和Elschlager提出了Pictorial Structure模型，认为物体由简单的形状组成，比如人的头部由眼睛鼻子嘴巴等组成，由“弹簧”连接起来，允许一些变形。根据这些模型，David Lowe用一些边缘和边缘组成的简单形状来识别物体（1987）。

到了90年代，开始着手处理彩色图像，另一项重大成果是将图片分割成有意义的几个部分，称为感知分组（perceptual grouping），是CV最重要的问题，直到现在依然没有完全解决。

几项重要的成果

Normalized Cut by Shi & Malik 1997 第一次使用现实世界的图片，并试图去解决一个非常核心的难题。

Viola Jones Face Detector 这项成果转化成为了第一个智能人脸检测的产品——富士相机2006年的数码相机产品，是第一台具有人脸检测功能的数码相机（好像是S6500fd）。人们的思想从构建3D模型到识别物体是什么，这个趋势将计CV带回到AI领域，而现在CV领域最重要的课题就聚焦于这类识别问题和AI问题。

SIFT &Object Recognization,David Lowe 1999，关于尺度不变特征变换算法。

ImageNet

PASCAL Visual Object Classes (VOC) Challenge (20 object categories) 是一个图像物体识别竞赛，用来从真实世界的图像中识别特定对象物体。追随PASCAL的成果，李飞飞团队建立了一个超大规模的项目——ImageNet

ImageNet有5000万张图片，标注了超过2万个分类。每年举办依次ImageNet Large Scale Visual Recognition Challenge（CV领域的奥林匹克竞赛），开始于2010年，比较各个算法的性能，在2012年error rate出现了明显的下降，获得桂冠的模型就是CNN（Convolutional Neural Network早在上世纪七八十年代就被提出，直到现在才展现出强大的功能），作为一个高性能的端到端的训练模型，这是深度学习革命的开端。

聚焦CS231n

CS231n聚焦于视觉识别问题（visual recognition——image classification）。视觉识别并不仅仅是图像分类，还包含3D建模、感知分组、图像分割等等，但CS231n主要研究图像分类。

学习目标

了解视觉识别领域不同流派的特点，比如什么是图像分类，什么是目标检测（object detection），什么是图像描述（image captioning），比如图像分类关注的是图像的整体，目标检测关注某个目标具体出现在图像的哪里，以及物体之间的联系在哪儿等等。

CNN & AlexNet

CNN只是深度学习的一种，却是十分重要的一种。回到ImageNet，2021年是具有历史性意义的一年，Alex Krizhevsky和他的导师Geoff Hinton提出了7层的CNN结构，获得了冠军，在这之前一直都是特征（feature）+支持向量机（SVM）结构，虽然也是分层结构，但是没有端到端学习的风格特色，获胜的依然是CNN。到2015年，获胜的是由Microsoft Asia research（MSRA）提出的151层的Deep Residual Network (DRN深度残差网络)。

一位日本计算机科学家Kunihiko Fukushima提出了Neocognitron模型，称为神经网络架构的开端。Yann LeCun在1998年和他的导师Geoff Hinton、一些数学家们一起，搞明白了反向传播和学习策略，并提出了基于手写数字集的LeNet网络。2012年Alex Krizhevsky和Geoff Hinton几乎使用了一样的网络结构获得了ImageNet的冠军（AlexNet），只有细微的修改（摩尔定律、激活函数从sigmoid变成ReLU、数据增强等），但主体方面并没有改变。引发了深度学习架构的复习——一个是摩尔定律，硬件的发展，另一个是大数据。

（仅作学习分享，如有侵权，联系删文）