【CS231n 学习笔记】Lecture1:Introduction

CS231n学习笔记目录(2016年Andrej Karpathy主讲课程)


计算机视觉是人工智能领域中发展最为迅猛的一个分支,我们进入了一个视觉图片和视频的时代。

视觉信息或者像素信息是最难被利用的信息——“互联网中的暗物质”,很难被检测和观察到。

计算机视觉是一个与很多领域紧密相连的学科,例如计算机科学、数学、物理、生物、心理学等。

简史

543 million years ago,生物圈中的结构很简单,对于食物,open the mouth and grab it,物种爆发后,进化出了各种各样的工具来帮助自我生存, Andrew Parker提出,这一切都源于eyes的出现。有了眼睛,就能知道食物在哪儿,为了不被吃掉,各个物种开始进化,寻求生存。——That’s when vision began.

文艺复兴时期,vision出现在工程技术方面,达芬奇描述了第一份“相机暗盒”,这就是现在视觉工程技术的开端,我们开始想要copy the world。但仅仅是duplicating,没有涉及到understanding。

在科学上,哈佛的博士后Hubel和Wiesel进行了一项重要研究:生物的大脑是如何处理视觉信息的?将电极探针插入猫的大脑内的基础视觉皮质层中,观察神经元是否会兴奋。他们给猫看了鱼、老鼠、花的图片,结果没有任何脉冲,但却发现,把图片拿出去的动作反而激活了神经元。这表明更换图片的动作,生成了一个“边缘”。也就表明,视觉处理的第一步,并不是对整体的鱼或者老鼠进行处理,而是对简单的形状结构处理,oriented edges,

现代计算机视觉领域的先驱是Lary Roberts在1963年的一篇论文——Block World。我们大脑对视觉信息的处理是基于边缘和形状的。

计算机视觉的诞生是在1966年夏天,MIT(麻省理工学院)人工智能实验室。David Marr的《Vision》一书认为视觉处理流程从一些简单形状开始,以及,视觉是分层的(把图像想象成有多个层构成),第一层应该是边缘结构(Hubel和Wiesel的研究);第二层被称作2.5D,大自然是3D的,人的眼睛是2D的,将两只眼睛的信息整合在一起形成了真实世界。计算机视觉也一样,先要解决2.5D的问题,最终还需要把一切整合起来得到一个3D的世界模型。——representation

不久,涌现出了第一波紧随3D模型思路的视觉识别算法(representation的目标就是为了构建3D)。来自斯坦福AI实验室的Tomas Binford教授和他的学生Brooks提出了Generalized Cylinder模型(1979),提出整个世界都是由例如圆柱体的简单现状构成的,世界上的所有实体都只不过是这些简单形状的组合。来自斯坦福研究院的Fischler和Elschlager提出了Pictorial Structure模型,认为物体由简单的形状组成,比如人的头部由眼睛鼻子嘴巴等组成,由“弹簧”连接起来,允许一些变形。根据这些模型,David Lowe用一些边缘和边缘组成的简单形状来识别物体(1987)。

到了90年代,开始着手处理彩色图像,另一项重大成果是将图片分割成有意义的几个部分,称为感知分组(perceptual grouping),是CV最重要的问题,直到现在依然没有完全解决。

几项重要的成果

Normalized Cut by Shi & Malik 1997 第一次使用现实世界的图片,并试图去解决一个非常核心的难题。

Viola Jones Face Detector 这项成果转化成为了第一个智能人脸检测的产品——富士相机2006年的数码相机产品,是第一台具有人脸检测功能的数码相机(好像是S6500fd)。人们的思想从构建3D模型到识别物体是什么,这个趋势将计CV带回到AI领域,而现在CV领域最重要的课题就聚焦于这类识别问题和AI问题。

SIFT &Object Recognization,David Lowe 1999,关于 尺度不变特征变换算法。

ImageNet

PASCAL Visual Object Classes (VOC) Challenge (20 object categories) 是一个图像物体识别竞赛,用来从真实世界的图像中识别特定对象物体。追随PASCAL的成果,李飞飞团队建立了一个超大规模的项目——ImageNet

ImageNet有5000万张图片,标注了超过2万个分类。每年举办依次ImageNet Large Scale Visual Recognition Challenge(CV领域的奥林匹克竞赛),开始于2010年,比较各个算法的性能,在2012年error rate出现了明显的下降,获得桂冠的模型就是CNN(Convolutional Neural Network早在上世纪七八十年代就被提出,直到现在才展现出强大的功能),作为一个高性能的端到端的训练模型,这是深度学习革命的开端。

聚焦CS231n

CS231n聚焦于视觉识别问题(visual recognition——image classification)。视觉识别并不仅仅是图像分类,还包含3D建模、感知分组、图像分割等等,但CS231n主要研究图像分类。

学习目标

了解视觉识别领域不同流派的特点,比如什么是图像分类,什么是目标检测(object detection),什么是图像描述(image captioning),比如图像分类关注的是图像的整体,目标检测关注某个目标具体出现在图像的哪里,以及物体之间的联系在哪儿等等。

CNN & AlexNet

CNN只是深度学习的一种,却是十分重要的一种。回到ImageNet,2021年是具有历史性意义的一年,Alex Krizhevsky和他的导师Geoff Hinton提出了7层的CNN结构,获得了冠军,在这之前一直都是特征(feature)+支持向量机(SVM)结构,虽然也是分层结构,但是没有端到端学习的风格特色,获胜的依然是CNN。到2015年,获胜的是由Microsoft Asia research(MSRA)提出的151层的Deep Residual Network (DRN深度残差网络)。

一位日本计算机科学家Kunihiko Fukushima提出了Neocognitron模型,称为神经网络架构的开端。Yann LeCun在1998年和他的导师Geoff Hinton、一些数学家们一起,搞明白了反向传播和学习策略,并提出了基于手写数字集的LeNet网络。2012年Alex Krizhevsky和Geoff Hinton几乎使用了一样的网络结构获得了ImageNet的冠军(AlexNet),只有细微的修改(摩尔定律、激活函数从sigmoid变成ReLU、数据增强等),但主体方面并没有改变。引发了深度学习架构的复习——一个是摩尔定律,硬件的发展,另一个是大数据。

(仅作学习分享,如有侵权,联系删文)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Panpanpan!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值