讲授时间:2016-1-4
主讲教师:Fei-Fei Li
英文版视频地址(在YouTube上,需要翻墙观看):Lecture1
带中文字幕的视频地址(在网易云课堂上,正在翻译中):课时1 课时2 课时3
PPT下载地址:点击这里
要点整理:
计算机视觉相关领域:
大的领域:生物学、心理学、数学、物理、工程学、计算机科学等
小的方向:神经科学、认知科学、图形学、算法理论、系统结构、信息检索、机器学习、机器人学、语音、自然语言处理、图像处理、 光学等
计算机视觉发展简史:
——公元前5亿4千万年前,进化大爆炸(眼睛的出现)
——公元16世纪,达芬奇的“camera obscura”(照相暗盒)
——1959年,Hubel & Wiesel的“小猫实验”,1981年获得诺奖(结论:视觉处理的第一步工作是对简单边缘、排列等进行处理)
——1963年,Larry Roberts的“Block World”(解析图片中物体的边缘,形状)
——1966年,MIT的“The Summer Vision Project”(AI元年,CV元年)
——1970s,David Marr的“Vision”中的“Stages of Visual Representation”(视觉是分层的:输入图像–边缘图像–2.5D图像–3D图像)
——1973年,Fischler & Elschlager的“Pictorial Structure”
——1979年,Brooks & Binford的“Generalized Cylinder”
——1987年,David Lowe的“识别剃须刀”
——1997年,Shi & Malik的“Normalized Cut”(图像分割还是个研究热点)
——1999年,David Lowe的“SIFT”& Object Recognition
——2001年,Viola & Jones的“人脸识别”(2006年用于富士相机上)
——2005年,Dalal & Triggs的“Histogram of Gradients (HoG)”
——2006年,Lazebnik, Schmid & Ponce的“Spatial Pyramid Matching”
——2009年,Felzenswalb, McAllester & Ramanan的“Deformable Part Model”
图片识别分类比赛:
早期(2006-2012年):
PASCAL Visual Object Challenge(20个类别)
现在(2009年至今):
The Image Classification Challenge:(始于2010年,1000个类别,140万张图片, 2012年错误率明显下降,模型用的就是CNN)
这个比赛所用的图片来自于ImageNet图片库(该图片库共22000个物体类别,约1400万张图片,由李飞飞教授等人从2009年开始建设)
图像分类是视觉识别领域中的一个重要问题;目标检测、图像描述都和图像分类有关。
CNN(卷积神经网络)已经成为目标识别的一个重要工具。
2012年以前,图像分类的方法是特征+SVM
2012年以后,都是基于深度学习的模型(层数越来越深)
CNN不是一夜之间发明的(1998年Yann LeCun,手写数字识别,sigmoid;2012年,Alex Krizervsky & Geoff Hinton参加的ImageNet挑战赛,ReLU)
深度学习的发展,与以下两方面有很大关系:
硬件的发展(NVIDIA的GPU)
数据量的增加
我们还有很多视觉的领域,本次课不会涉及到:如感知分组,3D建模,图像分割等。
我们重点关注的是图像分类。
计算机视觉的愿景:看图讲故事,娱乐,社交,理解等。
本节PPT参考文献: