计算机视觉技术的发展历程可以分为以下几个阶段:
早期探索阶段(1960s-1980s)
- 1960年代:计算机视觉的概念开始形成,研究者尝试让计算机识别和理解图像,主要集中在基础的图像处理,如边缘检测和特征提取。
- 1970年代:研究人员使用几何形状模型和模板匹配方法进行目标识别,发展了Sobel算子、Prewitt算子等经典边缘检测方法,还出现了利用双目图像进行深度估计与三维重构的早期方法。
- 1980年代:机器视觉逐渐被应用于工业自动化,奠定了后来的理论基础。David Marr提出了多层次的视觉计算模型,将视觉过程分为多个阶段;Canny边缘检测方法也在这一时期提出。
知识驱动与模式识别阶段(1980s-1990s)
- 1980年代末至1990年代:引入了基于知识的视觉系统以及模式识别方法,如决策树、支持向量机等,用于提升识别准确率。
- 1990年代:随着计算能力的提升和数据集的逐渐积累,计算机视觉研究逐渐关注于特征提取与匹配,传统算法如Harris角点检测和SIFT特征描述符等被提出。此外,特征脸(Eigenfaces)方法首次将主成分分析(PCA)应用于人脸识别,开辟了基于统计学习的视觉分析方法。
激增与深度学习的初步尝试阶段(2000s)
- 2006年:深度学习开始兴起,深度信念网络(DBN)等新模型被提出,用于自动特征提取。
- 2009年:ImageNet项目启动,通过大规模图像数据集促进了计算机视觉的发展。
- 2000年代初:随着互联网的普及和数字图像数据的爆炸式增长,计算机视觉研究面临着新的挑战和机遇。Intel推出的开源计算机视觉库OpenCV开始流行,大大降低了计算机视觉研究和应用的门槛。
深度学习的突破阶段(2010s)
- 2012年:AlexNet在ImageNet竞赛中获胜,深度卷积神经网络(CNN)应用于图像分类,显著降低了错误率,标志着计算机视觉正式进入深度学习时代。
- 2014年:生成对抗网络(GAN)被提出,开创了图像生成和合成的新方法。同年,VGGNet、GoogLeNet等新架构出现,进一步推动了图像分类、对象检测和图像分割等任务的性能。
- 2015年:ResNet(残差网络)等新架构进一步提升了模型性能,将ImageNet分类错误率降至3.57%,首次超越人类水平。
成熟与广泛应用阶段(2020s至今)
- 2020年代:深度学习在计算机视觉应用中变得无处不在,包括自动驾驶、医疗影像分析、智能监控等领域的实际应用。
- 新兴技术:Transformer架构的引入(例如Vision Transformer),使得计算机视觉任务不仅仅依赖卷积神经网络,还开始接受基于序列的模型。同时,多模态学习结合图像与文本、音频等多种数据类型的研究不断深化。
计算机视觉技术的发展历程是从简单的图像处理到复杂的场景理解、从依赖手工特征到自动学习表征、从受限实验室环境到开放真实世界的转变。