随着人脸识别、语音识别和自动驾驶日益成为关注焦点,人工智能(AI)与社会、人类生活融合程度正在快速演进。
其实早在1956年,人工智能这个“术语”就被正式提出。但在有限且昂贵的计算能力、已有计算方法存在缺陷、缺乏数据量这些无法克服的基础性障碍面前,“模拟人类大脑”显得非常遥远。此后,一直到20世纪80年代初,随着一类名为“专家系统”的AI程序开始为全世界的公司所采用,人工智能才兴起了第二次热潮。各国开始投入大量资金,例如日本经济产业省雄心勃勃旨在打造“第五代计算机”的研究计划,目标是制造出能够与人对话、翻译语言、解释图像,并且能像人一样推理的机器。80年代后期,产业界对人工智能系统投入巨大但只产生有限的应用产生质疑,人工智能的泡沫逐渐破裂,投入大幅消减,人工智能再一次步入寒冬。
那么,人工智能到底将靠什么走向大众?笔者认为,视觉AI技术将是发展方向。
对人类而言,70%到80%的信息获取来自视觉。对人工智能来说,视觉AI也被视为目前最具应用价值的AI技术。它能够让机器具备“从识人知物到辨识万物”的能力,从而看懂、理解这个世界,帮助我们在生产和工作中,提升处理信息的效率。
简单来说,视觉AI就是研究如何让机器会“看”,即用摄影机和电脑代替人眼对图像进行特征提取和分析,并由此训练模型对新的图像数据进行检测、识别等任务,建立能够从图像或者多模态数据中获取“信息”的人工智能系统。
源于深度学习的突破,视觉AI的识别能力突飞猛进,2012年的两个轰动事件,更被视为视觉AI的发展拐点。当时,由多伦多大学Geoffrey Hinton领导的团队,在一项名为ImageNet的图像识别竞赛中,利用深度学习和GPU的强大计算能力,将错