人工智能(artificial intelligence, AI) 自1956 年诞生以来, 在60 多年的发展历史中, 一直存在两个相互竞争的范式, 即符号主义与连接主义(或称亚符号主义). 二者虽然同时起步, 但符号主义到20 世纪80 年代之前一直主导着AI 的发展, 而连接主义从20 世纪90 年代才逐步发展起来, 到21 世纪初进入高潮, 大有替代符号主义之势.
- 第一代人工智能——符号主义
- 第二代人工智能——连接主义
- 第三代人工智能——将要发展的AI
第一代人工智能提出符号模型,以知识经验为基础的推理模型。(这是从0到1的事情)局限在于需要丰富的(人类)知识、知识与经验通常难以准确(用计算机语言或者是逻辑语言)描述、就事论事、难以处理不确定性(只能处理知识经验覆盖范围内的事情)、应用领域狭窄(只能用于知识和经验方便表述成计算机语言的领域)。一个应用举例是IBM沃森医疗保健系统。
第二代人工智能是以深度学习为代表的使用充分多的数据配合强大的性能的智能系统。对比一代的改进在于输入不需要复杂的预处理和可以利用更强大的算力,并且在一定意义上有通用的能力。这一代人工智能系统有许多成就,像是语音识别图像识别围棋等。难点在于产业应用——对应用的困难估计不足、对取得的成果估计过高。
需要注意的是数据驱动的系统抗干扰很差。虽然计算机可以分辨不同物体但是本质上不认识物体。这是一个极大的安全问题。这是当代人工智能存在的不可解释与不可信问题。
感官信息(视觉、听觉和触觉等) 是如何存储在记忆中并影响人类行为的? 有两种基本观点, 一种观点是, 这些信息以某种编码的方式表示在(记忆) 神经网络中, 符号AI属于这一学派. 另一种观点是, 感官的刺激并不存储在记忆中, 而是在神经网络中建立起“刺激– 响应” 的连接(通道), 通过这个“连接” 保证智能行为的产生, 这是连接主义的主张, 连接主义AI就是建立在这个主张之上.
感知机 (Perceptron)
y = { 0 , i f ∑ j ω j x j ≤ b 1 , i f ∑ j ω j x j > b y=\left\{\begin{aligned}0,\quad if\;\sum_j\omega_jx_j\le b\\1,\quad if\;\sum_j\omega_jx_j>b \end{aligned}\right. y=⎩⎪⎪⎪⎨⎪⎪⎪⎧0,ifj∑ωjxj≤b1,ifj∑ωjxj>b
其中b 为阈值, w 为权值.
“梯度下降” 和“BP” 两个算法为ANN 的学习训练注入新的动力, 它们和“阈值逻辑”、“Hebb 学习率” 一起构成ANN 的4 大支柱.
还有一系列重要工作, 其中包括更好的损失函数, 如交叉熵损失函数(cross-entropy cost function); 算法的改进, 如防止过拟合的正则化方法(regularization); 新的网络形式, 如1980 年日本福岛邦彦(Fukushima) 的卷积神经网络(convolution neural networks, CNN), 递归神经网络(recurrent neural networks, RNN), 长短程记忆神经网络(long short-term memory neural networks, LSTM), 辛顿的深度信念网络(deep belief nets, DBN)等. 这些工作共同开启了以深度学习(deep learning) 为基础的第二代AI 的新纪元.
深度学习的成功来自于以下3 个要素:
一是数据
二是算法
三是算力
深度学习为何如此脆弱, 这样容易受攻击, 被欺骗和不安全. 原因只能从机器学习理论本身去寻找. 机器学习的成功与否与3 项假设密切相关, 由于观察与测量数据的不确定性, 所获取的数据一定不完备和含有噪声, 这种情况下, 神经网络结构(备选函数族) 的选择极为重要, 如果网络过于简单, 则存在欠拟合(under-fitting) 风险, 如果网络结构过于复杂, 则出现过拟合(overfitting) 现象. 虽然通过各种正则化的手段, 一定程度上可以降低过拟合的风险, 但是如果数据的质量差, 则必然会导致推广能力的严重下降. 此外, 深度学习的“黑箱” 性质是造成深度学习推广能力差的另一个原因, 以图像识别为例, 通过深度学习只能发现重复出现的局部片段(模式), 很难发现具有语义的部件. 文献[33]描述了利用深度网络模型VGG-16 对“鸟” 原始图像进行分类, 从该模型pool 5 层147 号神经元的响应可以看出, 该神经元最强烈的响应是“鸟” 头部的某个局部特征, 机器正利用这个局部特征作为区分“鸟” 的主要依据, 显然它不是“鸟” 的不变语义特征. 因此对于语义完全不同的对抗样本(人物、啤酒瓶和马等), 由于具有与“鸟” 头部相似的片段, VGG-16 模型pool 5 层147 号神经元同样产生强烈的响应, 于是机器就把这些对抗样本错误地判断为“鸟”.
第一代知识驱动的AI, 利用知识、算法和算力3 个要素构造AI, 第二代数据驱动的AI, 利用数据、算法与算力3 个要素构造AI. 由于第一、二代AI 只是从一个侧面模拟人类的智能行为, 因此存在各自的局限性. 为了建立一个全面反映人类智能的AI, 需要建立鲁棒与可解释的AI 理论与方法, 发展安全、可信、可靠与可扩展的AI 技术, 即第三代AI. 其发展的思路是, 把第一代的知识驱动和第二代的数据驱动结合起来, 通过同时利用知识、数据、算法和算力等4 个要素, 构造更强大的AI. 目前存在双空间模型与单一空间模型两个方案.
第三代人工智能重点解决上面的问题。建立可解释、鲁棒的人工智能理论,发展安全、可信、可用的人工智能技术,促进人工智能的创新应用。
双空间模型
双空间模型如图2 所示, 它是一种类脑模型, 符号空间模拟大脑的认知行为, 亚符号(向量) 空间模拟大脑的感知行为. 这两层处理在大脑中是无缝融合的, 如果能在计算机上实现这种融合, AI 就有可能达到与人类相似的智能, 从根本上解决目前AI 存在的不可解释和鲁棒性差的问题.
单一空间模型
单一空间模型是以深度学习为基础, 将所有的处理都放在亚符号(向量) 空间, 这显然是为了利用计算机的计算能力, 提高处理速度. 问题在于深度学习与大脑的学习机制不同, 在许多方面表现不佳,如可解释性和鲁棒性等. 关键是要克服深度学习所带来的缺陷.
三空间融合的模型
为了实现第三代AI 的目标, 我们采用三空间融合的模型, 即融合双空间与单空间两种模型, 如图10 所示. 双空间模型采用类脑的工作机制, 如果实现的话, 机器就会像人类大脑的行为一样, 具有可解释性与鲁棒性. 此外, 当把感觉(视觉、听觉等) 信号提升为感知(符号) 时, 机器就具备一定的理解能力, 因此也解决了可解释和鲁棒的问题. 当机器中的基本概念(符号) 可由感知产生时, 符号就有了基础(根基), 符号与符号推理就有了内在的语义, 从根本上解决了机器行为的可解释与鲁棒性的问题. 单空间模型以深度学习为基础, 存在不可解释与不鲁棒的缺陷, 如果经过改进提高了其可解释性与鲁棒性, 就从另外一个方向迈向第三代AI.
双空间模型模仿了大脑的工作机制, 但由于我们对大脑的工作机制了解得很少, 这条道路存在某些不确定性, 比如, 机器通过与环境的交互学习(强化学习) 所建立的“内在语义”, 与人类通过感知所获取的“内在语义” 是否一样, 机器是否也能具有意识? 等, 目前还不能肯定. 尽管存在这些困难, 但我们相信机器只要朝这个方向迈出一步, 就会更接近于真正的AI. 单一空间模型是以深度学习为基础,优点是充分利用计算机的算力, 在一些方面会表现出比人类优越的性能. 但深度学习存在一些根本性的缺点, 通过算法的改进究竟能得到多大程度的进步, 也存在不确定性, 需要进一步探索. 但是, 我们也相信对于深度学习的每一步改进, 都将推动AI 向前发展.
考虑以上这些不确定性, 为了实现第三代AI 的目标, 最好的策略是同时沿着这两条路线前进, 即三空间的融合, 如图10 所示. 这种策略的好处是, 既最大限度地借鉴大脑的工作机制, 又充分利用计算机的算力, 二者的结合, 有望建造更加强大的AI.
参考文献:
[1]张钹,朱军,苏航.迈向第三代人工智能[J].中国科学:信息科学,2020,50(09):1281-1302.
[2]