摘要:本文系统回顾人工智能的发展历程。从麦卡洛克和皮茨提出人工神经元模型,到1956年达特茅斯会议正式命名“人工智能”;再到符号主义与专家系统兴起,以及连接主义神经网络的兴衰;随后在2010年,深度学习因算力增强和数据规模扩大而引领AI全面复兴,突破语言、视觉和博弈领域。近年来,以Transformer架构为基础的大模型如GPT系列崛起,推动语言理解和多模态AI的发展。此外,自监督学习、自动机器学习(AutoML)和人工通用智能(AGI)的探索标志AI正逐步向更高效、更智能、更通用的方向演进。
关键词:人工智能;神经网络;深度学习;Transformer;大模型
一、人工智能的早期探索
(一)机器智能与图灵测试
早在1943年,美国科学家沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)发表论文,提出了第一个人工神经元模型,也就是著名的“麦卡洛克-皮茨神经元”。这项工作证明了利用简单的数学模型可以模拟神经网络的逻辑行为。1948年,控制论先驱诺伯特·维纳提出反馈控制思想,出版了《控制论》,为机器自适应和智能行为提供了理论框架。
1950年,英国数学家艾伦·图灵发表划时代论文《计算机器与智能》,提出判断机器是否具有智能的标准——图灵测试。图灵预想,如果一台机器能在对话中让人分不清对面是人还是机器,那么就可以认为它拥有智能。这一思想激发了后来大量关于机器思维的讨论,也让“机器能思考吗?”成为人工智能领域最经典的问题之一。
(二)人工智能的“诞生”——概念来源
1956年夏天,达特茅斯学会召开,聚集了约翰·麦卡锡、马文·明斯基、克劳德·香农等十几位年轻科学家。他们在会上正式提出使用“人工智能(Artificial Intelligence)”这一名称来指代让机器表现出智能的全新领域。麦卡锡选择“人工智能”这个名字,旨在避免当时其他术语(如“控制论”等)的局限。达特茅斯会议标志着人工智能作为一门学科正式起航,图灵、麦卡锡、明斯基等人物也被视为人工智能领域的奠基人。
二、符号主义与专家系统的兴起
(一)机器操作符号模拟人类智能
20世纪60年代,人工智能研究主要沿着符号主义的方向展开,也就是用逻辑规则和符号来表示知识和推理。简单来说,符号主义可以分为三步:1.将现实世界抽象为符号,比如“将天晴记作a,打篮球记作b,打游戏记作c”;2.通过规则操作符号,比如设置两条规则,比如“如果是a就执行b,如果非a就执行c”;3.根据规则执行推理,机器就能做出类似人类的简单决策,比如“如果天晴就去打篮球,如果天气不好就打游戏”。符号主义的核心理念是人类智能本质上就是一个个符号和规则,机器只要能操作这些符号就能完全模拟人类智能。
(二)利用固定规则执行系统
专家系统就是在这一范式下于70-80年代兴起的AI应用。专家系统是指在某个专业领域内,利用专家提供的大量规则和知识来回答问题、解决问题的计算机程序。专家系统将人类专家的丰富经验提取为一条条规则,这个规则体系可以做到非常细致且庞大,判断准确率非常高。
但专家系统本质上只是基于固定规则的机械式执行的系统,而固定的规则并不能准确描述世界上所有的知识。并且符号主义和专家系统有着明显局限:它们通常缺乏学习能力,一切知识需人为赋予,一旦遇到规则库覆盖不到的情况就会犯明显错误。此外,构建和维护庞大的规则库代价高昂。当经验规则随时间过时时,系统更新也很困难。
三、神经网络的浪潮与低谷
(一)模拟人脑神经网络让机器“自己学”
在符号主义兴起的同时,也有一些研究者走上了另一条道路:模拟人脑神经网络来让机器“自己学习”规律。人类大脑中有近千亿个神经元,它们通过突触连接形成复杂的网络结构,这种连接模式是人类智能的根本来源。于是科学家设想是否可以通过数学模型模拟神经元及其相互作用来创造出一种新的智能,这就是连接主义。
(二)感知机模型出现
1958年弗兰克罗森布拉特提出了著名的感知机模型,它是对单个生物神经元的数学模拟,其中输入层类比于大脑接受的电信号权重,类比于大脑神经元之间的连接强度,激活函数类比神经元的输出,通过调整感知机的权重就能实现简单的二分类任务,但是感知机有其局限性。1969年,图灵奖得主马文敏斯基在他的《感知机》一书证明了单层感知机无法解决一些简单问题(如异或函数),指出了这种神经网络架构的严重局限。在这本书出版后,研究资助机构对神经网络的兴趣骤减。
(三)神经网络研究迎来“第二春”
进入1980年代,中止多年的神经网络研究开始迎来“第二春”。这次复兴源于两项进展:约翰·霍普菲尔德在1982年证明了一种简化神经网络能够稳定收敛并存储模式;与此同时,杰弗里·辛顿和大卫·鲁梅哈特等人在1986年推广了一种训练多层神经网络的有效算法,即误差反向传播(Backpropagation)。这两大突破重新点燃了研究多层神经网络的兴趣。1986年,鲁梅哈特和心理学家詹姆斯·麦克莱兰出版了两卷本《平行分布式处理》论文集,总结了新兴的连接主义方法。支持者们认为,智能可能需要庞大的分布式网络来涌现,而不仅仅是符号操作。
(四)卷积神经网络成功识别手写数字
1990年,扬·勒嵌在贝尔实验室使用卷积神经网络(CNN)成功识别了手写数字,并用于美国邮政的信件邮编识别系统,这是神经网络首次在工业中得到大规模应用。然而,当时的硬件性能和数据规模仍无法充分施展多层神经网络的威力。尽管概念上证明了可行,但当时训练一个深层网络依然非常缓慢,且容易过拟合或陷入局部最优。
四、深度学习时代到来
(一)神经网络技术复兴升级
沉寂了一段时间后,人工智能在2010年左右迎来了深度学习革命。深度学习其实就是神经网络技术的复兴和升级。与上世纪的感知机不同,深度学习使用了多层次的神经网络,可以提取数据中更抽象和高级的特征。促成这场革命的要素有三个:强大的计算硬件、大规模的数据以及改进的算法和工具。首先,图形处理器(GPU)被发现非常适合加速神经网络训练,因为GPU可以进行海量的并行计算。这极大提高了训练速度,使得以前需要数月的模型训练可以在几天甚至几小时内完成。其次,互联网时代带来了海量的数据:社交媒体的图片、视频网站的影像、数字化的文本语料等等,都为训练大型AI模型提供了“养料”。再次,开源的深度学习框架(如TensorFlow、PyTorch等)和算法优化(如更好的激活函数和正则化方法)让更多研究者和工程师能够参与构建神经网络模型。
(二)众多人工智能迎来突破
2012年,在全球著名的ImageNet大型视觉识别竞赛中,来自多伦多大学的一个团队使用深度卷积神经网络模型(AlexNet)一举夺魁。这个模型由8层神经网络组成,包含6000多万个参数。凭借深度学习,AlexNet将图像分类错误率降低到15%,比上一年的冠军模型大幅提升了10多个百分点。而他们之所以能训练这样一个庞然大物,正是因为使用了两块GPU并行计算,大幅加快了训练过程。AlexNet的胜利震动了计算机视觉领域,深度学习由此被证明了在大数据和强算力支撑下可以远超以往手工设计的识别算法。
这场“ImageNet冲击波”之后,科技巨头们迅速转向深度学习路线。例如2014年,特斯拉推出具备自动辅助驾驶功能的电动车,其将深度学习用于道路物体识别和驾驶决策,尽管完全无人驾驶技术尚未成熟,但高级驾驶辅助系统(ADAS)已经广泛应用于量产车型。这些系统通过摄像头和雷达感知周围环境,并辅助进行刹车控制和车道保持,其背后依赖的正是计算机视觉等AI技术。
(三)科技巨头的AI布局
大量开源工具涌现,使开发AI模型不再是少数人的“专利”,初创公司和互联网巨头争相投入资源,训练自家的深度模型。2014年,美国的Google斥资收购了英国的DeepMind公司,后者以强化学习和游戏AI见长。Facebook(Meta)在此时期也成立了FAIR实验室,大力投入AI研究,利用海量社交数据改进内容分发算法,并在人脸识别等方面取得领先。微软则在2016年前后多次宣布其语音识别、机器翻译系统达到或超越人类水平,并于2017年投资成立微软AI研究院,将AI作为公司转型的核心战略。OpenAI也于2015年由马斯克等人创立,并专注于AGI(通用人工智能)研究。
在中国,三大互联网巨头在这个时期也开始全面布局AI:百度于2013年成立深度学习研究院,成为国内语音识别和自动驾驶等领域的领军者;阿里巴巴将机器学习用于电商个性化推荐和云计算AI服务,并在2017年成立达摩院,专注于前沿AI研究;腾讯利用AI优化社交和内容产品,并投资了多家AI创业公司。同时,华为等通信公司也开始研发AI芯片和云AI平台。而在医疗、金融、安防等垂直领域,商汤科技、依图科技等AI初创公司崛起,借助深度学习占据市场一席之地。
五、多领域突破:语言、视觉与决策
(一)自然语言处理(NLP)能力提升
2013年,Google的Word2Vec技术引入了词向量这一概念,用浅层神经网络从海量文本中学得每个单词的向量表示,使计算机能够捕捉单词之间的语义关系。词向量的出现改善了机器翻译、情感分析等众多NLP任务的效果。2014年,序列到序列(seq2seq)模型将深度学习用于机器翻译,该模型由两个循环神经网络组成,一个读入源语言句子并将其编码成向量,另一个从向量解码出目标语言句子。这种端到端方法在英法翻译等任务上超越了传统的短语翻译系统。2017年, Transformer架构被提出,它显著提升了模型对上下文信息的建模能力,并有效解决了传统循环神经网络难以并行化和长距离依赖问题。下文将详细介绍Transformer架构,故在此不作赘述。
这一时期,聊天机器人和智能语音助手开始普及,例如苹果的Siri、微软小冰以及Amazon Alexa等,这些智能助手能够进行基本的日常对话、问答以及简单的任务处理,而这都依赖NLP技术的进步。此阶段,NLP领域经历了从依赖手工特征的统计模型到依赖海量数据和深度学习的转变,语言AI的能力实现了质的飞跃。
(二)计算机视觉突破
在计算机视觉领域,卷积神经网络(CNN)等人工智能算法得到充分应用,通过卷积层、池化层和全连接层的组合,能够有效地提取图像中的局部特征和全局信息。除了前述ImageNet竞赛之外,深度学习模型屡创新高。2015年,微软研究院的ResNet深度网络在ImageNet比赛中的误分类率降至3.57%,首次在ImageNet图像分类任务上超越了人类的表现。
深度学习让目标检测(定位图像中的物体,并识别其类别)技术突飞猛进,而R-CNN、YOLO等算法使实时检测成为可能。图像分割(精确识别并标注图像中每个像素所属的物体或区域)也在2015年后的FCN、Mask R-CNN等模型推动下达到前所未有的精准度。如今,智能手机能够自动识别人脸、背景,正是这些技术进步的成果。Facebook于2014年发布的DeepFace算法在LFW人脸库上的识别准确率达到97.25%,与人类肉眼识别能力几乎相当,其促使人脸解锁、身份验证等AI应用迅速落地。
在视觉内容生成方面,生成对抗网络(GAN)自2014年提出以来,已被广泛应用于图像生成等领域。GAN通过对抗训练的方式,生成高质量的图像。而近年来,扩散模型作为一种新兴的生成模型,通过逐步去噪的迭代过程生成高质量图像,也已在图像生成领域取得了显著进展 。
(三)游戏与决策能力不断显现
2016年3月,DeepMind开发的AlphaGo程序以4:1的比分战胜韩国九段围棋冠军李世石。其利用深度卷积神经网络来评估棋盘形势、选择落子,并可以通过强化学习让自己与自己下数百万盘棋,不断提升水平。此后,DeepMind团队相继推出了不需要任何人类棋谱训练的AlphaGo Zero和通用博弈AI AlphaZero。与此同时,OpenAI的Five程序在电子游戏Dota2中击败了职业电竞选手,DeepMind的AlphaStar在星际争霸II实时战略游戏上达到了顶尖人类水平。可见,强化学习+深度学习的模式能够处理动态复杂的决策问题,为未来在机器人控制、自动驾驶决策上应用AI打下基础。
这一时期各个AI领域百花齐放,深度学习功不可没。AI的能力图谱相比十年前大为扩展。这为下一阶段更宏大的模型和更广的多模态融合奠定了基础。
六、Transformer架构与大模型革命
(一)Transformer架构出现
2017年,谷歌的研究者提出了Transformer架构。在此之前,处理语言类任务的神经网络主要依赖循环神经网络(RNN)或长短期记忆网络(LSTM)来逐字逐句读入文本,但这些方法难以高效地捕捉长距离依赖关系。而Transformer模型通过引入注意力机制,使网络能够“关注”序列中任意位置的重要信息。更关键的是,Transformer摒弃了串行处理的循环结构,完全采用并行计算,这使得利用大型语料训练超大规模模型成为可能。可以说,Transformer为大模型时代奠定了架构基础。
(二)大模型时代开启
基于Transformer,研究者迅速开发出一系列性能惊人的大规模预训练模型。2020年,OpenAI发布了GPT-3,这是当时参数规模最大的语言模型之一,拥有惊人的1750亿参数。GPT-3通过海量互联网语料的预训练,掌握了广博的语言知识和模式。GPT-3向世界展示了“大参数量+海量数据+Transformer”可以将机器的语言处理能力提升到前所未有的高度。
从2017年至今的短短几年内,大型预训练模型(Large Pre-trained Models,以下简称“大模型”)已成为AI研究的热点方向。除了OpenAI的GPT系列,谷歌也研发了类似规模的模型,如Switch Transformer、PaLM等,Facebook和微软等公司取得了相应成果。当然,大模型的能力不仅限于文本处理,在图像领域有生成画作的DALL·E,在多模态领域还有既能看图又能回答问题的CLIP等。这些模型参数往往以十亿计,并且展现出涌现能力——即模型规模足够大,才能表现出的新能力,例如理解复杂语义、解决多步推理问题等。这推动了一种思路:与其手工设计特定任务的解决方案,不如训练一个通用大模型,让它自己从海量数据中自主学习完成各种任务所需的知识,这一思路推动了大模型走向公众。
2022年底,OpenAI推出基于GPT-3.5的ChatGPT,ChatGPT通过与人类对话,将语言模型的能力直观地呈现在大众面前,大模型的时代让人工智能真正走出了研究圈,走进了千家万户的日常生活中。
中国人工智能大模型领域迅速发展,DeepSeek、大模型“六小龙”、阿里巴巴的通义大模型以及字节跳动的豆包大模型等,成为推动中国AI生态加速演进的关键力量。DeepSeek以其开源策略和高性价比的技术路线,在全球AI领域引起广泛关注,其发布的DeepSeek-V3模型采用稀疏激活混合专家(MoE)架构和多头潜在注意力(MLA)机制,实现了在资源受限情况下的高效推理和低成本训练;被誉为大模型“六小龙”的企业智谱AI、MiniMax、百川智能、零一万物、阶跃星辰和月之暗面,在大模型研发方面各具特色,推动了中国AI技术的多元化发展;阿里云推出通义大模型(Qwen)系列,涵盖从5亿到1100亿参数规模的多款模型,支持多语言、多模态的AI应用,其中,通义千问2.5版本在多个国际大模型排行榜上名列前茅,展示了其强大的技术实力;字节跳动推出的豆包大模型,依托公司在内容生成和数据处理方面的优势,提供多模态的AI能力,广泛应用于内容创作、图像编辑、编程辅助等领域,此外,在推理能力、响应速度及多模态交互上实现跨越式提升,助力企业构建智能体(Agent)。
然而,大模型时代也带来了新的问题和思考。如此庞大的模型需要巨额的算力和数据来训练,只有少数科技巨头具备这样的资源。同时,大模型往往是“黑箱”,我们难以完全理解它们内部如何表示知识、如何做出推断,这给模型输出的可靠性和可控性带来挑战。此外,模型规模的无限扩大是否必然带来智能的持续提升,也是研究者在探索的问题。是该追求更大的模型,还是更有效率、更可解释的方法?这些都为未来的发展留下了空间。
七、未来图景:多模态融合与AGI探索
2020年至今,人工智能领域出现了几个新的发展趋势:多模态AI、自监督学习、自动机器学习(AutoML)以及对通用人工智能(AGI)的探索。
(一) 多模态AI探索
多模态AI指能够同时处理多种形式信息(如文字、图像、音频、视频)的人工智能。人类智能的一个重要特征是可以综合来自视觉、听觉、语言等不同渠道的线索进行理解和创造,而研究者希望AI也具备这样的能力。例如:Meta研发的Make-A-Video(可以通过文字或者图片生成视频)、OpenAI发布的Sora模型(可以通过文字生成视频)。当然,多模态AI目前仍在早期阶段,生成的视频或图像有时会有失真或违背常识的地方,但随着模型和数据的进步,这方面的能力正快速提升。可以预见,多模态AI将在教育、娱乐、创意设计等领域打开全新的大门。
(二)自监督学习——数据驱动的新范式
自监督学习是一种无需外部人工标注、通过数据自身自动生成监督信号的学习方式。它通过设计一些能够自动产生标签的任务,引导模型自主地从原始数据中学习并提取有用的特征。例如,在给定一篇文本时,随机遮盖部分单词,让模型通过预测被遮盖单词的内容进行训练。这种方式利用文本自身的上下文作为监督信号,无需人工标记即可实现学习。
自监督学习的价值在于,它使AI能够利用海量未标注的数据进行训练,从而学习到能够迁移并适用于多种下游任务的通用特征表示。这不仅为大模型的预训练提供了可行途径,也成为在标注数据稀缺的领域(如医学、生物信息学等)中进行知识提取的强大工具。自监督学习减少了对人工注释的依赖,提高了效率,并增强了AI模型的规模扩展能力。
目前,除了文本领域,语音和图像领域也广泛采用了自监督学习方法。例如,图像领域的自监督学习通常通过让模型复原被遮挡的图块或判断图像某些部分是否被打乱的任务,以此帮助模型更有效地理解图像的深层特征。自监督学习有望让AI像人类幼儿一样通过观察和感知自发学习,理解世界的结构。
(三)自动机器学习(AutoML)——“用AI设计AI”
自动机器学习(AutoML)是一种“用AI设计AI”的方法,即通过自动化系统完成模型结构设计、参数调优等任务。其核心技术之一是神经架构搜索(NAS),通过算法自动组合不同的神经网络层和连接方式,探索性能最优的网络结构。这不仅降低了AI开发的技术门槛,让非AI专业人士也能利用自动化工具训练出高质量的模型,还可能发掘出人类尚未想到的创新网络架构。
除了架构搜索,自动机器学习还涵盖自动超参数优化、自动特征工程等技术。尽管目前自动设计出的模型有时过于复杂,难以解释,且搜索过程本身计算成本高昂,但随着算力增长与算法的持续优化,自动机器学习有望逐渐成为AI研发的常规工具。
(四)人工通用智能(AGI)探索——“像人一样聪明”
人工通用智能(AGI)指的是一种能够理解、学习并灵活执行任何智力任务的智能体,通俗地讲,就是“像人一样聪明和灵活”的AI。长期以来,AGI都是人工智能领域的终极目标,但现实中AI的发展长期局限在具体的狭窄领域。不过近年来,随着大模型在众多任务中的惊艳表现,人们对于AGI的期待逐渐从遥远的理想转变为“或许并不遥远”。
2022年,DeepMind发布了一款名为Gato的通用智能体。Gato模型虽然只有约12亿个参数,但却能利用相同的一套参数执行超过600种不同类型的任务,包括与人类自然对话、游玩Atari电子游戏以及操控机械臂完成动作等。这种由单一模型完成多样化任务的能力,在过去是难以想象的。尽管Gato在每项具体任务上的表现并未达到最先进模型的水平,但它的重要意义在于证明了“一模多能”的可行性。
八、结语
从1943年人工神经元的概念破土,到符号主义与连接主义的学派争鸣;从深度学习掀起的技术革命,到Transformer架构与大模型开启的智能涌现时代。当前,AI正以多模态融合、自监督学习等路径突破能力边界,向更通用、更自主的方向进化。人工智能的发展故事,还在继续书写。
为透视技术浪潮背后的产业力量,我们将在未来每周深度解读一家人工智能领域标杆企业,剖析其核心产品的技术逻辑与商业场景——从巨头布局到新锐突围,带您亲临AI变革的前沿阵地。关注我们,共同解锁智能时代的蓬勃生态。