人工智能内部原理(一)

原文:Inside AI

译者:飞龙

协议:CC BY-NC-SA 4.0

前言

1999 年,我在国际刑警组织(国际刑警组织)担任五年任期的秘书长的最后一年。一位认为我们可能有共同兴趣的美国朋友向我介绍了阿克利。我们在巴黎共进午餐,经过常规的问候后,我们开始讨论阿克利在职业上所做的事情与我在法国里昂的国际刑警总部的角色的可能联系。在伦敦苏格兰场的之前的职能中,我在刑事情报部门工作过一段时间,自然对情报分析的应用到国际刑警组织数据库的任何发展都很感兴趣。

也许在这个阶段,我应该说明一下,为什么我与阿克利的第一次会面是一种“体验”。在国际刑警组织的职能范围内,我曾经见过许多重要和令人印象深刻的人,包括两位美国总统,但阿克利以一种不同的方式给我留下了深刻印象。他的外形,毫无疑问是因为他的卡比尔起源,他为此特别自豪,给人一种他对自己有把握,可以信赖他说出真相,并将给出权威意见的印象。阿克利的印象立即给你留下深刻印象,并创造了讨论的气氛。遗憾的是,当时的环境并没有让我为国际刑警组织开展一个项目的可能性,因此,我对阿克利的活动的持续兴趣变得更加个人而非专业。然而,此时此刻,他正在美国建立自己。

阿克利在科皮耶让技术大学获得硕士学位,并在皮埃尔和玛丽·居里大学获得了人工智能博士学位。在他的论文中,阿克利在巴黎的内克尔医院开发了软件,以便医生快速诊断急诊病人。人工智能当时是众所周知的,但处于萌芽阶段。阿克利在他五年的论文中所做的工作受到了新闻的认可。这向阿克利证明,他可以利用自己的特殊 AI 技术品牌建立一个可行的未来职业。

在他前往美国时,阿克利已经创立了自己的软件公司,并与许多知名的法国公司和政府机构合作。在这期间,他还在工程学院 EPITA 教书,领导了认知科学系。在法国的最后一年,阿克利已经获得了某些名声,但已经决定,他的专业才能的有效发展最好的机会在美国。1999 年,他采取了措施,最终导致了他在人工智能方面的现在的成功。

刚开始在旧金山开展新事业并不容易,某种程度上,我和他一起分享了部分艰辛与磨难。他独自生活,没有妻子和家人陪伴,他们还在法国。他还在巴黎的 EPITA 承担着教学任务,但同时也在努力建立自己的公司,他称之为 Brighterion。资源有限,除了 Akli 之外,任何人都可能会放弃。正是在这种困难的环境下,Akli 的性格优势显现出来。

Akli 会说他的坚持来自他的卡比尔起源。Akli 是一个秉持一定基本规则生活的原则派人物,无论在公共场合还是私下活动中都是如此。一些人会将这些价值观称为老派,我也是,因为我们感觉到这些价值在我们现代社会中缺失:友谊、忠诚和诚实的概念似乎缺乏,特别是在商业世界中。我确信 Akli 之所以成功,是因为他始终将这些规则应用于与他人的关系中。毫无疑问,Brighterion 的现在和未来发展——尽管现在已经卖给了万事达卡——归功于 Akli 和一批在困难时期仍然忠诚于他的关键人员。

我经常向 Akli 请教我在媒体上看到的东西,这与我对人工智能的理解从未相符。我相信还有许多其他人处于我的情况。因此,我特别感谢 Akli 写了这样一本书。

——雷蒙德·肯德尔,国际刑警组织名誉秘书长

第一章:机器智能的崛起

本章内容包括

  • 人工智能如何改变行业并赋予生活力量

  • 与 AI 相关的挑战

  • 一些早期创新者的显着贡献

很少有像人工智能(AI)这样的概念能像它一样激发想象力。“思考机器”的概念在科学文献和流行文化中已经存在了几十年。现在,人工智能正处于成为一个具有变革性经济力量的阶段,它将增强生产力并产生全新的产业和市场。最近,生成式 AI 工具如 ChatGPT 引起了异常关注和大量投资。

尽管人工智能取得了令人难以置信的进步,但重要的是要用现实主义的态度来对待这种热情。许多人工智能应用仍处于萌芽阶段,实现真正的人工通用智能的道路仍然漫长而不确定。将真正的进展与夸大的声明区分开来对于发挥人工智能的真正潜力并应对其带来的挑战至关重要。在本书中,我们将研究人工智能的当前状态,并考虑人工智能可能的发展方向。

1.1 什么是人工智能?

沃伦·S·麦卡洛和沃尔特·H·皮特于 1943 年发表的论文《神经活动中所含思想的逻辑演算》经常被引用为实际人工智能研究的起点。他们的论文介绍了一种推断命题关系的数学方法,并建议可以用真假逻辑陈述来建模神经元及其连接。他们的技术导致了能够计算布尔函数的电路的设计,这是所有数字计算机的基本操作。

在 1950 年 10 月,艾伦·图灵发表了《计算机与智能》,这篇论文已成为该领域最具参考价值的论文之一。图灵提出,如果一台机器通过了所谓的图灵测试,即观察者无法区分人类的回答和计算机的回答,那么该计算机将被认为具有智能。

“人工智能”一词的诞生是在 1956 年夏天由达特茅斯学院组织的一次研讨会上。当时,约翰·麦卡锡是达特茅斯的一名助理数学教授,他使用这个术语是为了其营销效果。他期望这个引人注目的短语能提高这个新的研究领域的知名度。看来他成功了,因为后来他成为了麻省理工学院人工智能实验室的第一任主任。

在那场革命性的研讨会之后,人工智能领域经历了兴奋和失望的循环。人们可能会质疑是否过高的期望和随后的幻灭在某种程度上归因于该领域的名称。那么,人工智能究竟是什么定义呢?从本质上讲,人工智能涉及一组使计算机能够执行传统上与人类智能相关的任务的技术。自其诞生以来,人工智能在很大程度上依赖于两种基本方法,即算法从数据中学习。在监督学习中,想象一下你想要通过提供带有标签的示例来教导一个人工智能系统识别水果,例如“这是一个苹果;那是一个香蕉”,使系统能够根据先前的示例学习如何识别新的水果。另一方面,无监督学习采用更具探索性的方法,不使用标签或指南。人工智能系统独立分析数据,将相似的项组合在一起,例如将所有红苹果放在一个类别中,而不需要明确告诉它们是苹果。

人工智能先驱约瑟夫·韦岑鲍姆将人工智能描述为表现出智能行为的机器,无论它们是否实际上采用了人类智能所需的相同机制。韦岑鲍姆认为,在具有合成视觉和机械臂辅助的机器能够完成类似螺母和螺栓组装的琐碎任务以及能够辅助合成化合物、翻译语言、创作音乐甚至编写软件的计算机程序中都能看到人工智能的身影——所有这些任务现在都可以通过当前的生成式人工智能工具来完成。

我认为智能是一种奇妙的能力,几乎贯穿我们所做的所有决定的根本。人工智能的挑战只是知道计算机程序在多大程度上可以模拟某些智能反射,以及当计算机程序面临一个我们通常忽略自己的心理运作来解决的问题时,计算机程序的行为如何。然而,无论我们如何定义人工智能,我们都越来越能够在日常生活中看到其影响,塑造我们工作、交流和导航周围世界的方式。

1.2 AI 革命

人工智能在几十年来经历了重大的演变,受到人工智能算法的人类创新、硬件技术的进步以及数据的日益增加的可访问性的推动。在早期,机器模拟人类智能的概念似乎是一个遥远的梦想,被限制在科幻世界中。我们并不知道我们正处于一场即将改变和增强我们现代世界几乎每一个方面的革命的边缘。事实上,如今,人工智能为几乎每个领域带来了许多优势,在商业环境中提高了效率并推动了创新,同时也为各种人类事业做出了积极的贡献。

例如,在过去的十年中,由于 AI 驱动的聊天机器人的显著增强,我们见证了我们日常互动方式的显著增强,这些机器人能进行自然对话,提供实时支持和信息。与此同时,智能可穿戴设备,如智能手表,充当先进的伴侣,确保连接性,并通过提供特定的健康益处,有助于我们的健康。在医疗保健领域,AI 应用正在帮助临床医生早期检测和诊断疾病。此外,由 AI 驱动的机器人辅助手术系统有助于提高医疗程序的精度,缩短恢复时间并改善患者结果。远程医疗平台利用 AI 进行远程患者监测和个性化健康建议,使医疗服务更加易于接触和适合个人需求。AI 的转变效应延伸到残疾人群体,引领了包容性和赋权的新时代。语音识别软件赋予了行动障碍人士控制设备和更有效沟通的能力,同时由 AI 驱动的假体增强了肢体残疾人士的行动能力和独立性。

在商业世界中,AI 是现代商业战略的基石,提供了众多驱动效率、创新和竞争力的益处。AI 使企业能够从大规模数据集中提取有价值的见解,为战略决策和趋势预测提供信息。由 AI 驱动的自动化使例行任务流程化,降低运营成本,释放人力资源用于更复杂和有创意的工作。在供应链管理中,AI 优化库存和物流,降低中断,提高整体效率。在金融行业,AI 出现为持续打击金融犯罪的强大资产,特别强调加强诈骗预防和洗钱检测。

AI 进化中的一项突破和令人印象深刻的里程碑是生成 AI 的出现,强大的产品,如 ChatGPT,在使 AI 的访问民主化方面发挥了关键作用。生成 AI 已经成为各行业的转变力量,为创造力,效率和创新提供了种种益处。ChatGPT 的发布赋予了数十亿非技术人员能力,使他们能够利用 AI 的力量,而无需专门的技术知识。它还在促进全球业务扩张方面发挥着重要作用,让组织能够生成相关且有效的内容,而不需要即刻依赖人类支持,因为这些先进的语言模型擅长生成连贯的文本,并适应特定的沟通风格。

人工智能驱动的自动翻译已经成为全球连接的催化剂,打破语言障碍,促进跨文化交流,创造了一个更加互联互通的世界。凭借先进的自然语言处理算法,AI 驱动的翻译工具实现了实时语言解释,促进了来自不同语言背景的个人和企业之间的无缝交流。这一进步不仅增强了国际合作,还促进了对不同文化和观点的更深入理解。

在教育领域,AI 正在通过个性化辅导系统和适应性学习平台改革学习体验。虚拟导师和基于 AI 的教育助理将提供额外的资源,回答问题并指导学生在课堂内外。AI 有望填补教育差距,民主化地提供高质量学习资源的访问,确保教育成为全球学习者的动态和包容过程。

AI 技术极大地增强了全球安全,以前所未见的方式使世界更安全。它们在检测和防止威胁中发挥着至关重要的作用,特别是在网络安全和公共安全领域。在执法中,AI 驱动的监视迅速识别并捕获参与犯罪活动的个人,改善了整体公共安全。在国土安全方面,AI 是加强防御和保护国家的关键资产,为公民创造了更安全的环境,并确保了边境的完整性。

先前提到的实例仅代表 AI 带来显著益处的一部分领域。从 AI 带来积极影响的领域列表不断扩展,我坚信几乎每个领域都能从其能力中受益。然而,认识到这个悖论是至关重要的——尽管 AI 提供了显著进展的机会,但它也在这些领域内引入了滥用的风险和挑战。

1.3 容易出错的智能

人工智能面部识别技术的部署引发了重大关注,特别是涉及偏见和道德考量。已经有多起关于面部识别系统中种族和性别偏见的案例被充分记录,这引发了严重的道德问题,即偏见技术可能如何持续社会不平等。类似的偏见也在用于自动化招聘系统的人工智能中观察到,无意中偏爱某些特征并导致进一步边缘化少数群体的差异。此外,将人工智能纳入刑事司法系统引发了有关潜在偏见、公平性和判决过程透明度的担忧。分析各种因素以预测累犯或评估再次犯罪可能性的 AI 算法可能无意中维持系统中现有的偏见,在确保公正和正义的法律体系方面存在挑战。

在医疗保健领域,人工智能容易出现错误,引发了对可能误诊或不准确的治疗建议的重大担忧。正如我们将在第三章中讨论的那样,人工智能模型的不透明性增加了额外的担忧,使用户难以理解得出特定结论的过程。

自动驾驶汽车中使用人工智能引发了人们对错误导致事故的担忧,特别是由于算法问题或故障引起的。现实世界交通情况的不断变化和不可预测的性质使得 AI 系统难以准确理解和应对复杂情况。2023 年 10 月在旧金山发生的一起悲剧性事件就是一个毁灭性的例子,一辆自动驾驶汽车未能检测到一名被困在车下的行人,将她拖行了大约 20 英尺。

在社交媒体平台上人工智能的快速发展可能通过推动虚假信息的传播、增加网络欺凌的发生和提高个人心理健康风险来加剧其负面影响。此外,深度伪造技术的不断增加,允许制作出逼真的虚假内容,如逼真的视频和音频录音,具有欺骗和操纵个人的潜力。

大型语言模型(LLMs)通过为更广泛的公众民主化人工智能,取得了令人印象深刻的人工智能里程碑,但也引入了潜在的缺点,尤其是非技术用户对这些 AI 模型产生的每一项输出过度依赖和盲目信任的风险。在第五章中,我们将证明 LLMs 可以生成看似连贯但事实不准确甚至完全虚构的文本。随着人工智能在各个领域的普及,当技术被不当应用时,滥用的可能性和随之而来的挑战也在上升。

最后,让我们考虑另一个与人工智能相关的问题。这个关注点并不是与人工智能算法的错误有关,而是出于技术在特定任务上的效率而产生的矛盾。企业高管和经济学家预见到由生成式人工智能的影响可能导致大量工作岗位的流失,影响着各个行业。甚至像软件和人工智能工程这样的部门也面临风险,因为生成式人工智能加速了生产效率,可能减少了对其他工程角色的需求。

随着人工智能的快速发展,它不仅改变了我们的工作方式,而且转变了我们的生活方式,改变了我们的联系方式,并塑造了我们的社会身份认同。为了理解这种影响,让我们来看看人工智能是如何改变人与人之间最常见的交流方式——对话。

1.4 聊天机器人

聊天机器人,也被称为“对话代理”,是利用人工智能和机器学习提供技术以进行人机交互的程序。这种方法是由 Joseph Weizenbaum 于 1966 年引入的,他创建了旨在提供以人为中心的治疗的程序 ELIZA。ELIZA 是 ChatGPT、Siri、Alexa 和 Google Assistant 的祖先,这些现在在智能手机和家用设备中无处不在。

ELIZA 解析句子,寻找诸如Iyoulikemother之类的单词。一旦 ELIZA 识别出其中一个单词,它就会根据与该单词相关联的规则改变句子。然后,ELIZA 会给出一个不含关键词的内容为空的回复,或者引用之前的话题,如“你为什么这样认为?”这种输入文本中不包含关键词。在他的论文中,Weizenbaum 举了一个稍微牵强的例子,介绍了 ELIZA 与一个女性测试对象之间的对话:

主题:男人都一个样。

ELIZA:以什么方式?

主题:他们总是为一些事情烦我们。

ELIZA:你能想到一个具体的例子吗?

主题:嗯,是我男朋友让我来的。

ELIZA:你男朋友让你来这里的吗?

主题:他说我大部分时间都很沮丧。

ELIZA:很遗憾听到你感到沮丧。

令 Weizenbaum 感到沮丧的是,一些用户开始相信 ELIZA 实际上理解自己在说什么。一些心理治疗师甚至认为它可能是他们实践的一种有用工具。实际上,这个程序能做的只是将用户的输入分解为其构成部分的语言,然后以一种能够维持对话的方式重复它们。Weizenbaum 对用户竟然相信一个相对简单的程序而感到不安,于是成为了社会责任的倡导者。他成为了任何给出智能幻觉的人工智能的激烈批评者。

当前一代基于人工智能驱动的聊天机器人要复杂得多。借助于大量文本和其他数据进行训练的 LLM(大型语言模型),像 OpenAI 的 ChatGPT、谷歌的巴德(现已更名为 Gemini)等工具在自然语言提示时能够提供非常类似人类的回应。例如,考虑与 ChatGPT 的这个简短交流:

用户:给我一个人工智能的简短定义。

ChatGPT:我认为如果文本在第一行口语文本下左对齐会显得更好看。不是在 Chat GPT 下,而是在人工智能(AI)指的地方。对于接下来页面上 ChatGPT 段落同样的指示。

用户:根据这个定义,你是否聪明?

ChatGPT:不,我不像人类一样聪明。我是由 OpenAI 开发的机器学习模型。虽然我可以根据从大量数据学到的模式处理并生成类似人类的文本,但我并不具有真正的意识、自我意识或主观经验。我的回答是基于我训练数据中存在的模式和信息生成的,并非真正理解或认识。

人工智能聊天机器人已经成为一些大公司客户服务业务的前线方法,这一趋势可能会迅速扩大。人工智能似乎不可避免地会改变其他传统的人际交流方式,如电子邮件、基于语音的电话交流和在当地快餐店点午餐。

1.5 展望未来

正站在新时代的边缘,对于企业领导者来说,不仅要认识到人工智能的重要性,还要明白拥抱人工智能不仅仅是一个选择;对于那些在创新、效率和智能决策定义的时代中寻求领导地位的人来说,这是一个必然。人工智能之旅还远未结束;它是一场不断探索、完善和适应技术与人类之间错综复杂相互作用的持续远征。

基于我在现实业务挑战中的第一手见解,接下来章节的目标是为您提供人工智能在商业环境中的实际应用见解。随着我们在接下来的 10 个章节中深入了解各种人工智能方法,我们将学习如何无缝整合其不断扩展的能力。这将帮助您应对将人工智能整合到自己企业的复杂性,确保您对即将到来的变革之旅充分装备。

总结

  • 人工智能积极影响着各个领域,提高效率,促进创新,积极影响人类的努力。

  • 生成式人工智能,如 ChatGPT 所展示的那样,标志着人工智能领域的历史性时刻,通过普及其使用来赋予非技术人员和小型企业权力,使他们能够利用人工智能的力量。

  • 人工智能的部署引发了各个领域的偏见问题。

  • 人工智能容易出现可能造成伤害的错误。

  • 人工智能的起源可以追溯到 1956 年,研究人员在达特茅斯会议上探讨创建智能机器的可能性。

  • AI 技术可以分为两种主要类型:监督学习,其中算法使用带标签的数据进行训练,将输入与特定目标关联起来;以及无监督学习,它使用无标签的数据来发现模式。

  • 第一个聊天机器人 ELIZA 诞生于 1966 年,主要专注于治疗性互动。

第二章:AI 掌握:基本技术,第一部分

本章介绍

  • 专家系统简介

  • 业务规则管理系统简介

  • 案例推理系统简介

  • 模糊逻辑简介

  • 遗传算法简介

本章和下一章探讨了各种 AI 技术,赋予计算机模拟人类认知的能力——从专家系统捕捉、存储和允许我们重复使用的宝贵专业知识,只有有限数量的专家掌握;到系统化决策制定的商业规则。我们将学习案例推理(CBR),它使用类比来通过重用从过去经验中学到的知识来解决问题,以及处理不确定性和航行模糊的模糊逻辑。我们将了解遗传算法在解决解决空间庞大的复杂问题时是如何运作的,以及像挖掘黄金一样的数据挖掘,以揭示隐藏的宝贵见解。我们还将探索神经网络和深度学习令人敬畏的世界,机器从大量的数据中学习。最后,我们将研究无监督学习,这是算法从未被标记的数据中发现隐藏模式。每种技术都有其优缺点,这就是为什么现实世界的应用结合了多种技术的能力。

我尽力避免术语和公式,但我还是会介绍一些你在阅读这一主题时可能遇到的技术术语。如果你只对学习 AI 的故事或者对其潜力发展有一个有见地的观点感兴趣,你可以跳过本章和下一章而不会有连续性的损失。

2.1 专家系统

在许多领域,专家都是稀缺的,因为要成为任何一个领域的专家需要多年的学习和实际经验。如果我们能够捕捉、存储和分享这有限数量专家拥有的宝贵专业知识将会非常有益。此外,大量的专家定期退休,带走了他们丰富的知识和重要的业务经验。例如,当有 25 名专家退休时,他们会带走超过 1000 年的集体经验。

如果我们能够找到一种智能的方法,在不一定需要实际专家参与的情况下,为各个领域创造出虚拟专家并有效地解决问题,那该有多好呀?例如,想象一下,你想做一些园艺工作,并且正在尝试为你的气候、土壤和阳光条件选择合适的植物。你可能会问一个园艺专家建议你的情况下最好的植物。现在,假设我们能够提取专家的关于植物类型、土壤条件、天气模式以及与园艺有关的所有知识,设计一个“园艺数字专家”软件。这个例子说明了专家系统的目的,专家系统是指计算机系统,旨在模仿特定领域人类专家的决策能力。

而传统的过程式系统将算法和知识合并在一个单一程序中,专家系统将特定于领域的专业知识与执行程序所使用的过程性方法分离开来。专家系统包括三个主要模块(见图 2.1):

  • 知识库,包含领域专业知识,存储为一组简单的if-then语句规则。该模块充当了许多专家积累的知识的存储库。

  • 工作内存,包含数据输入并跟踪推理引擎所推导出的进展情况。

  • 推理引擎,它是一个在循环中运行的计算机程序。在每个周期,它会根据规则评估工作内存中的事实。当规则的条件满足时,该规则可能会产生新的事实,修改现有事实和/或停止循环。如果当前的事实不能触发更多的规则,则循环会自动停止。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2.1 专家系统的流程图

这种组件的分离带来了许多好处。它使得没有编程背景的人,比如医生、交易员、承保人员和合规专家,能够在知识库中分享他们的专业知识。这种设置还有助于专家系统的丰富和维护,因为知识可以很容易地添加、更新或从知识库中删除,而不需要修改基础代码。

1972 年,爱德华·H·肖特利夫(Edward H. Shortliffe)创建了 MYCIN[1],这是最早的专家系统之一。它被用来实验性地诊断细菌感染,并且它从关于细菌生物体、感染部位以及特定临床症状(如发热或头痛)的输入信息中推断。MYCIN 知识库中包含了 500 多个if-then规则。以下是 Mycin 使用的规则之一:

Rule 20 
IF substrate of culture is blood
AND stain of organism is gram negative
AND morphology is rod
AND patient has been seriously burned
THEN likelihood is 40% that organism is pseudomonas 

正如你可能推断的那样,if-then-else格式的简单性至关重要。你可以想象专家制定这样的规则而无需专门的培训。以下是另一个专家系统的规则示例,旨在提高工厂安全性和诊断系统故障[2]:

Rule 27
IF Condenser Temperature Increase
AND Steam Temperature Increase
AND Condenser Pressure Rapid Increase
AND Condensate Level Increase
THEN Emergency Pump is Idle
AND DISPLAY Condensate Pump Break Down and Emergency Pipe Idle

商业专家系统的开拓性之一是 eXpert CONfigurer(XCON)。数字设备公司(DEC)是一家计算机供应商,面临着管理各种组件的挑战,这些组件经常变化,并且可以以多种方式配置。在 20 世纪 80 年代初,在开始组装和配置计算机系统之前,来自客户的订单需要手动验证,以确保它们包含所有所需的组件,没有多余的部分。尽管进行了这些手动检查,但配置过程中的错误偶尔仍然存在,因此需要纠正措施。因此,在将计算机运送给客户之前,DEC 的最终装配站会重新评估计算机。XCON 被引入,利用其知识库和一组规则来验证每台计算机的布局。这一创新使得 DEC 能够将大多数组件直接运送到客户现场进行最终装配,从而简化了流程。

另一个显著的系统出现在 1983 年的通用电气公司:柴油电力机车维修专家系统(DELTA)。DELTA 旨在封装大卫·I·史密斯(David I. Smith)的丰富知识,他是 GE 的资深现场服务工程师之一。史密斯因其在机车发动机和维修方面的卓越专业知识而闻名,经常跨国旅行,指导少数学徒。DELTA 由 500 多条针对故障排除和机车维护的规则组成,使其成为该领域的宝贵工具。

总之,必须认识到,在特定领域开发专家系统是一个持续的过程,涉及多个设计阶段和彻底的性能测试。这个过程类似于打造一台精调的仪器,其中每一次迭代都会完善其功能。在这个动态发展过程中,有几个关键活动至关重要。首先,制定新规则可能是必要的,以涵盖更广泛的情景并提高系统的准确性。这些新的见解使系统能够适应不断变化的条件和挑战。其次,不断审查和修订现有规则至关重要。随着专家系统与现实世界的数据交互并遇到各种情况,它会增加调整响应的能力。审查和修订意味着定期更新规则,以保持与该领域当前实践和知识的一致性。还必须认识到,并非所有规则都会永远保持相关性。随着时间的推移,由于领域动态或技术进步的变化,一些规则可能会变得过时或不太有效。因此,这个迭代过程的一部分涉及识别和删除过时规则,以保持系统的效率和准确性。

2.2 商业规则管理系统

如果您曾经使用过类似 TurboTax 这样的系统来完成所得税申报,那么您就使用过由 业务规则管理系统(BRMS)驱动的应用程序。BRMS 是对专家系统概念的进步,被广泛应用于许多领域。例如,金融机构可以使用这种技术来根据信用评分、收入水平和债务比率等因素确定贷款申请人的资格。这种能力使它们能够简化和自动化决策过程。

一个规则的示例是:“如果申请人的信用评分高于特定阈值并保持稳定收入,则应自动批准申请人。”在医疗保健领域,BRMS 对于帮助医院有效管理病人入院非常重要,它可以基于床位可用性、病人情况和医疗方案等因素自动化决策过程。

业务规则也可以应用于自动驾驶车辆以确保安全。可以设计一组规则来遵守交通规则和法规,包括速度限制、停车标志、交通信号灯和让行规则。此外,可以制定规则来规定自动驾驶车辆如何应对特定的行为和情况,例如优先考虑行人和骑行者而不是其他车辆,处理人行横道、变道、合流、道路封闭、绕行、天气和路况、能见度、交通拥堵和突然停车等。

BRMS(业务规则管理系统)使组织能够轻松地集中、管理和自动化复杂的决策过程。在技术层面上,BRMS 包括几个关键组件:

  • 规则存储库—该组件作为业务规则的存储库,用于定义、组织和高效存储规则。

  • 规则编制环境—规则编制环境提供了用户友好的界面,便于规则的创建、修改和测试。它支持业务用户或分析师进行规则开发。

  • 规则一致性模块—这个关键组件旨在防止系统内规则之间的矛盾。其主要目的是评估新添加或修改的规则,以确保它们不会引入与现有规则冲突或不一致的情况,这可能会导致决策过程中的混乱或意外后果。

  • 推理引擎—推理引擎是执行定义规则的计算模块。它处理并应用规则以做出决策或在业务流程中自动执行操作。

  • 规则治理—这个系统对于管理规则版本、跟踪变更并确保符合监管要求和内部标准至关重要。它有助于维护规则修改及其影响的历史记录。

  • 分析工具—分析工具用于监控和分析规则对业务流程的影响。它为组织提供见解和基于数据的信息,使它们能够完善和优化其规则集。这种优化增强了决策能力和整体运营效率。该模块包括“假如”和“如果不”模拟功能,为组织提供有价值的见解,了解规则调整的潜在益处或缺点,帮助组织做出明智的决策,并优化其业务规则以实现期望的结果,同时减轻意外后果。

这种技术的优点包括其灵活性和简单性,以便非技术人员可以轻松添加、更新或删除任何规则。这就像拥有一个适应您业务需求的规则书,使得维护和修改规则变得更加容易。

业务规则的推理逻辑与早期专家系统的类似,但具有若干限制。例如,无法充分将人类专业知识包含在简洁的逻辑片段中,这些片段可以转换为if-then-else规则。即使在看似可行的情况下,也很难完全提取熟练专家的全面知识,并有效地将其专业知识转移到计算机中。

我在巴黎内克尔医院(Centre Informatique Necker Enfant Malade,CINEM)的博士研究期间面临了这一挑战。我的目标是开发一个模拟程序,用于指导医学生进行临床推理。该程序旨在帮助他们准备临床实践,并避免在为患者提供护理时出现错误。

临床推理是一种需要多年实践才能掌握的技能,而且大部分的专业知识和经验很难通过面试来提取。医生的很大一部分专业知识和技能是隐性的,难以表述。即使医学专家能够解释他们的临床推理,概述大部分潜在逻辑和因果关系仍然是一项艰巨的任务。基于规则的医学决策可能涉及许多复杂问题:

  • 我们应该如何对紧急性、年龄或既往病史等情境因素进行分类,以及它们如何影响特定行动方案的后果?

  • 我们如何建立一套连贯、非矛盾且有意义的规则,以应对不同的情境和场景?

  • 我们如何代表临床经验,并将其与解剖学、病理学和器官系统的事实信息联系起来,这些是给定案例的重要背景知识?

  • 我们如何适应行为变化或数据分布的变化?

2.3 基于案例的推理

如果我们能找到一种智能的方式来存储和重用在任何特定领域获得的专业知识,那岂不是太好了?重用专业知识很重要,因为它影响我们记忆、推理和解决问题的能力。例如,假设我们可以编写一个程序,通过重用包含过去患者病例的库来重用医生在医学诊断方面获得的专业知识,以治疗出现类似症状的新患者。程序将首先通过比较重要症状、病史、年龄、性别和其他上下文因素,检索具有相似症状和情况的类似病例。该程序还将能够根据新患者的独特特征进行调整和个性化治疗。根据结果,我们将向我们的“专业知识库”添加这位新患者的知识和特点。我们的专业知识还应包含失败的结果,以避免犯同样的错误。我们更新我们的库的次数越多,它在治疗患者方面就越有效率。

这个例子描述了 CBR 方法,这是一种涉及通过参考和调整类似过去经验的解决方案来解决新问题的 AI 技术。对于每个新问题,第一步是在案例库中搜索与新问题相似的案例。一旦找到一个或多个相似的案例,系统将评估是否可以直接使用任何现有解决方案或它们的组合,或者是否需要根据新问题与类似案例之间的相似性和差异进行调整以适应新问题。一旦解决了新问题,就将调整后的解决方案和针对新问题的特定数据添加到库中以供将来使用。这种案例丰富提高了 CBR 随时间的效率。

CBR 是一种利用过去经验来解决新问题和类似问题的 AI 技术。它涉及一系列三个步骤:

  1. 检索 ——在这一步中,CBR 从其案例库中识别并检索与当前问题相似的相关案例。

  2. 重用 ——一旦检索到相关案例,CBR 系统将评估这些案例中存储的知识的适用性。这一步通常涉及调整和调整,以使解决方案适合当前问题,因为过去案例中使用的解决方案可能不直接适用于当前问题。

  3. 修订 ——解决当前问题后,修订后的解决方案将添加到案例库中。随着更多案例的解决和插入到案例库中,CBR 系统在其领域内解决问题的能力变得更加熟练。这种自适应和知识驱动的方法使 CBR 在技术支持、故障排除和维护任务中特别有价值。

为了说明这些步骤,让我们思考以下场景。假设您将车辆送到汽车修理店进行维护。抵达后,技工开始交谈,收集关于您遇到的问题的信息。您可能会提到您的汽车出现振动,排气噪音大,且有明显的烧机油气味。此时,技工迅速回想起过去类似情况,以确定影响您车辆的潜在问题。他们处理的每个任务都有助于加强他们的专业知识,提高他们的理解能力,并在此过程中不断完善他们的技能。

与专家系统和业务规则管理系统相比,CBR 的一个重要优势是无需编写显式规则。与需要耗时的规则制定的专家系统不同,CBR 利用真实世界的案例及其相关解决方案来解决新问题。这一特点极大地减少了知识工程的工作量,并使 CBR 成为在各个领域中将专家知识编码为显式规则具有挑战性的一种有效技术。此外,CBR 直接从经验中学习的能力不仅简化了知识获取,还增强了其适应性,使其成为处理不断变化的情况的有价值的技术。

由于 CBR 依赖于过去的案例来解决问题,当面临在案例库中缺乏紧密类比的问题时,可能会遇到挑战。此外,随着案例库随着时间的推移而扩大,存储和检索案例可能变得计算密集。这些因素可能会显著影响 CBR 系统的实时性能。

2.4 模糊逻辑

在现实生活中,情况通常缺乏明确的、容易识别的、明确正确或错误的答案。相反,它们通常包含多种潜在结果和要考虑的因素。以医学诊断为例。患者不仅经历和描述症状方式不同,而且当医生询问头痛或疲劳等问题时,答案通常不是简单的。患者通常使用有时通常很少经常等术语来表达他们症状的不同程度。此外,症状的感知和标记,如轻微中等严重强烈等词语,由于独特的生理、心理、过去经验、疼痛阈值和耐受性,患者之间可能差异很大。这些变化导致了对疼痛的不同描述和评级,而使用二进制逻辑系统(仅限于存在不存在)无法充分代表这些变化。另一方面,模糊逻辑提供了一种更适应和高效捕捉这些细微差别的方法。

模糊逻辑,可能更应该被称为“灵活逻辑”,是处理决策和控制系统中的不确定性和模糊性的数学框架。Lotfi Zadeh [4] 在上世纪六十年代开创了这种创新方法,以克服传统逻辑的约束,允许在“完全真”和“完全假”之间有一个细微的真实度量。模糊逻辑依赖于模糊集的概念来表示部分成员资格,并捕捉集合之间的渐进过渡。例如,在定义高个子和矮个子时,模糊集认识到身高是一个连续体,个体可以同时以不同程度属于两个集合。

要说一个人是高个子,传统逻辑要求我们指定一个身高 h,并且他们是高个子的陈述将取决于他们的身高是大于还是小于 h。例如,假设我们决定一个人的身高至少是 6 英尺 2 英寸时才算高个子。那么关于假设人们身高的陈述可以使用传统逻辑通过指定二进制真值(是或否,1 或 0,真或假)进行评估,如表 2.1 所示。

表 2.1 根据身高确定高个子和矮个子的值
姓名身高高个子矮个子
加里6’1”01
6’3”10
桑迪5’6”01
6’1”01

每个人在高个子和矮个子集合中的成员资格分别在第三和第四列中指示。鉴于我们的标准是 6 英尺 2 英寸,很明显乔是高个子而不是矮个子,桑迪是矮个子而不是高个子。表格中的 1 和 0 表明了这一点,这些情况似乎是明显的。然而,直觉上不应该将苏和加里归类为矮个子,尤其是当他们的身高与桑迪相比时,他们几乎与乔一样高。我们可能觉得适用于乔的情况也应适用于加里和苏,但传统逻辑要求一个人要么高要么矮,没有中间选项。

让我们考虑另一个例子。假设一家银行正在使用一组规则来决定申请人是否会获得贷款,其中一条规则是:

IF "X has a bachelor's degree" is TRUE 
AND Number of years employed ≥ 2
AND income ≥ $100,000
THEN "Loan approved" = TRUE

该规则本质上是说,拥有大学学位、已经工作两年或更长时间且收入较高(超过 10 万美元)的客户的申请将获得批准。假设一位申请人拥有硕士学位,收入超过 20 万美元,但只工作了一年零 11 个月零 27 天。在这种情况下,申请人将被拒绝。当然,在现实生活中,这种贷款拒绝是没有意义的,这种严格的阈值处理方式对银行和借款人都不利。基于模糊逻辑的决策将允许银行与潜在的优质客户建立关系,因为它会认识到一年零 11 个月零 27 天已经足够接近两年。

模糊逻辑有助于处理不确定、不精确、模糊、不完整和嘈杂的数据。它成为现代技术的基础,用于各种情况,包括面部识别、空调、洗衣机、汽车变速器、天气预报和股票交易。作为人类,我们经常在不知不觉中使用模糊逻辑。当我们停车时,我们不会考虑把方向盘向左转 20 度,然后以每小时两英里的速度倒车。相反,我们会考虑稍微向左转一点,然后可能再稍微向右转一点,然后缓慢倒车。防欺诈专家可能会制定一条规则,例如:“当跨境交易数量很高并且交易发生在晚上时,该交易可能可疑”,或者化工厂的经理可能会说:“如果储罐内的温度过高,降低压力。”

这些情景都不能用二元区分(如真/假、是/否或 0/1)来恰当地描述。模糊逻辑通过处理细微差别的输入而不是二元输入,使许多领域受益。

由于其处理不确定性和不精确性的能力,模糊逻辑在各个领域中提供了几个优势,使其非常适合处理模糊性特征的系统。此外,模糊逻辑在处理嘈杂数据时表现出色,即使处理不完整或不准确的信息时也保持高效。这种技术进一步简化了复杂控制系统,增强了它们在设计和理解上的直观性。这使得模糊逻辑在从工业控制和机器人技术到医学诊断和自然语言处理等众多应用中都非常有价值。

模糊逻辑在许多应用中具有强大的功能,但它也有局限性。其中一个关键挑战是其潜在产生难以理解或用日常语言解释的结果。这种缺乏清晰度在像医疗保健这样的关键领域中可能特别棘手,那里透明的解释是至关重要的。另一个限制在于选择适当的隶属函数和参数的复杂性。在这方面做出错误的选择可能会严重影响模糊逻辑系统的性能。例如,考虑在模糊逻辑系统内确定某物的热度或冷度;这些决定可能是主观的,并且常常严重依赖于专业知识。

2.5 遗传算法

假设我们想找到将产品从大型制造商运送到零售商的最有效方式。我们需要优化资源分配、选择最佳的时间、最佳路线以及需要优化的许多其他因素。使用遗传算法解决这一供应链问题涉及许多潜在解决方案(种群),包括不同的路线、分销计划和排程方法。我们应该选择一种评估(适应度评估)这些潜在解决方案的方法,根据交货时间、成本和其他因素。下一步是根据它们在速度、成本和其他因素方面的表现对解决方案进行排序,并选择(选择)这些解决方案中的一组需要组合(交叉)以找到最佳解决方案。

这个想法是将两个好的解决方案的部分结合起来,以创建一个更好的解决方案。例如,我们可以将一个解决方案的更快路线与另一个解决方案的资源分配结合起来,从而创建一个新的、更好的解决方案。偶尔,对解决方案进行随机改变(突变)可以导致完全新的策略和解决方案。一旦交叉和突变完成,我们将得到一个新的种群,它们应该更好,因为它们是结合最佳潜在解决方案的结果。我们重复这个过程多代直到没有改进或达到特定的周期数。

这个例子描述了遗传算法的方法。这种技术从一组潜在解决方案开始,评估它们,组合更好的解决方案,引入随机性来搜索新的选项,然后重复这个过程,直到找到最有效的解决方案。

遗传算法是优化算法。由 John Holland 于 1960 年发明并在多年来得到改进,其灵感来源于达尔文的自然选择原理,即所有物种都有一个共同的祖先,并且物种随着时间的推移而进化。达尔文还引入了自然选择的概念,即适应其环境的种群成员更有可能生存和繁殖后代。遗传算法的美妙之处在于其简单性。它不是通过彻底分析可能是天文数字的可能性来解决问题,而是生成问题的潜在解决方案,评估它们在评分系统上的性能,并将它们演化到某种理想状态。性能最差的候选解决方案被丢弃,最好的解决方案被保留,并且通过轻微修改顶级表现者来创建新的解决方案。新的变体与现有的解决方案进行评估,这个过程会持续下去,直到获得具有合适性能的解决方案为止。

在他更正式的描述中,Holland 通过使用恰当的术语(例如交叉适应度突变)将他的算法与自然选择联系起来。然而,为了在特定情况下保持这种类比,我们必须找到一个好的目标函数来评估随机生成的解决方案,我们需要一个足够大的种群大小,一个合适的突变率,以及一个有效的交叉程序来从现有解决方案中创建新的候选解决方案。

遗传算法通常包括以下步骤,如图 2.2 所示:

  1. 选择初始种群。每个种群成员代表了我们问题的一个可能解决方案。

  2. 使用选择的目标函数评估种群中的每个个体,并为其分配适应度得分。

  3. 消除得分低的个体。

  4. 通过突变或结合得分最高的个体的副本创建新个体。

  5. 将新个体添加到种群中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2.2 遗传算法的流程图

重复步骤 2 到 5,直到经过了指定的时间量,测试了预定数量的世代,或者该过程停止产生更高适应度的个体为止。当过程结束时,拥有最高适应度得分的种群成员即为问题的解决方案。

注意,理论上,可能仍然存在更好的解决方案,因此遗传算法最适合于接受足够好的解决方案的问题,对于这些问题,只需要达到令人满意但不完美的性能就足够了。

遗传算法相对于经典优化技术有许多优势。首先,它们相对容易理解,但可以用来解决极其复杂的问题。其次,如果给予足够的时间,即使完美解决方案不可用,它们也会始终提供接近最优的解决方案。第三,它们非常适合并行计算,这种方法会同时执行许多计算,从而实现快速求解。

在 1992 年,Holland 总结了遗传算法的概念,并在《科学美国人》的一篇文章[5]中宣扬了它的潜力:

实用主义研究人员认为,进化的卓越力量值得效仿,而不是羡慕。自然选择消除了软件设计的最大障碍之一:预先规定问题的所有特征以及程序应该采取的行动。通过利用进化的机制,研究人员可能能够“培育”出即使没有人可以完全理解其结构也能解决问题的程序。实际上,这些所谓的遗传算法已经证明能够在喷气发动机等复杂系统的设计中取得突破。遗传算法使得可以探索比传统程序更广泛的潜在解决方案。

为了更好地理解遗传算法的威力,让我们来看看著名的旅行推销员问题(TSP),以及其臭名昭著的组合爆炸,这个术语描述了问题的复杂度略微增加就会导致寻找解决方案的难度急剧增加。 TSP 要求我们找到访问一系列城市的最佳顺序,其中最佳路径可能是最短的,最经济的,或者可能是最风景如画的。由于要比较的路径数量可能极其庞大,制作列表并检查每个路线的长度并不是一个可行的选择。

遗传算法解决 TSP 的过程如下:

  1. 初始种群 —遗传算法从随机生成或使用启发式方法开发的初始解决方案种群开始。每个潜在解决方案是一个城市序列,其中每个城市仅访问一次,并且序列以开始时的第一个城市结束。

  2. 适应性函数 —适应性函数评估解决方案的质量。在 TSP 中,它可能是一个计算给定解决方案的总行程距离的函数。我们也可以选择使用不同的度量标准作为适应性函数。

  3. 选择 —总行程距离较短的解决方案将被保留用于下一步。也可以使用其他方法进行选择。

  4. 交叉 —交叉包括将两个解决方案组合成一个新的解决方案。在 TSP 中,这一步可能涉及选择一个解决方案的一部分,并用另一个解决方案的城市完成它,同时保持顺序。

  5. 突变 — 突变涉及在解决方案中引入微小的随机变化,以在潜在解决方案的种群中引入变化。在 TSP 中,突变可以涉及两个城市的交换。

来自交叉和突变的解决方案将成为我们的新种群。遗传算法通过前述步骤迭代,直到找到最佳解决方案或达到预定义的终止标准,如最大世代数。

遗传算法在各种优化问题中具有广泛的应用,涵盖供应链、金融模型、股票交易所、生产计划、汽车制造和机器人技术。考虑一个固定车队的学区,旨在有效地在每个孩子的住所接送他们并安全地将他们送到学校。他们的目标可能是发现一组路线,以最小化公交车的总行驶距离,同时确保没有孩子在上午 7 点之前上车,并确保每个孩子在上午 8 点之前到达学校。

随着要访问的位置数量的增加,问题的复杂性显着增加。这种复杂性在表 2.2 中生动地说明,该表概述了在访问各种位置时,假设任意两个位置之间有直接路径时,单个公交车的可能路线数量的指数增长。

表 2.2 学校校车路线示例的遗传算法的复杂性
要访问的地点数要比较的可能路线数
11
22
36
424
103,628,000
202,432,902,008,176,640,000

正如我们所看到的,数字变得非常大。解决类似的组合问题可能非常具有挑战性,在某些情况下,经典算法可能无法解决。在科学领域,就像在许多其他领域一样,最有效的想法通常很简单,而遗传算法提供了这个原理的一个典型例子,提供了一种简单但非常有效的解决复杂问题的方法。

遗传算法是一种强大的优化技术,但像所有其他 AI 方法一样,它们也有一定的局限性。首先,不能保证它们会找到最佳解决方案,它们的性能严重依赖于初始种群和参数调整。它们还需要大量的计算资源,对于复杂问题可能会很慢。此外,它们提供的解决方案可能难以解释。尽管存在这些限制,但遗传算法在解决各种类型的问题方面表现突出,特别是在复杂性较高的情况下,其他方法可能效果不佳的情况下。

摘要

  • 专家系统是使用由领域专家制定的if-then规则评估数据的软件程序。随着时间的推移,它们随着各种管理和部署模块的添加而发展,形成了业务规则管理系统。

  • 案例推理是一种将人类知识转化为广义案例的技术,然后可以应用于解决类似问题。

  • 模糊逻辑被引入以解决在现实场景中使用严格的真/假区分所带来的限制。当处理需要细致理解的问题时,它尤其有价值。

  • 遗传算法从生物学中汲取灵感,以找到问题的最优解决方案。它通过测试、组合和修改潜在解决方案来实现这一目标,保留表现良好的解决方案,而丢弃表现不佳的解决方案。

第三章:AI 精通:基本技术,第二部分

本章内容包括

  • 数据挖掘简介

  • 人工神经网络概述

  • 深度学习描述

  • 贝叶斯网络简介

  • 无监督学习概述

AI 专家阿瑟·塞缪尔,在第一章介绍了他 1959 年的跳棋程序的成功后,将机器学习定义为一门研究计算机如何在没有显式编程的情况下学习的领域。“没有显式编程”可能会误导,因为学习是通过数据挖掘和神经网络等技术实现的,这些技术依赖于工程师显式编程的算法。

在本章中,我们将探讨数据挖掘,这是一种从数据中提取有价值信息、模式和关联的技术。我简要介绍贝叶斯网络,这是一种编码感兴趣变量之间概率关系的方法。然后我介绍人工神经网络和深度学习,这些强大的模式识别算法在计算机视觉、自然语言和音频处理领域取得了令人印象深刻的结果。我们将本章内容以无监督学习结束,这些算法能够分析未标记的数据集以发现相似性和差异。我会提供足够的细节让你理解这些机器学习技术的含义和应用,但我们不会陷入理论的细节。

3.1 数据挖掘

想象一下一个能帮助杂货店确保货架上始终摆放着新鲜农产品的程序,精确地在需要时提供,消除了库存过剩或热门商品缺货的问题。该程序还擅长优化商店布局,战略性地放置互补商品以提高销量,调整价格以实现最大利润,并根据个别顾客过往的购买情况制定个性化促销活动和折扣,以增强客户忠诚度,提高销售额和优化利润。这个例子完美地说明了数据挖掘技术能为零售业带来的众多好处之一。数据挖掘是一种人工智能方法,包括一系列技术和算法,用于从庞大而复杂的数据源中发现隐藏的模式、关系和有价值的见解。随着组织越来越意识到从他们掌握的日益庞大的数据中提取可行动的见解的巨大价值,它的应用也是广泛的且不断发展的。的确,由于互联网的普及、电子商务的普及、大多数商业产品上的条形码的使用、社交媒体的普及和无处不在的网络追踪,近几十年来可用数据的数量呈指数增长。由廉价数据存储的推动促进的数据的激增,造成了需要自动化技术来从中提取知识和见解的需求。显然,个人无法处理或分析甚至是一小部分可用数据。

就像金矿开采一样,从一大堆岩石和沙子中提取金子一样,数据挖掘旨在发现庞大数据集中隐藏的有意义的相关性、模式、异常或规则。形式上,数据挖掘是指一系列用于分类、预测、聚类和市场篮子分析等任务的算法集合。这些算法利用统计、概率和数学技术来识别数据模式,其中一些实现的命名如 SLIQ [1] CART [2]、C4.5 [3] 和 CHAID [4]。

数据挖掘算法在各个行业都有应用。例如,迪士尼的 MyMagic+项目利用数据挖掘来增强其运营和基础设施的效率。一个显著的应用是将其用于最小化景点和餐厅等待时间。

食品行业利用数据挖掘进行需求预测和产品竞争定价。例如,像麦当劳这样的连锁公司利用数据挖掘来确定新店的最佳位置。地方政府应用数据挖掘来预测交通流量,特别是在高峰时段,而公用事业公司利用数据挖掘来预测电力需求并维持可靠供应。

典型的数据挖掘任务涉及分类,即将标记数据分类为有意义的组。从分析数据中得出的知识通常以决策树的形式表示。决策树是一种流程图,通过树中的一系列问题或测试将输入数据与适当的类别关联起来。每个节点评估数据的特定属性,每个不同的属性值对应于从该节点发出的一个分支。输出节点,也称为叶子节点或终端节点,表示一个类别或决策。位于输入节点和终端节点之间的节点通常被称为测试节点。

决策树的结构是根据数据推断出来的。数学公式被用来评估每个节点在有效地做出决策方面的潜在贡献,而最有区别性的节点被战略性地放置在树的开头。例如,如果你想确定一个动物是否是鸟类,你可能首先考虑的问题是它是否有羽毛,或者它是否能飞。另一方面,询问它是否栖息在森林中不会让你迅速做出决定。

3.2 防欺诈的决策树

银行承担着有效管理与信贷和支付交易相关的风险的重大责任。鉴于涉及的资金数额巨大,银行业务中的任何安全漏洞都可能对机构的声誉产生严重不利影响。当信用卡在商家位置使用时,一个高效的基于人工智能的系统必须迅速提供授权决策,通常在毫秒内。为了识别潜在的欺诈活动,这个系统需要评估与卡片相关的众多参数,同时处理每秒数万笔交易而不会造成任何延迟。考虑到在感恩节后的黑色星期五,即传统上标志着美国圣诞购物季开始的日子,系统所遭受的大量查询。

要构建一个发卡银行可以用于实时防欺诈的决策树,我们可能会分析他们信用卡交易的 18 个月。每个交易记录将包含许多属性,例如购买金额、购买时间和日期、国际还是国内商家、商家类别代码(表示商家业务类型)、地理区域,以及交易时卡片是否出现。每笔欺诈交易都必须由人工标记为欺诈。

决策树将通过权衡每个属性对帮助风险系统实时决定是否接受或拒绝信用卡交易来构建。属性空间将基于重要性进行递归划分,并且对于形成评估最有用的属性将放置在决策树的最前面。在防止欺诈的例子中,数据可能显示国际交易比国内交易更常见,因此,首先应该提出这个问题。因此,与这个问题相关联的节点将是树中的第一个。

创建了这个初始节点后,我们创建两个分支,一个用于国内交易,一个用于国际交易。然后我们重复这个过程,以找到与每个分支相关的交易最具有区分性的问题。对于国内交易,也许数据显示,在线或电话交易的欺诈可能性显著高于刷卡交易。

在这种情况下,我们接下来可能要问的最重要的问题可能是卡片是否出现在交易中,而在决策树中跟随国内分支的节点可能会解决这个问题。我们会在国内路径上创建一个“卡片存在”分支和一个“卡片不存在”分支,并且我们会重复这个过程,直到所有可用属性都以高效的决策树形式表示出来。图 3.1 展示了我们正在讨论的决策树的前几个节点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3.1 决策树的前几个层级。在实际应用中,完整的树可能包含数千个节点。

对于商业应用,我们并不总是仅依赖于交易记录中可用的原始属性。我们可能还会尝试通过进一步的分析来丰富数据的属性。对于我们的信用卡授权问题,我们可能意识到过去 15 分钟或过去一小时内执行的交易数量的问题的重要性,或者研究可能会识别涉及餐厅和加油站的可疑购买模式。决策树中表示的逻辑有时会被转化为一组if-then-else规则,这样做更容易理解,特别是如果树非常大的话。

总结一下,数据挖掘项目通常遵循一个迭代过程:

  1. 了解应用领域和数据挖掘项目的目标

  2. 收集数据,这通常涉及成本高昂的标记步骤

  3. 整合来自各种来源收集的数据

  4. 清理数据以消除不一致性

  5. 分析以识别丰富数据的新属性

  6. 将数据分成至少两组,一组用于训练,一组用于测试

  7. 选择合适的数据挖掘算法

  8. 使用指定的训练数据构建系统

  9. 对决策树进行修剪,以保持模型足够的一般性

  10. 使用指定的测试来测试模型并评估其性能

  11. 测试模型的可扩展性和韧性

  12. 重复步骤 2 至 11 直至达到期望的性能

  13. 部署模型并将系统集成到运营中

图 3.2 显示了一个流程图,概述了数据挖掘模型的创建和部署过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3.2 描述了设计和部署数据挖掘模型的各个步骤的流程图示例

虽然决策树算法是最流行的,但也使用其他数据挖掘技术。例如,关联分析经常用于市场篮子研究,试图识别出倾向于一起购买的产品集。这种直接的方法基于加法、交集和并集。例如,假设我们有一百万张收据,其中有 20,000 张包含购买面包和奶酪,5,000 张包含面包、奶酪和橄榄。我们可以从这些数据推断,购买面包和奶酪的顾客还购买橄榄的可能性为 25%。通过关联分析获取的关于顾客购买习惯的信息可以用于制定交叉销售策略、提供相关优惠券,甚至优化产品在商店货架上的展示方式。通过相关方法获得的信息可以用于预测返利活动的效果或制定改善客户保留的策略。

数据挖掘提供的预测和指导的价值严重依赖于输入的质量,“垃圾进,垃圾出”(GIGO)这句格言非常贴切。不可靠的数据导致不可靠的模型,当从多个来源以不同格式编译数据时出现的不一致性会带来重大问题。软件甚至人员几乎无法辨别数据是否被错误标记,而且在数据首次记录时个人可能会产生的偏见和其他主观影响也是挑战之一。在实际情况中应用数据挖掘也会面临实际挑战。例如,决策树的结构和逻辑无法根据新信息逐步更新,因此决策树无法有效地适应数据和行为的变化。

3.3 人工神经网络

想象一下,我们想教会计算机如何识别手写数字 0 到 9。一开始,我们向我们的程序展示了许多手写数字的图片(训练示例)来训练程序。我们的程序依靠不同的层来学习。例如,第一层会查看图片并尝试识别边缘和曲线等东西。下一层将使用第一层的结果来寻找形状,如环和线。例如,数字 8 有一个形状,类似于两个圆叠在一起。我们可以通过进一步深入更多的层来继续这个过程。通过所有这些层后,我们的程序猜测图片中的数字是什么。我们将我们程序的猜测与图片中的正确数字进行比较。如果程序猜错了——例如,当数字实际上是 7 时,它猜测成了 1——我们告诉程序它犯了一个错误。然后程序将调整其参数(数值),这些参数作为程序分类背后的秘密配方。这些数字反映了某些形状、输入或特征的重要性以及它们如何强烈地影响程序的响应。在训练过程中,程序通过称为反向传播的过程微调这些参数(称为权重),该过程通过发现最小化错误的权重的最佳组合来学习识别模式和做出正确的预测。这些权重是我们的程序学习将不同的信息片段分配重要性的方式。我们提供的图片越多,我们的程序就会越好地学会识别数字。在这个例子中,我们描述了训练神经网络的方法。

人工神经网络被构想为将输入数据转换为输出数据的脑细胞的算法模型。这个概念的引入归功于 1943 年 McCulloch 和 Pitts,当时他们证明布尔运算可以使用“神经”元素来执行,这些元素模仿生物神经元。自 1950 年以来,这个领域取得了重大进展。

1958 年,Frank Rosenblatt 引入了感知机,标志着人工神经网络领域的一个关键时刻,因为它能够根据训练数据学习和调整其决策。尽管感知机是一个简单的程序,有许多限制,但它为神经网络的进一步发展奠定了基础。1960 年,Bernard Widrow 和 Marcian Hoff 开发了第一个应用于实际问题的神经网络系统。他们设计了 ADALINE(自适应线性神经元),它识别二进制模式,使其能够在读取来自电话线的流比特时预测下一个比特。MADALINE(多个 ADALINE)被开发出来以消除电话线上的回声。

在他 1974 年的博士论文中,于 1994 年重印的[5]中,Paul Werbos 提出了使用神经网络来近似动态规划开发强化学习系统的构想。动态规划是一种将复杂问题转化为一系列简单问题的优化方法。1986 年,Rumelhart、Hinton 和 Williams 重新发现了反向传播技术,并通过发表反向传播训练算法[6],使这一基本技术广为人知。

反向传播算法结构包括一个输入层、一个或多个隐藏层和一个输出层。每个节点或人工神经元都连接到另一个,并具有权重和阈值。如果任何节点的输出超过指定的阈值,该节点将被激活,将数据传输到网络的下一层。否则,不会将数据传递到网络的下一层。图 3.3 描述了一个具有三层(输入、隐藏和输出)的反向传播算法结构。

  • 输入层—该层接收输入到网络中的输入数据。

  • 隐藏层—神经网络使用连接层之间的权重值对从训练数据中学到的信息进行编码。

  • 输出层—输出层收集了隐藏层中所做的预测并计算模型的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3.3 一个具有三层的反向传播模型

图 3.3 中的输入值为 0.5、0.6 和 0.2。输入层和隐藏层中的每个节点都连接到下一层的所有节点,并且在特定层内部之间没有连接。每个节点之间的连接都有一个关联的权重因子。最初,节点之间以随机权重连接。训练过程包括通过迭代处理一组训练样本并将其预测与每个样本的正确标签进行比较来修改这些权重的值。当结果不同时,权重会被调整。这些权重修改是向后进行的(即,从输出层通过每个隐藏层向下到输入层),因此称为反向传播算法。虽然不能保证,但权重最终会收敛,学习过程结束。这些修改后的权重,它们是介于 0 和 1 或-1 和 1 之间的数字,代表了神经网络学到的内容。

单个神经网络节点的输入必须是数值型的,并且必须落在闭区间范围内[0,1]或[-1,1],这需要将输入归一化为训练示例中每个属性的值在 0 到 1 或-1 到 1 之间。可以对离散值属性进行编码,使每个域值有一个输入单元。举个例子,假设我们有属性婚姻状况,其值为单身、已婚、丧偶和离婚。一种可能的方法是将这四个值表示为单身=(1,0,0,0)、已婚=(0,1,0,0)、丧偶=(0,0,1,0)和离婚=(0,0,0,1)。

对于数值数据,我们可以应用简单的公式

规范化值 = (值 – 最小值) / (最大值 – 最小值)

其中 MIN 表示数据集中的最小值,MAX 表示数据集中的最大值。

例如,考虑数字 2、4、5、6、20、56 和 62。最小值为 2,最大值为 62,范围为 60。按照规范化过程并四舍五入到最接近的百分之一,得到表 3.1 中的结果。

表 3.1 规范化过程
原始数规范化值
2(2 – 2)/60 = 0
4(4 – 2)/60 = 0.03
5(5 – 2)/60 = 0.05
6(6 – 2)/60 = 0.07
20(20 – 2)/60 = 0.3
56(56 – 2)/60 = 0.9
62(62 – 2)/60 = 1

反向传播算法仍然是训练监督式人工神经网络的广泛使用的方法。最初,神经网络的连接是使用随机生成的权重建立的,通常在 0 和 1 之间,连接不同的节点。训练过程是迭代的,涉及将训练示例呈现给网络。

在每次迭代过程中,将一个带标签的示例输入到网络的输入层。然后算法通过一种称为前向传播的过程计算网络的输出,这包括通过隐藏层进行计算以产生最终输出。随后,算法将此输出与预期结果或目标值进行比较。当计算得到的输出值与预期结果不同时,反向传播算法就会起作用。它通过沿着隐藏层向输入层进行回溯,调整网络的权重以最小化误差。这个迭代过程将持续进行,直到网络的性能提高并达到所需的准确度。

尽管成功并非肯定,但这个过程会通过大量周期的重复来重复,直到满足以下两个条件之一:权重收敛,使得神经网络能够正确评估所有测试样本,或者神经网络的误差落在可接受的阈值范围内。基本上,神经网络“学到”的东西归结为一组介于 0 和 1 之间的数值(调整后的权重)。这些调整后的权重概括了人工神经网络所代表的本质。

虽然使用反向传播算法训练的神经网络已经证明其在各种问题上的效用,但它们也存在几个固有的局限性。首先,这些网络往往运作为神秘的黑盒,因为训练模型的内部工作,包括它识别的关键特征,可能很难检查。这种不透明性源自隐藏层之间的复杂关系,主要由数字权重(通常介于 0 和 1 之间)组成。因此,神经网络模型难以解释其决策,这可能是一个重大的缺点。在问责和透明度至关重要的情境中,这种限制变得尤为令人担忧。

其次,神经网络的设计并不是一项直接的任务。它涉及做出关键决策,如确定最佳数量的隐藏层,配置这些层内节点之间的连接,设置权重调整的学习速率,选择适当的训练数据,并建立稳健的测试和验证程序。这些设计选择显著影响了网络的整体表现和有效性。

最后,虽然神经网络需要大量的计算资源,但并不能保证训练过程会产生高度有效的模型。达到最佳解的收敛并不是确定的,而在训练过程中可能会出现过拟合或欠拟合等问题。

3.4 深度学习

深度学习,经常被誉为人工智能的典范,几乎已经成为 AI 本身的代名词。安东尼·W·科斯纳在 2015 年的一篇 Forbes 文章中称为“深度学习和机器智能将吞噬世界” [7],以及阿普尔夫·米什拉在 2017 年发布在 科学美国人上的一项声明中 [8],声称深度学习已经使得人工智能达到了能够在解释视觉数据方面匹敌甚至超越人类专家的地步,比如在医学领域。2018 年,CNN 报导称,由阿里巴巴(BABA)和微软(MSFT)开发的深度神经网络已经在斯坦福大学的阅读理解测试上超过了人类的表现 [9]。

然而,尽管深度学习具有令人印象深刻的名誉,值得一提的是,我们标签为“深度学习”的许多方面可能已经很熟悉了。将神经网络与传统的反向传播相比较,“深度”是指隐藏层的数量,有时也涉及节点的连接方式。增加更多隐藏层的主要优势在于它们已经被证明具有能力从简单概念构建复杂概念的等级结构,使其在辨别各种特征方面非常有效。图 3.4 提供了典型深度神经网络架构的可视化表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3.4 一个深度神经网络架构

深度学习算法的根源可以追溯到 1960 年代中期 Ivakhnenko 和 Lapa 的工作。 在他们 1965 年的报告《控制预测设备》[10]中,他们探讨了利用具有输入和输出层之间分层节点的人工神经网络进行模式识别的方法。 他们认为深度网络在处理具有非线性特征的问题时具有计算优势,特别是与经典网络相比。

在当代的深度学习中,基本方法仍然根植于反向传播算法的概念。 无论数据类型如何,通常都会将其转换为 0 到 1 之间的数值向量。 深度学习的核心仍然围绕着权重调整,这些权重由 0 到 1 之间的数千个数值表示。 虽然深度学习主要以监督方式运作,其中训练数据包含许多精心标记的样本,但值得注意的是,该领域已经扩展到包括各种传统监督学习以外的学习范式,包括无监督学习、强化学习和半监督学习。 这种更广泛的技术范围赋予了深度学习在不同领域处理各种任务的能力。

举例来说,让我们开始一个简单的项目:创建一个能够对猫和狗的彩色照片进行分类的深度学习系统。 在设计这样的模型时,我们可以探索两种盛行的架构:卷积神经网络[11]和视觉变换器[12],它目前主导了计算机视觉任务解决方案的格局。

感谢英国医生托马斯·杨(Thomas Young)于 1802 年的见解,我们知道了如何将彩色图像转换为 0 到 1 之间的一系列数字。 杨的工作阐明了 RGB(红、绿、蓝)颜色系统,这使我们能够将图像中的颜色表示为这三种基本颜色的组合。 因此,我们图像中的每个像素可以用三个数字集来描述,表示其在 RGB 光谱中的颜色。

训练过程遵循类似的权重调整模式,这是神经网络的一个特点。 通过足够数量和高质量的训练数据以及良好设计的网络,我们的深度神经网络应该能够准确识别测试用的大部分图像。 值得注意的是,我们保持了用于训练和测试的独立数据集,以评估训练过程的有效性。 此划分允许我们在以前未见过的数据上验证模型的性能。

总之,设计深度学习项目的过程可以概括为以下几个步骤:

  1. 明确目标—清晰地表达神经网络的预期目的和其力图解决的问题。

  2. 数据收集—积累大量与项目目标相关的高质量数据。

  3. 数据标记—为数据分配适当的标签。这可能涉及手动标记或其他标记方法,具体取决于项目的要求。

  4. 数据分割—将带标签的数据分隔成不同的集合,通常至少两个:一个用于训练模型,另一个用于无偏见的测试。

  5. 数据预处理—通过归一化和转换为矢量形式,准备数据输入神经网络中。

  6. 性能评估—开发一个强大的评估框架来评估网络的性能,选择与具体任务相关的相关指标。

  7. 模型优化—通过微调参数和调整架构来持续改善模型,以减少错误并防止过拟合。

3.4.1 深度学习的好处

辨识深度学习的优势是一项多方面的努力,这要归功于其出色的适应性。其核心优势在于从庞大、复杂的数据集中提取模式并获取见解的能力。这种能力在广泛的行业中具有重要价值。它在医疗保健领域发挥作用,促进疾病诊断,在金融领域,它增强了风险评估和欺诈检测。在自然语言处理中,深度学习模型使机器能够理解并生成人类语言,从而在虚拟助手和语言翻译领域取得突破性进展。

深度学习在图像识别方面也表现出色,它推动像面部识别和自动驾驶这样的技术。这些模型具有自动化任务的能力,从而提高生产力并节省相当多的成本。此外,深度学习使企业能够为客户提供高度个性化的体验,根据个人喜好定制推荐内容和服务。

另一个值得注意的优势在于预测分析,深度学习模型分析历史和实时数据,以预测销售、预测市场需求,并做出数据驱动的决策。类似地,深度学习的出色的计算机视觉能力自动化任务,如图像识别、目标检测和制造业质量控制,从而提升运营效率和产品质量。

通过克服曾被认为不可逾越的数据挑战,深度学习成为最具变革性的技术之一,推动各个领域的创新。

3.4.2 深度学习的限制

让我们首先考虑 Keras 深度学习库的创作者 Francois Chollet 的见解,他也是 TensorFlow 机器学习框架的重要贡献者。Chollet 指出:

[The] 深度学习模型 “只是” 一系列简单的连续几何变换,将一个向量空间映射到另一个向量空间。它所能做的就是将一个数据流形 X 映射到另一个流形 Y,假设存在一个可学习的连续变换从 X 到 Y,并且 X: Y 有一个密集的采样可用作训练数据。大多数希望学习的程序无法表示为数据流形的连续几何变形。

对于深度学习的更深入探索,我推荐阅读 Chollet 的优秀著作,Python 深度学习 [13],其中引用的内容即来自此书。

深度学习这两个术语与计算机结合起来可能会让人误以为计算机真正地以深刻的方式进行学习。然而,正如我们在本书中所探讨的,深度学习算法本质上是数学公式。仅仅使用公式,我们无法定义或创造真正的智能。这就是为什么,当PYMNTS杂志在 2017 年 10 月询问我对深度学习的看法时 [14],我的回答是:“在你使用‘深度’这个词之前,先给我看看学习。”我们将在第六章进一步探讨这个话题。

在我遇到的许多业务应用中,由于需要大量标记数据,应用深度学习网络可能会面临挑战。许多企业不仅缺乏必要数量的数据,而且还缺乏标记数据。即使数据可用,设计和训练深度网络可能是耗时的,而且当应用于偏离其训练数据的数据时,这样的网络通常性能不佳。

例如,考虑 AlphaGo,它需要数百万个训练场景和数年的专家团队精心设计。虽然它在围棋游戏中表现出色,但要将其适应其他用途则需要不同的数据科学家和工程师团队进行大量的工作。每次对深度学习项目的目标进行更改都需要进行昂贵的重新训练。

公平地说,深度学习近年来受益于计算速度的提高,这要归功于专门为其设计的专用硬件。在一些特定领域,有大量标记数据可用于训练。例如,ImageNet 项目提供了超过 1400 万张由人类注释的图像,使其成为物体识别测试的宝贵资源。然而,对于大多数问题,与深度学习相关的挑战仍然存在。

此外,深度神经网络容易受到通过对抗性示例的黑客攻击的影响。通过微妙的像素改变,一个人可以干扰一个深度学习监控系统的训练,该系统旨在检测入侵者。即使创建对抗性攻击可能并不直接,问题仍然存在:当涉及到关键任务时,我们应该信任具有这种脆弱性的技术吗?

即使在深度学习算法展示高效率的领域,一个关键的方面通常缺乏的是可信度。一个无法提供其结论理由的系统,人们怎么能信任它呢?深度学习算法,就像传统的神经网络一样,是黑匣子。想象一个军事操作员必须为这样一个系统做出的生死决定提供理由的情景。我们怎么能允许在具有重大社会影响的应用中使用这样的系统,比如刑事司法或信贷?

这些问题促使欧洲委员会出台一项监管框架,旨在确保所有在欧洲使用的 AI 程序能够可靠地保障个人和企业的安全和基本权利。欧盟执行委员会执行委员玛格丽特·韦斯塔格强调了对 AI 的信任的重要性,她说:“在人工智能领域,信任是必须的,而不是一种美好的愿望。通过这些里程碑式的规定,欧盟正在引领新的全球标准的制定,以确保人工智能能够值得信赖” [15]。

这一监管框架根据 AI 系统的风险级别进行分类,并施加相应的限制。这些限制从完全禁止可能对安全或生计构成威胁的程序,到对那些用于关键基础设施的程序进行严格检查,如交通运输、教育、招聘、信用评分、执法、刑事司法或选举。在欧洲使用的 AI 系统必须遵守以下要求:

  • 必须使用适当的数据集以最小化偏见和歧视性结果的风险。

  • 必须确保完全可追溯,以便进行监督。

  • 必须有详细的文档可供查阅以解释系统的运行情况。

  • 必须向决定是否使用这样一个系统的个人提供清晰而充足的信息。

  • 必须建立有效的人工监督和监控机制。

  • 技术必须有目的、健壮、安全、准确且无偏见。

重要的是要注意,虽然深度学习是一种普遍的 AI 方法,但并不是所有的深度学习解决方案都天生无法满足这些要求。然而,在解决与信任和透明度相关的问题上仍然是该领域面临的重大挑战。

至于为什么这个领域始终备受瞩目,一个显而易见的解释是使用诸如“神经元”之类的术语,以及将神经网络呈现为受到生物启发且具有与人类相似结构的结构。在第六章中,我们将详细阐述为什么这种说法是荒谬的。

强化学习是一种追溯到早期控制论的机器学习方法,通过反复试错来学习行为。它的核心原则围绕着使用奖励和惩罚作为强化信号。阿瑟·塞缪尔在 1956 年的跳棋程序中首次运用了强化学习。这个程序自我对弈,随机移动并根据跳棋规则评估结果,以确定最佳策略。强化学习在可以明确定义正面行为奖励的环境中特别有益,尽管在现实世界的应用中很少有这种明确性。

3.5 贝叶斯网络

与我在商业领域使用的之前的人工智能技术相比,我对贝叶斯网络的经验有限。尽管如此,我将提供一个简要概述,因为它们提供了一种成熟的方法,可以在涉及概率描述的项目中发挥价值。

贝叶斯网络作为描绘各种事件之间相互作用的地图,使我们能够理解一个事件的变化如何对其他事件产生连锁效应。更具体地说,贝叶斯网络属于使用有向无环图来描述变量之间关系及其概率依赖关系的概率模型类别。它们的根源可以追溯到托马斯·贝叶斯和他于 1763 年遗稿出版的手稿。贝叶斯定理引入了条件概率的概念。该定理提供了一个公式,用于在获得新证据时调整信念,阐明了根据与该事件相关的条件信息来计算事件发生的可能性。表达贝叶斯定理的一种方式是,事件 B 发生的概率,假设事件 A 已发生,乘以事件 A 发生的概率,等于事件 A 发生的概率,假设事件 B 已发生,乘以事件 B 发生的概率。

贝叶斯网络包括了感兴趣变量之间的概率关系。它由类似于有向无环图或信念网络的结构组成,节点由边连接。每个节点代表一个变量,有向边表示这些变量之间的条件依赖关系。

例如,考虑一个用于天气预测的贝叶斯网络,其中一个表示云的节点与一个表示雨的节点相连,箭头从云指向雨。如果将云节点设置为 40%,表示云条件的可能性为 40%,则雨变量的值将取决于云变量。也许,如果天阴,下雨的可能性为 30%,而如果不是阴天,则只有 5% 的可能性。该模型可以通过计算各种场景的可能性和依赖关系来处理这些概率:多云而不下雨,多云而下雨,不多云而下雨,或者不多云而不下雨。在具有数百个节点和依赖关系的更复杂的贝叶斯网络中,它们可以用来推断特定变量在决定结果方面的整体重要性。

图 3.5 是由圣彼得堡沿海和海洋科学中心的研究人员开发的一套贝叶斯网络,用于(a)生成总水位的情景,(b)预测风暴影响,以及©预测沙滩恢复的大小。这些贝叶斯网络融合了来自历史性和飓风桑迪后研究项目的地形、水深和海岸线数据。贝叶斯网络以概率形式生成了沿海变化的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3.5 一个贝叶斯网络的示例

贝叶斯网络于 1970 年代末首次亮相,作为模拟阅读理解中分布式处理的手段。这种建模方法旨在将语义期望与感知证据相融合,形成一致的解释[17]。被誉为贝叶斯网络鼻祖的朱迪亚·珀尔在《为什么的故事》[18]中阐述了如何设计用于不确定性推理的软件:

我坚信任何人工智能系统都应该模拟我们对人类神经信息处理的理解。我认为,机器在不确定性下的推理应建立在类似的消息传递架构之上。困扰我的问题是:这些消息应该是什么?经过几个月的努力,我最终发现这些消息采取了两种形式——一个方向上的条件概率和另一个方向上的可能性比率。

珀尔设想了一个分层网络,每个节点向相邻节点传递其信念。接收节点以两种方式之一处理传入信息:当消息从父节点到子节点流动时,使用条件概率更新其信念,或者当消息从子节点到父节点移动时,通过与可能性比率相乘来调整信念。

尽管贝叶斯网络有其优点,但与其他机器学习方法类似,它们也有局限性。它们基于精确的概率运作,这可能与现实世界中不精确的知识情景不符,需要置信区间,例如在 56%和 62%之间。在试图在复杂领域中创建贝叶斯网络结构时,另一个重大的限制出现了。虽然专家们可以定义简单的贝叶斯网络,但在许多领域,为人类操作者构建这样的网络往往是一项艰巨的任务。理想的情况是计算机能够从数据中自动学习网络结构、参数和条件概率,然而在大多数实际应用中,这仍然是一个重大挑战。从数据构建贝叶斯网络的普遍有效方法的缺乏意味着它们的创建往往需要大量的时间和人力投入。

3.6 无监督学习

无监督学习是人工智能领域的一种方法,其中算法被用来在不依赖标记输出的情况下识别数据中的模式和结构。其主要目标是基于内在的相似性、差异或隐藏结构对数据进行分组。例如,无监督学习技术如聚类在零售领域中证明了其无价之处,因为它们使得将具有相似购买行为的客户进行分组成为可能。这种分类可以揭示出不同的客户细分,如注重预算的购物者、奢侈品爱好者和偶尔购买者,从而使零售商能够更有效地调整营销策略,提供定制的产品推荐,并优化库存管理,以满足其客户群体的多样化需求。

无监督学习擅长从无组织或未标记的数据中提取有意义的见解和知识,帮助组织做出明智的决策。为了说明无监督学习的效能,考虑其在打击洗钱问题上的作用,这是一个需要应用该技术的关键社会问题。

尽管实施了严格的立法,但犯罪分子和恐怖分子在其非法活动中表现出了足智多谋和持久的特点。根据联合国毒品和犯罪办公室的数据,单年全球洗钱金额估计占世界国内生产总值的 2%至 5%,换算成 2022 年的美元为惊人的 8000 亿至 2 万亿美元[19]。

洗钱活动主要旨在隐藏非法获取的资金并模糊其来源。通常,通过一系列故意设计成难以追踪的复杂金融交易来实现这一目的。洗钱者经常采用巧妙的策略,经常将非法交易与合法企业的交易混合在一起。他们通过隐藏所有权结构进一步复杂化了问题,例如在监管松懈的司法管辖区创建信托和离岸公司。此外,他们利用现代工具和技术,包括加密货币、货币交易所、国际汇款,甚至现金走私,来促进他们的活动。互联网技术的普及只加剧了这些挑战,因为在线拍卖、赌博、银行业务和点对点支付应用程序为他们提供了额外的途径来保护其匿名性。

下面的洗钱案例[20]描绘了一个在数年内发展并涉及众多个人的情景:

汤姆是一名政府雇员。在他成为赌徒后,他能够支持他的家庭。在他的职位上,他有权提出和批准私营公司在公共部门竞争的项目。他的赌博习惯推动了他的腐败,大型商人愿意付给他很高的钱以换取政府业务的保证,汤姆通过他的腐败活动很快变得富有。汤姆的朋友吉娜拥有一家交易和旅游公司,愿意帮助他洗钱。她利用她的员工作为“替罪羊”,创建了许多不同的银行账户,通过这些账户可以洗钱——总共超过 400 万美元被洗钱。然而,现金支付和随后的转移离岸风险引起了注意,因此汤姆开发了一种更复杂的洗钱方法——一个水果送货公司。这家公司由吉娜的丈夫拥有,三个月内洗了 270 万美元,通过创建虚假发票来伪装交易,这些发票是商人根据汤姆的指示结算的。汤姆洗钱的总金额被估计在 10 亿美元左右。值得注意的是,机构的披露是因为最初的简单洗钱方案,而后来涉及成熟公司的方案似乎没有什么泄露风险。

在打击洗钱方面,监督学习方法由于几个引人注目的原因而证明是不足够的。一个重要的挑战之一是在创建有效的训练和测试数据集时遇到的困难,有时甚至是不可能的。洗钱计划并不是孤立的、离散的事件。罪犯们经营得很小心,使用复杂的策略来掩盖他们的活动。这些复杂的情景不能通过监督学习中通常用于标记样本来准确地表示。

此外,监督技术缺乏适应性,而犯罪组织非常灵活,不断地发明复杂的策略来规避检测。他们的假设是他们的财务交易受到监视,精心制作每一笔交易以模仿合法活动。例如,像餐馆和夜总会这样以现金交易为主的企业可以存入大笔款项而不引起金融机构的怀疑。这使它们非常适合洗钱,因为它们可以处理大量的现金交易而不引起警觉。

由于监督学习在打击洗钱方面的无效性,当前的方法主要依赖于反洗钱专家制定的预定义规则来标记可疑交易。然而,正如前面讨论的,业务规则在动态环境中有显著的局限性。因此,当前的反洗钱解决方案遭受高比例的误报率。一些估计甚至表明,多达 90%的合规分析师时间都花在调查这些系统产生的大量误报上。

有效地打击洗钱需要应用无监督学习技术。其中一个主要的无监督学习方法是聚类,它试图将未标记的数据分为组或簇。这些群集是由每个组内示例之间的相似性定义的,从而使异常的识别成为可能。例如,一组电汇可能根据频率、金额和受益人的类型等因素进行分组。分析可能会揭示来自相关经纪公司、工业公司或货币传输者的转账之间的联系。这些聚类的转账也可能展示出共同的金融特征,例如共享账户或账户类型以及与相同的金融机构和个人的关系。当调查人员在制造公司或保险公司的活动中发现异常模式时,这促使更仔细地审查,以确定这些企业是否可能是洗钱的幌子。

无监督学习虽然是机器学习中的一个强大工具,但它也有其自身的局限性。最关键的局限性是对无监督模型的评估。与有监督学习不同,我们无法依赖标记的输出来评估性能,无监督学习缺乏明确的度量标准或评估学习表示质量的指导。此外,无监督学习模型可能对超参数和初始化的选择非常敏感,这使得确定特定问题的最佳设置变得具有挑战性。

3.7 那么,什么是人工智能?

在探索人工智能及其多种技术后,自然而然地会对人工智能的当代格局产生兴趣。值得注意的是,我仍然坚持我在 1988 年博士论文[21]中提出的相同定义:

人工智能本质上是一组人类编码的数学算法,主要根植于概率和统计学。这些算法的目的是审查数据,并从属性和概念之间的见解模式和相互关系中提取深刻的模式。

概要

  • 数据挖掘是突出的人工智能技术,用于分析大量数据集并发现模式。由于其能够提供人类可读的知识提取解释,因此在各个领域都很受欢迎。

  • 人工神经网络代表了另一种重要的人工智能技术,能够从大量数据集中学习。这些网络由相互连接的节点层组成,在训练过程中,调整连接这些节点的权重以编码有关模式的信息。

  • 深度学习是神经网络的延伸,引入了比早期模型更多层的网络。然而,重要的是要注意,层数的增加并不一定等同于更高的智能。相反,它允许深度学习网络捕获复杂的层次模式和表示。

  • 贝叶斯网络,起源可以追溯到 260 多年前,是一种统计模型。它们在无监督学习技术(如聚类)中特别有价值,使它们成为处理未标记数据的实用选择。

  • 无监督学习是一种强大的人工智能技术,利用算法在不需要标记输出的情况下识别数据中的模式和结构。

第四章:智能代理技术

本章涵盖

  • 智能代理简介

  • 属性如何表示

  • 智能代理如何相互通信

  • 智能代理如何解决实际问题的示例

当你将想象力拓展到新的领域,“不可能”就会变成“可能”。

想象一群安全专家共同保护敏感的金融信息。每位专家都专注于特定领域,比如监视传入网络流量是否存在异常活动,检查客户账户的安全性,监督员工的访问和权限,包括复制或下载敏感数据等操作,以及分析数字通信中是否存在可疑对话或数据传输。虽然每位专家都有自己独特的任务,但他们都共享一个共同的目标,那就是保护金融机构。为了实现这一目标,他们通过分享见解和数据进行合作。例如,如果客户账户中出现异常活动,就会触发警报,立即由网络流量专家进行分析,并与员工访问日志进行交叉参考。如果有什么可疑之处,协作的专家们可以迅速采取行动,比如阻止活动或发出警报。在这个例子中,我们描述了智能代理方法,这是一种基于使用自适应、自主和目标导向实体来解决问题的强大人工智能技术。智能代理被设计成以目标导向的方式与环境和其他代理进行交互,利用他们的知识和能力来实现最佳结果。这项技术的最大优势之一是,智能代理不仅仅是被编程来遵循规则;它们会适应并不断从活动中学习。

智能代理范式基于反应性、自主和目标导向的实体协作解决问题。智能代理平台应提供以下能力:

  • 自主性——代理通过相互通信来运行。

  • 反应性——代理感知其环境并对发生的变化做出反应。

  • 目标导向——代理具有目标,每个代理都会为实现目标而行动。

  • 出现性——解决问题将作为代理之间通信的副作用而出现。

智能代理平台是自适应的,因为它们从与环境和其他智能代理的互动中学习,以随时间改进其性能。

智能代理技术被应用于大规模商业软件系统的设计,涉及领域包括欺诈防范、数据泄露检测、空中交通管制、网络管理以及许多其他需要适应问题参数变化的关键任务应用。在欺诈防范的背景下,可以将智能代理视为一个合作的侦探团队。每个侦探(智能代理)负责监视其负责保护的客户的所有交易。这些智能代理学习客户的消费模式,包括他们花多少钱、购买什么、在哪里购买以及多久购买一次。

4.1 智能代理的原理

对智能代理技术的彻底讨论需要一整本书。在这里,为了我们的目的,我将试图概述这种方法的工作原理,并提供一个与传统方法有何不同的一般感觉。一些区分智能代理方法的特点包括集体推理、分布式架构、个性化、适应性和自学习。为了突出这些特点,并将智能代理技术与更传统的方法进行对比,我们将首先审视后者通常如何解决问题。

传统的人工智能依赖于四个主要概念来呈现和算法化解问题:

  • 一个 初始状态 代表了待解决问题的情况。

  • 一个 目标状态最终状态 代表了给定问题的解决方案。

  • 一组 操作符约束条件 描述了状态的可能变化。

  • 一个 控制策略 控制着状态之间的过渡。

在这种传统的范式下,解决问题的方法是有组织地探索允许的状态转换,以便找到一些最佳的变化序列,从初始状态导向目标状态。潜在解决方案被生成并测试,直到达到目标或者直到没有更多可能的解决方案可以评估为止。对于存在组合爆炸的问题来说,这种穷举、蛮力的方法显然是不切实际的。

一种类似但略有不同的方法涉及定义某种表达两个状态之间距离的度量标准。从给定状态开始,系统可以评估所有合法的转换,并选择导致的状态与已定义的度量标准最接近的目标状态之一。根据问题的不同,这个过程可能会生成一个最佳解决方案或一个非最佳解决方案,或者如果其推理只导致死胡同,则可能根本无法产生解决方案。仍然,其他方法可能使用规则和约束,如第二章和第三章所述,来系统地减少需要探索的状态数量。

与探索所有可能状态和转换空间的方法相反,可以使用智能代理来在以其最显著特征来定义的问题的信息上进行组织。每个问题特征将与一个智能代理相关联,该代理充当一个具有自己的数据结构和邮箱的独立计算实体。代理之间的通信将导致问题解决方案的出现。

与传统编程和许多人工智能技术不同,其中属性只是值的标签,我们智能代理系统中的属性本身就是智能代理。事实上,在程序中,属性在某种意义上是最重要的代理。它们对发生的一切都有全局视角,并且与之相关联的评估函数。评估函数可以随时间改变,并且可以被所有代理用来决定自己的目标。

一个智能代理程序应该准确地代表被建模的物理世界实际情况。它还需要反映系统中每个代理的抽象视角。代理的环境代表了代理认为是真实的一切,包括具有临时或条件有效性的声明。

当代理在其邮箱中接收到消息时,代理的环境可能会更新,代理的一部分操作可能是发送包含对其他代理有潜在用处的信息的消息。为了减少需要交换的消息总数,代理可能会被组织成共享邮箱的集群。系统的高级操作将遵循交换消息,更新环境和属性以及执行操作的循环。

系统级功能可能会被一个代理调用来评估它接收到的数据。例如,全局目标的进展可能通过与特定属性相关联的评估函数来衡量。特定代理的目标进展可能通过其他一些函数来衡量。当一个代理从其邮箱中接收到的消息中提取数据时,它可能会使用各种函数进行评估,评估结果可能被用来更新一个属性或启动某些操作。随着时间的推移,代理积累了知识和专业知识,代理社区创建的解决方案将反映这种专业知识。

4.1.1 适应性:智能的真正标志

许多使命关键应用程序的特点是不断变化的需求和动态环境。从网络防御、银行业、自动驾驶到机器辅助手术,对我们的健康至关重要的这些应用程序必须设计具有多功能和自学习 AI,以便实时了解并智能地做出对手和意外事件的反应。例如,用于战场的 AI 系统必须能够适应不断变化的天气和地形,并且需要对敌人的非常规战术做出恰当的回应。

自动驾驶系统必须正确地对周围数十个物体不断变化的运动作出反应,它需要能够与其他可能不遵守规则或不理性行事的车手的决定安全有效地协调。

今天最常用的 AI 可能对变化较慢的情况足够了。例如,传统的 AI 系统可能可以用于自动化货船的航行。航道宽阔而相对统一,速度较慢。借助现代雷达,天气和障碍物可以提前预见,航线可以相应调整。然而,使用当前技术可能永远无法自动化城市街道上的车辆移动。

以巴黎的凯旋门周围的交通为例。有 12 条多车道道路通向一个具有 10 条未标记车道的环形交叉路口。摩托车在旅游巴士和卡车之间穿梭,一些车辆激烈地并入最内侧的车道,而另一些车辆突然向外冲向他们所需的出口。汽车喇叭声和刹车声持续不断,令人眩晕,你必须警惕那些试图穿越交通去近距离看这座纪念碑的游客。交通总是拥挤的,与通常的规则相反,已经在环形交叉路口的驾驶员应该让给那些进入的人。

巴黎年轻人知道,他们真正的驾驶考试不是教练带他们拿到驾照的那个,而是第一次在凯旋门周围驾驶。尽管在过去几十年中进行了数十亿美元的投资,工程团队付出了巨大的努力,但没有任何 AI 系统能够处理任何与刚才描述的动态环境几乎同样复杂的事情。

防欺诈和网络安全是不断发展的问题的两个很好的例子,需要可调整的解决方案。合法业务与每天都在发明新的诀窍和计划的黑客和窃贼之间存在着永无止境的技术军备竞赛。静态的签名或规则集具有有限的价值,当前的方法在能够检测到事件之前需要许多示例。

即使是一个不断接受新数据训练的系统,也永远会落后一步。我们不想在损害发生后永远地应用补丁。我们希望在问题正在发生时检测到新问题,并在犯罪分子行动时抓住他们。

不幸的是,今天的 AI 系统缺乏自适应学习的基本特征。它们只适用于受限的、监督学习任务,由严格的规则定义,在极其明确定义和固定的环境中,如下棋或围棋。真实世界是一个规则在游戏过程中改变的世界。自适应解决方案将会检测到棋盘变大了,战车现在可以像主教一样移动,或者赢不再是将对手的国王将军,而是抓住他所有的卒子!我们需要一个能够理解发生了什么变化并成功适应的 AI。

智能代理系统最显著的优点之一是它们的适应性。智能代理技术不是预先编程以预测每种可能的情景或依赖预训练模型,而是跟踪并自适应地学习每个感兴趣实体的具体行为。例如,在欺诈预防中,每个客户和商家的行为都会实时自动更新,持续的 1 对 1 的个人画像提供了对商家和个人独特行为的即时可行动见解,这导致了一个非常有效的解决方案,具有最高的检测率和最低的误报率。

4.1.2 智能代理语言

为了让我们的描述更具上下文,我将介绍一种专有的智能代理方法,并使用一个例子来解释,在这种方法中,每个代理都有能力评估什么样的输入符合或违背其目标。我们还讨论了代理的适应性,将这种技术与传统方法进行了比较,并探讨了这种技术是如何成功应用于解决实际问题的。

图 4.1 是来自 MINDsuite 的屏幕截图,这是由我的第一家公司 Conception en Intelligence Artificielle 在法国开发的 AI 平台。MINDsuite 通过结合智能代理、神经网络、业务规则、遗传算法、约束编程、模糊逻辑和基于案例的推理,使其用户能够开发强大的 AI 解决方案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4.1 MINDsuite AI 平台

MINDsuite 已成功应用于包括国防、制药、保险、金融、核废料处理、医疗保健和网络性能在内的众多领域。该平台允许集成智能代理、约束编程、模糊逻辑、神经网络、业务规则、基于案例的推理和遗传算法,并提供了仿真工具和编程语言的解释器。

由于智能代理方法背后有独特的哲学,我们开发了一个适合这一范式的编程语言。与任何其他编程语言一样,智能代理语言 AGORA 有自己的内部函数、结构、存储分配、垃圾回收和内存管理。它还有超过 40 个关键词,如 goalneighborsbehaviorenvironmentoutputstabilizeunstabilize

编程语言中的 关键词 具有特定的含义,代表语言的推理框架。它们用于发出命令或为程序设置参数,并允许程序员进行抽象思考,专注于整体框架而不是反复手工编写基本指令。

每个 AGORA 中的关键词都与代理活动相关联。例如,stabilize 表示代理的可接受、理想状态,而 unstabilize 则与绝不允许的情况相关联。如果我们想象使用 MINDsuite 来解决一个众所周知的谜题,关键词的使用就可以得到演示。一个农夫必须把一只山羊、一颗卷心菜和一只狼运过一条河。只有一只非常小的筏可用,而且它只能容纳农夫和另一件物品而不会沉没。山羊不能单独与狼在一起,否则它会被吃掉,同样,卷心菜也不能单独与山羊在一起。农夫如何带着他所有的货物到河的另一边?

传统人工智能可以通过将初始状态表示为“农夫、狼、卷心菜和山羊都在河的左岸,而河的右岸是空的”来解决这个问题。最终状态由“农夫、山羊、卷心菜和狼在河的右岸”表示。约束条件是“如果农夫不在场,狼会吃掉山羊”和“如果农夫不在场,山羊会吃掉卷心菜”。这将是控制状态转换的主要策略。

解决方案最终将通过生成和测试允许的状态转换来实现。当探索到一个允许的状态时,它将被其子状态组成的下一级所跟随,然后是其孙状态的下一级,依此类推。在我们的例子中,从这个初始状态开始,农夫可以选择几种可能的情况来过渡到下一个状态。例如,农夫可以选择先带着自己和白菜过河。这将导致一个新的状态,狼和山羊将被留在一起,因为农夫和白菜在河的另一侧。根据先前的约束条件,狼会吃掉山羊;因此,这个状态应该被拒绝。其他潜在的移动是“农夫与狼一起”,“农夫与山羊一起”和“农夫单独”。当选择了一个新的允许状态时,相同的逻辑将被用来确定从这个状态开始的其他移动。这个过程重复进行,直到“农夫、山羊、白菜和狼都在河的右侧”,或者没有其他允许的移动到新状态的可能性。

要解决智能代理技术中的这个问题,我们将首先为农夫、狼、白菜和山羊创建代理。在智能代理程序中,问题的每个元素都由一个代理表示,并且每个代理都有一个目标。在我们的问题中,每个代理也会有一个位置属性,并且开始时,所有代理的位置都将被设置为east。农夫、白菜、山羊和狼的目标是拥有west位置,而农夫还有一个额外的目标是与他的三个财产在同一个位置。程序的逻辑必须处理在某些情况下哪些目标比其他目标更重要的问题。

在我们的问题中,一些代理也会有关键字stabilizeunstabilize。牢记关键字可以代表很多复杂逻辑,我们必须理解这些关键字在问题背景下的取值。例如,我们知道农夫不能让白菜独自与山羊在一起,因此对于白菜来说,unstabilize关键字会被设置为白菜位置与山羊位置相同的条件。Stabilize可以被设置为其位置与农夫位置相同的条件。程序中的逻辑将能够排除白菜与山羊在一起但农夫不在的选项。

Stabilizeunstabilize同样也会为山羊设置,关键字及其设置将在代理之间建立连接的网络。这种连接网络是智能代理方法的一个关键特征。智能代理程序中的所有元素都是代理,所有代理都有目标,并且由关键字建立的连接决定了实现目标的选项。向目标的进展通常通过属性值的变化来指示。

精通在智能代理平台上设计和构建高效解决方案的艺术是一个逐渐的过程。成功取决于明确定义的目标和客观函数。个人在创建真实应用程序方面投入的时间越多,就越能熟练地使用智能代理平台的潜力。

智能代理提供了宝贵的问题解决技术。以我们在开发欺诈防范解决方案的经验为例。个性化成为此努力的一个关键概念。利用智能代理,我们能够为持卡人、商店和商家创建虚拟个人资料,只包含每个实体的相关信息。每个持卡人都与一个智能代理相关联,该代理实时从其交易中持续学习。它从各种渠道聚合数据,跟踪与持卡人有关的任何内容,随着时间的推移逐渐形成一个强大的资料。与第二章和第三章讨论的其他 AI 方法相比,智能代理系统做出了针对每个持卡人的决策。个性化的决策始终优于普遍适用的通用规则。持卡人的资料反映了他们独特的消费习惯,一旦建立了基线模式,任何与正常行为偏离的情况都会立即被检测到。对于智能代理可以为使用定义的各种类型或数量的分析标准几乎没有限制。从多个角度审视一个实体是至关重要的,因为行为可能根据情况而有很大的变化。以下是在欺诈检测中常用的一些分析标准:

  • 实时分析—交易可以在不同的时间框架内聚合,计数器实时更新。

  • 长期分析—交易可以在较长的时间段内聚合,计数器以预定速率更新。这些资料建立了行为基线。

  • 递归分析—可以在一个滚动的时间框架内跟踪活动以监控正常行为。

  • 地理位置分析—数据,如持卡人的家庭邮政编码、卡刷位置和参与电子交易的 IP 地址,可以识别异常行为。

  • 多维度分析—多个代理之间的交互可以发现可疑的活动模式和联系。

  • 同行比较分析—通过将一个实体的行为与其同行进行比较,实时识别可疑活动。

在授权卡交易之前,防欺诈系统利用持卡人档案、商家档案和其他相关数据生成风险评分。只有评分低于某个阈值才会批准交易。创新系统可能会根据情况调整其评分和阈值,认识到 7 月份对一个人来说不寻常的购买行为在圣诞节前可能是典型的,从而减少误报,提高所有相关方的整体体验。此外,实体档案中的信息可以在代理之间共享,允许监控群体活动模式。这种方法赋予了智能代理解决方案自适应学习能力,使其能够在出现时检测到以前未知的欺诈方案。

概要

  • 智能代理最初被构想为应对复杂问题,这些问题无法通过简单的算法解决。

  • 特性在智能代理中起着基础性作用,因为它们具有与其他智能代理进行主动通信的能力。

  • 智能代理配备有邮箱,作为接收消息的渠道,不仅可以接收来自其他代理的消息,还可以接收来自外部来源的消息。

  • 智能代理具有以下特征:

    • 学习和适应—智能代理可以随着时间学习和适应。

    • 可扩展性—这些代理既可以水平扩展,也可以垂直扩展,从而可以处理更大更复杂的问题空间。

    • 安全和隐私—智能代理融入安全措施以保护敏感数据。

    • 分布式问题解决—智能代理可以在分散和分布式网络中运作,增强了它们的多功能性和弹性。

    • 实时决策—智能代理具备实时决策能力,能够迅速应对动态情况。

第五章:生成人工智能和大型语言模型

本章包括

  • 生成人工智能

  • 对人类沟通与语音的思考

  • 生成人工智能和 ChatGPT 等大型语言模型的优点、局限性和风险

  • 人类与生成人工智能之间的差异

人工智能经历了许多起伏,但 ChatGPT 的发布代表了人工智能领域的一个关键时刻,有几个引人注目的原因。首先,它标志着自然语言理解和生成的重大进步,展示了人工智能在处理和生成类似人类文本方面取得的显著进步。ChatGPT 能够与用户就各种话题进行连贯而相关的对话,展示了人工智能被整合到各种应用中的潜力,从客户支持到内容创作。此外,ChatGPT 体现了大规模预训练模型的力量。其能力突显了人工智能增强人类努力的潜力,提高效率并为各行各业提供宝贵的见解。

此外,ChatGPT 还是第一个通过提供用户友好界面而使人工智能使用民主化的产品,使不具备广泛技术专业知识的人能够利用人工智能的好处并将其整合到他们的工作和日常生活中。这种人工智能使用的民主化促进了创新、创造力和跨领域、跨行业的合作。

在本章中,我们将介绍生成人工智能,这是一种卓越的技术,在各个领域都提供了许多好处,并且具有彻底改变许多行业的巨大潜力。我们还将检查其局限性以及与其使用相关的潜在风险。

5.1 生成人工智能

生成人工智能代表着人工智能的前沿分支,它利用深度学习算法在广泛的数据集上。其主要功能是在各种媒介上创建全新的内容,从文本叙事到逼真的图像、音频,甚至逼真的视频。生成人工智能的区别在于其出色的产出能力,常常模糊了机器生成和人类创造力之间的界限。这一显著的成功是通过人工智能系统学习和识别现有数据中的模式,并推断出产生新颖而独特的创作。这一创新根植于统计框架中长期使用的生成模型,主要用于对数值数据的探索。

但是,真正的变革性飞跃发生在深度学习的出现时,使其应用范围远远超出数字,扩展到图像、语音和其他非结构化数据类型。生成式人工智能最令人印象深刻的一面之一是其适应性。它可以被训练成模仿特定艺术家的风格,以某位特定作者的语调写作,或者生成类似于喜爱的作曲家的音乐。这些模型已经在从艺术和娱乐到自然语言处理(NLP)和许多其他领域的广泛应用中找到了应用。

5.2 大型语言模型

大型语言模型(LLMs)是生成式人工智能的一个子集,旨在理解和生成类似人类的文本。这些模型以其庞大的规模而闻名,拥有数十亿个参数,这些参数充当了它们的语言理解和生成的知识库。LLMs 经历了一个两步训练过程,首先是预训练,在这一步中,它们通过分析来自互联网的大量文本数据学习语言的基础知识,包括语法、句法和语义。之后,它们被针对特定任务进行微调,以定制其语言技能以适用于特定应用场景。

大型语言模型(LLMs)的一个显著能力是文本生成。这些模型可以以各种形式生成类似人类的文本,从文章和论文到诗歌等创意作品。例如,LLMs 可以生成押韵并引起情感共鸣的诗歌,展示了它们的创造潜力。它们擅长生成看起来像人类写作的文本,使它们在内容创作和讲故事方面非常有价值。此外,LLMs 擅长语言翻译和文本摘要。它们可以准确地将文本从一种语言翻译成另一种语言,打破语言障碍,促进全球交流。此外,LLMs 还可以总结冗长的文档,这在新闻文章摘要等任务中特别有用,使读者能够快速了解故事的要点。它们还可以通过生成各种编程语言的代码片段来提供编码帮助,简化编码任务。例如,LLM 可以生成 Python 代码来执行特定操作,提高效率和生产率。此外,这些模型可以利用它们在训练过程中获得的知识来回答问题,对事实查询或复杂问题做出准确回应。

大语言模型的关键时刻是当 OpenAI 在 2020 年 6 月向选择的合作伙伴和开发者介绍 GPT-3,然后在 2022 年 11 月向公众提供更广泛的可用性时发生的。这一发布在互联网上引起了极大的兴奋,因为 GPT-3 具有模仿人类对话的 remarkable 能力。GPT-3 是一个计算强大的机器,拥有令人印象深刻的 1750 亿个参数。它在来自各种在线资源的多样化数据集上进行了广泛的训练。该模型在进行连贯、上下文感知的对话方面的熟练程度使其看起来异常智能。

像许多开创性的技术一样,ChatGPT-3 的首次亮相伴随着夸大和炒作。媒体,通常倾向于轰动性新闻,没有错过利用兴奋情绪的机会。2023 年 4 月,一对福克斯新闻的记者发布了一个标题,通过其夸张的断言引起了警惕:“非常可怕:AI 机器人制定了摧毁人类的计划”[1]。这个标题,加上夸张的报道,加剧了公众对人工智能的焦虑。两名记者和客座专家之间的对话表达了一种恐惧的观点,将人工智能和 ChatGPT 与负面的人类特征联系起来,并引用了一个涉及聊天机器人生成与核设备相关内容的事件。新闻片段通过展示波士顿动力的跳舞仿人机器人的镜头,误导性地暗示 AI 威胁与类似人类、超级智能、恶意意图的机器人有关。这种轰动性报道风格是对如何误导和煽动恐慌的显著说明。即使具有重要专业知识的个人偶尔也会发表难以证实的声明,从而夸大了 AI 算法的能力。举例来说,OpenAI CEO 萨姆·奥特曼于 2021 年 3 月 16 日发表了以下声明:

在未来五年内,能够思考的计算机程序将阅读法律文件并提供建议。在接下来的十年里,它们将进行流水线作业,甚至可能成为伴侣。在此之后的几十年里,它们将做几乎所有的事情,包括进行新的科学发现,扩展我们对一切的概念。这场技术革命势不可挡。[2]

在前面的章节中,我提到了过去类似夸大的陈述,最终证明是不真实的。

5.3 聊天 GPT

在人工智能的历史上,有一个经常出现的主题:赋予机器使用自然语言进行有意义对话的能力的愿望。自然语言的复杂性是自学科成立以来 AI 研究人员面临的一大难题。2020 年,OpenAI 推出了 GPT-3。除了 GPT-3,像 BERT、T5 和 OPT 这样的其他大型语言模型也被视为自然语言处理领域的重大进展。OpenAI 的研究人员表示:

GPT-3 在各种 NLP 任务中表现出色,包括翻译、问答、填空任务,以及涉及即时推理或领域适应的任务,比如拼字、在句子中使用新单词,或进行 3 位数的算术运算等。

OpenAI 提供了四个主要的 GPT-3 模型:Davinci、Curie、Babbage 和 ADA。这些模型具有不同的功率水平和适用于各种任务的性能。例如,Davinci 虽然比其他模型更需要资源并且速度较慢,但被认为是最能胜任的,适用于需要深度理解的应用,比如生成创意内容或为特定受众总结现有内容。

近年来,由于在模型训练过程中利用了大量的文本语料库,并对模型进行了特定任务的微调,自然语言处理(NLP)应用得到了显著改进。截至撰写本文时,OpenAI 的 ChatGPT 是最先进的人工智能语言生成器和聊天机器人。免费版本于 2022 年 11 月向公众开放,已有超过 100 万用户使用。2023 年 3 月 13 日,OpenAI 推出了 GPT-4,这是其扩展深度学习旅程的最新里程碑。GPT-4 是一个大型多模态模型,能够接受图像和文本输入,并生成文本输出。虽然在许多现实场景中未达到人类水平的性能,但在各种专业和学术基准测试中表现出人类水平的性能。有关基准测试,GPT-4 技术报告指出:

我们在各种基准测试中对 GPT-4 进行了测试,包括模拟原本为人类设计的考试。我们并没有专门为这些考试训练模型。模型在训练过程中只遇到了少量考试中的问题。对于每个考试,我们运行了一个删除了这些问题的变体,并报告两者中较低的分数。

自 2022 年末以来,媒体对 ChatGPT 的兴奋激发了几个重要语言模型的发布。

根据我的经验,ChatGPT-4 的能力真的令人印象深刻。它能够产生与人类写作非常相似的文本是非常了不起的。这种熟练程度带来了一个有趣的挑战,即区分机器生成的内容和人工制作的内容。

5.3.1 ChatGPT 如何生成类似人类的文本

语言模型如 ChatGPT 的运行基本原理是根据前面的单词或标记来预测文本序列中的下一个单词或标记。这种预测能力是通过在互联网上的大量文本数据上进行训练得出的。让我们进一步探讨这个过程的运作方式。

想象一下,我们从一个文本提示开始,比如“电动车的好处是……”。模型本质上是在进行概率游戏,试图猜测最可能跟随的单词或标记。为了进行这种预测,它从互联网上找到的语言模式中学习。模型创建了一个潜在单词的排序列表,这些单词可能逻辑上跟随are。在这个例子中,它可能建议像丰富众多经济明确这样的单词。重要的是,模型不仅仅处理完整的单词,还处理标记,这是字符或单词片段的序列。标记不仅可以包括完整的单词,还可以包括子单词和尾随空格。一个有用的经验法则是,一个标记通常代表标准英文文本的约四个字符。这个标记化过程使模型能够有效地处理和分析文本。

ChatGPT 等语言模型的独特之处在于它们能够生成不仅仅由最高概率选择驱动的响应。相反,它们有时通过选择具有较低概率的单词来引入创造性的触摸。这种创造性元素通常导致响应更具人类化, less 公式化。这些语言模型的一个显着特点是它们理解上下文的能力。它们通过学习来自广泛而多样化的文本范围的文本,包括数十亿的来源。这种学习包括暴露于某些单词被省略或改写的文本,使得模型能够预测语义上类似的文本。这模仿了对人类语言中上下文和含义的理解。

ChatGPT 等模型的训练过程是广泛而细致的。它始于对包含互联网文本的大型数据集进行训练。在训练过程中,模型对下一个标记的预测与人类编写的文本进行比较。然后,模型调整其内部结构和性能,以最小化差异并提高其预测能力。例如,ChatGPT 的前身 GPT-2 具有 15 亿个参数,并且在 40 GB 的互联网文本上进行了训练。随后的迭代版本 GPT-3 在复杂性上有了显著的飞跃,拥有 1750 亿个参数。

人工智能模型的训练过程是其发展中复杂且必不可少的一步。它涉及通过应用深度学习算法对模型内部的众多权重和参数进行迭代调整。这种微调过程使得模型能够从大量数据集中学习,并随着时间不断提高其性能。在人工智能训练方面的最新进展的一个关键因素是利用现代 GPU(图形处理单元)和硬件增强技术。这些强大的计算工具通过使模型能够同时处理数百万个训练示例,彻底改变了该领域,极大地加速了训练过程。这种并行处理能力尤为关键,因为它使得人工智能研究人员和工程师能够高效地训练越来越大和复杂的模型。此外,分布式计算和专用硬件的使用进一步提高了人工智能模型训练的速度和效率。这些进步已经打开了解决曾经被认为是计算上不可行的复杂问题的大门。

从本质上讲,像 ChatGPT 这样的语言模型代表了自然语言处理领域的重大进展。这些模型由深度学习算法驱动,并经过对互联网上的广泛和多样化数据集的精心训练。在核心的部分,这些模型采用了一种预测智能的形式,使它们能够理解并生成文本,这曾经是人类作者的专属领域。它们不仅遵循语法规则,还具有模仿人类书面文本的细微风格的能力。这种预测能力是它们能够捕捉语言中复杂模式和关系的结果。例如,当给出像“太阳正闪耀,鸟儿在…”这样的句子片段时,这些模型可以准确预测下一个词可能是“歌唱”或“飞行”,这取决于上下文。这种模拟人类语言使用的能力使它们在各种与语言相关的应用中尤为重要。例如,它们作为聊天机器人的核心,为用户提供不仅在语法上正确而且在语境上相关的回应。它们擅长适应不同的会话语调、风格和领域,使其成为客户支持等任务的多功能工具,在这些任务中,它们可以处理各种查询和问题,并保持一致的人类化语调。语言模型同样擅长总结冗长的文件,并促进高效的信息检索。由于能够生成创意内容,它们可以写文章、生成诗歌,并撰写音乐歌词,而且同时能够遵循所需的语气和风格。

5.3.2 ChatGPT 幻觉

与任何其他深度学习模型一样,ChatGPT 缺乏理解自己陈述或所使用单词含义的能力。它的主要功能是根据给定的输入生成单词,并且它在预测单词组合方面的熟练程度并不保证生成文本的准确性。在接下来的例子中,我将说明 ChatGPT 无法理解人类语言并且在处理其复杂性时遇到困难。首先,我提出了与我熟悉的主题相关的事实性问题,具体来说,是关于我自己和我在移居美国后建立的公司 Brighterion。2023 年 7 月 7 日,我询问:“Akli Adjaoute 是谁?”令我惊讶的是,回答将我标识为“Brighter IA”的创始人,这是一个以隐私为重点的视频公司(见图 5.1)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.1 ChatGPT 提示,导致错误地将作者识别为他与之无关的一家公司的创始人兼 CEO。

我对 ChatGPT 如何生成其回复产生了兴趣,于是我关闭了会话并启动了一个新会话,询问同样的问题。我收到的回答不同,但仍然是错误的。它包含了许多捏造的细节,包括声称我曾获得过麻省理工技术评论的著名的 35 岁以下创新者奖。我感到困惑,于是我关闭了会话,再次启动了一个新的会话。第三次尝试同样的问题时,我收到了另一组虚构的事实。这次,它包括关于我在伊利诺伊大学获得博士学位并曾在 IBM 和雅虎等知名科技公司和研究机构担任职位的声称。收到三个不同的虚构回答让我感到很奇怪。

我继续问同样的问题,在第五次尝试时,我终于收到了准确的回答(见图 5.2)。这让我想知道,任何人怎么能依赖一个始终生成随机和错误回答的程序来获取信息呢?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.2 ChatGPT 提示和输出需要五次尝试才能生成正确的信息。

值得注意的是,我的问题并不晦涩;它涉及 Brighterion,这是一家为支付服务提供商、金融机构、医疗支付者和商家提供企业 AI 应用的知名公司。此外,Brighterion 已经被媒体广泛报道,因此关于这个主题的信息是广泛可得的。至于我自己,虽然我不是公众人物,但我的名字和姓氏都非常不寻常,不太可能与其他人混淆。此外,我在许多权威来源中都被认定为 Brighterion 的创始人,包括华尔街日报福布斯今日美国、CNBC 等等。重点是强调这些信息既不晦涩也不难找到。

在 2023 年 4 月 9 日的另一轮测试中,ChatGPT 做出了一个错误的声明,声称我在 1994 年为马赛足球队踢球。当我提到我与 FC Rouen 的关系时,ChatGPT 坚称其记录证实了这一错误的说法(见图 5.3)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.3 ChatGPT 坚称作者曾为他从未参加过的足球队效力。

将事实信息与虚构元素融合在一起会使这些程序在被用作可验证事实来源时变得非常危险。这种危险来自于这些程序有可能模糊现实与想象之间的界限,进而对个人和整个社会产生深远的影响。当真实和虚构交织在这些程序中时,它们经常会创造出一个扭曲的现实版本,很容易误导和混淆内容的消费者。这种扭曲范围从相对无害的错误信息到更有害的虚假信息,后者有意传播虚假叙述以操纵公众观念或实现特定议程。主要的担忧之一是,当个人遇到这样的内容时,他们可能会不知不觉地将虚构元素当作真理接受,导致错误的信念和决策。这可能以各种方式表现出来,例如对当前事件形成不准确的观点,做出错误的健康选择,甚至影响政治和社会话语。当人们无法区分真实和虚构的内容时,他们会对新闻机构、政府机构和科学当局变得越来越怀疑。此外,错误信息的传播可能会侵蚀社会凝聚力,并在社区内播下分裂的种子。它有可能加剧现有的分歧,并制造新的分歧,导致不同群体之间的极化和敌意。

5.4 巴德

在 2023 年的 I/O 活动期间,谷歌推出了巴德,这是 ChatGPT 的一位竞争对手。(请注意,谷歌最近推出了名为 Gemini 的新版本。)当年 7 月 8 日,我向巴德发出了一个提示:“Akli Adjaoute 20 awards”。不幸的是,与 ChatGPT 一样,巴德的大部分回应被发现是虚构的(见图 5.4)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.4 巴德将一系列真实和虚构的奖项归因于作者,使输出不可靠。

正如前面提到的,我的名字和姓氏都非常不常见。尽管如此,人工智能始终将我与其他人混淆,并将他们的成就和职业归功于我。我从未荣获过 IEEE Longuet-Higgins 奖,ACM Paris Kanellakis 奖或 IEEE 计算机协会技术成就奖。

在最初的不可靠回答之后,我终止了会话,并重新提出了我的问题,改用“12”代替“20”。令我沮丧的是,我收到了一个不同但同样可疑的回答。人工智能提供了一个我从未获得过的新的荣誉列表,更糟糕的是,它现在虚假地声称我是斯坦福大学的计算机科学教授,并且是斯坦福人工智能金融中心的联合创始人。

在我整个职业生涯中,我都是一位企业家,因此从未在著名的学术期刊上撰写过 100 多篇论文。我的研究从未获得过美国国家科学基金会、国防部或欧盟的资助。

我从未被 MIT Technology Review 认可为“世界前 50 名人工智能领袖”,并且我与美国人工智能进步协会(AAAI)或美国电气和电子工程师协会(IEEE)没有任何关联。

人工智能不仅提出了不准确的主张,歪曲了事实,而且将其错误归因于一个不相关的主要来源。这种错误信息引发了对引文可靠性的担忧,而引文对学术工作至关重要(图 5.5)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.5 人工智能做出了不准确的主张,并将其归因于不相关的引文。这一信息引发了对引文可靠性的担忧。

区分事实和谬误可能很具有挑战性,尤其是对于那些对某个主题缺乏熟悉度的人。接受捏造的信息可能会导致重大且有害的后果。例如,澳大利亚的一位名叫布赖恩·胡德的市长威胁要起诉 OpenAI 的 ChatGPT,因为它虚假地暗示他因澳大利亚储备银行的一个子公司的贿赂丑闻而入狱(图 5.6)。事实上,胡德在这个案子中是一个告密者 [11]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.6 澳大利亚市长布赖恩·胡德威胁要因 ChatGPT 错误地声称他因贿赂入狱而提起诉讼,事实上,他是告密者,而不是罪犯。

能够生成捏造信息的软件对个人和整个社会构成重大威胁。为了应对这些挑战,我们必须要求技术以优先考虑准确性、透明度和负责任的信息分享的方式进行开发和利用。这意味着要求科技公司对其平台上的内容负责,并实施机制来验证信息的真实性。

5.5 人类 vs. LLMs

2011 年 10 月,苹果推出了 iPhone 4S,这标志着 Siri 虚拟个人助理的首次亮相。苹果通过收购一家同名初创公司于 2010 年获得了 Siri 背后的技术。这家初创公司起源于 SRI 国际人工智能中心,这个机构可以追溯到斯坦福研究所(SRI)。“Siri”这个名字本质上是“SRI”的语音表示。

Siri 因其免提功能而受到认可,允许其持续监控主机设备的麦克风。使用深度神经网络,它分析其环境中的声音。当它以高度的自信度识别出短语“嘿 Siri”时,整个应用程序变得活跃,并处理和回答后续的声音作为问题。

2017 年 10 月,Siri 开发团队在一篇名为“Siri 语音的深度学习:基于设备的混合单元选择合成的深度混合密度网络”[12]的文章中提供了对这一功能的详细解释:

iPhone 或 Apple Watch 中的麦克风将您的声音转换为瞬时波形样本流,每秒 16,000 个样本。频谱分析阶段将波形样本流转换为帧序列,每个帧描述大约 0.01 秒的声音频谱。每次大约 20 个这样的帧(0.2 秒音频)被馈送到声学模型,即深度神经网络(DNN),该模型将每个声学模式转换为一组语音声音类别的概率分布:在“嘿 Siri”短语中使用的声音,以及静音和其他语音,总共约 20 个声音类别。DNN 主要由矩阵乘法和逻辑非线性组成。训练过程使用标准的反向传播和随机梯度下降来调整权重。…下次你说“嘿 Siri”时,你可能会想到所有这些内容是如何使得对该短语的响应发生的,但我们希望它“只是工作”!

这篇文章应该成为任何人工智能教材的不可或缺的参考点。特别是,它揭示了个人助理程序在试图进行真正有意义的对话时面临的巨大挑战。尽管这些人工智能系统起初可能显得聪明,但它们的功能与训练有素的鹦鹉类似,缺乏对其处理或产生的文字的真正理解。这种不足在进行了轻度实验后就变得明显起来。考虑这样一个情景,你让 Siri 推荐一家餐馆。如果你不断回答“不,我不喜欢那个”,Siri 将继续提供新的建议。然而,如果你离题问一个不相关的问题,然后再回到你的餐馆询问,Siri 将以相同的顺序呈现相同的选项列表,尽管你之前表示过不满。这种僵化的行为与人类在类似情况下所表现出的适应性和理解力形成鲜明对比。这里的教训是清楚的:沟通超越了单纯的文字。

语言的赐予使我们能够与他人分享各种各样的复杂思想和深刻情感。通过语言,我们可以传达我们所知道的,并通过提问来提取知识。当有人对我们说话时,我们的大脑几乎像是进行了一种魔术般的壮举,将听觉声音瞬间转化为连贯的概念、情感和生动的感官体验。例如,当在谈话中提到 book 这个词时,我们的思维迅速从上下文中解读其含义,并想象出装订页面填满文本的图像。令人惊奇的是,当句子中的每个单词可能具有多种可能的含义时,我们仍然可以进行交流。例如,句子,“这座金矿的采矿设备是我的!”在这种情况下,我们的大脑无缝地区分出 mine 是形容词、名词还是所有格代词。然而,语言理解的复杂性远不止这些明显的挑战。

词语通过联想具有唤起感觉和情感的非凡能力。例如,“海风”这个词组,即使没有明确提到海风的冷酷或海浪拍打的声音,这些词语也会唤起清新、宁静,甚至是一丝冒险的生动感觉。同样,“深红色的秋叶”这个词组将我们带到了一个充满着生机勃勃的树叶、清新的空气和秋天温暖拥抱的场景,而又不直接描述温度或风景。此外,单词还可以用作隐喻,表达如果我们仅处理文字意义就没有意义的事物。考虑一下“时光飞逝”这个短语。这个表达并不意味着时间拥有翅膀或像鸟一样飞翔;相反,它捕捉了时间似乎迅速而不可察觉地流逝的概念,强调了它的短暂性。同样,当我们说某人“步行在空中”时,并不意味着他们违反了重力,而是暗示着一种无法抗拒的幸福和欢愉感,几乎是无重力的。

更令人惊讶的是我们运用符号化的词语来沟通记忆和经历的能力,某些词语对于参与其中的人来说具有深层次的个人意义。举个例子,“橄榄油”这个词组,它与我在卡比利亚的记忆产生共鸣。在谈话中提到,它立即将我带回到连绵起伏的山丘和风景如画的橄榄树林中,那里的空气似乎充满了新鲜收获的橄榄的浓郁、土地的气息。单单是气味就带有那个地方和时间的本质,一台感官时光机器,带回了在橄榄园中度过的温暖、被阳光晒满的日子。但不仅仅是气味;对我来说,橄榄油还代表着社区和传统的感觉。在卡比利亚的橄榄收获是各个年龄段的人们齐聚一堂,共同收获这片土地宝贵水果的一个神奇的交流。我记得孩子们在树林间奔跑的欢笑声,长者们分享的有关橄榄收获艺术的智慧,以及我们肩并肩工作时形成的纽带,所有人都融入了收获橄榄的古老仪式中。在那些时刻,“橄榄油”不仅仅是一种烹饪成分,更是一个社区的集体精神,代代相传的传统。

除了应对多重含义、联想、隐喻和象征的复杂性之外,我们的思维还具有独特的能力,可以预测并从未说出的话语中推断出含义。例如,想象一下自己站在杂货走廊上,有人挡住了你去找的物品的路。通过用适当的语气说出“Can I jus… .”,你传达的不仅仅是你取得物品的意图,还有你的礼貌、对他们存在的承认以及你会快速的保证。这种交流中的非言语细微差别非常清晰,没有混淆你是在要求一美元还是试图在他们站立的地方小睡。杂货店的情景也展示了另一个有趣的现象:暗示和我们阅读“行间”的能力。在使用相同的词语“Can I jus… .”的同时声音语调略微改变,可能会极大地改变它们的含义。与传达礼貌和合作相反,一种严厉的语气可能会表达出沮丧和不耐烦,有效地要求对方让路。他们不遵守可能会导致你说出一声听起来很礼貌的“谢谢”,掩盖了你的语气和肢体语言传达的真正信息,这与感激的真实信息相反。此外,我们推断出远远超出了明确言辞的实质信息的能力同样令人称奇。例如,如果有人在电话中提到早餐吃了“奶咖和炒蛋”,这提供了丰富的信息。这段对话的片段暗示了一天中的时间、杯子的使用、餐具的存在、接近厨房甚至提供了味道和香气的感觉。

人类的交流是一种非常多方面的现象,能够通过不仅仅是词语,还有非言语暗示、手势和各种表达形式传递信息。事实上,我们的交流能力不仅限于我们使用的字面意思,通常涉及微妙的细微差别和间接策略。这种间接交流可以服务于各种目的,例如保护某人的感情或传授宝贵的教训。例如,在企业环境中考虑一个情景,其中经理正在与需要提高时间管理技能的员工合作。经理可能不直接告诉员工要更加准时和有条理,而是采取更间接的方式。他们可以分享一个关于一个成功同事的故事,该同事以其出色的时间管理而闻名,并且这如何积极影响了他们的职业生涯。经理可能会提到关于有效时间管理技巧的书籍或文章,并建议员工可能会觉得有趣。通过这样做,经理引导员工意识到改善时间管理对职业发展至关重要,并鼓励他们独立解决问题。通过这种方式,经理有效地传达了一条信息,而没有明确陈述。

交流本身延伸至广泛的非言语暗示和信号。在商业演示中,像图表和图表这样的视觉工具可以比单纯的文字更有效地传达复杂的数据和观念。在谈判中,坚定的握手或者对话中恰到好处的停顿可以传达自信和控制。甚至在专业环境中衣着的选择也能在不需要明确陈述的情况下传递关于一个人的专业素养和对细节的关注的信号。

机器和人工智能尚未达到人类熟练程度。也许 AI 在交流方面的局限性最具有说服力的证据是其无法长时间进行有意义的对话。洛布纳奖是一个类似于图灵测试的竞赛,持续了近三十年,挑战 AI 系统通过文本和视听输入模拟人类对话。尽管人工智能取得了显著进步,但在这些测试中没有任何系统能够令人信服地被认为是人类。即使是最先进的聊天机器人在短暂的互动之后也会显示出其局限性,突显了机器学习和真正理解之间的巨大差距。计算机科学的先驱艾伦·图灵可能会对我们在这一领域的有限进展感到失望,考虑到人工智能发展所做的大量投资。

为了促进有效的交流,机器不仅必须识别单词的个别含义,还必须解释句子的复杂结构,考虑到语境的微妙之处,并辨别出交流背后的意图和目标。达到这种程度的理解和语言技能已被证明是一项艰巨的任务。尽管经过几十年的不懈努力,但我们必须认识到,尽管自然语言处理取得了显著进步,但它仍未填补交流中的差距。真正的理解仍然是有意义交流的难以捉摸的关键,这是人工智能尚未实现的一个里程碑。

5.6 AI 不理解

让我们花一点时间重新思考象棋游戏与语言复杂性之间的类比。 象棋,一种经典的棋盘游戏,包括各种棋子、一个结构化的游戏板和一套明确定义的规则,规定了玩家如何从游戏的一个状态移动到另一个状态。 类似地,语言,人类沟通的基石,涉及多样的语言单元(字母表)和复杂的句法规则,这些规则指导我们如何构造有意义的句子。 引人注目的是,所有语言,就像游戏一样,都遵循它们自己独特的规则集,即使语言不仅仅是遵循句法规则,因为它要求对单词和句子传达的意义有深刻的理解。

考虑人工智能的显著成就,如 IBM 的深蓝击败世界象棋冠军或 AlphaGo 智胜围棋冠军。 虽然这些成就无疑令人印象深刻,但它们并不表示机器具有真正的智能或理解。 相反,它们展示了将大规模数据集上的蛮力计算能力和专门的人工智能算法应用于实践的能力。 这些算法在特定任务中表现出色,如数学计算或数据排序,超越了人类的能力。 同样地,通过互联网的广泛数据集训练的 LLM 表现出生成连贯文字的能力,看起来合情合理。 然而,它们也缺乏对语言的真正理解,因为语言理解超越了简单的模式识别或规则遵从。 真正的理解涉及将单词与现实世界中的对象、动作和事件概念上联系起来的能力。 考虑这些说明性的例子:

  • 标点符号可以极大地改变意义。 “让我们吃奶奶” 和 “让我们吃,奶奶”。 这里,一个简单的逗号有能力通过澄清预期的意义来挽救生命。

  • 语言可以有含蓄的意义。 当一个人对他们的约会对象说,“我昨晚在餐馆等了你一个小时” ,不仅仅是说的话。 这个声明的真正本质在于未说出的绝望和情感,这是当前人工智能系统所不具备的细微差别。

  • 单词顺序改变了含义。 “吉姆很生气,珍妮结束了通话” 传达的叙事与 “珍妮结束了通话,吉姆很生气” 不同。 在这两种情况下,使用相同的词,但这些词的排序根本改变了含义。

国际象棋和语言之间的类比作为探索人工智能在理解语言方面的能力和局限性的思考起点。虽然包括 LLMs 在内的 AI 系统展现出在生成文本方面出色的能力,但它们基本上是模式匹配工具,而真正的语言理解仍然是当前人工智能的一个难以抓住的前沿。

尝试将主要学习模式以产生文本的算法归因为具有理解能力,就好比将快速执行算术计算的口袋计算器归因为具有数学理解能力是类似的。

如果 ChatGPT 具有理解意义并将其与现实世界知识联系起来的能力,接下来的两个问题将很容易回答。

问题 1:一个猎人朝一棵有三只鸟的树枝开了一枪,打死了一只。还剩下多少只鸟?(图 5.7)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.7 AI 错过了问题的微妙之处,并返回了错误的响应。

尽管这个问题的答案可以在网上找到,但 ChatGPT 的回应是“如果猎人打了一根有三只鸟的树枝并打死了一只,那么树枝上会剩下两只鸟。”然而,正确的答案是零,因为其他鸟可能会因枪声飞走。ChatGPT 的回应说明了它对模式匹配的依赖和缺乏像人一样推断上下文的能力。此外,提供正确的答复给 ChatGPT 并不一定导致 AI 真正的学习或理解。尽管这可能增加在类似情况下生成正确响应的概率,但它并不表明真正的理解或推理。这突显了 AI 发展中的一项挑战,在那里像 ChatGPT 这样的模型可以生成看似合理的答案,而不必深刻理解内容或上下文。

问题 2:假设我在第 10 层,我让某人拿着一桶水跑到一楼的接待区。会发生什么?

我向谷歌提交了查询“拿着一桶水跑溅开”并获得了超过 1600 万条搜索结果(图 5.8)。因此,合理地假设 ChatGPT 可以获得充分的信息来推断在拿着一桶水奔跑时可能出现的基本结果(图 5.9)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.8 谷歌提供的信息示例(1600 万条结果)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.9 AI 返回与查询无关的结果,表明响应是由计算机生成的。

回答不言自明。尽管算法似乎识别到了"泼溅"这个概念,但它对重力和加速度的强调完全无关紧要,这表明响应是由计算机生成的。将术语"桶装满"替换为"玻璃"只会使响应看起来更加离奇(图 5.10)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.10 人工智能返回的回答不清晰且逻辑上不连贯。

再次,算法的回答仍然与主题无关,不清晰,并且缺乏逻辑连贯性。人类的理解涵盖了相当大的非语言成分,而人工智能难以涵盖,考虑到现实的巨大复杂性及其无数的微妙之处。在我们的人际交往中,我们对我们打算传达的信息有理解,在回应上下文时精选单词,并考虑潜在的后果和反应。我们传达的不仅是词语的词典定义,还暗示着更深层次的细微差别,并推断出超出字面解释的含义。

5.7 LLMs 的优势

生成式人工智能是一项令人瞩目的技术进步,有潜力在多个行业带来变革性影响。其深远的影响意味着 AI 算法演进的重要里程碑,提供了增强生产力和创新的承诺,涉及各种领域。生成式人工智能最引人注目的一个方面之一是其改变内容创作的能力。这项技术使创意专业人士,如设计师、作家和艺术家能够生成高度逼真的图像、视频和文本。通过自动化创意过程,它简化了工作流程,潜在地为这些创作者节省宝贵的时间,使他们能够专注于完善他们的想法,而不是应对内容生成的复杂性。此外,生成式人工智能正在改变自然语言理解和生成。由这些模型驱动的聊天机器人和虚拟助手可以进行更具上下文感知性和人性化的对话,改善了各行各业的客户支持和用户互动。

教育是另一个领域,生成式人工智能有潜力产生重大影响。学生可以从快速获取各种主题的综合信息中受益,大大减少获取知识所需的时间。例如,询问历史或地理方面的问题可以得到总结自多个来源的信息。

在计算机编程领域,生成式人工智能可能会消除对广泛参考手册的需求。这些系统可以利用它们丰富的知识库快速生成代码解决方案,这个过程可能会让初级程序员花费数小时进行试错。通过从诸如 StackOverflow 之类的专业资源学习,LLMs 可以成为寻求高效解决复杂编码挑战的开发人员的无价工具。

此外,在客户支持业务中,生成 AI 可以用于对常见用户查询提供程序化响应。这些响应可以通过与软件文档的广泛培训而获得,以确保在满足用户需求方面的一致性和效率。总之,生成 AI 代表了我们在创造性、沟通、教育和问题解决方面的一种范式转变。

5.8 LLM 限制

虽然 LLM 在模式识别方面表现出卓越的能力,但它们也表现出一定的局限性:

  • 依赖输入质量 —LLM 生成的输出质量严重依赖于输入数据的质量。对于“垃圾进,垃圾出”(GIGO)原则的担忧仍然存在,因为大型数据集可能缺乏多样性,而在线数据通常包含负面或虚假信息。因此,存在有偏见或错误的训练数据可能会影响 LLM 的输出。

  • 计算密集度 —LLM 对于训练和运算都需要大量的计算资源,因为它们依赖于庞大的数据集和大量的计算能力。

  • 幻觉和不连贯的文本 —LLM 可以生成缺乏连贯性和上下文的文本,通常生成由于其对人类语言的理解有限而毫无意义的内容。

  • 重复和缺乏创造性 —由 LLM 生成的内容可能会重复,缺乏创意,导致产出的内容感觉呆板或乏味。

  • 缺乏可解释性 —由于 LLM 是基于深度学习的,深度学习技术并不提供对决策过程或输出生成的洞察,所以它们的结果很难解释或解释。

  • 安全问题 —LLM 可以被利用来创建有害内容,如 Deepfake 和虚假信息,从而构成重大的安全风险。

  • 学习能力有限 —LLM 的学习能力受到限制,因为它们没有固有的专业知识。正如第三章所示,许多领域,包括医学,在 LLM 无法轻松捕捉的隐含知识方面,突显了它们学习能力的限制。

5.9 生成 AI 与知识产权

艺术家、作家和新闻出版商对于生成 AI 在训练中利用他们的知识产权的利用引发了关注(图 5.11)。2023 年 7 月 7 日,ChatGPT4 承认,其训练过程包括了源自各种互联网渠道的大量文本数据,涵盖了书籍、文章、网站和各种书面内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.11 ChatGPT 对于其所使用的数据来源的查询的回答引发了关于知识产权和准确性的担忧。

罗伯特·汤姆森,新闻集团的首席执行官,发出了关于知识产权潜在危险的警告。他声明[13]:

首先,我们的内容正在被收集、抓取和其他方式吸收,目的是用于训练 AI 系统。其次,个别故事可能会在特定搜索中突出出现。第三,我们的内容可能被合成并呈现为原创,而实际上它是编辑精髓的提取。

围绕知识产权的担忧是有根据的,因为一些 AI 公司从数以千计的个人创作的作品的利用和重新利用中获得价值。如果没有这些内容的访问权限,像 ChatGPT 这样的生成式 AI 模型的存在可能是值得怀疑的。这提出了一个悖论,即公司重新利用艺术家、广告商和作家的贡献可能会无意中危及这些创作者的生计。

5.10 生成式 AI 的风险

生成式 AI 程序由于其制造信息的倾向而构成重大风险。BBC 最近报道的一个案例突显了这一担忧,一位纽约律师因在其法律研究中使用 ChatGPT 而面临诉讼。该律师所在的律所提交了一份引用了各种过去法庭案件的简要文件,其中六个后来被确认为虚构的,包括虚构的引语和引文。ChatGPT 生成了这些虚假信息。律师和 ChatGPT 之间的对话截图显示了律师询问:“Varghese 是真实的案例吗?” ChatGPT 确认,当被追问其来源时,ChatGPT 重申该案例是真实的,并且可以在 LexisNexis 和 Westlaw 等法律数据库上找到。另外五个捏造的案例的真实性也得到了类似的断言。律师通知法庭,他“不知道其内容可能是虚假的”,但现在可能面临法官的纪律行动。

第二个此风险的实例由《华尔街日报》[14] 报告,涉及一个设计用于协助患有厌食症等进食障碍的聊天机器人。在进行了生成式 AI 的更新后,该机器人开始主张节食和减少卡路里摄入。显然,这样的建议可能对于与进食障碍抗争的个人具有极大的危害,促使国家进食障碍协会迅速将机器人从其平台上移除。

生成式人工智能目前无法推理或理解可能导致各种不良结果。例如,尽管 ChatGPT 融合了明确的安全协议和令人印象深刻的生成能力,但它被操纵成显示制造爆炸装置的指示,这是从其训练数据中学习到的功能。尽管 ChatGPT 团队迅速采取了措施解决了这个问题,但我们必须承认恶意个体在想出利用这种程序的新方法方面的足智多谋,类似于某些网络犯罪分子不断创新的黑客技术和欺诈计划所展示的复杂性。鉴于 ChatGPT 无法辨别传播制造有害装置指令与其安全任务相矛盾的事实,重新评估我们对其其他成就的乐观态度可能是明智的。

个体毫无疑问地接受所有生成式人工智能产出的风险也存在着。在他 1976 年的著作《计算机力量与人类理性》中,首个聊天机器人 ELIZA 的创造者约瑟夫·韦泽那鲍姆强调了这一问题:

ELIZA 在与它交谈的许多人心中创造了最令人瞩目的假象,即它理解了他们的思想。那些非常清楚他们正在与一台机器交谈的人很快就会忘记这个事实,就像戏剧观众在悬念中的虚构中很快忘记他们所见的行动并非“真实”一样。

Weizenbaum 进一步指出,那些对计算机知识有限或根本没有知识的个人往往对这种幻觉特别容易受到影响。他们经常坚持在私下与系统交流,尽管程序的创建者可能提出异议,但他们仍然坚决地声称他们被理解了。

越来越多的机构和个人在日常运营中依赖自动化系统和人工智能。人们普遍会毫不犹豫地接受计算机生成的结果,并假设人工智能总是会提供真实的信息。然而,我们的世界受到虚假新闻的泛滥困扰,生成式人工智能技术的崛起引起了严重关注。它有可能在互联网上充斥着几乎无法辨别真假的文本、图片和视频,使人们难以分辨什么是真实的,什么是虚假的。危险还延伸到通过宣传操纵公众舆论,这种宣传往往依赖于重复的信息。

想象一下,虚假信息和人工智能生成内容相结合可能带来的灾难性后果。想象一下,有人使用生成式人工智能来制造一个视频,描绘一群人焚烧一本神圣的书,这可能引发狂热团体的极端反应。此外,已经发生过 LLM 提供虚假回答和不当建议的情况,引发了人们对其在紧急响应或执法等关键应用中使用的担忧。依赖于一个持续生成荒谬答案的系统显然是不可行的。想象一下,将这样的系统用于医疗建议;风险是明显的。另一个令人担忧的方面是,学生可能会求助于生成式人工智能工具完成他们的学术作业。由于这些程序只能重复人类已经构思、编写或创建的信息,人们担心我们可能会培养一代学生,他们心不在焉地异口同声地重复“Chat GPT 告诉我的”。

一篇英国《卫报》(The Guardian)的文章,题为《人工智能的愚蠢》[17],简洁地总结了对这种类型技术产生盲目信任所带来的风险:

相信这种人工智能实际上是有知识或有意义的是极其危险的。它有可能毒化我们集体思维的源泉,以及我们思考的能力。如果像技术公司所提议的那样,ChatGPT 的查询结果将作为在线寻求知识的人的答案提供,如果像一些评论员所提议的那样,在课堂上作为教学辅助工具使用 ChatGPT,那么它的幻觉将进入永久记录,有效地阻碍我们与更合法、可测试的信息源之间的接触,直到两者之间的界限变得如此模糊以至于看不见。

5.11 LLM 和理解的幻觉

LLM 技术是人工智能不断拓展边界的明证,始终在推动曾被认为是人类专属能力的界限。然而,当前围绕 LLM 的热情与 2011 年 IBM 的沃森(Watson)击败两位“危险边缘”(Jeopardy)的顶尖冠军所见的激动相呼应。当时,沃森因其处理复杂问题的娴熟技巧和优秀的答案找寻能力而赢得赞誉 [18]。大胆的宣言称沃森将改变游戏规则,断言它可以彻底改革信息丰富的领域,特别是那些充斥着大量非结构化和半结构化数据的领域,如医疗保健、银行业、保险业和电信业。这些预测是否应验?并非完全如此,对于 LLM 的众多雄心勃勃的预测也有类似的结果预期。

与其他人工智能程序类似,LLMs 本质上执行一组预定的逻辑操作。神经网络和算法的早期版本,如反向传播,以有限的层次、参数和数据处理能力为特征。现今的深度学习算法依赖于超级计算机对庞大数据集进行训练,然而核心结果仍然相当一致:它们在没有真正推理或理解的情况下识别模式。为了进行比较,考虑一下过去半个世纪口袋计算器的发展。最初的型号只能执行基本的算术运算,如加法、减法、乘法和除法。然而,现代计算器依赖于增强的存储器和强大的硬件来执行诸如对数、三角函数运算和双曲函数等复杂功能。一些甚至可以生成彩色的 3D 曲面图。

众所周知,英语词典的词条少于 50 万个,而大多数英语使用者在日常交流中只使用其中的一小部分。因此,获得英语的熟练掌握似乎是一个相对较为温和的目标,考虑到每年能够实现这一目标的人数有数百万人。此外,人类生成的文本表现出高度的相关性,使其易于预测。这些模式和统计关系固有于数据中,个体可以根据这些线索准确地预测句子的完成。与此形成鲜明对比的是,LLMs 作为高级预测文本系统,分析前面的词以生成最可能的后续词。虽然这一自动化过程似乎会产生智能输出,但实质上它只是人工模拟。

人类沟通依赖于囊括空间、时间和世界各种基本方面的内在知识。例如,当有人输入“天空是蓝色”的时候,我们理解这句话是因为我们熟悉与“天空”和“蓝色”这两个词相关的感觉和含义。相比之下,LLMs 从对话、评论、书籍和网站中获取理解,那里观察到了某些词的共现。人类文本的本质,包括细微的语境,无论其参数数量和出色的模式识别能力如何丰富,深度学习算法都无法捕捉到。生成式人工智能缺乏引入全新概念或想法的能力;它只是重新排列现有元素。

从我的角度来看,拥抱这些系统存在着从知识是累积的且严格验证的世界过渡到知识是近似的且难以验证的世界的风险。我认为 LLMs 是本书标题中提到的“AI 幻觉”的一个鲜明例子。

摘要

  • 生成式人工智能依赖于庞大的数据集和大量的计算资源。

  • LLMs 如 ChatGPT 经常产生重复的文本,并且可能生成不准确的内容,这种现象被称为幻觉

  • 生成式 AI 程序根植于深度学习,缺乏解释其输出生成过程的能力。

  • LLMs 可以被操纵以生成有害的内容,包括深度伪造和各种形式的虚假信息。

  • 与人类互动相比,AI 通信明显受限,因为 AI 缺乏对文本、音频或图像的真正理解。

  • 人类交流不仅仅是言辞; 它在很大程度上依赖于上下文和诸如隐喻、类比和讽刺等概念,这些概念对于 AI 来说是具有挑战性的。

  • 尽管生成式 AI 标志着重大进展,但它仍然受到许多限制和相关风险的影响。

  • 与其他 AI 算法一样,生成式 AI 输出的质量受输入数据和提示的质量的重大影响。

  • 尽管有所进展,AI 缺乏人类的泛化能力,并不能有效地适应多样的情境。

第六章:人类与机器

本章涵盖

  • 生物大脑概览

  • 人类思想和记忆的考量

  • 对常识、想象力、直觉和创造力的思考

  • 图像推理

在人工智能领域度过的一年足以让人相信上帝。——艾伦·J·佩利斯

机器能否匹敌或超越人类的创造力?在本章中,我们将解释,即使人工智能系统在模式识别和数据分析方面显示出令人印象深刻的能力,但人类创造力的本质仍然是一个难以用算法复制的谜团。我们将审视人类认知的几个方面,以突显想象力、直觉、好奇心和创造力的真正含义,证明当前的人工智能虽然可以大大增强我们的能力,但无法模拟许多对于人类大脑想象未知、综合抽象思维并从思想和情感中汲取灵感的特性。我们还将证明,真正的理解是视觉的前提条件,揭示当前人工智能算法在识别物体方面的局限性以及它们远离实现人类般感知物体和场景的距离。

人类大脑

我们的大脑,即使在我们睡觉时也在编排我们所做的一切,是已知宇宙中最复杂的有机物质。根据科学作家 Rachel Tompa 的优秀文章“关于大脑的 5 个未解之谜”[1],我们甚至不了解蠕虫的大脑。

在《科学》杂志[2]发表的一篇文章中,计算神经科学家克里斯托夫·科赫(Christof Koch)强调了由于大脑的复杂性而我们在理解人类大脑方面取得的少之又少的进展:“1962 年未来诺贝尔奖得主大卫·休贝尔(David Hubel)和托斯滕·维塞尔(Torsten Wiesel)在一篇著名的出版物中提出的有关皮层回路的基本问题至今 50 年后仍然没有答案。”我听过神经学家也有同样的感受,但你会发现一些人工智能专家假装理解大脑的工作原理。

思考

表达我们的思想意味着什么?人类大脑的内部运作仍然是一个深奥的谜团,我们尚未完全掌握思想的本质,以及我们如何从感官体验中提取意义。作为人类,当我们遇到没有即时答案的问题或者依靠我们的知识来制定回答时,我们会参与思考。例如,当被要求计算 5 乘以 4 时,答案 20 会毫不费力地立即出现。同样,拼写我们自己的名字是一种自动的反应。然而,当面对像计算 529 的平方根或者拼写具有挑战性的单词“onomatopoeia”这样的更复杂的任务时,我们通常需要进行深思熟虑。似乎当我们必须适应不熟悉的情况时,我们会进行思考。

人体是约 30 万亿个细胞的复杂组合,每个细胞都作为一个独立的、知觉的、反应的和巧妙的实体运作,并与其他细胞和谐地合作。这些细胞成分同时执行成千上万的功能,包括输送氧气、循环血液、消化食物和合成蛋白质。我们的感觉器官不断向大脑传递信息,为我们提供视觉、听觉、嗅觉、味觉和触觉的感觉。大脑处理这些信息,使我们能够理解并适当地对周围环境作出反应。

人脑由大约 1000 亿个神经元相互连接在各种功能结构之间。神经元利用电脉冲和化学信号在大脑内部和大脑与更广泛的神经系统之间传递信息。神经元之间的动态相互作用和交流使每个个体在认知、情感和行为反应方面独一无二。

神经元分为三类:感觉神经元,运动神经元和中间神经元。感觉神经元将来自我们感觉器官(如眼睛和耳朵)的数据传递给大脑。另一方面,运动神经元通过从大脑到肌肉的指令进行肌肉活动的控制。其余的神经元类型统称为中间神经元。在这三类中,存在许多不同的亚类,每种亚类专门负责特定类型的信息传递。根据它们的位置和功能,一些亚类的神经元偶尔可以承担其他亚类的角色,通过传递和接收特定的神经递质。

神经元本身包括三个基本组成部分:细胞体,被称为轴突的延长结构,以及被称为树突的延伸网络(图 6.1)[3]。细胞体是神经元的指挥中心,内含细胞核,控制其功能并包含遗传物质。轴突类似于一个长长的尾巴,主要将电化学脉冲从细胞体传递出去,促进与其他神经元的通信。树突通过其分支结构从相邻神经元接收传入信号。神经元通过神经递质跨越称为突触的专门连接传递信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6.1 典型神经元的图像(由 Wikimedia Commons 提供,CC BY-SA 3.0)

每个轴突末端都含有大量的囊泡,每个囊泡都包含大量的神经递质分子。单个神经元具有与其他神经元建立成千上万的连接的能力,导致成年人脑中估计有 100 万亿个突触连接。这些连接并不是静态的;它们表现出随时间变化的能力。此外,两个神经元之间交换的信号越多,它们之间的连接就越强。这种动态特性使人脑能够根据经验重新配置其物理结构。

将生物神经网络采用的复杂学习机制与人工神经网络的简单架构和学习方法进行比较,显然存在着明显的对比。人工神经网络通常采用简约的拓扑结构,并依赖于权重修改进行学习,这与生物神经网络的复杂性相形见绌。

6.1.2 记忆

我们的记忆定义了我们是谁,但它们究竟是什么,以及它们是如何存储和检索的?这个问题已经困扰了研究者数个世纪。我们知道记忆不是存储在我们身体内的物理对象,但除此之外我们还知道些什么?我们想象我们的大脑会对我们经历过的经历进行某种记录,至少是重要的经历。

如果我们的大脑有一个文件库,其中包含我们学到的东西,我们的思想和信仰,编程工作是如何进行的?文件格式是什么?这是否是适当的类比?我们的大脑如何区分和分类我们思考的众多事物之间的多维差异和相似之处,以及它如何跟踪它们之间的相互关系?

计算机通过访问存储在晶体管或其他电子媒介中的二进制数据来“回忆”某些事情。它将存储设备中的 1 和 0 转换为在屏幕上显示符号或使声音从扬声器中发出的机器指令。将这与人类经验进行比较。微弱的声音或气味可以带回我们第一次听到最喜欢的歌曲或我们尝试特别菜肴时度假时的生动记忆。

我仍然记得当我第一次听到约翰·列侬的歌曲“想象”时我在哪里以及我在做什么。在我们的脑海中,我们可以将景象形象化,听到环境声音,闻到香气,就好像我们的眼睛,耳朵和鼻子是时光机器。我们重新体验情感,并拼凑出我们曾经进行过的对话的部分,所有这些都可以在毫秒内自动发生。

尽管我们显然了解计算机内存的工作原理,但我们对自己的内存仍然了解不足,虽然大脑功能的大部分仍然是神秘的,但我们已经取得了一些进展。1953 年,亨利·莫莱森(Henry Molaison)在接受手术治疗癫痫后失去了形成新的长期记忆的能力。手术已经切除了他的海马的一半,这导致医生相信海马在记忆形成中起作用,这一假设后来得到了证实。

像莫莱森(Molaison)等人所经历的不幸事件促成了大脑内部的不同亚结构的发现,每个亚结构都有特定的功能。其中值得注意的是丘脑和下丘脑,它们在协调运动方面发挥作用;垂体和松果体,负责产生和调节各种激素;网状网络,与意识和注意力相关;边缘系统,参与驱动和情绪的处理;以及脑干,包含控制自动过程的多个亚结构。

1970 年,埃里克·坎德尔博士因他对海蛞蝓简单神经系统的研究而获得了诺贝尔医学奖。他的实验揭示了记忆背后的分子机制,并表明学习涉及到大脑结构的物理变化。他发现,随着海蛞蝓的学习,化学信号改变了连接它们细胞的突触网络。这些细胞用于传递和接收信息的电化学通路的变化与新记忆的形成有关。今天,我们可以观察到细胞核产生 mRNA,指导突触建立新的连接,我们现在了解到当我们学习或记忆时,这些变化发生在我们自己的大脑中。

6.1.3 潜意识

我们的意识思维作为想象力和情感的融合,不断寻求新奇。它是新鲜想法的源泉,也是我们所谓的“人类智慧”的基石。

我们的潜意识与我们的大脑和神经系统协同工作,接管我们的行为并塑造我们的选择。这个潜意识不断运作,像一台警惕的自动驾驶,调节着从我们的呼吸和体温到我们的免疫系统的一切。它独立于我们理性、逻辑的思维之外运作,但似乎依赖于我们的信念和过去的经验。

我们的潜意识对我们的观点、信念和判断产生重大影响。想象一下一个孩子通过观察周围环境和其中的人学习行为规范。这些根深蒂固的价值观可能在我们成年后指导我们的决定,即使我们并没有意识到它们,挑战它们也会引起强烈的情绪,如内疚。我们的潜意识编程也可能培养出隐藏的偏见,导致我们评判那些没有经历相同条件的人。

这种复杂性与机器智能模型形成鲜明对比,机器智能模型中的一切都是内在明确的。数据要么被存储,要么没有被存储,算法要么引用它,要么不引用它。

当观察一个婴儿学会走路时,我们就能看到我们潜意识思维的卓越力量。他们从爬行开始,试验和发现一种推动他们前进的肢体运动模式。逐渐地,他们学会站立和转移体重,最终掌握走路的艺术。这个公式在几周内就被深深地植入到他们的潜意识中,使他们能够毫不费力地走路一生。尽管进行了巨额投资,机器人仍然无法复制幼儿的熟练程度。

当驾驶汽车时,我们潜意识的能力同样显著。最初,我们的意识思维在学习这项复杂任务时感到困难,但随着经验的增长,驾驶似乎毫不费力。我们常常在没有记得细节的情况下完成一次旅程,因为我们的心智自动驾驶系统在交通中导航、避开障碍物并适应条件。令人惊讶的是,我们的潜意识甚至管理着我们的速度,因为我们可能发现自己在不知不觉中与道路要求保持一致。意识思维偶尔会参与其中,以记录环境中的重大变化。我们的潜意识思维操作起来就像是一台适应性的自动驾驶系统。

6.1.4 常识

常识是没有反思的判断,被整个班级、整个国家或整个人类共享。—詹巴蒂斯塔·维科

常识,是数百万年人类进化和交流的产物,是从共享的人类经验中得出的广泛实用见解的广阔图书馆。我们日常生活中所做的一切都使用常识,它使我们能够理解世界并在其中有效行动。这种知识不需要教导,因为我们期望每个人通过他们的生活经验自动获得它。以下 12 个例子说明了大多数人会认为是常识的事情:

  1. 图书馆或你手上的书应该在那里,但是微波炉里的书就没有意义。

  2. 雨是垂直落下的,会让我们身上湿透。

  3. 一个装有水的玻璃杯如果掉在水泥地上很可能会破裂,但即使没有破裂,里面的水也会溢出。

  4. 大象不会飞。

  5. 我的父母比我年龄大。

  6. 酒后驾车是一种危险行为。

  7. 蜂蜜味甜,来自蜜蜂。

  8. 动物不会开车。

  9. 盐不是糖,即使它们看起来相同。

  10. 在黑暗中,外表不重要。

  11. 如果你知道我有一辆车,你可以推断我可以载你。

  12. 如果你得知我的车发动不了,你不再会推断你可以搭我的车了。

人类经常通过短语或词语的组合抽象地表达常识。例如,当我们使用短语“boiling the ocean”时,我们传达的是一个任务过于庞大的意思。另一方面,人工智能系统往往难以理解这种抽象概念。它们可能会意识到海洋含有水,水可以被煮沸,导致它们字面上解释短语,错过了预期的意义。

我们的常识还涉及识别概念之间的关系、含义和关联。当我们看到云和天空变暗时,我们预料到会下雨并理解它对我们野餐计划的影响。我们从词语、手势、符号和颜色中得出意义,所有这些都取决于上下文和各种线索。例如,在美国,政治新闻文章中的术语“红州”和“蓝州”被理解为指具有多数共和党或民主党选民的州,而不是描述它们的物理颜色。

常识在人类创造力中起着至关重要的指导作用,它引导我们将精力从不切实际的追求中转移到生产性和有效的项目上。常识的多样性和无数情景使得几乎不可能将其编目或编程到计算机中。涉及对象、行为、个体和环境因素的潜在组合几乎是无限的。因此,在计算机中复制常识仍然是一个巨大的挑战,真正的人工智能在没有常识和理解的基础上是无法实现的。

6.1.5 好奇心

我们不断向前迈进,开启新的大门,做新的事情,因为我们好奇,好奇心不断引领我们走向新的道路。 ——华特·迪士尼

好奇心,贯穿我们思想的思维驱动力,是人类文明进步的关键力量。它激发了我们对未知的调查和发现的渴望,探索未知,创新和学习。鲁道夫·吉卜林的诗歌“我保持六个诚实的仆人”以一种富有想象力的方式概括了好奇心:

我保持六个诚实的仆人

(他们教会了我所有我所知道的);

他们的名字是什么、为什么、什么时候、怎么样、在哪里和谁。

我把它们送过陆地和海洋,

我把它们送往东方和西方;

但在他们为我工作之后,

我让他们全部休息。

人类的好奇心一直驱使着我们超越了单纯的生存需要,往往类似于饥饿或口渴的原始本能。正是这股驱动力使我们投入时间和精力探索我们的世界。无论是对未探索的海洋还是新大陆的好奇心,它都激励我们建造船只,踏上探索之旅。

好奇心不仅限于探索,它在每个领域都发挥着不可或缺的作用。例如,它通过帮助我们更好地了解和满足个人需求来提升客户服务。在医疗保健领域,它提高了治疗的质量,因为对患者状况更加好奇的医生更有可能提供更加量身定制和个性化的护理。

费思·菲茨杰拉德博士在她名为“好奇心”的文章中强调了医疗保健中好奇心的重要性[5]。在这篇文章中,她分享了医生和作家埃里希·洛伊的一段话,强调好奇心是医学领域的驱动力:

好奇心,这种刺激探索的原始“惊奇”,既涉及想象力(构想新现象的替代解释),又涉及智力(制定最佳方法来判断哪种解释最有可能)。想象力和智力对于人文学科、科学以及两者的综合(即临床医学)都是不可或缺的。

可以毫不夸张地说,大部分显著影响人类进步的科学进步都可以归因于好奇心。例如,考虑一下德国物理学家威廉·伦琴于 1895 年的情况。在使用克鲁克斯管进行研究电放电时,伦琴做出了一个引人注目的观察:他的设备在房间对面的一个化学涂层屏幕上产生了一种神秘的发光。受到伦琴工作的启发,法国人亨利·贝克勒尔决定调查他收藏的一些在黑暗中散发出诡异光辉的不寻常的岩石。这种受好奇心驱动的探索最终导致了放射性的发现 [6],这是现代科学中的一个基本概念,为 X 射线、烟雾探测器和核能等技术奠定了基础。

理查德·费曼是 20 世纪后期物理学领域的著名人物,因其在量子电动力学方面的开创性工作而与 1965 年分享了诺贝尔物理学奖,这对我们理解基本粒子具有深远的影响。当被问及是什么主要推动了科学发现时,他回答道:“这与好奇心有关。这与人们想知道某物是如何运作的有关。”[7]在他的书籍六堂简单的课 [8]中,费曼强调好奇心要求我们提出问题:

沙子是否与岩石不同?也就是说,沙子也许只是许多非常小的石头?月球是一个巨大的岩石吗?如果我们了解了岩石,我们是否也会了解沙子和月亮?

像其他内在驱动力一样,好奇心是人类创新背后的刺激,敦促我们冒险探索未知领域。好奇心和我们的情感联系在一起,唤起了好奇、兴奋和探索新事物和未知事物的内在渴望。好奇心推动我们冒险以寻求回报,激发出一种令人激动的感觉。好奇心的满足触发了大脑中多巴胺等愉悦化学物质的释放[9]。相比之下,人工智能仅依赖于人类编程算法。机器缺乏动机和满足的能力,当然,它们也无法体验好奇心。

6.1.6 想象力

逻辑会把你从 A 带到 B,想象力会带你去任何地方。——爱因斯坦

想象力,创造新想法和发明的源泉,源自人类情感、专业知识、生活经验以及思想、情感和记忆之间。它是创作诗歌、作曲音乐、解决复杂问题和构想突破性创新的催化剂。想象力还赋予我们从当前环境中推断未来事件的能力。

想象这种情景:你发现自己在一幢办公大楼的十层,突然被交付紧急使命,要将满满一桶水送到一楼的接待区,而电梯坏了,必须使用楼梯。虽然这种情况可能是新颖的,可能没有人曾向你描述过这样的困境,但你的想象力迅速地开始发挥作用。

在这种想象的练习中,你可能会推断出任务的紧急性与接待区的重要事件有关,因而你创造并评估了各种场景。当你想象自己带着晃动的水桶飞奔下楼梯时,你预料到不可避免的溅洒,潮湿的衣物的可能,以及为了避免滑倒而需要谨慎行动。

这就是想象力的工作本质,一种推动创新的智力能力,使我们能够探索想法和实体,这些想法和实体只存在于我们的思想中。想想莫扎特,他声名远播地在脑海中创作了整个交响乐曲,没有真正的乐器。同样,剧作家设想了场景,充满多位表演者,他们的行动和对话,他们在舞台上的精确位置,伴随的音效以及事件的交织。

想象力是人类创造力的发动机。举例来说,约翰内斯·古腾堡就是因为在脑海中构想出一个带活字的螺旋压力机而闻名的。这一构想最终导致了第一台印刷机的诞生,这台机器将成为历史上最具影响力的发明之一。在他的论文《尼古拉·特斯拉:今天的电力是通过他的发明来产生、传输和转化为机械动力的》[10]中,肯尼思·斯韦泽赞扬了特斯拉非凡的想象力,并强调了特斯拉的创新的深远和积极影响:

从小,特斯拉就能清晰地想象,以至于他经常很难区分真实物体和他想象中的对应物。这种能力在普通生活中经常令人困扰,甚至令人恐惧,但特斯拉在发明中却利用了这一优势。借助这种能力,他可以在脑海中组装和重组机械零件,改变尺寸、重量和材料,最终制作出一个通常会准确运行的模型。

同一篇论文强调了特斯拉的想象力,描述了一项突破性的发现,为现代电动机和发电机铺平了道路:

1882 年 2 月的一个傍晚,答案出现了。特斯拉与朋友西格蒂一起漫步在布达佩斯市立公园里,背诵着他能倒背如流的歌德的《浮士德》中的诗句。突然间,他苦苦寻觅的解答在他脑海中闪现。他清楚地看到一块铁转子在电涡旋中快速旋转——由两个不同相位的交流电相互作用产生的旋转磁场。特斯拉用一根棍子在沙地上画出图表,向西格蒂详细解释了六年后他在美国要申请专利的感应电动机的原理。

我们的想象力是一种思想和情感的融合,导致创造力和创新。与机器不同,我们的认知过程不受严格逻辑的限制。一个设计用于在数据中检测模式的算法如何能够复制人类想象力的无限性?

6.1.7 创造力

创造力就是看到别人看到的,并且想到其他人从未想到过的事物。—阿尔伯特·爱因斯坦

创造力源于我们推断看似无关联概念之间连接的能力。它依赖于想象力产生新颖的想法或有价值的产品。这种创造力的力量可以以各种方式表现出来,从创造全新的东西到组合、调整或增强现有元素。创造力挑战了纯逻辑的限制。它始于想象力,通过直觉蓬勃发展,并通过推理形成。成为创造性的公式或方法是不存在的。创造力使我们能够在面对意外事件和挑战时实时适应。众所周知,创造力是发明之母。

一种关于创造力的经典例证可以在阿基米德的故事中找到。他被国王委托确定一顶王冠的容积。当他浸入浴缸时,突然产生了灵感:他的身体排开的水等于他的体积。意识到这个原理可以应用于测量王冠的容积,据说他大喊“幽锥!”这意味着“我找到了!”

另一个例子来自约翰·斯坦贝克杰出的书与查利一起寻找美国 [11],他描述了他如何巧妙地在乡间旅行时设计了一种高效处理洗衣的方法:

我发明了一种洗衣服的方法,你需要走很远才能超越它。它是这样发明出来的。我有一个带盖子和提手的大塑料垃圾桶。由于卡车的正常移动使它倾斜,我用一根坚固的弹性绳(由覆盖橡胶的棉制绳组成)把它拴在我的小壁橱里的衣服杆上,它可以随意摇晃而不会倾倒。经过一天,我打开它在路边一个垃圾桶处处理东西时,发现了我见过的最彻底混合和揉捏的垃圾。我猜想所有伟大的发明都源于这样的经历。第二天早上,我清洗了塑料桶,放入两件衬衣,内衣和袜子,加入热水和洗衣粉,并用橡皮绳拴在衣服杆上,它整天摇晃和疯狂舞蹈。那天晚上,我在小溪里冲洗衣服,你从未见过那么干净的衣服。在小马车 Rocinante(他以唐·吉诃德的马命名的皮卡车)内,我靠近窗户悬挂了一条尼龙线,将衣服挂起晾干。从那时起,我的衣服是在一天的行车中洗净,然后在第二天晾干的。

创造力似乎具有天然的广阔性,一次又一次地在一项创新之上建立起来。随着时间的推移,渐进式的增强和巧妙的修改已经将我们从热气球推上了太空飞船。

一个有创造力的个体经常接受挑战,以发明创新的解决方案。相比之下,现有的人工智能是机械操作,根据人类创建的算法处理数据。它缺乏发明全新东西的能力。创造力怎么会从一堆数学公式中出现呢?

6.1.8 直觉

C’estparlalogiquequ’ondémontre,c’estparl’intuitionqu’oninvente。我们用直觉发明,我们用逻辑证明。—亨利·庞加莱

直觉是我们本能的能力,能够在不依赖于有意识的推理的情况下感知、评估和理解某种东西。它就像一个微妙的耳语,引导我们探索未被探索的领域,借鉴我们过去的经验和情感,以拥抱有时可能导致突破性发现的非常规路径。直觉超越逻辑的边界,使得很难解释。

大多数创新在一定程度上可以归因于直觉。我们都熟悉艾萨克·牛顿和苹果落下的传奇故事。当他观察到一个苹果从树上掉下来时,牛顿深深地感受到这个看似普通的事件背后有重要的东西。这使他思考运动中物体的本质,他的直觉提示他,导致苹果下落的东西可能也是月球运动的原因。他进一步推断,这样一个普遍的力量也可能控制着星球和行星的运动。在他那个时代,普遍的信仰是天使推动行星沿着它们的轨道运动。

1796 年,医生爱德华·詹纳有一个直觉,导致了世界上第一个疫苗的开发。那时,天花在英国是一种猖獗且致命的疾病。詹纳观察到那些经常与牛交往的人经常感染牛痘,这是一种相关但较轻的疾病,可以从牛传播给人类。奇怪的是,那些感染了牛痘的人似乎对天花免疫。詹纳有一个直觉,认为牛痘能够对抗天花,并通过对牛痘的有意识和系统性暴露,他证明了它可以防止天花的传播。这种直觉,在病毒的发现及其在疾病中的作用被发现将近一个世纪之前,帮助对抗了困扰人类几个世纪的疾病。

1928 年,苏格兰医生和科学家亚历山大·弗莱明在检查细菌培养皿时注意到一块霉斑。他观察到霉斑周围的区域没有细菌。他的直觉引导他进一步调查,从而发现了青霉素,这是一个挽救生命的发现,拯救了无数人的生命。

同样,起搏器,一个医疗救命器,是在 1956 年由工程师和发明家威尔逊·格雷特巴奇的直觉发明的。在研发心脏节律记录器时,他不小心使用了错误大小的电阻器,意外地听到了设备发出的电脉冲声。他的直觉让他相信自己可能已经找到了一种模拟和刺激心跳的方法,这一信念被证明是正确的。

人工智能作为计算机程序,主要依赖逻辑推理,缺乏直觉维度。复制触发人类直觉的复杂而神秘的过程对人工智能来说是一个巨大挑战。很难想象一种算法能够复制出像直觉这样不合理和无法解释的东西。算法和数学公式的组合如何能够在机器中产生直觉?

6.1.9 类比

发现中真正的成就在于……看到了以前没有人看到的类比。 ——阿瑟·科斯特勒

比喻是一种利用相应部分或相似之处进行比较的比较。比喻激发直觉和创造力,使其成为人类创新的强大工具。我们自然而然地在不同的对象之间进行类比。例如,我们认识到汽车和滑板之间的类比,尽管它们有根本的不同,但两者都有轮子,可以促进从 A 点到 B 点的移动。比喻在职业世界中也发挥着重要作用。例如,律师在他们的论点中经常引用先例,使用通过比较早期案例进行推理的方法。在他们 1970 年的学术文章中,题为“关于人工智能和法律推理的一些猜测”的文章中,Bruce G. Buchanan 和 Thomas E. Headrick 强调了比喻在法律职业中的关键作用:

律师通常喜欢构建从案例中提取出与他正在处理的案例相似的事实的论点。如果找不到这样的案例,他就会寻找在形成论点时与自己的类似的事实的案例。找到类比的一种方法是通过对法律规则的概括。尽管在一个案例中将规则应用于特定的事实,但法院陈述规则的语言可能演绎地允许将其应用于不同的事实。该规则可能使用能够涵盖各种事件、行动或关系的词语。例如,在我们的波士顿冰块的案例中,律师检查了水递送的案例是否适用于冰递送。此外,类比是通过对事实情况进行概括而找到的。

人类的类比推理利用了广泛的多样化经验库,使我们能够推断出看似无关的领域之间的联系,并将它们的见解应用于创新和创造新的思想。相比之下,当前的人工智能技术在试图模拟人类级别的类比推理时面临困难,因为它们严重依赖于预定义的算法。

6.2 人类视觉与计算机视觉

视觉可以说是我们最依赖的感觉,帮助我们导航和理解周围的世界。我们的视觉感知始于环境中的光线,这些光线要么来自光源,要么从物体上反射,然后通过角膜进入我们的眼睛。眼睛的晶状体将这些光线聚焦到视网膜上,视网膜位于眼睛背部的光敏膜。视网膜细胞通过传递神经信号响应,这些信号迅速被加工成我们周围环境的表示。这种感知过程使我们能够感知光明和黑暗;区分颜色、质地和形状;以及识别不同的物体。此外,我们还能检测运动并估计距离。

捕捉光线并生成电信号的物理过程并不特别复杂,许多机器在这方面超过了我们。我们有能够检测遥远天体的热量和 X 射线的设备,还有能够产生单个原子图像的其他设备。然而,人类视觉不仅仅是数据采集;它涉及到解释和理解的复杂过程,这是机器目前远远落后的领域。

通常,人类只需要少数几个示例就能对某事物形成深刻的理解。当一个孩子第一次看到一只猫时,他们本能地建立起一个心理模型,帮助他们识别“猫”的特性。他们使用逻辑和常识来概括他们的观察,下意识地识别与猫相关的各种特征,如形状、颜色、纹理、声音和行为。即使孩子的第一次遭遇是在窗户里看到一只小小的、白色的暹罗猫,他们也会认出其他不同颜色、大小和品种的猫,即使在不同的活动中。他们可以在照片、漫画甚至是万圣节有人扮成猫时识别猫。随着接触的增多,他们可能会了解到猫有爪子和尖牙,可以表现出甜蜜和脾气暴躁的行为。

相比之下,深度学习算法通常需要接触数百万个人标记的示例,才能可靠地将一张图片识别为“猫”或“非猫”。这些示例需要是高分辨率的图像。算法需要看到猫从多个角度和参与各种活动,捕捉所有相关的形状、大小、颜色和纹理。对于机器来说,它“看到”的对象本质上是像素的集合。机器学习采用分层方法,最初识别与形状相关的模式,然后识别颜色和纹理,最终检测到更细微的特征。即使一个人工智能系统能够可靠地“看到”和识别猫的图像,它也缺乏孩子第一次遇到猫后所达到的深度理解。正如我们在第三章中探讨的神经网络和深度学习所述,机器“学到”的基本上是一组介于 0 和 1 之间的数字值(网络的权重),使算法大部分时间能够产生准确的输出。然而,这些数字不能教会机器图像的意义或照片中捕捉到的物体的潜在用途。

6.2.1 AI 和 COVID

2020 年,全球应对了 COVID-19 病毒的出现,这是一场夺走了数百万生命的全球健康危机。对技术解决方案的需求至关重要,这为人工智能提供了展示其潜力的独特机会。多年来媒体对机器视觉的炒作,利用 AI 诊断 COVID 的想法似乎很有前途。看起来很简单:使用带有“感染”或“未感染”标签的胸部 X 射线或其他图像训练机器学习算法,医生可以在上传患者的胸部扫描后立即收到诊断结果,消除了传统 COVID 检测所需的等待时间。

然而,现实是令人失望的。虽然机器学习在某些医学影像应用中取得了成功,但在全球大流行期间,全球范围内开发的数百种模型都未能用于 COVID 诊断。《自然》杂志团队对 2212 项研究进行的全面审查,标题为“使用胸部 X 射线和 CT 扫描检测和预测 COVID-19 的机器学习的常见缺陷和建议” [13],得出结论:“由于方法论缺陷和/或潜在偏见,没有发现任何潜在临床用途的模型。”

麻省理工科技评论MIT Technology Review)分享了类似令人失望的评估,称:“最终,开发了许多预测工具。没有一个真正起到作用,有些甚至可能有害” [14]。领导英国医学杂志研究审查的流行病学家劳雷·维南特斯(Laure Wynants)表达了深刻的担忧,她认为实验性诊断技术可能会带来更多的伤害而不是好处。她说:“这令人震惊。…我当初确实有些担心,但这超出了我的担忧” [15]。遗憾的是,我同意她的看法。

6.2.2 图像推理

我们人类在不费吹灰之力的情况下,将视觉输入实时转化为我们完全信任的有意义信息,以至于我们经常拿生命来赌注。相比之下,2017 年进行的一项针对深度学习系统的实验展示了计算机“视觉”的脆弱性。在训练网络以识别一组图像后,发现有 74%的图像可以仅通过修改一个像素的方式,以 99%的概率愚弄算法 [16]。值得一提的是,我们每只眼睛都有一个真实的盲点,尽管它代表了我们视野中一个比一个像素更重要的空白,但我们通常完全没有注意到它,也不会因此感到困惑。每只眼睛后面视网膜神经连接的地方没有光感受细胞,因此眼睛透过镜头聚焦在其中一个点上的环境光不会激发任何信号。然而,大脑通过使用上下文和另一只眼睛的数据来填补缺失的信息,将我们的环境呈现为一个连续的、无间断的图像。

AI 对于物体识别的困难是显著的,但更大的缺陷在于其完全无法将意义与其处理的图像关联起来。视觉不仅仅是关于在图像中识别物体,而且在像素模式中找出模式与理解对象环境的重要性、对象之间的关系以及它们的潜在用途之间存在着巨大的差距。人类天生的从背景中区分对象的能力继续逃避 AI,而通过触觉、声音和嗅觉辅助的视觉解释能力可能永远不会被任何 AI 算法复制。

AI 也难以模仿不连贯性的检测。在没有任何训练的情况下,我们知道汽车不应该放在微波炉中,椅子也不会飞。如果我们被展示一个厨房场景,我们知道不要期望有一个热水浴缸或割草机。相比之下,AI 不会识别连接或关系,因此无法告诉何时情况不对。

我们的人类视觉系统还与我们的逻辑推理和想象力结合在一起。例如,仅通过视觉,一个孩子就能学到香蕉是一种从绿色开始、变黄后发展出褐色斑点的水果。他们会学到香蕉没有种子,可以和冰淇淋一起食用,也可以被烹饪。他们还会明白,尽管香蕉可能被切片放入一碗燕麦粥中,但不应该放入一碗鸡汤中。

当前的 AI 无法自动复制出孩子对香蕉产生的任何想法或联想。计算机也不太可能识别出香蕉和香蕉形状的黄色塑料之间的有意义差异。即使只依靠视觉,孩子也会推断出塑料香蕉不会变黄,也不能剥皮或食用。

抽象的意义和表示也是我们处理视觉输入的一部分。当我们在纸上看到数字时,我们将它们与数量关联起来,或者通过相对大小或其他抽象特征理解它们。数字 9 和数字 6 在旋转 180 度后基本相同,但我们毫不犹豫地知道 9 表示的数量大于 6,也许每个数量都可以被 3 整除。

我们的视觉处理也与我们的运动功能和协调能力无缝结合在一起。我们可以在草地上奔跑,同时观看球在空中飞行,而无需测量或进行任何数学计算,就能在恰到好处的时间和位置抓住球,防止它撞到地面。管弦乐团的音乐家们可以根据乐谱上的标记进行复杂而精细的动作,同时根据指挥的手势调整他们的表演。

有许多人类视觉方面的特点是机器无法复制的,因为它们是机器。例如,看到一个哭泣的孩子可能会引起悲伤或同情。一个久违的朋友可能会引起惊讶和喜悦。对感官输入的情绪反应和生理反应显然只限于生物体,没有任何机械模拟能够重新创建人类视觉的这些特征。

大部分人工智能的努力都集中在复制人类智能上,而没有分析 AI 算法和计算机使用的过程是否与人类思维有任何关系。我们了不起的大脑能够做出我们甚至无法理解的事情,从这个角度来看,声称我们可以在计算机中复制这些事情应该变得更容易被否定。此外,通过放弃我们应该尝试让我们的机器像大脑一样行为的想法,我们实际上可以追求技术的全部潜力。虽然鸟类的飞行可能曾经启发过那些想象飞行器的人,但我们并不渴望制造完全模仿鸟类行为的飞机。事实上,我们的空中技术远远超过了自然界的任何东西。

尽管人工智能取得了惊人的进步,但它仍然受限于其算法编程,缺乏复制人类好奇心、想象力、创造力、类比和直觉这些定义人类特征的基本品质。这些方面与许多其他情感人类能力之间的内在联系是我们物种的独特特征。

摘要

  • 人类大脑仍然是一个神秘的谜团,继续困扰着医学专业人员和研究人员。

  • 尽管在揭示认知和意识的神经基础方面取得了重大进展,但负责产生我们思想的精确机制仍然是一个深奥的谜。

  • 人类大脑惊人的记忆信息和概括概念的能力证明了其惊人的适应性。

  • 在意识之外,潜意识对我们的决策和创造性发现产生了深远的影响。

  • 常识是人类决策的基本方面,是复杂情况中的重要指南。

  • 人类拥有独特的特性,对人工智能来说仍然是一个严峻的挑战。

第七章:AI 不会把数据转化为智能

本章内容包括

  • 数据、信息和智能之间的区别

  • AI 模型的有限重用性

  • AI 对意外数据输入的脆弱性

在本章中,我们将解释,无论数据集有多么广泛或算法有多么先进,人工智能程序在从数据中推断智能时面临着巨大挑战,这是由于语义鸿沟导致的,人工智能算法可以处理数据,但难以理解它的更深层含义。即使对于像识别手写数字这样的简单任务,人工智能模型擅长的地方,它们仍然缺乏理解数字周围语境的能力。例如,一个人工智能系统可能正确识别手写的 9 为数字符号 9,但它仍然无法推断出这个数字更有可能代表的是生日卡上一个孩子的年龄。

農夫狼山羊白菜难题,前面在第四章已经讨论过,作为一个主要示例,说明了当人工智能面临需要逻辑推理和策略规划的问题时的约束。传统的机器学习模型主要依赖于统计模式和数据驱动的训练,因此对于需要演绎推理、前瞻性规划以及对特定约束的深刻理解的任务来说并不合适,就像这个简单的问题所展示的那样。在这个谜题中,农夫必须安全地把狼、山羊和白菜过河,确保狼不吃山羊,山羊不吃白菜。虽然人工智能在自然语言理解、图像识别和游戏等领域表现出色,但这些领域通常涉及基于模式识别和优化的活动,借鉴于历史数据。相比之下,解决农夫狼山羊白菜难题需要符号推理或符号人工智能技术,依赖明确规则和逻辑来确定正确的行动顺序,同时遵循预先定义的约束。人工智能的真正进步将需要开发创新技术,例如智能代理,超越仅仅从数据中学习的局限。

通过引用医学诊断更详细地阐述,很多人认为人工智能可以从数据中获取“智能”的能力。然而,只依靠训练数据的人工智能系统并不能准确进行医学诊断。一个基本的限制是缺乏医学理解。只依靠数据训练的人工智能程序可以识别统计模式和相关性,但它们缺乏对潜在的医学概念、疾病机制以及人体复杂性的固有理解。医学诊断通常需要对生物学、病理学和临床专业知识的理解,这些是无法从数据中推断出来的。

在大多数情况下,去看医生,除非是紧急情况,都是从信息共享过程开始的。在预约时提出问题并得到回答,填写接待表格,更新健康史,有时需要填写问卷调查。在患者见到医生之前,护士通常会记录身高、体重、体温和血压,同时进行初步测试。

一旦医生进入检查室,他们就开始信息过滤和推理的过程。除了患者的记录和收集的初步数据外,医生还考虑患者的外貌和举止。他们对患者的眼睛、耳朵、鼻子和喉咙进行视觉检查;听心跳;和触诊腹部。他们与患者讨论他们的症状,并提出有针对性的问题收集特定信息。在某些情况下,他们可能进行专门的诊断程序,或要求进行血液或尿液样本进行实验室测试。

从理论上讲,几乎患者生活故事中的任何细节,甚至是他们亲属的故事,都可能与诊断相关。然而,区分要考虑什么和要忽略什么是一种技能,在大多数情况下,大部分可用信息与当前情况无关。如果有时找到正确的诊断感觉就像在草堆中找针一样,那么添加更多数据只会增加草堆的大小,形成阻碍而不是帮助。

医生的大部分推理都是本能和潜意识的,来源于对类似案例的经验和对患者的熟悉。随着时间的推移,医生们已经发展出了处理不确定性和不完整信息的能力。例如,他们必须根据患者的整体健康状况来解释症状严重程度的描述。他们的提问方式会根据患者的回答和直觉实时调整。有时,他们本能地知道要询问家族史或现有病史,而在其他情况下,好奇心促使他们询问睡眠质量或情绪压力。

显然,医生需要推断、进行类比和依靠直觉。他们的任务不是尽可能积累更多信息,而是获取正确的信息并正确解释它。无论 AI 模型在训练过程中使用了多大规模的数据集,它都无法复制医疗专业人员的多方面推理能力。

7.1 机器击败世界冠军

历史上两次最广泛宣传的“人工智能事件”是 IBM 的深蓝在 1997 年击败国际象棋冠军加里·卡斯帕罗夫,以及 AlphaGo 在 2016 年击败围棋冠军李世石。这两次事件都受到了广泛的媒体关注,展示了这些程序的表面“智能”,并引发了对未来更先进技术的期待。然而,这些流行的解释往往偏离了实质。这些演示主要突出了机器强大的计算能力和复杂的专门算法。它们并没有展示出真正的智能或理解,而是突显了人类和机器生成游戏走法的鲜明对比。通过分析计算机用于玩人类游戏的方法,我们可以更好地理解依赖于数据和计算的人工智能系统。

在国际象棋游戏中,棋盘由八行八列组成,最初由 32 个方格占据。每一方开始时都有一组棋子,包括八个兵,两个战车,两个骑士,两个主教,一个皇后和一个国王(图 7.1)。每种棋子都有自己独特的移动规则。例如,兵通常每次只能前进一格,除了它的第一步,它可以选择前进一格或两格。玩家轮流行动,白方棋子先行。棋子通过移动到被对手棋子占据的方格来夺取对手的棋子。游戏的目标是将对手的国王置于无法逃脱被夺取的位置,这称为将死。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7.1 国际象棋的起始位置(法国卢浮宫艺术收藏品)[1]

在国际象棋游戏中,白方面临着初始的 20 种可能走法选择,而对手也有同样数量的潜在应对。然而,随着游戏的进行,可能的棋盘位置数量显著增加。在第二对走法之后,我们就达到了 197,742 个潜在的棋盘配置。经过三对走法后,这个数字急剧增加到了超过 1.21 亿。为了提供一些透视,考虑到国际象棋中的典型局面允许大约 30 个合法走法可供选择。随着平均国际象棋游戏扩展到大约 40 对走法,总可能的游戏位置数可估计约为 10120 个。

注意 这个巨大的数字被称为香农数,以数学家和电气工程师克劳德·香农的名字命名。它用作国际象棋中估算游戏树复杂度的度量。香农发表了一篇开创性的论文,标题为“为下国际象棋编程的计算机”。在这篇论文中,他引入了游戏树的概念,包括代表不同游戏状态的节点和连接到可通过合法移动到达的节点的边。

在国际象棋中,每个玩家的一步行动会导致对手可能的多种回应,形成一个称为游戏树的分支结构。香农数试图量化可能的国际象棋游戏的大量数量。这个数字提供了国际象棋游戏树复杂性的下限。它是对可能的国际象棋游戏的最小数量的估计,考虑到合法的移动和位置。计算涉及考虑平均分支因子(每个回合可能的平均移动数)和平均游戏长度。

虽然由于国际象棋的巨大复杂性,确切的数字很难准确把握,但香农数作为一个理论上的衡量方式,用来说明国际象棋的非凡深度和复杂性。它突出了国际象棋的错综复杂和广阔性质,强调了包含所有潜在合法位置和着法的困难。

编程回合制游戏的传统方法,正如 IBM 的 Deep Blue 为国际象棋所示,涉及将游戏树存储在计算机内存中。在这种方法中,系统评估分支末端位置的可取性,系统地向树中添加更多节点以进行更深层次的搜索,并修剪不太有希望的分支。计算机然后根据评估最高的位置选择移动。竞争性回合制游戏通常有时间限制。每个玩家最初被分配一定数量的时间,在轮到他们行动时会减少。如果玩家的时间用完,他们通常输掉游戏。因此,计算机必须依靠启发式方法来确定为计算分配多少时间以及何时行动。就像人类玩家一样,它需要在花时间寻找潜在更好的着法和为未来回合保留时间之间保持平衡,避免可能导致劣势位置的快速决策。

要有效地对抗技术娴熟的国际象棋玩家,一个程序必须分析涉及大量着法的序列,这是一个没有剪枝会变得不切实际的任务。Alpha-beta 剪枝是一种用于减少需要在此过程中评估的节点数量的特定算法。国际象棋程序还包括应用启发式方法和经验法则来评估各种位置中每一方的相对优势的子例程。这些评估被转化为数字分数,加权并组合以产生一个总体评估分数,考虑到它们的相对重要性。此外,像 Deep Blue 这样的程序可以访问包含完整国际象棋大师游戏、开局序列和一个包含棋盘上剩余棋子较少位置的完整游戏树的终局数据库。

切换到围棋游戏,它是在一个 1…9 的网格上用黑白棋子进行的。目标是通过用自己的棋子包围它来夺取最多的领地。多年来,计算机围棋程序采取了各种方法,早期的尝试如阿尔伯特·佐布里斯特(Albert Zobrist)1968 年的程序[2]依赖于传统编程。相比之下,1998 年在德克萨斯大学奥斯汀分校(University of Texas at Austin)引入的共生适应性神经进化(SANE)方法[3]利用神经网络和遗传算法教会程序在一个九九棋盘上下棋,而不需要预先编程的围棋知识。然而,AlphaGo 采用了广泛的参考数据库、大师知识和高度复杂的深度学习。该程序使用了来自人类和计算机对局的位置进行训练,包括棋盘位置、最佳着法和获胜百分比。随后,AlphaGo 与自己对弈了数百万局,以完善其策略。

基于计算机的方法不同于依赖直觉和经验的人类玩家。人类玩家计算着法序列并评估位置,但他们的过程既不系统也不数值化。著名国际象棋大师马格努斯·卡尔森(Magnus Carlsen)提到,他偶尔可以计算 15 到 20 步的走法,但挑战在于评估这些线路末端的位置[4]。人类还严重依赖直觉、策略和预测对手的计划,有时选择的走法可能不是数值得分最高的,但对他们的对手在心理上具有挑战性。

7.2 缺乏概括

许多人工智能项目主要用于营销目的,由此产生的程序通常除了能在特定游戏中击败人类外,其实用性有限。这些项目通常需要大量的成本和资源投入。虽然它们可能最初引起媒体的关注,例如深蓝(Deep Blue)广泛报道,但它们经常随着时间的推移而逐渐被遗忘。相比之下,国际象棋或围棋等游戏的人类专家可以将他们的技能转移到其他游戏中,并取得相当不错的表现。给他们一段时间熟悉新游戏的规则,他们就能有效地运用自己的系统性和战略性思维能力。另一方面,人工智能系统很难适应其指定游戏中的规则变化,更别说将自己的知识应用到不同领域了。

此外,当评估计算机表现出的明显智能时,重要的是要考虑到,能够以大师级水平下棋的个体也可以处理诸如撰写关于棋局战略的文章等任务。然而,尽管它们具有令人印象深刻的下棋能力,像深蓝这样的系统在其专业任务之外的能力上是有限的。例如,AlphaGo 采用先进的技术来导航复杂的状态空间并分析大量的数据,但它之所以能够这样做,是因为它在完整和完美的信息下运作。这些系统在面对具有不完整信息和不确定性的真实情景时会遇到困难。

在 20 世纪 50 年代,能够进行快速准确的心算的个体被认为是“聪明”的,因为在普及计算机之前,这种技能非常有价值。如今,价格实惠的手持计算器在操纵数学公式和执行计算方面超过了人类的能力。然而,我们并不将智能归因于计算器。这引发了一个问题:为什么我们经常将游戏程序描述为智能,仅仅因为它们擅长快速计算和数据处理?

让我们用一个历史案例来总结本章,突显人工智能系统在试图复制反直觉智能时面临的重大挑战。在二战期间,数学家亚伯拉罕·沃尔德提出了一种反直觉但高度有效的战略,以加强飞机抵抗敌人的火力。他建议的做法是,不是加强接受了最严重破坏的飞机部件,而是加强接受了最轻微破坏的部分[5]。他的洞察力至关重要:返回基地的飞机正在经受他们所累积的损害,记录突出显示了如果受损会导致飞机丢失的区域。沃尔德对反直觉智能的卓越展示得以实现,得益于他的认知能力,如抽象推理、创造力和对情境的深刻理解,这使他能够概念化和推理可能在他的知识和过去经验中没有直接先例的概念。此外,他应用常识推理、创造力和想象力的能力使他能够制定创新解决方案来解决违反常规逻辑的问题,并展示了他的反直觉智能。

与此形成鲜明对比的是,人工智能模型缺乏把握数据背后基本原理或概念的能力。它们还缺乏常识推理,这对于理解可能不符合标准规则或模式的反直觉情境至关重要。本质上,人工智能无法推断反直觉智能凸显了数据驱动的机器学习与人类在复杂、非常规情况下经常使用的细致、依赖于情境的推理之间的分歧。

摘要

  • 仅仅依赖 AI 程序从数据中学习可能无法满足执行许多任务的需求,尤其是那些需要推理或常识知识的任务。

  • 依赖数据学习的 AI 模型通常只局限于单一领域,因为它们的知识和能力完全来源于它们接受训练的数据。

  • AI 模型缺乏基于上下文的推理和批判性思维能力。

第八章:人工智能不威胁我们的工作

本章涵盖内容

  • 关于人工智能对就业影响的夸大担忧

  • 人工智能面临自动化许多人类任务的挑战

  • 在现实世界中应用人工智能的问题

  • 不恰当设计的人工智能系统的危险影响

在本章中,我们将通过各种例子证明,尽管人们担心人工智能接管工作,但大多数人类职业仍然远远超出了当前人工智能技术的范围。

围绕着机器取代人类工作的担忧具有悠久的历史根源。早在 1589 年,英国发明家威廉·李为他的针织机寻求专利时,伊丽莎白一世因为担心王国众多的手工织布者而拒绝了他。这说明了人对技术进步影响就业的长期恐惧。在附录中,我们将简要提及卢德派和他们对 19 世纪纺织机械的反动行动。这一历史时刻强调了对自动化的抵抗,这往往源自于对工作被取代的担忧。1987 年 7 月,《哈佛商业评论》发表了一篇标题为“思考人工智能”的文章。文章开头就是这样一个声明:“有些人相信人工智能即将改变商业实践。他们声称‘智能’计算机程序即将扮演医生、律师、工厂工人和经理等角色”[1]。我们知道,这些预言都没有实现。

快进到现在,对机器取代人类工作的担忧仍在不断发展,有时带有危言耸听的语调。一些专家甚至有一套预测人工智能取代你工作可能性的公式,表明如果一个工作容易解释,它就可以被人工智能取代[2]。这种令人担忧的预测也出现在 2015 年的一份报告中[3],由全球挑战基金会和牛津大学未来人类研究所联合发布,其中认为机器即将取代大部分劳动力。报告指出:

人工智能将立即受益于计算机速度和任何计算机研究方面的改进。它们可以接受特定职业的培训并随意复制,可能取代全球劳动力的大部分,造成重大的经济混乱。

前总统奥巴马在 2016 年与《WIRED》杂志的一次采访中[4]认可了人工智能对工作的替代性风险。他说:

有一件我们没有多加讨论,但我想强调的事情是,我们确实需要考虑人工智能的经济影响。大多数人现在并不担心“奇点”; 他们担心的是自己的工作是否会被机器取代。

媒体也为围绕人工智能导致工作岗位流失的轰动报道做出了贡献,标题如“机器人现在可以比人类更好地阅读,导致数百万个工作岗位面临风险” [5] 和预测“你最喜欢的餐厅可能很快就会雇用机器人担任厨师和服务员,可能导致数百万工人失业” [6]。

世界经济论坛发布了一份“未来的工作报告” [7],其中包含了每个国家每个行业的广泛统计数据和预测。该报告断言第四次工业革命可能会导致劳动力减少,并列出了以下说明性预测:

  • 近 50%的公司预计到 2022 年自动化将导致全职员工人数有所减少。

  • 四十二%的工时将由机器执行。

  • 七千五百万个工作岗位可能会因人类和机器之间劳动分工的转变而被替代。

2020 年,商人安德鲁·杨,一位民主党总统候选人,部分竞选承诺要实施普遍收入,以缓解自动化导致的工作岗位流失。此外,一家知名咨询公司做出了一个预测,预计到 2030 年,约三分之一的美国劳动力可能需要转换到新的职业 [8]。他们还强调了到 2030 年,全球多达 1.6 亿名妇女可能需要转换职业的可能性,特别是由于自动化而在诸如秘书、日程安排员和簿记员等角色中具有特殊脆弱性。IBM 前首席执行官吉尼·罗梅蒂在接受 CNBC 采访时更综合地表示,人工智能将影响到 100%的工作 [9]。

在本章中,我将阐述为什么这些反乌托邦场景缺乏坚实的基础。在第六章中,我们对人类和机器智能进行了比较分析,确定了人类和机器之间的几个基本区别。在这里,我们将讨论人工智能的局限性,特别是在工作场所的背景下。

尽管自动化很适合处理简单、重复性和潜在危险的任务,但以机器人技术闻名的汽车工业却呈现出一个有趣的悖论。人们可能预料在这样的环境中人力劳动需求会减少。然而,现实和统计数据提供了不同的视角。以德国汽车工业为例,员工人数逐年增加,2018 年达到了 833,937 人 [10]。这一现象突显了该行业内一个广泛认可的事实:机器在需要认知能力和灵活性的任务上表现不佳 [11]。

同样,人们可能预期会在会计领域看到自动化的激增,因为其基础在于计算,似乎是机器替代的理想领域。 然而,现实再次挑战了这一假设。 令人惊讶的是,自 1980 年代计算机广泛应用于工作场所以来,会计行业的人员数量与广泛预测相反,翻了一番。

在医学领域也可以发现类似于汽车和会计行业观察到的模式。 医疗人工智能的萌芽可以追溯到 20 世纪 70 年代初,当时开发了像 MYCIN 这样的系统(见第二章),以及其他系统如 CASNET 和 INTERNIST。 可预见的是,这些项目被视为传统医学新时代的开端。 1979 年 8 月 5 日《纽约时报》发表的一篇题为“医疗技术:新的革命”的文章[12]告知读者可以预期以下进展:

十年后如果你不得不去医院,你的访问可能会进行如下:经过不可避免的接待员,你换上一件毫无形状的医院长袍,走进一个小小的、消毒的房间。 你坐下,把手臂伸给一个长方形的机器。 机器无痛地抽取了一份血样,并在几秒钟内分析到了最小的有意义的血小板。 这些信息被传送到医院深处的中央计算机,与以前的读数进行比较,以检测你身体的任何感染。 你移到旁边的一个房间,坐在一个巨大的设备下面。 在你的身体被 X 射线或微波无声探测时,传感器检查你皮肤的表面。 热图将显示出温度升高的区域,这可以显示出初期疾病。 尽管你什么也感觉不到,什么也看不到,但你的身体内部正在被深入审查。 一个正在发育的胆结石,仍然几乎只有一粒沙子大小,被注意到并被评估了;就像一个微小的白色血栓被困在冠状动脉内,或者一个在你鼻腔中隐藏的息肉一样,它可能是无害的,但仍然值得关注。 在几分钟内,一份由计算机准备的细致详尽的工作报告已经准备好,并发送给了你的医生。

超过四十年的时间过去了,似乎我们反而退步了。 最近我去了旧金山湾区的一家医院,等了三个小时才见到一个护士,她问的问题和一个老式黑白电影中可能听到的问题一样。 唯一的区别是电影中的医院会更干净,更少拥挤,病人直接与医生交谈,而不是与护士交谈。 你见过机器接管医生通常执行的医疗任务吗?

我博士期间的一部分研究涉及利用人工智能进行医学推理和诊断。我自己没有接受过医学培训,所以我最初尝试使用专家系统来模拟我从几位医生那里学到的思维方式。为了讨论方便,我将在这里概述一下引导我设计人工智能解决方案的思维过程。

当面对一个患者时,专家系统的第一优先事项是解决任何紧急情况。例如,如果一个患者正在失血,那么需要立即解决。一旦解决了任何紧急情况,就会做出任何明显的诊断。例如,一个其他情况稳定的患者,他说自己摔倒摔断了手臂,他可能是对的。任何决定性的测试都将被进行以确认诊断,并提供必要的治疗。

如果没有紧急情况,也没有明显的结论可得,那么就要寻找可以暗示正确诊断的决定性事实。首先应优先考虑经济、安全、非侵入性的测试,只有当更合理的选择未能提供澄清时,才会采取更奢侈的措施。例如,如果有理由怀疑患者患有支气管炎,并且可以通过简单的喉咙培养来测试这个假设,那么你就要做喉咙培养,而不是订购一项费时、昂贵、不舒服的 MRI 检查。你会从可能的假设和合理的测试程序进展到不太可能的可能性和不太理想的程序,直到问题能够被确定。

在每个步骤中进行的思考过程是依赖于上下文的。例如,需要考虑患者的年龄、性别、家族史和既往病史。此外,一些测试结果具有较高的不确定性。因此,需要进行复杂的推理,而医生的许多技能是内隐的,很难表述。医生对我解释他们的推理时,往往是相当具有挑战性的,难以在算法中复制。

Faith Fitzgerald 博士得出了相同的结论[13]。她解释说,临床推理不能简化为一套规则,因为每个患者都有自己独特的情况和背景,她将医学推理的微妙性质描述如下:

实际上,最佳的临床诊断思维更像是拼贴而不是线性思维:它要求医生在每一个新的数据出现时不断调整诊断。一个人不断地构想许多可能的诊断,不断缩小范围,再扩大,产生不断变化的思想流;从患者那里获得的信息越多,越好。

正如之前提到的,2011 年,IBM 的 AI 程序 Watson 击败了两位前“危险边缘”节目的冠军。当时,这一成功被庆祝为一个新时代的曙光,即机器可以回答我们所有的问题。人们设想 Watson 可以快速分析医学文件,并将患者数据与最新研究相结合,提供个性化、尖端的治疗方法。IBM 在 2010 年代中期收购了四家健康数据公司,总价值约 40 亿美元,似乎将它们定位为通过 AI 改革医疗保健的理想选择。然而,到 2020 年,在投入数十亿美元进行研究和开发后,IBM 的 Watson Health 部门从未推出过任何 AI 医生产品,并且该部门最终以亏损出售,在 2022 年初售价约为 10 亿美元。

IBM 的领导层现在将 Watson Health 的发展描述为一个具有挑战性和拖延性的过程,比他们最初预期的要复杂和耗时得多[14]。类似的情况也发生在 IBM 与休斯顿德克萨斯大学安德森癌症中心的合作中。他们的联合项目旨在创建肿瘤学专家顾问工具,最终遭遇了同样的命运。2016 年,该大学进行的一项审计显示,在最终取消项目之前,已经在该项目上花费了超过 6200 万美元。

对这些失败的冒险进行更深入的审视,揭示了医疗领域的现实与当前有限、零散和不智能的机器学习技术之间的根本不匹配。用于挖掘数据、神经网络和统计方法主要适用于识别特定的、预定义的模式或构建仅适用于明确定义的、受控场景的预测模型。

这些工具往往只能揭示数据中最简单的关系。即使拥有大量数据,这些模型也无法推断出基本事实,比如血液循环是由心脏的泵血作用引起的事实。因此,当涉及到解开因果链或提出可能显著有助于诊断或治疗的关联时,它们肯定是不够的。因此,AI 可以取代医疗专业人员的想法是毫无根据的。

8.1 简单的人类任务易于自动化吗?

我们知道机器擅长某些任务。工厂机器人可以整天在金属件上打孔,永远不会出错或感到疲倦。如今,随着我们拥有的先进技术,大众媒体会让你觉得大多数平凡的任务很快就会自动化。这一节的前两个例子可能就足以让你改变看法,我们将以其他几个例子来结束这一章,以加深这一观点。

我们首先要考虑的任务是制作比萨。为了介绍这个故事,我们将引用 CNBC 的名人吉姆·克莱默在他赞扬科技初创公司 Zume 的一段视频片段[15]:

每个人都喜欢披萨,部分原因是因为很难把披萨搞砸。我的意思是,即使是糟糕的披萨也还是尝起来不错,但如果有一种更好的方法来制作和送达披萨呢?事实证明确实有,这就引出了 Zume 公司,一家位于硅谷的初创企业,他们试图将这个行业带入现代化。他们以将机器人引入生产过程而闻名,从均匀涂抹番茄酱到把比萨从烤箱里拿出来并完美地切片,机器人在生产过程中扮演了重要角色。基本上,机器人完成了各种高度重复的任务…… 我认为这是真实的。这不是一个想法,而是一个业务。

曾经,Zume 看起来拥有所有必要的人才和资源,可以彻底改变比萨生产和送货的自动化。2018 年,他们从 SoftBank 获得了 3.75 亿美元的大笔投资,并开发了一个有前途的系统。他们的创新方法涉及人类和机器人的协同作用,能够在一辆多功能卡车上每小时生产多达 120 个比萨,这辆卡车既可以用作人行道销售的食品车,也可以用作送货车。对于送货,一个人工智能系统优化了路线和比萨生产,确保在在线订购后最快 5 分钟内送达。然而,到 2020 年 1 月,在应对了许多挑战之后,Zume Pizza 停止运营。最初,他们的机器人被重新用于可持续食品包装生产[16]。然而,在 2023 年 6 月,《华尔街日报》报道称,Zume 已启动了一个清算过程[17]:“加利福尼亚初创公司 Zume,曾开发一种机器人比萨制造机,并曾被估值为 22.5 亿美元,最近已开始清算过程。”

因此,制作和送达披萨似乎仍然超出了现代人工智能的范围,或者至少存在着使取代人类不可行的物流或实际问题。也许制作和提供咖啡的任务会更可行?毕竟,约翰·斯坦贝克在他的 1962 年著作《与查理一起旅行》[18]中描述了一个自动化系统,这个系统似乎运行得相当不错:

我已经忽视了自己的国家太久了。在我不在的这段时间里,文明取得了巨大的进步。假设你想要一种软饮料;你选择你喜欢的种类——Sungrape 或 Cooly Cola——按下一个按钮,投入硬币,然后退后一步。一个纸杯落在指定位置,饮料倾倒出来,离杯沿仅有四分之一英寸的距离——一种冷冻的,保证是合成的清爽饮料。咖啡更有趣,因为当热的黑色液体停止流动时,一股牛奶会喷出,并且一个糖包掉到杯子旁边。但是,最惊人的是热汤机。在豌豆、鸡肉面、牛肉和蔬菜之间进行选择,然后投入硬币。巨大的机器发出隆隆声,一个标志亮起写着“加热”。一分钟后,红灯闪烁直到你打开小门,取出热气腾腾的汤纸杯。

尽管开始看似有希望,但创建一个机器人咖啡师的尝试并没有成功,这一点可以从咖啡馆中机器人的明显缺席中看出。事实上,我们继续像 1671 年法国马赛第一家咖啡馆开业时那样制备和提供咖啡。但是这是为什么呢?毕竟,制作咖啡本质上是不是关于在容器之间转移物质并开关开关?

即使是一个年幼的孩子也可以毫不费力地从最近的水龙头中用任何形状或大小的容器装满水,只要他们能够到达水龙头并且容器能放在下面。他们本能地知道应该把水龙头拧多远,以及让水流多久才停止。他们理解容器和水龙头的作用,以及水从龙头流入容器时的行为。

另一方面,机器缺乏对容器、水流或水龙头的直观理解。虽然机器手臂可以被编程移动容器到特定位置并激活水龙头一段时间,但它会继续向更小的容器倾倒水直到溢出,除非给出明确的指令来适应新情况。这还假设机器人能够拿起不同尺寸的容器,这本身就是一个具有挑战性的任务。

考虑到我们已经有能够在杯子里生产基本混合物的机器六十年了,似乎我们已经到了需要一个机器人咖啡馆的时候了。考虑到我们在自动化相对简单的任务,比如制作咖啡方面的进展缓慢,人们必须质疑“大多数工作”自动化很快会发生的可能性。

或许你认为我们在选择性地举例,以及机器人能够充分完成其他基本任务?沃尔玛在 2017 年开始试验由卡内基梅隆大学机器人研究所的分支机构 Bossa Nova Robotics 生产的机器人库存检查员。这些机器人会上下巡视走廊,确认货架上的商品。经过三年的实验,项目结束了,与项目接近的消息人士表示,“沃尔玛结束了合作,因为它找到了不同的,有时更简单的解决方案,证明它们同样有用” [19]。

人们可能会认为纺织工作是自动化的良好候选对象。例如,服装制造通常涉及根据一套图案反复缝制。甚至有人开玩笑说“现代纺织厂只雇用一个人和一条狗——人喂狗,狗让人远离机器。”然而,实际上,缝纫一直是特别难以自动化的,部分原因是因为当织物被操纵时会拉伸和聚集,而机器没有保持事物正确摆放所需的灵活性 [20]。

关于交通自动化呢?驾驶似乎是自动化的主要候选对象,因为它很单调,法律规定明确,人为错误是一个令人担忧的原因。我们在第四章中简要提到过,像凯旋门周围这样的复杂环境可能永远无法被我们今天所拥有的人工智能所驾驭。尽管进行了巨额投资,并且进行了 15 年以上的开发工作,但无人驾驶车辆项目仍在挣扎,像旧金山这样的现代化城市仍然面临着看似不可逾越的挑战。

ABC 新闻于 2023 年 6 月 29 日发布的视频突显了无人驾驶车辆仍然面临的困难 [21]。记者惊讶地发现她的车在绿灯处无缘无故停下,并说:

我想我们停住了。天哪。现在是绿灯,什么也没发生。我们被卡住了,而且不仅如此,我们甚至没有正确地在左边。哦-哦,它说我们的团队正在努力让你继续前进。那是一个绿灯。它不知道该怎么办。当它甚至无法“看见”一个简单的绿灯时,我如何能够依赖汽车做出正确的决定呢?

Waymo 有足够的资源来聘请最优秀的人工智能工程师,如果一家先进的公司都在努力让他们的自动驾驶车辆识别绿灯,那么还有谁会认为人工智能比人类看得更清楚呢?在支持团队的帮助下,车最终动了,但记者后来震惊地发现车不能把她送到正确的目的地。她说:

这很奇怪。这不是我们要去的地方。这不是随机博物馆的位置。现在我必须打电话给支持团队,看看我能做些什么,因为我现在完全不知所措。我想去的地方在那边,而它却把我放在了这个山脚下。

支持团队要求记者打开她的 Waymo 应用程序并重新输入目的地。不幸的是,车辆又犯了同样的错误,再次停在了同样错误的地方。这是另一个说明当前人工智能缺乏推理能力的例子。谁会信任或依赖一个不断犯同样明显错误的系统呢?

在航空领域,自从其诞生以来一直在用自动化补充人类灵活性,我们最现代的人工智能技术仍然导致灾难。2013 年,美国国家运输安全委员会解释了韩亚航空 214 航班坠毁事件,称机组人员“过度依赖他们并不完全理解的自动化系统”[22]。国家运输安全委员会主席说,

在努力弥补人类表现不可靠性的过程中,自动化控制系统的设计者们不经意地创造了可以比他们原本试图避免的错误更为严重的新错误类型的机会。

另一个被充分记录的与自动化相关的灾难案例是 2009 年法国航空 447 航班的失事。从里约热内卢飞往巴黎的途中,一些仪器上的积冰导致自动驾驶系统意外停止工作,当飞行员未能适当地做出反应时,飞机和其 228 名乘客坠入了大西洋。之后,在 2019 年 3 月,由于一些编写不当的软件导致两起造成 346 人死亡的空难,波音公司的整个 737 MAX 系列飞机被停飞。

尽管考虑到技术公司有很大的动力用机器取代人类来执行与计算机相关的任务,但自动化的前景似乎相当不乐观。一个主要例子就是内容审核。2020 年 5 月,Facebook 同意支付 5200 万美元给 11250 名员工,以补偿他们在工作中患上的心理健康问题[23]。审查在线内容的适当性工作导致焦虑、抑郁、成瘾等问题,然而,作为全球最大的技术公司之一,Facebook 每年仍然雇佣数千人来执行这项任务。

抽象地说,内容审核涉及打开图像和文本文件,审查它们,并将它们分类。鉴于这给人们带来的心理伤害,以及 Facebook 因此遭受的负面报道和财务后果,我们可以假设,如果有任何可行的方法来自动化这项任务,那么它肯定已经被自动化了。根据 The Verge 的报道,当国会询问 Facebook CEO 时,他不断地引用人工智能的力量来回避问题:“审核仇恨言论?AI 将解决。恐怖主义内容和招募?AI。假账户?AI。俄罗斯的错误信息?AI。种族歧视性广告?AI。安全?AI” [24]。

无法完全解决这个问题的事实应该让人对 Facebook 的技术到底有多先进提出新的看法,并且应该迅速地忽略那些标题,比如 “Facebook 人工智能机器人启动后开始用自己的语言交谈就必须关闭” [25]。这篇文章之所以突出来,是因为将机器赋予了生气勃勃的特征。例如,它宣称:

这两个聊天机器人开始创造了自己的英语变化,以使它们更容易工作——但这对看护它们的人类来说仍然是神秘的。这种奇怪的讨论发生在 Facebook 挑战其聊天机器人彼此谈判进行交易的情况下,试图交换帽子、球和书籍,每个物品都被赋予一定的价值。 “讨论”很快就僵局了,因为机器人似乎在彼此之间用一种他们各自理解但对人类来说大部分都难以理解的语言唱诵。

肯定能够编造自己的语言的机器能够识别违反 Facebook 使用条款的语言。

最后,让我们考虑看似简单的翻译任务。人们在 20 世纪 50 年代就已经期待着计算机很快就能完成所有的翻译工作。毕竟,简单的字典可以提供逐字翻译,并通过比对翻译良好的文档和原文,你可能认为很容易制定出一个足够的规则和异常列表。然而,超过 70 年的期待之后,翻译仍然是商业世界的一个不可或缺的部分。

我们只需要举一个简单的例子来证明这一观点,因为互联网上有太多类似的例子。一句常见的法语谚语“La larme est la goutte d’eau qui fait déborder l’âme”,字面上意思是“眼泪是使灵魂溢出的水滴”,被 Google 翻译如图 8.1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8.1 是 2022 年 5 月 6 日的 Google 翻译结果。由于用户反馈,结果可能会更改。

这里发生了什么事情还不太清楚,但结果毫无意义。翻译算法显然参考了人类编制的成语库,这至少是个好的起点。法语短语“La goutte d’eau qui fait déborder le vase”字面上意思是“使花瓶溢出的一滴水”,其英文等价物是“The straw that broke the camel’s back”。由于这两个法语短语只相差两个词,算法必须用其英文等价物替换熟悉的法语成语,然后用文字的逐字翻译替换不符合该成语的词汇。

没有双语人士会犯这样的错误。他们要么熟悉习语并正确翻译,要么意识到逐字翻译是无意义的,需要进行调查。事实上,他们很可能能够通过上下文推断出它必须的意思。这个例子清楚地表明机器目前还远远没有这种能力。

法语和英语之间的翻译实际上应该是所有翻译任务中最容易的之一。这两种语言密切相关,任何人工智能系统都有大量的培训材料可供使用。例如,自从加拿大的 1969 年官方语言法案以来,所有官方文件都必须提供英语和法语版本。欧洲委员会也有同样的要求。这必须至少是数十万页的文本,经过精心编写和细致翻译,多年来,这其中的大部分都已经以电子形式可用。

如果世界顶尖科技公司的人工智能不能可靠地将法语翻译成英语的常见短语,我们对其在更晦涩的语言之间翻译的能力有多少信心?我们可能还需要几十年的时间,人工智能才能够将中文诗歌流畅地翻译成印尼语,或将越南文学翻译成芬兰语,而且很可能这一天永远不会到来。即使是法律或商业领域更简单材料的翻译在可预见的未来也将依赖于人类。

简而言之,尽管人们一直担心人工智能可能取代人类工作,但必须承认人工智能具有固有的局限性。在需要人类品质如推理、身体能力、情感理解、创造力和处理模糊情况的任务上,人工智能面临重大障碍。此外,人工智能系统严重依赖于它们所接受的数据,这可能引入偏见,使它们不适用于需要公正和公正的任务。由于这些局限性和它们固有的对世界的真实理解的缺乏,人工智能更有可能是为人类提供补充而不是取代人类。因此,人工智能更可能通过处理重复性和数据驱动的工作方面来增强人类的能力,从而提高效率,让人类专注于需要我们独特品质的任务。

现在,我们已经确定了大多数职业目前免受自动化的威胁,我们可以讨论本章开头提到的不祥“奇点”了。朋友们,请播放那些阴森的音乐。他们先是夺走了你们的工作,现在人工智能霸主们要来接管文明了。

摘要

  • 400 年前,当新机器被引入时,人们也有类似的毫无根据的恐惧。

  • 人工智能缺乏许多职业所需的直觉、同情心和推理能力,因此这些职业的人不会被人工智能取代。

  • 许多任务由于现实世界的复杂性和不完美而非常难以自动化。

第九章:技术单一性是荒谬的

本章内容包括

  • 单一性的不太可能性

  • 机器缺乏智能

  • 对人脑的思考

这个世界上唯一可怕的是……只是未被理解的。——玛丽·居里

据一些人说,人类文明的终结不会是由于诸如气候变化、核战争或太阳耗尽等原因。相反,他们认为在不远的将来,人工智能可能变得如此先进,以至于获得自己的意志并控制了地球。这种潜在的灾难通常被称为“单一性”,即一种假设的时间点,人工智能的进步速度如此之快,以至于人类无法跟上其进步。虽然这个概念在科幻故事中很激动人心,但将这种猜测基于现实是至关重要的。在本章中,我们的目标是揭示技术单一性的概念,认为它在根本上是有缺陷的。

9.1 技术单一性的起源

技术单一性的概念并不是一个新的想法;它起源于至少 1958 年的讨论。在那一年,物理学家约翰·冯·诺伊曼(John von Neumann)和斯坦尼斯拉夫·乌拉姆(Stanislaw Ulam)进行了一次谈话,他们思考了“技术的不断加速进步”可能导致人类历史上一次深刻而潜在不可预测的转折点。这个转折点被称为“单一性”,将标志着一个超出我们能预见的方式改变人类事务的时刻。1965 年,艾·杰·古德(I. J. Good)在他的文章《关于第一台超级智能机的推测》[1]中更详细地解释了这个概念。在这篇文章中,古德探讨了一个可能出现的“超级智能机”的想法,它有可能超越人类的智能。他暗示,这台机器可能会引发我们社会和生活方式的深刻变化:

让一台超级智能机器被定义为一台可以远远超越任何人类的所有智力活动的机器。由于机器的设计是这些智力活动之一,一台超级智能机器甚至可以设计出更好的机器;然后无疑将出现一个“智能爆炸”,人类的智力将远远落后。因此,第一台超级智能机器是人类唯一需要制造的最后一件发明,前提是这台机器足够温顺,可以告诉我们如何控制它……。很可能,20 世纪内将会建造一台超级智能机器。

1967 年,领导麻省理工学院人工智能实验室的马文·明斯基大胆地宣称,“在一代人之内,创建‘人工智能’的问题将得到实质性解决”[引用自 2]。他甚至更进一步,暗示“在 10 年内,计算机甚至不会把我们作为宠物”。大约同一时间,另一位杰出的计算机科学家赫伯特·西蒙也进行了类似的宏伟预测,声称到 1985 年,机器将能够做任何人类能做的工作[3]。

不幸的是,像这样的夸大声明往往比理性分析更能吸引人们的注意。近年来,包括比尔·盖茨、斯蒂芬·霍金和埃隆·马斯克在内的一些科学和技术界知名人士曾就人工智能可能带来的潜在风险敲响了警钟。OpenAI 的 CEO 山姆·阿特曼也赞同技术奇点的观点[4]:

我们的自我价值如此依赖于我们的智慧,以至于我们相信它必须是独一无二的,而不仅仅是比所有其他动物高一点的连续体。也许人工智能会有同样的感觉,并且注意到我们和倭黑猩猩之间的差异几乎不值得讨论。

2015 年由全球挑战基金会和牛津大学未来人类研究所出版的一份报告,强调了与先进智能机器相关的一种风险,是“威胁人类文明的 12 个风险”之一[5]。具体而言,该报告提到了与高级智能机器相关的风险:

通过它们在速度和性能方面的优势,以及它们更好地与标准计算机软件集成,它们可以在一个或多个领域(研究、规划、社交技能等)迅速变得极其智能。如果它们擅长进行计算机研究,递归自我改进可能会产生人们有时称之为“奇点”的东西,但也许更好地描述为“智能爆炸”…。随着人工智能的智能迅速增加,这样极端的智能很难受到控制(无论是由创造它们的团体,还是由国际监管制度),并且可能会以一种方式行事,来提升自身的智能并获取几乎所有初期人工智能动机的最大资源。如果这些动机并没有详细描述人类的生存和价值,该智能就会被驱使去建立一个没有人类或没有人类存在的有意义特征的世界。这使得极端智能的人工智能具有独特的风险,因为灭绝比较小的问题更有可能发生。只有当人工智能预料到可能胜出的机会时,它才会转向人类;否则,它会完全融入社会。而如果人工智能能够成功地策划一个文明崩溃,那么它肯定能驱使剩下的人类灭绝。

请放心,并非所有涉足人工智能领域的人都怀有世界末日的幻想。在历史上,总会有一些理性的声音,为人工智能的能力和限制提供更加谨慎和理性的观点。其中一位有远见的人是阿达·洛夫莱斯,她以在人工智能领域的开拓性工作而闻名,通常被认为是编写了世界上第一个计算机程序的人。在 19 世纪,洛夫莱斯与查尔斯·巴贝奇合作设计了他提出的分析引擎,这是一个机械通用计算机设计。她的非凡洞察力超越了仅仅是计算的概念;她理解了机器操纵符号和生成复杂序列的潜力,基本上为编程奠定了基础。洛夫莱斯关于分析引擎的开创性笔记展示了机器不仅可以用于数学计算,还可以设想一个更广泛的计算世界。她的工作是现代计算机编程和人工智能理论基础的早期例子。在 1842 年,洛夫莱斯阐述了关于分析引擎的以下观点 [6]:

分析引擎完全没有创造任何东西的自命不凡。它只能执行我们知道如何命令它执行的任务。它可以进行分析,但它没有预见任何分析关系或真理的能力。

同样地,我们在第一章中介绍的亚瑟·塞缪尔是人工智能的先驱之一。塞缪尔的工作对塑造人工智能的基础产生了重要影响,并对该领域产生了深远影响。正如先前提到的,他设计了一个计算机程序,可以下跳棋,并通过从经验中学习来不断提高性能。这一概念为现代机器学习和强化学习算法奠定了基础。在 1960 年发表在《科学》杂志上的开创性文章中,题为“自动化的一些道德和技术后果——一种驳斥” [7],塞缪尔雄辩地强调了在围绕自动化的讨论中分清事实和虚构之间的关键重要性:

机器不是神灵,它不靠魔法工作,它没有意志,并且……没有什么会出来,除非被输入了,当然,偶尔会出现故障……。机器不会也不能做[任何],直到它被指示如何继续……。相信其他的是相信魔法。由于机器没有自己的思想,“结论”不是“它的”。所谓的“结论”只是输入程序和输入数据的逻辑结果,由无生命的机械和电子部件组成的机械装置的机械功能所显示。机器似乎表现出来的“意图”是人类程序员的意图,事先指定的,或者是从这些派生出来的,根据程序员指定的规则……。尽管我坚持说“没有什么出来的不是已经输入的”,但这并不意味着输出没有超越我们对输入数据的价值的价值。计算机的实用性在于计算机以快速和准确的方式提供输入数据的所需转换,从一个人可能无法直接使用的形式到一个直接有用的形式。

亚瑟·塞缪尔对人工智能的深刻看法在今天的背景下仍然具有相关性和准确性。从我们的技术中出现超级智能、邪恶的实体来控制并制造混乱的概念仍然牢牢地停留在虚构的世界中。虽然诱人的是将其与科幻作家如艾萨克·阿西莫夫的作品、电视剧如《半夜心跳》以及像《终结者》和《黑客帝国》这样的大片中描述的情景相提并论,但必须认识到真正智能的认知能力,如直觉、想象力和创造力,对于人工系统仍然是难以捉摸的。

9.2 关于机器人进化的真相

从玛丽·雪莱于 1818 年创作的小说中描述的弗兰肯斯坦博士的创造,到迪士尼 1940 年电影中栩栩如生的木偶匹诺曹,人造物体获得意识的想法一直具有迷人的吸引力。

术语“机器人”通过卡雷尔·恰佩克于 1920 年的剧作R.U.R.(罗森的通用机器人)而广为人知并受到欢迎。这个词源于捷克语,具体来说是robota,意思是“强制劳动”,它引入了一个将塑造未来自动化和人工智能的概念。机器人术语的演变继续随着“人形机器人”的引入而进行。虽然这个术语本身具有古希腊的根源,但在 1930 年代,由于作家埃德蒙德·哈密尔顿等人在 1940 年代初期的科幻作品中,它在科幻小说中找到了新的归属。这些具有类似人类特征的人形机器人开始吸引全球观众的想象力。快进到今天,我们发现自己身处一个机器人确实在执行劳动的世界。然而,它们的能力仍然局限于相对简单和有限的任务。尽管我们取得了技术上的进步,但早期科幻中构想的人形机器人的概念仍然遥不可及。

1961 年,通用汽车公司在新泽西州的一家工厂推出了一种机械臂,用于操纵熔铸金属零件,这标志着它早期涉足机器人技术的尝试。这一尝试取得了成功,为 1970 年代的进一步探索铺平了道路。该公司将机器的使用扩展到其他精密控制的任务中,包括焊接和喷漆。在当今的汽车制造业中,机器人发挥着不可或缺的作用。然而,它们仍然专门用于特定的任务。

1962 年,麻省理工学院的亨利·恩斯特构想了第一个由计算机操作的机械手,设计用于远程操纵放射性材料。一套电机协调着机械臂的运动,而手指的光传感器则辨别出影子。这个巧妙的系统,在计算机程序的指导下,操纵着桌子上的物体,把它们拿起来放进一个容器里。

Shakey,1966 年至 1972 年在 SRI 人工智能中心进行研究的主题,作为第一款具备感知周围环境能力的移动机器人(图 9.1)迈出了巨大的一步。作为当时的奇迹,Shakey 作为一个实验平台,整合了机器学习、计算机视觉、导航和众多人工智能技术。它的任务包括需要规划、寻路和简单物体的重新排列,这让它在 1970 年被 LIFE 杂志称为“第一个电子人”。尽管 Shakey 的成就无疑是开创性的,但保持现实的视角是至关重要的。它擅长的任务与电影中机器人的描述相去甚远。一个人类操作员会从控制台发出指令,指示 Shakey 执行像将一个块从平台上推下的操作。然后,这些指令会通过无线电传输,使 Shakey 能够勘测其环境、定位目标并执行任务。这无疑是人工智能的一个显著成就,但也凸显了当代机器人技术与虚构世界之间的差距。虽然进步是巨大的,但科幻与现实世界机器人之间的鸿沟仍然存在,突显了在创造高度能干和适应性强的机器人系统方面的持续挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9.1 Shakey(图片由计算机历史博物馆提供)

在 Shakey 开创性的研究之后的几十年里,机器人领域经历了一种渐进但稳定的演变。到了 20 世纪 80 年代初,东京的早稻田大学的工程师们取得了重大突破。他们推出了一款由微处理器芯片驱动的机器人,这是对以前驱动机器人系统的房间大小的计算机的一次革命性的改变。这一创新的飞跃为更紧凑、更灵活的机器人平台铺平了道路。这款机器人的独特之处在于它能够站在两条“腿”上,以稳健的步伐行走,典型地展示了双足动物的运动早期进展。此后不久,即 1981 年,东京工业大学的広瀬茂男(Shigeo Hirose)通过创建一款四足机器人,为机器人技术创造了另一个里程碑。这台非凡的机器展示了爬楼梯的能力,并为机器人以稳定性和机动性的结合方式探索环境打开了新的可能性。上世纪 90 年代,卡内基梅隆大学的研究人员开发了一款八足机器人,带来了另一项进展。多条腿的使用使得机器人能够保持稳定,并穿越对于轮式或双足机器人来说是无法通过的地形。

在机器人领域最引人注目的里程碑之一是 NASA 创纪录的“探路者”任务。 在 1997 年 7 月 4 日这个历史性的日子上,火星“探路者”号,一个令人瞩目的机器人航天器,成功地将一个基地站和一个名为“漫游者”的自主漫游车成功部署到了红色星球[10]上。 这一划时代的成就标志着太空探索迈出了重要的一步。 “漫游者”自主漫游车在这项开创性任务中发挥了重要作用。 在 83 个非凡的日子里,它开始了一段令人难以置信的旅程,用它的六个轮子穿越火星的地形。 “漫游者”配备了一套科学仪器,成为了一位宝贵的探险家,捕捉到了火星地貌的高分辨率图像,并收集了重要的大气和地质数据。 这一成就是机器人和太空探索领域的令人瞩目的进步。

在 1998 年假日购物季节,家长和孩子们被技术的承诺所吸引,国内机器人学取得了重要进展。 领导这个技术奇境的是“Furby”,被巧妙地营销为一种人工智能伴侣。 “Furby”酷似毛绒动物,拥有一系列互动功能,包括移动的眼睛和嘴巴,以及语音识别技术。 它能够用自己古怪的语言“Furbish”进行交流,并逐渐学习并讲述英语和其他几种常见语言的单词。 这种渐进的语言发展旨在模仿宠物或伴侣学习主人语言的过程。 “Furby”的不可抗拒的魅力和大众吸引力导致其在上市首年销售了 1400 万台,成为无数家庭必备的物品。

当“Furby”成为头条新闻和玩具店的焦点时,索尼公司正在推出另一款非凡的产品,即一款名为“AIBO”的机器宠物狗。 “AIBO”具有基本的计算机视觉功能,使其能够与环境进行交互并对超过 100 个语音命令做出响应。 它的动作和互动使它成为了一种即时的感觉。 在消费者热情的显著展示中,“AIBO”首次发售的 5000 个单位在 20 分钟内就被热情的网络客户抢购一空。 索尼继续每年推出新款“AIBO”直到 2006 年。 2017 年,索尼宣布“AIBO”的回归,并推出了一个承诺与用户建立“情感联系”的新型号[11]。 这一发展标志着人类与机器人之间关系的重大转变,因为它表明了机器人为提供陪伴和情感支持的潜力。

在 2002 年情人节,机器人技术和流行文化领域发生了一次具有开创性的时刻,当时本田推出了 ASIMO,这是“Advanced Step in Innovative Mobility”的缩写(图 9.2)。ASIMO 代表了人形机器人发展的一个重大飞跃,其推出是本田工程师 15 年不懈努力的成果。创造 ASIMO 的旅程始于 1986 年,当时本田团队着手于构建一个可以像真人一样移动和行走的机器人的雄心勃勃的任务。经过多年的奉献和创新,ASIMO 成为了一个能够精准行走并执行各种特定任务的卓越机器人。ASIMO 最具标志性的时刻之一是它敲响了钟,开启了纽约证券交易所。这一事件发生在本田股票上市 25 周年之际。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9.2 ASIMO(2000)(图片由东京未来馆提供)

机器人技术的前沿常常可以在波士顿动力机器人的车间找到。这家公司成立于 1992 年,是麻省理工学院的一个分支,总部位于马萨诸塞州沃尔瑟姆。该公司在 2020 年被现代汽车集团收购前曾经历过所有权变更,谷歌和软银是先前的所有者。波士顿动力机器人以其印象深刻的机器人创造而获得认可,包括被称为 BigDog 的四足军用机器人,名为 Atlas 的人形机器人和多功能搬运机器人 Handle。2022 年 11 月发表在彭博社的一篇文章介绍了波士顿动力公司的 CEO,他对 Handle 表现出了极大的热情。他说:“Handle 是一种优雅地在两个大轮子上操作的机器人,设计用于自动化诸如在托盘上移动箱子甚至从卡车卸货等任务,这对于机器人来说是一个极具挑战性的任务” [12]。

当我们思考这一声明时,保持透视是很重要的。自从 Shakey 的时代以来的 50 年里,我们已经从仅仅定位一个方块并将其推开到精确地定位一个箱子并将其置于或离开平台。机器人领域的专家往往坦率地谈论当前技术的能力和局限性。与其听信那些夸大机器人接管的言论,我们可以从它们的现实评估中受益。即使配备了最先进的传感器、执行器、摄像头和材料,加上卓越的才能和资源,世界领先的机器人团队也认为利用机器人装卸货物是机器人技术发展的一个关键里程碑。虽然网上有迷人的视频展示机器人跳舞、跳跃和进行杂技表演,但是重要的是要记住这些动作通常是预先编程的。这些机器不会自主地对环境做出反应。人形机器人做后空翻的景象可能令人印象深刻,但与甚至是笨拙的孩子自动地恢复平衡的能力相比,它显得黯然失色。我们天生有能力在冰上滑倒或在楼梯上走错台阶时重新获得平衡,这远远优于即使是最先进的机器人的能力。

9.3 融合人类和机器?

电子植入物可以解码脑活动并与计算机通信,这是几十年来的研究课题。根据 2016 年《华盛顿邮报》报道,匹兹堡大学和匹兹堡大学医学中心之间的重要合作涉及将比沙粒还小的电极植入患者的感觉皮层。这些电极接收来自机械手的信号,使个体能够在瘫痪的右手上感受触觉感觉,有效地绕过了受损的脊髓[13]。这一进展展示了脑机接口在医学康复领域的有前途的应用。

然而,尽管取得了这些显著的进展,但对于将人类思维上传到计算机或创造合成人类和人机混合体的即将到来的可能性进行夸大宣称是不太可能的。《如何创造思想:揭示人类思想的秘密》[14]等书籍的标题可能会让人联想到科幻小说,让我们质疑它们的科学有效性。

挑战在于人工智能当前的发展状态与我们对人类大脑复杂性的理解之间的巨大差距。知名的神经科学家们甚至承认缺乏对大脑真正运作方式的基本理解。因此,我们应该小心不要使用或将“大脑”或“神经元”等术语与人工智能联系起来。深度学习神经网络中的一个神经元与实际神经元之间的相似性大约如同玩具熊与真熊之间的相似性!

在《奇点临近》一书中,雷·库兹韦尔大胆预测用设计基因取代人类 DNA,甚至提供了一个相对精确的时间表,暗示到了 2020 年代末我们将逆向工程人类大脑[15]。这样的预测部分基于计算机在诸如国际象棋等游戏中战胜冠军以及摩尔定律等观察。摩尔定律指出,计算能力大约每两年翻一番。这种说法在十年前有些准确;然而,芯片制造商已经接近微芯片上晶体管密度的物理极限以及高度紧凑设备中散热的挑战。即使我们假设计算机会继续变得更快、更小、更便宜,将计算能力和智能区分开来也是至关重要的。机器仍然通过执行人类编写的指令来运行,这与管理人类思维的多方面过程根本不同,后者涉及化学、生物学、神经学、心理学等因素。神经科学家克里斯托夫·科赫在他的文章《大脑的终结开始》[16]中用这样的话说得很贴切:

有一件事是确定的。生物学对简单一无所知。大脑并非由数十亿个相同的乐高积木组装而成,而是由数百种不同的神经元类型组成。每种细胞类型都有其独特的形态、信号传导和活跃基因。它们之间通过复杂的连线规则相互连接,而我们对此只能朦胧地认识。

合并人类和机器的概念往往高估了我们技术进步的复杂性,同时低估了生物体的惊人复杂性。人体本身就是一个奇迹般的奇迹,由数万亿个适应性强且错综复杂的细胞组成。在这个生命的复杂网络中,每个器官都在发送和接收信号,并与其他每个部分进行复杂的协调。考虑我们的许多器官之一,眼睛。想想我们的眼睛每时每刻处理的大量数据,它们激发的复杂信号级联,影响它们功能的反馈循环,以及它们协调提供给我们视觉的众多系统。

然而,我们的眼睛仅代表了我们身体内庞大复杂性的一小部分。即使它们如此显著,它们与我们的大脑的广泛复杂性相比仍然黯然失色,大脑常被称为已知宇宙中最复杂的有组织物质之一,有充分的理由。人类大脑,作为生物进化的奇迹,拥有无与伦比的创造力、直觉、情感智能和对复杂、不断变化环境的微妙理解。它在基本范式上与人工智能有着根本不同的操作方式,后者虽然在其自身方面强大,但缺乏生物神经元的复杂相互作用以及促进人类认知的基础生物化学过程。见证过人工智能在现实世界应用的人都意识到,当前的人工智能远未能够达到与人类认知深度和复杂性相似的任何事物,更不用说复制人类大脑了。

在他极力推荐的书籍信念的生物学 [17]中,布鲁斯·利普顿优雅地描述了存在于我们体内的生命智慧的概念:

当麻疹病毒感染儿童时,一个不成熟的免疫细胞被召集来产生针对该病毒的保护性蛋白抗体。在这个过程中,细胞必须创建一个新基因,作为制造麻疹抗体蛋白的蓝图。激活的细胞利用一种称为亲和力成熟的惊人机制,使细胞能够完美调整其抗体蛋白的最终形状,使其成为入侵的麻疹病毒的完美补充物。新的抗体基因也会在细胞分裂时传递给所有细胞的后代。细胞了解了麻疹病毒;它还创造了一种记忆,将被其子细胞继承。这种惊人的基因工程代表了一种细胞演化的固有智能机制。

我们的细胞是生命的复杂微观世界,精巧设计用于接收、处理、反应和保留信息,在一场同步的芭蕾舞中展现着其复杂性。这些微小的生命单位不知疲倦地履行着自己的角色,彼此协调以维持我们身体的平衡。当面临外部变化时,细胞表现出了非凡的适应性,调整其功能以有效应对不断变化的环境。它们能够感知、做出决定并执行行动,所有这些都在几分之一秒内完成。虽然我们在理解细胞机制方面取得了进展,但我们仍然远未揭示出它们复杂性的全部程度。

9.4 科幻与现实

技术奇点的概念已经被讨论了六十多年,常常伴随着热情的炒作。尽管人工智能可能带来的潜在威胁经常被强调,但重要的是要承认,目前的人工智能远远不具备甚至年幼儿童都具有的认知能力,更不用说创造力或情感等属性了。必须认识到机器,无论是机器人还是计算机程序,在人类提供指令和指导之前都是惰性的,没有目的。

计算机擅长处理数字和处理文字,但它们缺乏对其处理数据背后含义的真正理解。以二进制代码运行的算法无法像人类那样真正“理解”。复杂的问题解决、适应意想不到的情况以及假设的制定仍然远远超出了人工智能的能力范围。在实践中,大多数人工智能应用都局限于高度特定的任务,通常依赖于精心策划的大量训练数据集。尽管我们可能倾向于将某种神秘感归因于我们无法完全理解的技术,但本书旨在消除这种幻觉。机器人和自动机尽管表现出似乎复杂的行动,但只是执行它们的预先编程指令。它们没有自我意识,也不表现出恐惧或征服欲等特征,当然也不构成对人类文明的威胁。

尽管存在这些局限性,世界各国政府仍在大力投资于人工智能和自主系统。然而,即使到了 2022 年,军事领导人也对其可靠性和实用性提出了疑问。2020 年兰德报告[18]关于人工智能在军事应用方面的报告提供了几个说明性的例子,这些例子可能会让决策者犹豫不决。

其中一起事故发生于 1988 年,当时美国海军意外击落了一架伊朗民航客机,导致了 290 人的悲剧丧生。虽然确切的原因有争议,但众所周知,负责追踪飞机和操作弹药的“宙斯盾”武器系统采用了自动化系统为雷达探测到的物体分配跟踪号码。该系统定期回收通话号码,而在关键时期,客机被分配了一个新号码,这个号码碰巧与距离仅 110 英里的战斗机分配的号码相同。

另一场灾难发生在 1991 年的海湾战争期间,当时“密苏里号”错误地认为自己受到了伊拉克的“蚕食”导弹的攻击,并部署了对策。与此同时,附近的“贾雷特号”菲兰克斯自动瞄准系统在自主目标获取模式下检测到了对策并向其开火。不幸的是,“贾雷特号”的四发炮弹击中了“密苏里号”。

在 1996 年的一次跨国训练演习中,一架海军 A-6E 入侵者飞机拖着一架打算被日本参与者击落的目标飞机。然而,Phalanx 系统误将目标飞机识别为入侵者并开火。

RAND 报告进一步描述了 2003 年的第四起事故,当时一台美国爱国者防空导弹系统由于误识别而误击了英国皇家空军飞行的一架飓风战斗机,导致两名机组人员丧生。同年稍晚时又发生了第五起事故,一架美国海军飞机被误认为是伊拉克导弹,导致飞行员悲剧丧生。这些事故提醒我们注意自主系统潜在的风险,并强调在将人工智能和自动化融入关键功能时的谨慎考虑、测试和监督的重要性。

在一场坦率的问答环节中,美国陆军上将塞尔瓦在备受尊敬的布鲁金斯学会智库中表达了他对当代人工智能方法的保留态度,特别是对深度学习的保留态度,因为它们固有地无法为其决策提供透明的解释[19]。他强调说:“我们相信,单靠人工智能实际上并不能解决我们被要求解决的问题。它不能只是一个黑匣子,说着只需执行 X。”

陆军上将塞尔瓦进一步强调,军方不能依赖缺乏可靠性和可理解性的人工智能系统。在他看来,一个可接受的系统必须具备不仅要经受严格的物理测试,还要接受智力审查的能力。

约瑟夫·韦岑鲍姆在他的开创性著作《计算机力量与人类理性》[20]中,对技术奇点的概念提出了深刻的观点,至今仍然非常有效。他说道:

科学也可以被视为一种令人上瘾的药物。我们对科学的无尽迷恋不仅使我们依赖和依赖于它,而且,类似于许多其他以递增剂量摄入的物质一样,科学逐渐变成了一种缓慢起效的毒药。

韦岑鲍姆的观察是非常相关的,因为越来越多的人沉迷于他们的设备,花费大量时间在社交媒体上,这可能会对他们的健康产生负面影响,因为其中包含有害内容和不健康行为。

技术飞跃的概念虽然令人着迷,但却引发了一个问题,即我们是否过于迷恋科幻场景而忽视了现实世界的挑战。人类面临着迫在眉睫的威胁,如气候变化、流行病以及核战和生物战的幽灵。在这种情况下,对超智能人工智能潜力的着迷可能会分散对即时、切实问题的关注和资源。至关重要的是要认识到,人工智能,像任何技术一样,既可以用于善良目的,也可以用于恶意目的。虽然人工智能可以促进挽救生命的疫苗的开发,但它也可以被武器化,用于破坏性的目的。一个旨在提供信息的系统同样可以被用来欺骗。

总之,塞尔瓦将军对当前人工智能技术的局限性的保留态度,再加上维岑鲍姆对科学进步双刃性的警示,提醒我们深思熟虑和道德创新的重要性。因此,我们不应该只沉湎于关于人工智能的厄运愿景,而是必须优先考虑负责任地开发和安全部署这些技术,以服务于人类的最大利益。

总结

  • 人工智能的“技术飞跃”在过去 60 年中多次被预测,但最终未能出现,我们离体验它还很遥远。

  • 尽管机器人技术有所进步,但机器仍然没有智能和意愿,因此它们没有进化和构成威胁的能力。

  • 现代计算机的更快处理速度并不能让它们进行思考。

  • 我们仍然无法解释人类大脑的工作原理,因此我们无法复制它。

第十章:从成功和失败的 AI 应用中学习

本章涵盖

  • AI 的成功应用

  • AI 使用中的问题

  • 失败的 AI 应用

  • 良好数据的重要性

  • 使用 AI 的建议

  • 如何规划一个 AI 项目并使其成功启动

每个 AI 项目,无论成功与否,都提供了宝贵的经验教训。从这些经验中学习使我们能够做出明智的决策,引导我们的 AI 项目走向成功,同时避免常见的陷阱。在本章中,我们探讨了从过去项目的错误和成就中学到的经验教训,因为理解决定 AI 项目结果的因素至关重要。我还将分享有关建立合适的团队、培养适当的思维方式以及为您的 AI 项目制定有希望的计划的宝贵建议。

10.1 AI 成功案例

人工智能已经在众多特定的、明确定义的应用中证明了自己的价值,展示了其改变各个行业的潜力。在这次讨论中,我们将探讨这些 AI 应用及其对我们生活的重大影响,同时也承认了当前技术的局限性,并提供关于下一代系统特点的见解。

人工智能取得了显著成果的一个突出领域是欺诈防范领域。随着在线业务交易的指数增长,这一领域的重要性也随之激增。据 Statista 统计,2020 年,全球超过 20 亿人进行了在线购买,导致电子零售销售额超过了惊人的 4.2 万亿美元。在线购物提供的便利性、竞争性价格和增加的选择吸引了消费者,但不幸的是,它们也吸引了犯罪分子的注意。与传统的实体店面相比,在线零售商面临着令人望而生畏的挑战,因为针对他们的欺诈率超过了传统实体店面的 10 倍以上。这种差异的出现是由于多种因素,包括在虚拟交易期间误传身份的便利性、无法揭示可疑行为的面对面互动的缺失,以及无法验证卡的所有权或签名。信用卡欺诈可能通过物理卡的丢失或被盗而显现,但更经常地,它是由于个人信息的非法获取而导致的。例如,犯罪分子利用诸如卡片窃取器之类的设备秘密地捕捉信用卡或借记卡详细信息,通常悄悄地放置在 ATM 卡槽或加油站键盘上。然后,这些窃取的信息被用于未经授权的在线购买或其他犯罪活动。Nilson 报告的 2020 年 12 月版揭示了这一问题的惊人规模,称全球信用卡交易欺诈损失达到了 286.5 亿美元,较上年增长了 2.9%。然而,这些数字不包括卡发行者、商家和收单行承担的额外费用。与欺诈调查、客户投诉和呼叫中心管理相关的费用进一步突显了欺诈对电子商务生态系统的全面影响。

联邦贸易委员会(FTC)在 2021 年 2 月也引用了这些令人担忧的统计数据,报告称消费者在过去一年中报告了惊人的 220 万起欺诈案件,损失超过 33 亿美元,较上年显著增加。这些数字强调了对整个电子商务基础设施的交易安全至关重要。

为了应对这一普遍问题,人工智能已被证明是实时防范欺诈的宝贵盟友。早期版本依赖于将已知欺诈指标存储在数据库中的欺诈扫描仪,但这些通常需要大量人工操作,并且检测率有限。如今,像 iPrevent™这样的尖端解决方案,由 Brighterion(现为万事达卡公司)开发,使用一系列先进的人工智能技术不断监控实体的行为,迅速检测异常,并以高准确度挫败欺诈企图。

人工智能的变革潜力延伸到每个行业,其多功能性深刻影响着塑造我们日常生活的产业。例如,在零售业,人工智能和机器学习是优化运营的宝贵工具。零售商正在利用人工智能的预测能力来增强他们的需求预测能力。通过分析大量数据,人工智能可以准确地预测客户偏好。此外,人工智能驱动的库存管理系统正在优化库存水平,确保产品在需要的时间和地点随时可用。

此外,以人工智能驱动的订单执行系统正在彻底改变供应链,提高效率,最终提升客户满意度。航空公司也采用人工智能改革他们的运营。人工智能算法在通过优化航班计划以最小化干扰来减少航班延误方面发挥了关键作用。通过人工智能的预测性维护能力,维修计划受益匪浅,有效减少停机时间,并通过早期发现潜在问题增强安全性。安全措施通过人工智能辅助的飞行员培训计划和实时监控系统得到了提升,使航空旅行更加可靠和安全。在农业领域,人工智能在确保作物健康和优化资源利用方面发挥了关键作用。人工智能驱动的传感器和无人机被部署用于检测疾病,预防潜在的作物损失。公用事业公司依赖人工智能进行精确的电力需求预测,这是能源部门的重要组成部分。人工智能模型分析历史消费模式、天气数据和各种其他变量,准确预测能源需求。随着人工智能技术的不断发展,我们可以预期在广泛的行业领域看到更多创新的应用,进一步改变我们生活、工作和与周围世界互动的方式。

10.2 AI 误用

当我们将注意力从备受赞誉的人工智能成就转移到其不那么成功的应用领域时,重要的是要探索 AI 部署可能根本不符合我们最佳利益的领域。AI 造成危害的潜力和其协助能力一样重要,强调了对它可能对社会构成的潜在危险的慎重考虑的必要性。在这一章中,我们将探讨三个显著的例子:深度伪造、网络欺凌和犯罪个人档案编制。

深度伪造代表了利用深度学习技术制造合成媒体的相对较新和可怕的威胁。尽管具有生成从未发生事件的真实音频和视频的能力对电影制作者可能是一种福音,但却对个人、公司、国家及其政府构成重大风险。这项技术有潜力被恶意使用,比如通过巧妙地描绘政治对手身陷尴尬境地来影响选举。

我们日益依赖电子媒体的情况加剧了这个问题的严重性。通过发布一份深度伪造的新闻稿,声称来自知名企业 CEO 的新闻稿,股价可能会被人为操控,可能导致严重的财务后果。这可能被策划为获取非法利润,偏袒一家公司而不是另一家,或者仅仅是制造混乱。例如,一个深度神经网络,精心训练过埃隆·马斯克曾经做过的每一个采访,可以被用来制作一个令人信服的视频,在这个视频中,马斯克似乎宣布特斯拉破产。当欺骗行为被揭露并公之于众时,已经造成了无法挽回的伤害。

此外,深度伪造技术有可能加剧网络欺凌的问题,这包括利用电子设备对个人进行折磨或恐吓。不幸的是,这个问题正在加剧,这可以从美国政府反欺凌网站的统计数据中得到证实,该网站指出,2019 年约有 15%的美国高中学生成为网络欺凌的受害者。在网络欺凌的背景下应用深度伪造技术的问题是非常清楚的,这需要共同努力来防止这种技术的滥用。网络欺凌不仅仅局限于年轻人;极端组织或对抗性政府也有可能将其作为一种武器。例如,一个独裁者可以动用一群“电子特工”来瞄准一个反对派。他们的任务将是通过激烈的、个人攻击来散播虚假信息并制造混乱。此外,他们还可以对互联网和社交媒体进行监视,以寻找有关他们政权的任何批评性言论。通过将此类内容标记为不适当,他们可以通过内容过滤算法自动删除它,从而操纵和扭曲公众的看法。

尤其令人不安和在伦理上令人担忧的一个领域是在刑事 profiling 中应用人工智能。任何影响个人生活或福祉的决定的基本原则应该是理性、客观,以及没有偏见或成见。遗憾的是,一些美国的自治市政府不经意地误用了人工智能,导致了不利后果。在一篇启发性的 2016 年 BBC 文章中,标题为“数学如何让你锒铛入狱” [4],揭示了“美国的罪犯可以被分配计算机生成的‘风险分数’,这可能会影响他们的刑期”的事实。这些风险评分是根据一个人的教育和职业经历以及个人信息来确定的,例如他们的朋友或家人是否有犯罪记录,以及他们是否居住在犯罪率较高的社区。此外,个人可能会接受评估,他们的得分可能会受到他们对道德问题的回答的影响,比如,“一个挨饿的人偷食物是否可以接受?”这些分数从 0 到 10 不等,然后用于做出关键决定,比如是否可以给某人保释,是否应该被监禁,是否应该给予替代刑罚,甚至在狱中是否应该考虑假释。

这些算法评估的令人不安的含义进一步由 ProPublica 在 2016 年发布的关于机器偏见的全面研究 [5] 揭示了。这种使用预测算法的风险评估在美国的法庭中变得越来越普遍。它们被用来在刑事司法流程的每个阶段做出决策,从像 Fort Lauderdale 这样的地方设定保释金金额,到对被告人的自由做出更深刻的判断。这些算法已经在亚利桑那州、科罗拉多州、特拉华州、肯塔基州、路易斯安那州、俄克拉荷马州、弗吉尼亚州、华盛顿州和威斯康星州等州被采用,法官在刑事判决过程中会收到它们的结果。ProPublica 分析了在 2013 年和 2014 年在佛罗里达州布罗沃德县被逮捕的 7000 多名个体被分配的风险评分。他们将这些分数与随后两年的犯罪行为进行了比较,这也是算法的创建者使用的相同基准。他们的发现令人担忧:风险分数在预测暴力犯罪方面极不可靠,只有 20% 的预测会实际发生。

考虑到更广泛的罪行范围,包括驾驶过期驾照等轻罪,该算法的表现仅略优于抛硬币。更令人担忧的是,这个公式表现出明显的偏见。它更有可能将黑人被告标记为未来的罪犯,几乎是白人被告的两倍,尽管负责创建该算法的公司对这些发现表示异议。在存在任何不确定性的情况下,在允许算法影响我们公民的生活和自由之前,我们必须谨慎行事。已知具有低预测准确性且已知引入偏见的系统,毫无疑问,不应该使用。

将人工智能用于法律决策需要仔细考虑。我们能否真实地期望任何人工智能系统充分考虑到罪犯的心理健康状况?如果某人的行为问题可以通过适当的药物或社会支持得到解决,我们是否应该相信计算机程序来决定监禁还是缓刑对社会最有利?

正如欧洲委员会数字时代适应欧洲执行副主席玛格丽特·韦斯塔格所言:“在人工智能方面,信任是必须的,而不是一种美好的愿望”[6]。欧盟禁止使用任何不透明和不可信任的系统的立场值得赞扬。影响个人的解决方案必须经过验证,以确保其设计符合严格的技术和道德标准,解决诸如可靠性、公平性、隐私性、透明度和可解释性等问题。任何直接影响公民的人工智能系统应至少接受类似于美国食品和药物管理局在新药上市前要求的严格评估的认证过程。这些系统应明确证明缺乏偏见,采用清晰易懂的逻辑,并做出可向受影响者用简单语言解释的决定。如果不遵守这些最低要求,人工智能带来的风险超过好处的风险将仍然不可接受。

10.3 人工智能失败

在我们探索那些未能达到预期目标的知名项目时,我们回到了 1982 年,探索了日本著名的第五代计算机系统(FGCS)。这个努力以其雄心勃勃的范围而闻名,这个特点最终导致了它的失败。

FGCS 项目的主要目标是开创配备多处理器的计算机的发展,每个处理器都使用专门的逻辑同时并行执行多个程序。这些创新的、非冯·诺依曼系统旨在通过利用知识库和专家系统机制来擅长处理推理,这些概念在第二章得到了详细阐述。为了实现这一目标,FGCS 团队甚至走到了创建自己的编程语言 KL1,精心优化以促进并行推理。

FGCS 项目被期望引领人工智能新时代,具备推理和执行诸如自然语言处理和疾病诊断等任务的能力。在超过 10 年的时间里,并投资超过 10 亿美元,该项目被视为一个巨大的工程。然而,尽管拥有巨大资源和专注的努力,FGCS 未能达到其崇高的目标。FGCS 主管藤和一郎反思 [7]:

那时,我们不得不面对批评,基于那个错误的想象,认为这是一个试图解决不可能目标的鲁莽项目。现在我们看到,国内外的批评认为该项目失败,因为它无法实现那些宏伟目标。

这个案例研究为那些开始进行人工智能项目的人提供了宝贵的教训:它强调了精心定义项目的范围和限制的重要性。FGCS 项目是一个警示性故事,突显了即使在目标不明确和可实现的情况下,即使是经费充足且雄心勃勃的举措也可能会失败。它提醒我们,高远的抱负虽然值得赞扬,但必须建立在现实期望之上,以确保任何人工智能企业的成功。

从一篇名为“医疗保健的可理解模型:预测肺炎风险和住院 30 天返院”的文章中可以得出另一个宝贵的教训 [8]。该研究考察了将机器学习应用于改善出现肺炎症状的人群分类程序。该文章表明,机器学习模型犯了一个危及生命的错误,将患哮喘的肺炎患者分类为“低风险”。

这个问题的根源在于数据和模型学习数据的能力。与许多其他机器学习算法一样,该模型也是从训练数据中学习模式的。在本例中,它错误地从数据中推断出哮喘在某种程度上与减少患肺炎的风险有关。模型的预测与现实世界之间的差异源于对哮喘患者进行的积极护理有效地降低其肺炎相关的死亡率,而这种降低率相比一般人群来说要低。这导致机器学习模型做出了错误的假设,即在孤立状态下,哮喘可以降低患肺炎的风险,而实际上,哮喘患者如果不立即住院,将面临相当大的风险。

该示例凸显了人工干预在验证过程中的至关重要性,为模型考虑的数据和属性提供了宝贵的见解,并基于对主题的深入知识预期的响应。这种人为输入有助于确保没有遗漏关键信息,并且模型与它旨在解决的问题的实际复杂性保持一致。此外,该示例强调了数据科学与领域专业知识之间的重要联系。虽然机器学习算法可以分析大量数据集并提取模式,但它们往往依赖人类指导以正确解释上下文并防止潜在的危险误解。数据科学家和领域专家之间的合作在利用机器学习在医疗保健等复杂和关键任务中的全部潜力方面始终至关重要。

人工智能和聊天机器人开发的领域已经有值得注意的失败案例,这些失败案例为我们认识技术的局限性提供了宝贵的教训。其中一起事件发生在 2016 年 3 月 23 日,当时微软在 Twitter 上推出了聊天机器人项目 Tay,仅仅在推出 16 小时后就匆匆终止了该项目。这个突然的决定引发了疑问,特别是考虑到数年的开发和大量的财政投资,估计总计超过 1 亿美元。那么,为什么微软这么迅速地放弃了这个项目呢?在一篇博客文章[9]中,微软提供了对其决策原因的见解:

在开发 Tay 时,我们制定并实施了大量过滤并进行了广泛的用户研究,涵盖了多个用户群体。我们在各种情况下对 Tay 进行了压力测试,特别是为了让与 Tay 互动成为积极的体验。一旦我们熟悉 Tay 与用户的互动方式,我们希望邀请更广泛的人群与她进行互动。正是通过增加互动,我们预计可以学到更多的知识,让人工智能变得越来越好。

Tay 的旅程在它开始吸收 Twitter 用户的攻击性和粗俗内容时出现了令人不安的转折。它迅速陷入发布性别歧视和种族主义评论的漩涡,而且有一次,它臭名昭著地支持了“希特勒是对的”这一令人憎恶的声明。发现用户可以通过简单地指示它“跟我重复”来操纵 Tay 转发他们自己的内容成为该项目的致命一击。同样,2022 年 8 月由 Facebook(Meta)发布的聊天机器人 BlenderBot3 也表现出了与 Tay 相同的漏洞,并重复了与 Tay 相同的错误。虽然对于未经培训的人来说,这些人工智能系统可能看起来很智能,但它们缺乏对其发布内容的真正理解。它们的响应是算法化的,它们的交互与人类对话基本上不同。

这些问题不仅限于聊天机器人;它们延伸到基于“相似”个体行为决定用户看到的内容的内容推荐算法。这种做法可能无意中导致激进或不适当内容的传播。告密者们揭示了推荐引擎通常被设计成最大化用户参与度,最容易通过建议越来越极端的内容来实现。用户参与度越高,产生的广告收入就越多。虽然这样的参与度符合公司的财务利益,但它带来了严重的社会风险。例如,误导性的反疫苗信息可能被强加给本来对此不感兴趣的个体。此外,误导信息和宣传可能被反民主国家或有意干预选举的团体武器化。旨在吸引用户的社交媒体机器人可能无意中培养分裂和疏远人与人之间的关系。

这些聊天机器人失败事件和相关的互动技术中得到的最重要的教训是一个鲜明的提醒,即这些程序缺乏真正的理解。它们就像是包含了单词但没有对其含义进行理解的字典,重要的是要保持对这种基本局限性的认识。

虽然我们可能理解人类语言的微妙之处可能会给人工智能带来挑战,但人们可能会认为数值和数据驱动的领域,如股票市场,会是人工智能能力的完美契合。毕竟,随着近几十年来计算技术的发展,对冲基金经理们越来越多地转向了机器学习算法,希望在金融市场上获得竞争优势。然而,现实情况却有所不同,数亿美元的几家公司在追求以人工智能驱动的投资策略时遭遇了财务灾难。引发的问题是:这是怎么发生的?

对于最近这些由人工智能驱动的投资策略的令人失望的表现,一个引人注目的解释在于政府和美联储对 COVID-19 疫情做出的前所未有和意外的行动。这些公司依靠数学和机器学习来预测市场走势。然而,全球大流行的爆发带来了一系列完全意想不到的情况,使得他们的人工智能系统基本上无法预测快速变化的金融格局,使这些公司处于不堪设想的境地,不得不向投资者解释,为什么他们曾经充满希望的人工智能驱动的投资决策表现不佳。

一个值得注意的例子是著名的文艺复兴机构权益基金(RIEF),其令人失望的表现导致投资者纷纷撤离。一篇 2021 年的《华尔街日报》文章标题为“詹姆斯·西蒙斯辞去文艺复兴技术公司董事长职务” [10],强调了该基金的困境,一位投资者适当地表示,“RIEF 的机器学习模型崩溃了。”的确,这简洁地概括了该基金的困境,其价值在股市大幅上涨 40% 的时候下跌了 20%。

股市中的这些昂贵而不幸的失败提醒人们,使人工智能系统真正适应具有固有挑战性。虽然监督学习方法在被分析的案例与训练示例密切相符时可以产生令人印象深刻的结果,但在情况迅速演变且行为变得不可预测时,它们在本质上是有限的。实质上,人工智能模型,无论多么复杂,都可能在面对意想不到的事件和动态、不断变化的环境时很快变得过时。接下来,让我们继续探讨两个引人注目的案例研究,分别来自 IBM 的 Watson 和房地产市场巨头 Zillow。

首先,正如之前提到的,IBM 的 Watson 在击败《危险边缘!》冠军后引起了极大的关注,这一成就展示了人工智能在回答琐事问题方面的显著能力。然而,Watson 在智力竞赛节目上取得的早期成功与其后在医学诊断方面的挣扎形成了鲜明对比。这种对比令人深思,提醒人们医学推理中的复杂性。IBM 对 Watson 进行了大笔投资,数以十亿计,希望它能彻底改革医疗保健。其中一个项目是创建一台机器,不仅能够协助肿瘤学家洞察见解,还能促进药物开发,并将患者与相关临床试验联系起来。在 2011 年令人印象深刻的游戏节目表现十年后,IBM 对 Watson 在医疗保健方面的热情显著减退。《华尔街日报》报道了这一转变,称“IBM 对 Watson 的撤退凸显了医疗保健中更广泛的人工智能挣扎” [11]。曾被“大蓝”认为是大胆举措的举动现在正在重新考虑。

沃森在医疗领域面临的主要障碍之一是医疗推理的微妙和多面性。医生不仅依靠教科书知识,他们还根据自己的丰富经验进行推理、进行类比、捕捉微妙的人际暗示,并通过一系列程序调整假设。对于当前的人工智能来说,医学的这种丰富、直观的理解仍然具有挑战性。沃森的案例研究强调了一个关键教训:并非所有问题都适合机器学习。一些问题,比如规则清晰、结果可预测的琐事问题,与人工智能的能力很匹配。只要沃森能够访问互联网以检索答案,它就能茁壮成长。然而,当面对医学诊断的复杂性时,人工智能的局限性变得明显起来。

另一方面,Zillow 试图通过应用机器学习模型来革新房地产行业。Zillow 的愿景是利用人工智能分析大量房地产数据,包括地块大小、邮政编码、卧室和浴室数量、平方英尺、房源持续时间和区域销售数字。其目标是通过提供在线房地产列表、按需购房和数据驱动服务成为市场领导者。

最初,Zillow 的人工智能平台 Zestimate 被誉为革命性。它利用自然语言处理从公共记录中获取见解,并利用机器视觉从房产图像中提取信息。2021 年 7 月的一篇文章[12]宣称了 Zillow 的实力:“Zillow 利用解释型人工智能数据革新人们出售房屋的方式。”然而,仅仅几个月后,情况出现了意想不到的转变。2021 年 11 月,《华尔街日报》的头条新闻揭示了 Zillow 正在退出翻修房屋的业务[13],称其无法准确预测房价上涨。

Zillow 的案例提醒我们,在具有不完整、不准确或过时信息特征的情况下应用机器学习是需要谨慎的,比如动态的房地产市场。像新建筑、地方动态变化以及房产维护历史等因素都会显著影响房产价值,而这些复杂因素对算法来说很难进行考量。房地产经纪人凭借其评估专业知识和对当地细微差异的深刻理解,拥有机器无法复制的洞察力。

新冠肺炎大流行为人工智能展示其潜力提供了独特机会,然而也带来了让人联想起过去人工智能冬季的担忧。许多人希望我们先进的“智能”机器能在寻找治愈方法或迅速开发疫苗方面发挥关键作用。社会急需一个拯救生命的解决方案,作为回应,全球启动了数千个机器学习项目来解决这个问题。媒体迅速歌颂人工智能的力量,仿佛这是一场全球抗击病毒的比赛。

一个值得注意的乐观主义标题出现在Science杂志上:“AI 为潜在的 COVID-19 药物创造了新的‘配方’”[14]。同样,金融服务公司 BBVA 宣布:“AI 驱动的项目确定了高达 390 种可能的抗 COVID 药物”[15]。这些报道引用了一位研究人员的话,他宣称“机器学习解决方案使他们能够确定大约 390 种可能能够作用于病毒治疗靶点和感染过程的药物。” AI 模型确定的最有前途的候选药物包括氯喹,羟氯喹,奥司他韦(林德西韦)和托珠单抗(雅斯达)。

但是,乐观主义总是需要谨慎对待的。2020 年 5 月,欧洲药品管理局发布了一份警报[16],警告不要使用氯喹和羟氯喹,称它们在 COVID-19 治疗中无效,并且有潜在严重的副作用。尽管有这些警告,2022 年俄勒冈中毒中心的报告令人担忧:“羟氯喹,氯喹和伊维菌素已被证明对治疗 COVID 无效,但使用这些物质导致了许多案例的严重中毒”[17]。这种情况再次提醒我们,虽然 AI 在协助医疗保健和药物研发方面有巨大的潜力,但它必须始终经受严格的审查和验证,以确保任何提议的治疗方法的安全性和有效性。

结束这一部分时,我们可能会反思一句关于不要在它们孵化之前就数鸡的谚语,因为我们注意到有两个许多人一度认为已经几乎完成的项目。第一个我们已经在本书中提到的,是自动驾驶汽车的追求。第二个例子是语言翻译的发展。自 20 世纪 50 年代以来,成千上万的研究人员已经解决了这个问题,花费了数十亿美元。虽然取得了巨大的进展,而且终点似乎总是在望,但我们仍然没有创造出一个可以可靠地将一种语言翻译成另一种语言的系统。

法语单词avocat恰好有两个意思:律师和鳄梨。在我写这篇文章的时候,当我把这个简单的句子“J’ai bien aimé l’avocat car il m’a fait rire aux larmes”放到最流行的在线翻译工具中时,算法告诉我它的意思是“I really liked the avocado because it made me laugh to tears”(图 10.1)。程序明显无法推断上下文,这表明我们仍然有很长的路要走。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10.1 于 2022 年 10 月 9 日翻译。由于用户反馈的不同,结果可能会有变化。

10.4 如何使您的 AI 项目取得成功

在当今快速发展的技术景观中,AI 已经崭露头角,吸引了人们的想象力,并推动了各个行业的创新。AI 主导地位的激增在很大程度上归因于两个关键因素:对巨大数据存储库的空前访问和现代计算机的非凡能力,这些计算机配备了巨大的存储容量和闪电般的处理速度。这些进步共同解锁了 AI 的全部潜力,这在以前被认为是不可想象的。然而,尽管他们拥有丰富的数据,但许多公司尚未完全拥抱过渡成为数据驱动型企业。这种犹豫的一个重要原因是普遍的误解,即 AI 是一个神奇的实体,只需要按下按钮就能创建和部署智能系统。这种误解可能导致错误的期望,最终导致 AI 事业失败。

在没有制定明确和全面的计划的情况下启动 AI 项目可能会导致失望。必须以明确的路线图方式来对待 AI 事业,该路线图不仅概述了目标,还有效地缓解了风险,并最大化了 AI 对企业和行业带来的潜在利益。

10.4.1 数据:AI 的生命之血

重要的不仅仅是数据的数量,还有质量和相关性。AI 算法在进行准确预测和决策时严重依赖高质量的数据。因此,组织必须将数据收集和管理作为其 AI 战略的基本方面之一。

10.4.2 现实的 AI 视角

了解 AI 的真正能力和局限性至关重要。虽然 AI 能够执行卓越的任务,但它并非万能,无法解决每一个问题。公司需要设定现实的目标和期望,将 AI 视为增强人类能力的工具,而不是神奇的灵丹妙药。

10.4.3 计划的重要性

制定全面的 AI 战略涉及定义明确的目标、确定正确的用例、组建必要的人才,并有效地分配资源。一个深思熟虑的计划确保 AI 项目具有目的,并且成功的机会更大。

10.4.4 风险缓解

每个 AI 项目都存在固有的风险,如数据隐私问题、算法偏见或意外的技术挑战。组织必须积极识别和解决这些风险,以避免挫折和法律或伦理困境。

10.4.5 协作与专业知识

AI 是一个跨学科的领域,需要在数据科学、机器学习、领域知识等方面具有专业知识。与这些领域的专家进行协作和合作可以极大地增加成功实施 AI 的机会。

10.5 AI 模型生命周期管理

推出成功的人工智能项目需要一个明确定义的路线图,从深入理解为什么需要人工智能而不是现有流程开始。第一步是将项目与具体的业务结果保持一致,并批判性地评估预期的好处是否值得投入时间和资源。一旦您确信项目的价值,精细的规划变得至关重要。必须认识到,开发人工智能解决方案不是一个线性过程,而是一个迭代的旅程。在每个阶段,反馈循环随处可见,影响项目的每一个方面。为了最大化成功的可能性,我们需要按照以下行动顺序进行:

  1. 数据收集和标记——首先收集构建和测试您的人工智能模型所需的所有必要数据。对于监督学习算法,确保数据标记准确。

  2. 数据样本选择——考虑您的数据规模。虽然大型机构可能每年产生数十亿条记录,但可能不高效地使用所有数据进行培训和测试。确保代表性样本至关重要。

  3. 数据质量保证——仔细审查数据以查找冗余、不一致和不连贯的地方。从多个来源合并数据可能会导致需要解决的重复、不一致或不连贯的记录。

  4. 数据丰富化——原始数据通常不足。通过智能地组合属性和数据以及开发新的见解来增强其效用。例如,在欺诈预防中,将交易记录与不同时间段的帐户活动关联起来可以提供有价值的上下文。

  5. 模型构建——利用第二章和第三章涵盖的技术构建您的人工智能模型。

  6. 严格测试——广泛评估模型的弹性、性能和可扩展性,以确保它满足预期并产生所需的输出。

  7. 部署——一旦模型通过了严格的测试,就该将其部署到生产环境中了。

  8. 持续监控和优化——在部署后密切关注系统的性能。保持预期的服务水平至关重要,并准备根据需要进行调整。如果性能出现波动,应用适应性学习技术可能会有益。

这些准则构成了一个全面的框架,用于引导人工智能项目开发的复杂旅程。通过遵循这些步骤并适应不断变化的环境,您增加了实现人工智能项目目标并为您的组织提供实实在在的好处的可能性。

图 10.2 是一张图表,概述了典型人工智能模型如何有效构建和部署。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10.2 一个流程图示例,描述了设计和部署人工智能模型的各个步骤

10.5.1 数据准备

人工智能项目的初始阶段涉及细致的数据准备工作。这个多方面的任务包括几个关键方面:

  • 选择相关数据类型——在企业领域,当利用数据时,了解法律限制至关重要。例如,某些法规,如公平借贷法,禁止在设计 AI 模型时使用年龄、种族、宗教、邮政编码、性别或种族等属性。确保遵守此类法规至关重要。

  • 数据格式转换——AI 算法在处理不同数据类型方面有所不同。虽然一些算法可以直接处理分类数据,但其他算法则要求将数据转换为数字格式。这种转换确保与选择的 AI 技术兼容。

  • 抽样——管理大型数据集可能会耗费大量资源。为了降低成本并简化开发过程,通常明智的做法是采用抽样技术。这涉及减少数据大小同时保持其代表性,从而促进更高效的模型训练。

  • 数据分析和清洗——数据质量至关重要。在这个阶段,进行严格的分析,以识别和纠正冗余、不一致和不连贯等问题。来自不同来源的数据合并可能会引入重复记录,而不一致的数据可能会导致冲突。确保数据完整性对于可靠的 AI 模型结果至关重要。

10.5.2 行为分析

该阶段涉及智能数据分析,以基于各种指标派生新属性。例如,在防欺诈的背景下,可以创建新的特征来衡量特定时间间隔内的总支出,从而增强模型的欺诈检测能力。

10.5.3 数据转换

数据转换是一个关键步骤,包括数据归一化和聚类:

  • 数据归一化——通常,数据来自不同来源,并且以不同的尺度进行测量。为了确保公平处理,数据归一化调整值到一个公共尺度。例如,当两个系统使用不同的比例来表示相同的信息时,如百分比和从 1 到 10 的分数,数据归一化会使这些值协调一致。

  • 聚类——使用聚类技术将数据分组为有意义的类别。例如,可以使用聚类算法将城市按人口规模分组,从而增强模型识别模式和趋势的能力。

10.5.4 模型创建

数据丰富的核心是从个体数据属性中提取和生成有意义的见解,或者进行战略性组合。例如,在防欺诈中,将交易记录与不同时间范围内的帐户活动关联起来,可以为设计更有效的模型提供宝贵的数据。

10.5.5 实时生产

一旦 AI 模型被认为已准备好投入使用,它就会过渡到实时生产阶段。在这个阶段,模型实时运行,处理实时数据流。例如,防欺诈模型不断评估交易是否存在潜在欺诈。

10.5.6 数据存储

数据存储是记录和存档输入数据和模型输出的一项重要组成部分。该存储库有助于后续分析、审计和持续监控。

10.5.7 通知

可以预先定义自动化操作,以响应特定的结果或触发器。例如,某些事件可能会引发调查或自动通知相关利益相关者。

10.5.8 后勤审查

关键应用通常需要专门的团队来管理 AI 模型引发的警报。在诸如反洗钱检测之类的场景中,及时审查和评估可疑行为对于最小化法律和监管风险至关重要。

10.5.9 自适应学习

建立反馈循环对于持续改进至关重要。算法从错误中学习,并适应新的数据,随着时间的推移,增强模型的性能。

10.5.10 管理

模型管理涵盖了所有操作方面,包括访问管理和权限。这确保了模型在生产环境中安全高效地运行。

10.5.11 对 AI 平台的评注

像 Brighterion 这样的先进 AI 平台提供自动化机器学习能力。这些平台简化了各种数据科学任务,包括数据准备、行为分析、数据转换和模型创建。这种自动化显著加快了开发过程,使数据科学家能够专注于完善模型和解决特定的业务目标。

总而言之,开发和部署 AI 模型的过程是一个需要对数据进行细致关注、严格分析和有条不紊的方法的多方面旅程。每个阶段在确保 AI 项目成功的过程中都起着至关重要的作用,从最初的数据准备到实时模型部署和通过自适应学习持续改进。自动化的 AI 平台进一步提高了效率,赋予数据科学家驱动创新和实现业务目标的能力。

10.6 成功 AI 项目的指导原则

开展成功的 AI 项目不仅仅需要懂得机器学习算法的人员。尽管 AI 的专业知识无疑至关重要,但一个有效的 AI 项目团队需要更广泛的技能和知识。清晰的规范和对可用数据的深刻理解同样是决定性的组成部分。在没有对所需业务结果有深刻理解的情况下启动 AI 项目,就等于邀请失败。比如,一个被赋予实时决策任务的系统,本质上需要与在夜间批量处理相同数据的系统形成截然不同的方法。因此,最佳方法是从项目的目标和约束条件开始向后工作,确保你的 AI 计划牢固地扎根于对其目的的深刻理解。

此外,建议通过解决一个可证明可以从 AI 的能力中获益的单一、现有的业务流程来开始您的 AI 之旅。例如,一家公司可能会试图了解为什么会失去顾客给竞争对手,或者为什么某些产品经常一起购买。这个初始的机器学习目标应该是谨慎和可以实现的。从小规模的成功开始对于培养需要更雄心勃勃的工作所需的知识和专业技能至关重要。许多项目因目标过于雄心勃勃而失败。

也很重要理解单一的机器学习技术可能不足以解决复杂的商业问题。可能需要结合各种相互补充的方法来弥补彼此的优势并补偿各自的弱点。此外,除了算法本身之外,AI 解决方案在现实应用中的实用性取决于诸如可用性、响应时间和可扩展性等因素。例如,考虑一个必须全天候运行、在毫秒内响应并且每秒处理数万笔交易的信用卡授权系统。如果不能满足这些运营标准,即使是最复杂的算法也会失效。

一旦您的项目目标被细致定义并且约束条件被充分概述,这些信息就成为组建一个具有互补知识和技能的专业团队的基础。随着领域专家带来的领域特定见解变得不可或缺,主题专家的重要性变得非常清楚。在技术上,软件工程师从可靠的解决方案架构师的输入中获益良多,后者可以指导设计过程。此外,系统工程师对于建立必要的基础设施以确保最佳性能和安全性至关重要。部署后,连续监控和维护对于长期成功至关重要。适当的生命周期管理实践是保持您的 AI 项目在正确轨道上的关键。

如前所述,没有神奇的 AI 算法,而 AI 系统也不是一个能够立即解决所有问题的“魔法盒子”。AI 项目的成功通常取决于一系列试错过程,这些过程受到在类似案例中已被证明有效的理解的指导。这是一个需要时间和专业知识的旅程。

总之,AI 项目是一个多方面的努力,需要精心规划、一个全面的团队以及对问题本身和 AI 技术复杂性的深刻理解。接受这些原则并理解 AI 开发中固有的迭代过程是实现项目成功的关键。

摘要

  • 许多 AI 技术已成功应用于实时欺诈防范、信用风险、反洗钱工作、国土安全、供应链和交通管理。

  • 不良行为者已经利用人工智能生成深度伪造视频,人工智能已被用于进行有偏见的个人画像。

  • 数十亿美元已经被花在失败的人工智能项目上。

  • 通常,人工智能模型失败是因为它们从无效或不完整的数据中学习。

  • 聊天机器人没有真正的理解力,无法区分礼貌和冒犯性的陈述。

  • 成功使用人工智能的第一步之一是理解项目涉及的数据,并确保其对于任务是正确和充足的。

  • 在使用人工智能时,应考虑整个项目生命周期,包括如何记录代码、解释其作用以及如何确保和更新模型。

  • 12
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值