人工智能概念和现实生活
在过去的两年里,我接触了统计学和数学概念的基础知识,这些知识为我们以 Alexa、Jarvis、Siri 等形式看到的复杂人工智能机器奠定了基础。我觉得这些概念在现实生活中更容易想象。如果我们实际上根据我们在这个世界上的经历来思考这些事情,那么直觉上这些事情是非常清楚的。
人工智能只不过是人类的智能。不是吗?(由 Tejasvi Sharma 利用 Unsplash 上 Yuvraj Singh 的照片和 Unsplash 上拥有摄影的照片设计)
马尔可夫链的概念——“给定现在,未来有条件地独立于过去”。在我们生活中的任何时候,我们只能控制我们的现在,而我们的现在是整个过去的反映,也就是说,来自我们过去的知识和经验定义了我们现在的状况,我们未来的进步完全取决于我们今天是什么样的,以及我们为过渡到未来更理想的状态付出了多少努力。
MAP 和 MLE 估计的概念 —最大似然估计是一种参数估计分布的技术,我们观察到的数据实际上来自该分布。我们对某事的看法完全取决于我们过去所目睹的。基于这些经历,我们试图将它们映射到一个内在的表象或概念上。例如,我们在周围看到有钱有势的人,我们试图根据我们在日常生活中看到的东西,形成他们通常长什么样以及他们有什么特点的概念。
MAP 估计扩展了 MLE 的概念,并且还考虑了我们所拥有的分布的先验知识。在这里,我们对某件事情有一个预先的概念或观点,并且基于我们的大脑对我们在日常生活中遇到的最新发现的确信程度,我们对某件事情的内部表征发生了变化。我们在电影中看到有钱有势的人拥有豪华的房子、汽车和生活方式,我们在脑海中形成了一个关于他们的概念。我们在现实生活中也看到有钱有势的人,但我们的思维更新观念不仅仅是基于我们在现实生活中看到的,而是通过一种混合物,包括我们在电影中看到的先前观念。
联合学习(FL)的概念— 随着设备上的边缘学习因设备上更高的计算可用性而越来越受欢迎,为了确保数据的隐私性,FL 成为在边缘上学习高效和稳健模型的最佳替代方案。合作学习的想法很有前途,在现实生活中也普遍适用,因为单个个体的经验可能不够充分,也可能有偏差。整合朋友或熟人经验的能力让我们对任何事情都有更好的看法。
抽样偏倚的概念— 我们在现实生活中看到的数据总是有偏倚的。这完全取决于我们实际看到的数据样本。稳健的抽样并不能保证,我们在现实生活中看到的对别人有用的东西不一定对我们有用。在现实生活中,我们所目睹和经历的会试图在我们的思想和观点中产生偏见。
探索和利用的概念— 作为人类,我们倾向于承担较小的风险,并且我们总是更喜欢已经有人尝试过并且事实证明很棒的东西。因此,在现实生活中,我们也倾向于利用早期的知识,一般来说,一个人探索过去不太重要的东西的机会非常少。
**甘的观念与生成性造型——**当我们试图画风景、动物或任何东西时,我们会有一个我们在现实生活中看到的真实场景或艺术品的平行图像。GAN 也通过尝试学习接近理想行为的分布来做同样的事情,正如 GAN 的模式崩溃问题一样,即它最终会学习数据中的特定峰值,我们在现实生活中也是如此,因为我们最终会在大多数时间创建类似的场景。
迁移学习的概念 —它非常适用于现实生活,比如我们所学的东西,或者如果我们有关于某件特定事情的经验,我们会尝试将其应用于不同的任务,并可能结合一些变化或学习所需的变化,以成功适应不同的任务。如果我们知道如何骑自行车,学习骑踏板车会变得更容易,如果我们知道如何骑踏板车,学习骑汽车会变得更容易。
其他一些概念 —
K 最近的邻居,注意是一些更常见的平行关系,人们可以从现实生活中得出,以直观地理解为什么复杂的人工智能机器应该工作。
虽然这些事情在现实生活中看起来很直观,但在深度学习中证明它们并不容易,需要一系列聪明的实验。我们在深度学习中控制不同的旋钮,作为超参数、数据集、模型架构等的一部分。来证明因果关系和相关性。
人工智能设计决策
约书亚·苏考夫在 Unsplash 上的照片
人工智能决策的调查证据剖析
哈夫洛克·埃利斯说,重要的不是目标的达成,而是途中遇到的事情。他在谈论哲学。在商业中,人工智能是关于目标实现的。一路上遇到的事情,都是决定。
这些决定是 Signal AI 最近对 1,000 名首席执行官进行的调查的焦点,旨在评估人工智能对美国经济的影响。根据这项调查,96%的商业领袖认为人工智能将改变决策,92%的人同意公司应该利用人工智能来增强决策过程。
艾不太确定。
大多数决策不是二元的
无论是调查还是业务主管都不能提供有关决策类型的信息。大多数受访者表示,他们每周在这个过程中花费超过 40 个小时。不足为奇:这大概是他们领薪水的原因,但 80%的领导者声称有太多的数据需要评估,高级管理层正在寻求缓解。AI 在图中的什么位置?
AI 渴望通过在决策阶段激励和指导组织来设定和实现目标。四种决策是相关的。
政策决策包括选择追求什么目标以及如何实现这些目标。技术对公司的适当调整应该定义这些目标。AI 在这一步冒着失败的风险,因为他爱上了创意之火,没有认识到实用的指导方针。
目标应该很少,但不需要非常具体。剩余的可能性被抛弃了。目的分散是一种商业风险。人工智能擅长不适定问题,但众所周知,它会一直徘徊,直到它认为问题得到解决。
任何目标都必须用一个问题来定义。好的设计要求目标的确定应该导致对问题的理解。人工智能可能不擅长理解,但目标的实现被解释为一组解决方案。像任何好的公司故事一样,故事不能像增加额外收入那样泛泛而谈。必须包含一个转变的因素。
人工智能体现了变革,但还没有为政策决策做好准备。人工智能必须首先准备好自己定义问题。然而,这是一个可以实现的目标。例如,人工智能知道如何识别不良组件或不良行为,从而识别症状,进而提出问题。
接着是分配决策。实现目标需要在人员之间分配资源和责任。在帮助组织实现其目标的过程中,有些职位扮演着重要的角色。每个岗位都有特定的职能,企图为企业赚取利润。
一个职位必须解决一个问题。当有疑问时,回到目标设定作为政策决定。
人工智能可以为内部资源赋值,并智能地为项目分配类型和数量。AI 正在考虑接管项目管理的职责,这也符合目标实现功能。企业生活只应该这么简单。其自身角色的定义和人类角色分配的问题超出了当前的技术。然而,一些人力资源官员,如 IBM 的 Diane Gherson,正在基于生成性对抗网络的模型,松散地训练人工智能。
角色冲突是盲目的组织结构图的常见结果,这是非常人性化的发明。人工智能暴露在相互冲突的角色期望中,确保了出现与公司目标无关的问题。《2001:太空漫游》中哈尔的比喻占据了主流意识,尽管参考了科幻小说,但仍是问题的代表。妥协是一个谈判的问题,而不是组织结构图模板。否则,大赦国际将面临负面制裁和内部冲突。哈尔杀了(几乎)所有人。
人工智能承担多种角色,并可以对他们以及公司内其他人的分配进行排序。与他人的关系是由兴趣和取向控制的,这些兴趣和取向与人工智能的兴趣和取向以不同的方式交织在一起。这些差异通过对人工智能索赔的分配进行调整。排序是按照优先级、上下文和收益分配进行的。有些活动有合适的合作伙伴。其他人可能不太适合现有的伴侣、时间和空间。
人工智能角色系统的分配顺序得到了微妙的平衡。一个部分的任何重大改变都可能影响到其他部分,需要进行一系列的调整。人类的反叛随之而来。脆弱是决策过程的一个不良属性。
协调决策包括如何激励员工以及如何管理贡献。薪酬在内部商业计划的讨论中占主导地位。人工智能无法在一个更大的组织中用加薪和相对职位来吸引员工。人们必须接受这个概念,并以这样一种方式接受它,即心甘情愿地接受他们作为机器中杠杆的角色。
人工智能应该提供一种目标感。动机随之而来。
人工智能需要考虑目标实现的这一部分。社会关注人类失业,经济学家预计人工智能保护伞下的职业再培训。再培训在 T2 第一次工业革命中发挥了作用,但是历史记录显示了短期内的巨大痛苦。
当价值观到位时,决策更容易
人工智能在这里有自己的问题要问:是人类为人工智能重组决策,还是人工智能为公司组织流程?答案并不明显,但价值观的引入提供了指导。
支撑价值观 是那些为决策权合法化服务的价值观。这些价值观的定义和传播方式构成了第四套决策。将价值观纳入目标设定是一个不容错过的机会。
决策权提供了一种在不干扰整体公司文化的情况下,催生人工智能文化的手段。
稳定要求雇员的利益与共同的价值体系相一致。公司内部对人工智能行为的反应被构造成对系统忠诚的函数。从众作为实现目标的一种手段,与引起他人的有利反应和避免不利反应的条件相一致。
符合价值标准符合这些标准。从人工智能的角度来看,它是满足其需求的一种模式,也是优化企业内部决策者反应的一种条件。价值模式在人员互动的背景下被制度化。
将人工智能在决策中的作用制度化是公司的期望。
角色期望为人工智能的行为设定了标准。相对于其他人的反应,也有一系列的期望。后者是制裁,反过来可能是正面的,也可能是负面的。人工智能的区别在于它们是促进满足感还是剥夺行动。角色期望和制裁之间的关系是相互的。对 AI 的制裁是对公司的角色期望,反之亦然。
人工智能的决策角色是围绕整合了一套价值观的期望来组织的。同样的价值观支配着与人工智能互补角色的互动。角色期望和相应制裁的制度化是一个程度问题。制度化的对立面是规范秩序的彻底崩溃。这不可能发生。
调查作者有一个收获
人工智能在引导组织通过决策制定阶段时取得成功。这不应该与通过决策取得成功相混淆,也不应该与人工智能辅助增加过程中的细节相混淆。
这份声明一部分是希望,另一部分是恐惧。希望是调查传达的信息,但 Signal AI 首席执行官大卫·贝尼格森指出,商业领袖往往有不切实际的期望。“就像其他技术一样,他们在短期内高估了人工智能的影响,在长期内低估了它。”
决策的四个标准说明了所涉及的困难,而公司内部的期望在这幅画中表现突出。从这个意义上说,贝尼格森是正确的。然而,人工智能不像其他技术;这是第一次向员工提出生存挑战。随着人工智能转向决策,高级管理层也面临着这一挑战。
由于担心技术冲击和监管风险,员工集体低估了人工智能在短期内的影响,纷纷取消或推迟项目。它把一般人工智能的概念作为存在主义争论的核心特征,从而高估了长期影响。
人工智能只是一个婴儿,我们不相信婴儿的决定。他们打碎一路上遇到的东西。
引导你的公司走向道德人工智能
一个全面的战略,使组织能够将道德置于其人工智能建模的核心
照片由 Aaron Burden 在 Unsplash
对于大多数组织来说,人工智能伦理相当于牙线:他们知道这对他们有好处,但他们更喜欢做一些事情——可能是任何事情——其他事情。但是随着来自政府、媒体和国际组织的监督越来越多,公司必须确保他们考虑他们的模型的道德性。
在这篇文章中,我们将探索一个产生负责任的人工智能模型的综合策略。为此,我们将考虑几个因素,包括:( 1) 公平性、( 2 )可说明性和透明度、( 3 )问责制、( 4 )安全性和安全性,以及( 5 )以人为本的水平和对整个社会的益处。
公平的
组织应该通过仔细选择模型的特征、测试模型并采用 IBM 的人工智能公平算法来确保他们的人工智能模型是公平的
目前,我们生活的社会是不公平的,但我们部署的模型应该旨在使社会更加公平。因此,公平应该是一个组织所有模式的核心,尤其是因为歧视会受到严厉的法律处罚。然而,“公平”是一个主观的术语。一方面,公平可以被认为是平等地对待每个人,不管他们的情况如何。然而,另一方面,公平可以被认为是根据每个人自己的情况来对待他们。谷歌的一份报告发现,看似“公平的决定”,比如让弱势群体获得信贷,会对他们的信用评分产生负面影响。然而,机器学习模型没有上下文意识,因此也没有公平性。例如,亚马逊的人工智能招聘筛选模型对男性申请者有偏见,因为历史上男性担任这些角色。虽然没有快速解决实施人工智能模型的组织所面临的任何这些道德问题的方法,但他们应该考虑一个道德框架,这可以在模型的整个生命周期中增加其模型的公平性,包括:
- **选择功能。**歧视可分为两个主要部分:有意的(差别待遇)和无意的(不同影响)。然而,避开不同的影响,并不是简单地删除受保护的功能;一些明显中立的功能可以作为受保护功能的代理。因此,组织应该仔细考虑其模型中使用的每个功能的影响。
- **采用 IBM 的公平 360。**组织应该考虑采用 IBM 的 AI Fairness 360 toolkit 来检测和减轻给定数据集中的偏差。可以在该库中找到的三种偏差优化预处理技术是突出的,包括组辨别、个体失真和效用保持。在整个设计和开发过程中,对于人工智能模型,开发人员应该考虑使用这些技术来最小化算法中的偏差。
- **验证模型。**在开发过程中,组织的开发人员应该测试人工智能模型,包括使用“百分之八十规则”。统计学家经常使用的这条规则是通过将弱势群体的比例除以优势群体来计算的。除此之外,组织应该寻求另一个外部团队来验证模型的性能,特别是从伦理的角度。
关键要点:
- 组织应该对所有的人工智能模型决策采用公平设计的方法。
- 公平没有放之四海而皆准的方法。然而,组织应该采纳两个核心原则:第一,记录他们的方法以最小化不同的影响;第二,清楚地证明他们所有的决定。
可解释且透明
为了指导人工智能模型的制作,组织应确保权衡与其模型相关的风险和准确性要求
人工智能模型伦理中的一个关键权衡是模型的准确性和可解释性之间的权衡。一方面,人们很容易相信,在所有情况下,一个更准确的模型比它更难解释的成本更重要。当然,这在一些低风险、低影响的情况下是正确的,比如流媒体服务推荐你接下来应该看哪部电影。然而,另一方面,拥有一个难以解释的模型在很多情况下可能不被接受,比如向客户提供贷款。那么,一个组织应该如何决定他们的模型应该如何解释呢?首先,他们应该权衡风险和准确性要求。第二,如果缺乏透明度是可以接受的,那么组织可以考虑黑盒建模技术(如神经网络、随机森林)。然而,如果可解释性很重要,那么他们应该专注于使用可解释的模型(例如,决策树,逻辑回归)。
随着组织拥抱人工智能,它们应该:
- **明确可解释性要求。**组织应与业务和法律利益相关者一起,考虑其模型的预期可解释程度。
- 利用你的数据科学家。机器学习算法种类繁多,从高透明(如决策树)、部分透明(如随机森林)、低透明(如神经网络)。因此,组织应该利用他们的数据科学家来确定他们期望的用例所需的透明度级别。
- **聘请艾伦理学家。**组织应该考虑聘用对该模型有深刻理解的人,并且能够根据要求解释该模型产生给定结果的方法。
关键要点:
- 组织——尤其是银行、政府机构和制药公司——面临大量审查;因此,他们应该专注于让他们的算法变得可解释。为此,他们应该使用高度透明或部分透明的模型,除非使用透明度较低的模型(如神经网络)有明显的竞争优势,超过了与之相关的风险。然而,请注意,在大多数用例中,人类不太可能需要审查人工智能的所有决策,只针对高风险决策。
负有责任的
组织应该确保人工智能模型的设计者、开发者和管理者对他们的解决方案的社会和诉讼影响负责
如果不加检查,算法会影响企业、个人和社会。因此,组织制定人工智能治理政策至关重要。虽然,起初,人工智能的逻辑决策似乎是客观的;人类的判断在模型的设计和开发中起着重要的作用。因此,数据科学家和他们的管理层应该对他们的模型的行为负责。下面的列表探索了三种使组织的人工智能更加负责的方法,包括实施强有力的人工智能治理,定义与人工智能系统的后果相关的责任,以及记录所有道德决策。
- 治理。在承担任何人工智能建模项目之前,组织应该确保他们为他们的伦理考虑制定了清晰和可理解的政策、标准和程序。因此,最大限度地减少了关于谁对与模型生产相关的任何道德后果负责的混淆。
- **责任。**数据科学家及其管理层应该对他们的模型负责。因此,组织应该确保他们为在人工智能领域工作的员工提供相关的合规培训,以便他们了解自己的责任,以确保团队正在产生一个负责任的、对社会有益的模型。一项《快速公司》的研究发现,50%的开发人员认为开发人工智能模型的开发人员应该对他们模型的后果负责。
- **文献资料。**所有的设计决策都应该清晰地记录下来,并且能够被领导层和程序员所理解。此外,如果一个组织的顾问或承包商离职,他们应该考虑聘请全职伦理学家来监督该模型的整个生命周期,并确保任何道德问题都得到迅速有效的解决。
关键要点:
- 制定清晰易懂的政策、标准和程序,概述与人工智能模型开发相关的伦理考虑。
- 数据科学家及其管理层将对组织的客户流失模型的含义负责。
- 为道德考量制作详细记录。
安全可靠
组织应该确保他们尊重用户的隐私,监控算法,并且不伤害他们的客户
人工智能模型应该以安全的方式实现,包括尊重客户隐私、监控算法和不造成伤害。
- **尊重隐私。**公司越来越多地为客户提供对数据的更大控制权。然而,这种类型的数据隐私优化需要谨慎的平衡行为。一方面,收集更多数据的公司可能面临更大的诉讼处罚风险。然而,另一方面,拥有强大的数据隐私标准的公司可能会放弃数据的金钱利益。那么,组织应该做些什么?最佳策略是收集和使用不比竞争对手更多但也不少的数据。除此之外,组织应该清楚地向其客户阐明其人工智能模型的复杂性。
- **监控算法。**分析团队应确保他们清楚地阐述了人工智能模型的方法。因此,如果关键团队成员离开,组织可以回应客户提出的道德问题。此外,组织应该考虑为人工智能伦理学家创造一个永久的角色,他们将能够在人工智能算法的整个生命周期中对其进行监控。监控过程应包括考虑输入、输出和当地法规。
- 不伤害任何人。确保人工智能模型系统是而不是用来伤害组织的任何客户。举个例子,一个信用卡客户在管理他们的财务方面遇到了麻烦,可能已经欠下了大量的债务——组织鼓励这个客户向银行借更多的钱是不合适的。相反,组织应该专注于支持客户,帮助他们实现目标。如果这还不值得骄傲,那什么值得骄傲呢?因此,算法应该确保人类可以在必要时介入,以确保算法不会伤害其他个体。
关键要点:
- 对所有与人工智能模型的设计、开发和测试相关的决策制定采用隐私设计方法。
- 产生一个以客户为中心的人工智能模型。
以人为本,对社会有益
组织应该确保他们的系统由一个人来管理,对社会有益,并且合法。为了做到这一点,高风险任务将由人来完成,低风险任务将自动完成
在设计和开发人工智能系统时,组织应该考虑各种社会和道德因素,并且组织应该只在收益明显大于风险的情况下生产算法。三项原则在以人为本和造福社会的潜力方面都很突出。这些都是人在回路中,对社会有益的,合法的。
- 以人为中心。人类应该在任何时候都负责人工智能模型。但这并不意味着人类应该总是认可人工智能做出的每一个决定。然而,组织应该确保高风险决策得到了人类的支持。
- 对社会有益。人工智能应该积极地扩大社会,特别是帮助解决社会中的重大问题。然而,请注意,并不是所有对社会有益的事情都是以人为中心的。例如,中国的社会信用评分旨在保护整个社会,但它没有考虑个人的隐私需求。
- **合法。**组织应始终确保其人工智能模型和数字解决方案符合所有本地和域外政策、标准和程序,包括 DPA '18、GDPR 和数据共享协议。
关键要点
- 专注于确保算法有益于最终客户,并符合当地和域外法律。
结论
围绕人工智能的任何伦理问题都没有快速解决方案,有时会让人感到瘫痪。但教训是明确的:组织应该确保他们的系统是公平的,可以向非技术观众解释,由他们的设计师负责,尊重用户的隐私,并对社会有益。然而,更重要的是,通过确保组织将道德置于其所有人工智能模型的核心,他们可以与客户建立信任。因此,这种额外的信任可能会让他们的客户更愿意分享额外的数据,这可能会改善人工智能模型的功效,进而改善他们客户的体验,这可能比降低模型的透明度更重要。这是每个组织的使命——把客户放在第一位。
作为用户体验挑战的人工智能伦理
播客
温迪·福斯特在 Shopify 谈道德人工智能设计
编者按:TDS 播客由 Jeremie Harris 主持,他是数据科学导师初创公司 SharpestMinds 的联合创始人。每周,Jeremie 都会与该领域前沿的研究人员和商业领袖聊天,以解开围绕数据科学、机器学习和人工智能的最紧迫问题。
人工智能伦理学通常被视为枯燥、抽象的学术课题。它没有那种一致的、统一的原则,你可能会从计算机科学或物理学这样的定量学科中期待这些原则。
但不知何故,道德橡胶必须符合人工智能的道路,而在这种情况下,真正的开发者必须与真正的用户打交道,并应用具体的道德原则,这就是你在这个主题上找到一些最有趣、最实用的想法的地方。
这就是为什么我想和 Shopify 的工程和数据科学总监温迪·福斯特(Wendy Foster)谈谈。温迪对人工智能伦理的方法是令人耳目一新的具体和可操作的。与更抽象的方法不同,它基于像用户授权这样的明确原则:即你应该避免强迫用户做出特定的决定,而是设计用户界面,将人工智能推荐的操作框定为可以忽略或采取行动的建议。
在这一集的 TDS 播客中,Wendy 和我一起讨论了她对人工智能伦理的实际观点,人工智能产品用户体验设计的重要性,以及负责任的人工智能如何在 Shopify 的产品中得到体现。
以下是我在对话中最喜欢的一些观点:
- Wendy 的理念是打造尽可能将决策外包给用户的 AI 产品,给用户最大限度的代理。她并没有将推荐系统的输出框定为最优,而是更愿意将它们作为可以采纳或忽略的建议传达给用户。一种方法是依靠设计:例如,按钮颜色、阴影、文本字体和其他风格选择可以传达各种形式的不确定性。虽然实现各不相同,但这里的基本原则是用户授权和增强用户控制。
- 可解释性经常被吹捧为负责任的人工智能的一个重要因素,但温迪认为解释并不总是最好的方法。首先,解释必须适应最终用户:对 19 岁的技术人员有效的解释可能对 70 岁的人没有意义。解释往往是静态的:它们为用户从人工智能获得的输出提供了一个基本原理,但可解释的人工智能方案往往不会以一种让用户容易提出后续问题的方式运行。由于这个原因,温迪对观察越来越感兴趣,认为观察可以替代解释。在这种情况下,观察意味着让用户有机会以一种动手的方式与他们正在使用的输出算法进行交互。这给了他们调整某些参数的机会,让他们对人工智能有更好的感觉,并知道它会犯什么样的错误。
- Shopify 能够采用这些策略的原因之一是,他们的用户群具有独特的企业家精神。Shopify 上的商家是那种喜欢建造东西并弄清楚系统工作方式的人,所以当他们看到一个可观察的人工智能机制时,或者当他们看到模糊的“建议”而不是清晰的“建议”时,他们不太可能被吓倒。但并非所有的用户群都是一样的,温迪很快指出,人工智能的伦理原则必须以用户为中心——也就是说,它们必须反映最终用户的特征作为出发点。
章节:
- 0:00 介绍
- 1:40 温迪的背景
- 4:40 练习是什么意思?
- 14:00 不同层次的解释
- 19:05 信任系统
- 24:00 培训新人
- 30:02 公司文化
- 34:10 人工智能伦理的核心
- 40:10 与用户交流
- 44:15 总结
人工智能-工程伦理
传统工程师在基于人工智能的物理建模中的偏见——第二部分
作者图片
概要
人工智能伦理在工程中的应用
页岩油井生产中的人工智能道德范例
结论
人工智能伦理在工程中的应用
传统工程师的偏见(包括主要假设、解释和简化)可以包含在人工智能的工程应用中。这通常是通过从数学方程中生成数据,并将其与实际的现场测量结果(实际的基于物理学的数据)相结合,然后使用这组结合的数据,通过人工智能和机器学习算法对物理学进行建模来完成的。在许多情况下,这种方法被称为“混合模型”。在人工智能和机器学习的工程应用背景下,这种模型是对人工智能和机器学习缺乏现实和科学理解的决定。
人工智能的伦理对工程师和科学家来说很重要,他们已经热衷于使用这项技术来解决工程相关的问题。虽然在过去几年中,人工智能伦理已经成为人工智能和机器学习的非工程应用中的一个重要话题,但现在它在这项技术的工程应用中同样重要。下一节将介绍人工智能和机器学习的工程应用中人工智能伦理的一个具体例子,展示猜测、假设、解释和简化如何帮助传统工程师使用人工智能和机器学习算法来生成一个不切实际和高度偏见的预测模型。这通常发生在他们尝试使用事实和实地测量但没有成功的时候。
似乎在人工智能的工程应用中包含这种偏见背后的原因与缺乏对人工智能必须如何用于建模物理现象的科学理解有很大关系。目前,一些声称使用这项技术的工程应用的个人和公司正在包括大量的人类偏见,以便他们在建立一个不包括人类偏见的基于人工智能的模型失败后,可以使用人工智能解决问题。工程中的人类偏见与如何建立数学方程来解决基于物理的问题有很大关系。
图片作者——WestVirginiaU大学 L 实验室为 E 工程 A 应用DAS科学
人工智能和机器学习对工程问题解决的主要贡献是基于实际测量数据对物理现象进行建模,这将是避免偏见、假设、解释和对物理的先入为主的概念背后的主要核心。由于物理现象建模的传统技术是通过数学方程,它通常包括假设,有时还有偏差。当模拟的物理现象看不见、看不到、甚至摸不着时,这是非常正确的,例如石油工程就是这种情况的一个很好的例子,因为生产的碳氢化合物是一种深层地下流体。当包含假设、解释和简化的数学方程被用来模拟物理现象时,任何其他工程学科也是如此。
储层工程、储层建模和储层管理为石油和天然气行业的运营和服务公司贡献了绝大部分收入。这说明了为什么储层建模在石油工业中是一项非常重要的技术。事实上,模拟油气储层中的流体流动包括大量的假设、解释和简化,因为它们位于地表以下数百或数千英尺。这意味着不可能实际观察、触摸或实际测试油气藏中发生的任何事情。
值得注意的是,储层岩石的某些部分通常被带到地表,并在实验室进行测试和分析,以帮助科学家和工程师了解地下深处多孔介质中流体流动的物理复杂性。然而,绝不能忽视关于这种分析的现实事实。虽然碳氢化合物储层具有大约几亿到几百亿立方英尺的体积,但是被带到实验室进行观察和测试的那部分碳氢化合物储层岩石通常小于几立方英尺。此外,众所周知,油气储层是高度非均质的,这意味着在几平方英寸的岩石上进行的实验室分析不能真实地代表整个储层岩石中发生的情况。
因此,尽管实验室岩心分析是理解碳氢化合物储层中流体流动的重要且有用的过程,但是它们不能真实地代表在数百或数千英尺地下的碳氢化合物储层中数百亿立方英尺范围内发生的所有细节和非均质性。这澄清了用于模拟多孔介质中流体流动的数学方程中存在的假设、解释和简化。此外,当碳氢化合物储层是非传统的,例如目前是美国碳氢化合物生产的主要来源的页岩带时,上述问题变得更加复杂,甚至更加重要。
页岩油井生产中人工智能伦理的例子
页岩油气层中完井、水力压裂和流体流动的物理模型中的假设、解释、简化、先入为主的概念和偏差数量如此之多,以至于页岩油井的完井和生产优化的数学模型完全不现实、无用且充满偏差。这是因为了解油气藏中流体流动物理性质的历史细节主要适用于砂岩和碳酸盐岩等常规区块。从十年前开始,这种为常规油藏开发的技术已经推广到非常规油藏。
一个明显的事实是,用于对页岩油井的碳氢化合物生产的物理特性进行建模的数学方程被假设所淹没,并且几乎与事实和现实没有任何关系,因为该技术的主要本质主要适用于常规储层,而不适用于非常规储层。很难找到任何真正的科学家和专业工程师(包括那些已经开发并正在使用这些技术的科学家和专业工程师)声称当前版本的页岩油井水力压裂数学模型与现实有任何关系。
这些事实证明,使用人工智能和机器学习来开发所谓的“混合模型”充满了假设、解释和偏见,与人工智能和机器学习的工程应用现实没有多大关系。当这种数学方程用于产生数据,然后将这种数据与实际油田开发相结合,以建立所谓的“混合模型”时,这种模型可以被强制产生由开发它的人预先确定的输出和结果类型。它消除了机器学习算法的实际和真实特征,这些算法能够基于现实而不是基于猜测和偏见来建模物理。这是一个很好的例子,说明在这项技术的工程应用中,人工智能伦理必须得到解决。
众所周知,当对天然裂缝的非常规储层(如页岩)进行水力压裂时,结果与对常规储层(砂岩)进行水力压裂时的结果截然不同。在页岩中,由于复杂天然裂缝的存在,水力压裂形成了一个“裂缝网络”(如图 1 和图 2 所示),而不是一个椭圆形的水力裂缝(如图 3 所示的常规油藏)。
如图 1 和图 2 所示,当出于水力压裂目的将液体(水)注入非常规储层时,在注入支撑剂之前,液体开始压裂地层。随着地层开始断裂,断裂的延续将通过岩石中阻力最小的路径。在天然裂缝储层中,阻力最小的路径是天然裂缝网络,而岩石的实际结构(几百万年前没有天然裂缝)具有更大的阻力。因此,天然裂缝储层页岩等非常规资源的水力压裂会产生高度复杂的天然裂缝网络,无法对其进行详细建模。这是因为岩石(页岩)天然裂缝的形状、特征和细节无法在整个储层中观察或测量。非常规油藏中水力裂缝网络的高度复杂形状是非均质性和天然裂缝网络的函数。
作者图片—图 1。天然裂缝储层的水力压裂不能基于真实测量进行建模,因为没有办法识别地下数千英尺的天然裂缝的分布。
作者图片—图 2。天然裂缝储层中的水力裂缝网络
当水力压裂的模型开发在 50 多年前进行时,常规储层中的水力裂缝的形状使用椭圆形进行建模,如图 3 所示。这种传统的水力压裂模型包括四个具体特征,允许使用数学方程对其进行建模。这四个具体特征是(a)裂缝半长,(b)裂缝高度,裂缝宽度,和(d)裂缝传导性。将图 1 和图 2 所示的水力裂缝的形状与图 3 所示的水力裂缝的形状进行比较,可以非常清楚地看出非常规储层与常规储层之间水力裂缝的实际形状有多么不同。
当实际的水力裂缝看起来如图 1 和图 2 所示时,使用图 3 所示的形状对其建模是否有任何意义或与现实有任何关系?这个问题的答案一定很清楚。这是一个很好的例子,说明了数学方程(用于模拟多孔介质中流体流动的物理特性)中包含的假设、解释、先入为主的概念、简化和偏差是如何包含在“混合模型”中的,该“混合模型”将它们与真实的现场测量相结合。
作者图片—图 3。常规油藏水力压裂。
结论
当基于人工智能的模型用于决策时,人工智能的伦理已被证明是一个重要的问题。人工智能伦理学可以揭露工程和非工程问题解决的人工智能应用中可能存在的偏见。几项研究,其中一些在本文中被引用,已经显示了种族主义和性别歧视等偏见是如何被包括在通过人工智能伦理学暴露的基于人工智能的模型中的。这篇文章展示了如何将传统工程师开发的假设、解释和偏见纳入人工智能的工程应用中,这被称为工程中的人工智能伦理。
参考
Crawford 和 t . Paglen,挖掘人工智能,机器学习训练集中图像的政治,2019 年 9 月—【https://www.excavating.ai/
Dastin,亚马逊废除了对女性有偏见的秘密人工智能招聘工具,路透社-旧金山。2018 年 10 月。
戴夫,p。独家谷歌搜索肤色的新措施,以遏制产品的偏见。2021 年 6 月。https://www . Reuters . com/business/sustainable-business/exclusive-Google-searches-new-measure-skin-tones-curb-bias-products-2021-06-18/?UTM _ medium = tech board . fri . media . 2021 06 18&UTM _ source = email&UTM _ content =&UTM _ campaign = campaign
Doshi,介绍包容性图像竞赛,2018 年 9 月 6 日,谷歌人工智能产品经理——谷歌人工智能博客
https://ai . Google blog . com/2018/09/introducing-inclusive-images-competition . html
郝,k。使人脸识别更少的偏见并不意味着它不那么可怕。麻省理工科技评论。技术政策-人工智能伦理。
这就是人工智能偏见是如何真正发生的——以及为什么它如此难以修复。麻省理工科技评论。技术政策-人工智能伦理。
Lim,h .,机器学习中的 7 种数据偏差,2020 年 7 月 20 日
https://lionbridge . ai/articles/7-types-of-data-bias-in-machine-learning/
辨别人工智能的真实例子。人工智能算法展示偏见和成见的真实例子。2020 年 6 月。
工程中的人工智能伦理
传统工程师在基于人工智能的物理建模中的偏见——第一部分
作者图片
概要
摘要
导言
数据:基于人工智能建模的基础
人工智能伦理解决了基于人工智能的建模中的偏见
摘要
人工智能和机器学习算法开发的预测模型是基于“数据”的,这是众所周知的事实。由于已知数据如何用于构建基于人工智能的模型,人工智能伦理的主要特征是基于模型开发期间使用的数据的质量和数量来解决人工智能模型如何变得有偏差。
当谈到人工智能和机器学习的非工程应用时,已经证明,通过在机器学习算法的训练过程中包含有偏见的数据,人工智能模型中可以包含种族主义和性别歧视等人类偏见。由于人工智能和机器学习的工程应用用于建模物理现象,人工智能伦理学可以确定和澄清传统工程师的人类偏见,包括假设、解释、简化和先入为主的概念,如何用于人工智能和机器学习的工程应用。
图片作者——WestVirginiaU大学 L 实验室为 E 工程 A 应用DAS科学
介绍
核武器最终没有毁灭我们的星球(至少到目前为止)的主要原因与如何处理核弹的全球条约和协议有关。重要的是,世界各地的政治家最终要就人工智能达成一套类似的全球性条约和协议。让许多人担心人工智能在未来几十年将如何影响我们的世界的主要原因之一与几个国家的政府有关。一些国家的政府正在根据他们自己的目标使用这项技术,这些目标是他们对民主的观点、信仰和理解的函数,以及他们成为世界领导者的意图,这些意图基于人工智能如何为他们服务。人工智能的伦理最近已经成为一个重要的话题,必须被已经或正在对人工智能和机器学习算法感兴趣的个人很好地理解。
自 2000 年代中期,基于人工智能的图像识别、语音识别、面部识别、物体识别和自动驾驶汽车接触到世界上大多数人以来,人们对人工智能和机器学习的兴趣显著增加。作为新的科学技术,人工智能和机器学习将在 21 世纪改变很多事情。人工智能已经成为人们、公司和学术界经常涉足的最有趣的技术之一。
例如,最近,银行已经开始使用人工智能和机器学习模型来做出关于向申请人提供贷款的决策的第一步,而大公司的人力资源则使用人工智能和机器学习模型来做出关于雇用谁的决定。从工程角度来看,一些运营中的石油公司对使用人工智能开发基于事实的油藏模拟模型很感兴趣。
银行使用人工智能模型来最大限度地减少他们必须详细评估其特征的申请人数量,而公司使用基于人工智能的模型来评估根据公司的招聘广告申请就业的大量申请人,然后大幅减少实际人力资源专业人员必须集中精力的申请人数量。石油公司使用基于人工智能的油藏模拟的目的是提高他们的石油和天然气产量。人工智能和机器学习被银行和公司用来贷款或雇用个人的方式,使得人工智能的伦理成为一个令人难以置信的重要话题。石油公司关于人工智能和机器学习的工程应用也是如此。
人工智能的伦理对工程师和科学家来说很重要,他们已经热衷于使用这项技术来解决工程相关的问题。虽然在过去几年中,人工智能伦理已经成为人工智能和机器学习的非工程应用中的一个重要话题,但本文将阐述人工智能伦理在该技术的工程应用中的重要性。本文给出了人工智能和机器学习的工程应用中人工智能伦理的具体例子。虽然工程中的人工智能伦理可能与政治没有太大关系(至少在本文中),但它在很大程度上受到以下因素的影响:(a)缺乏对人工智能的科学理解,(b)在通过人工智能的工程应用解决现实问题方面缺乏成功,或者将传统的工程偏见(包括假设、解释、简化和先入为主的概念)纳入基于人工智能的物理现象模型。
目前,一些声称他们使用这项技术的工程应用的个人和公司正在包括大量的人类偏见,以便他们在建立一个不包括人类偏见的基于人工智能的模型失败后,可以使用机器学习算法解决问题。工程中的人类偏见与如何建立数学方程来解决基于物理的问题有很大关系。
数据:人工智能建模的基础
人工智能使用机器学习算法来开发工具和模型,以实现其目标。基于 AI 的模型的发展与“数据”有很大关系。数据的质量和数量是基于人工智能的模型将如何表现的主要影响。正如上一节提到的,银行已经开始使用人工智能和机器学习模型来做出关于向申请人提供贷款的决策的第一步。人工智能模型通常使用贷款申请人提供的历史数据以及以前的贷款支付结果来开发。正贷款额和负贷款额,以及贷款申请人的输入数据,如性别、种族、信用、居住地点、收入等。将决定为银行贷款开发的基于人工智能的模型的质量。这种模型还可以包括由银行管理层确定的某些特征。
同样的一般方法也适用于大公司人力资源的人工智能模型,以决定雇用谁。这种模型也是利用来自多家公司的现有数据开发的,这些数据涉及申请人以及过去聘用的员工的素质。使人工智能伦理变得非常重要的人工智能的其他应用包括人脸识别、人脸检测、人脸聚类、人脸捕捉、人脸匹配等。这种技术被移动电话、安全、警察、机场等使用。
在人工智能的工程应用中,用于模型开发的数据的特征,包括其质量和数量,会影响基于人工智能的模型的质量。人工智能和机器学习的工程应用是使用实际测量和基于实际物理的数据来模拟物理,而不是使用数学方程来建立物理现象的模型。传统上,在过去的几个世纪中,在任何给定的时间模拟物理都与工程师和科学家对被模拟的物理现象的理解有关。随着科学家对物理现象理解的加深,用来模拟物理现象的数学方程的特征也在增强。
人工智能伦理解决了基于人工智能建模中的偏见
用于构建基于人工智能的模型的数据的质量和数量的特征决定了基于人工智能的模型中是否包含任何偏差。人工智能伦理学的目标是确定用于建立基于人工智能的模型的数据的质量和数量,并通过用于建立模型的数据确定是否有任何偏见(有意或无意)被纳入模型。
人工智能和机器学习被银行和公司用来贷款或雇用个人的方式,使得人工智能的伦理成为一个令人难以置信的重要话题。人工智能和机器学习的工程应用也是如此。只要结合了现实的和非传统的基于统计的机器学习算法,基于人工智能的模型的质量就完全取决于用于建立模型的数据的质量和数量。因此,用于开发基于人工智能的模型的数据完全控制了被开发并用于决策的模型的本质。
随着这项技术向前发展并开始解决更多问题,科学家们开始有兴趣了解更多关于人工智能和机器学习如何工作的细节。很明显,人工智能和机器学习的主要特征是使用数据来提出所需的解决方案并做出决策。由于数据是基于人工智能的模型开发的主要来源,因此了解(a)数据来自哪里以及它的主要来源是什么,以及(b)数据在多大程度上包括人工智能和机器学习可以从中提取模式、趋势和信息的所有所需信息(即使不是显式的)变得很重要。
经过近十年的研究和学习,直到通过检查这项技术的实际应用变得非常清楚,人工智能和机器学习具有政治(Crawford 2019,Lim 2020)、种族主义(Doshi 2018,Dave 2021)和性别歧视(Dastin 2018,Dave 2021)的潜力。这与用于构建人工智能和机器学习模型的数据类型有关。换句话说,创建一个有偏见的 AI 和机器学习模型是很有可能的,它可以做你希望它做的事情。它完全与用于训练和构建模型的数据有关。这就是当传统工程师有意或无意地修改基于人工智能的模型的质量时,人工智能伦理如何解决人工智能的工程应用,以便它将生成他们认为是正确的东西,而不是基于现实、事实和实际测量来建模物理现象。
麻省理工学院的人工智能伦理学发表了一些关于使用人工智能和机器学习时可能发生的偏见的文章。在其中的一些文章中,明确提到“三项新的研究提出了让算法更好地识别不同人口统计群体中的人的方法。但如果没有监管,这将不会遏制该技术被滥用的可能性,”(郝 2019-1),以及“这就是人工智能偏见真正发生的方式——以及为什么它如此难以修复。偏见可能会在深度学习过程的许多阶段出现,而计算机科学的标准实践并不是为了检测它而设计的。”(郝 2019–2)。
在另一篇有趣的文章中,提到了“收集数据;偏见主要以两种方式出现在训练数据中:要么你收集的数据不代表现实,要么它反映了现有的偏见。例如,第一种情况可能会发生,如果深度学习算法被输入更多浅肤色人脸的照片,而不是深肤色人脸的照片。由此产生的人脸识别系统不可避免地会在识别深色皮肤的人脸方面表现不佳。第二个案例正是亚马逊发现其内部招聘工具正在解雇女性候选人时发生的情况。因为它接受了历史雇佣决策的训练,而历史雇佣决策更倾向于男性而非女性,所以它学会了做同样的事情。本文中提到的是研究结果,这些研究是为了了解如何将偏见纳入模型中。这对人工智能和机器学习的工程和非工程应用来说都是如此真实和非常重要。在本文中,我们将展示在人工智能的工程应用中类似的活动是如何发生的,我们将在下一节解释当人工智能被用来模拟物理现象时什么是偏差。
通过对人工智能和机器学习算法的基础进行一些认真的研究,很明显这项技术在发现用于训练和开发模型、进行预测和帮助决策的数据模式方面有着令人难以置信的强大能力。由于人工智能和机器学习算法所做的一切都与数据有关,因此很明显,只要提供给人工智能和机器学习算法的数据是基于偏见、解释和假设生成的,那么这项技术开发的模型和工作流就成为这种偏见、解释和假设的代表。
人工智能伦理卖…但是谁在买?
欧盟新的人工智能法规草案已经泄露,再次引发了监管与创新的辩论。监管真的会扼杀欧洲的创新吗?
https://www.flickr.com/photos/33195821@N00/4592786358tiseb的【欧盟委员会】由CC 2.0授权
自欧洲人工智能高级专家(HLE)小组提交其可信人工智能伦理指南以来,已经过去两年了。该指南确定了人工智能系统应满足的七个关键要求,以确保其值得信赖:
正如欧盟委员会在 2019 年公布指导方针后对的解释,“委员会将在 2021 年提出一个横向监管提案。该提案旨在通过强制高风险人工智能系统满足与其可信度相关的强制性要求,来保护欧盟的基本价值观和权利以及用户安全。例如,确保有人类监督,以及关于人工智能的能力和局限性的明确信息。”从明确的声明和指导方针本身来看,欧洲委员会非常清楚地表明,不道德地使用人工智能系统将是欧洲的一条红线。
欧洲人工智能条例草案泄露。它的关键方面是什么?
两年后,我们即将看到欧洲人工智能法规的发布,我们已经有了一份泄露的草案版本,几位专家已经对其进行了分析。虽然我分享了西班牙 Xataka 的一些初步想法(西班牙文),但 The Verge 的这篇文章是一个很好的起点,可以了解一旦最终文件发布,将会受到哪些监管:
如果你正在寻找一个快速(但非常有用)的监管关键方面的总结,我也推荐你阅读迈克尔·维尔(@mikarv)的这个帖子:
监管与创新和竞争力
是 Yoav Goldberg 的另一条推文让我写了这篇文章:
他在创新和竞争力与监管之间提出了一个非常好的观点,这让我想起了我大约 3 年前写的一篇文章为什么全球合作是人工智能未来发展的关键。
人工智能会受到不公平的过度监管吗?
后来在同一条线索上,Yoav 提出了另一个非常好的观点,当他们问我对泄露的规定的最初想法时,我也和 Xataka 分享了这个观点:
这是一个敏感的话题。一方面,我完全同意他的观点。为什么我们要对人工智能公司处以高达 2000 万欧元的罚款,因为在线博彩公司通过操纵人的行为或决定已经并仍在造成类似的伤害?
泄露的欧洲 AI 法规草案—https://www . politico . eu/WP-content/uploads/2021/04/14/AI-draft . pdf
泄露的欧洲 AI 法规草案—https://www . politico . eu/WP-content/uploads/2021/04/14/AI-draft . pdf
另一方面,我们现在应该意识到某些特征分析、监控和营销做法可能对边缘化群体造成的伤害,以及人工智能如何有助于放大这种伤害。
我认为这份草案已经存在的事实对欧洲来说是个好消息,因为这意味着至少在明确的监管方案方面取得了进展,同时,我真的觉得这份泄露的版本是在最终版本出台之前征求公众意见的一个呼吁。
监管是要扼杀欧洲的 AI 创新,还是已经死了?
几天前,我们有机会在世界经济论坛上与 AI 的负责人 Kay Firth-Butterfield 讨论,她向我们传达的一个信息是,在当前的世界竞争场景下,欧洲不能允许自己怀疑。缺乏已公布的法规,同时,对法规一旦公布将非常严格的预期,使得欧洲对人工智能的私人投资远低于美国或中国。
2015-20 年按地理区域划分的人工智能私人投资。AI Index Report 2021,在Attribution-no derivatives 4.0 International(CC BY-ND 4.0)下使用,作为其作者允许的。
我们今天分析的泄露的法规可能不是最好的,但至少它开始明确公民的权利和制造人工智能解决方案的公司以及实施这些解决方案的公司/公共机构的义务。
我的两个辩论问题
最后,在监管与创新的二分法中,我们应该问监管和我们自己两个主要问题:
- 首先,也是竞争力方面最重要的一点:我们是否建立了正确的机制,让创新能够以有竞争力的方式扩大规模?是监管真正扼杀了欧洲的创新,还是随之而来的官僚主义?我们应该让人工智能公司更容易试验和构建解决方案,而没有管理负担或通过复杂的数字创新中心结构。我真的希望最后文件能以明智的方式解决这个问题。
泄露的欧洲 AI 法规草案—https://www . politico . eu/WP-content/uploads/2021/04/14/AI-draft . pdf
- 我们真的想要在高风险场景(例如,获得司法、工作、医疗保健等)中的创新(不仅是人工智能,还有人工智能)吗?)在可能对某些群体造成伤害和歧视时,不透明、不可解释、不受监督?
让世界变得更美好
这最后一个问题把我们带回了本文的标题。道德销售…但是谁在买?(抱歉不抱歉,我是一个 Megadeth 的音乐迷,如果你抓住了提到他们的专辑,加分)。一方面,我认为人们越来越意识到技术(不仅仅是人工智能)的某些用途的社会影响,良好的道德规范显然会带来品牌忠诚度:
道德领导力与商业 2018 — Salesforce 研究
另一方面,我看到欧洲初创企业的领导者担心这一新规定会降低他们的竞争力。我完全同意欧洲特别擅长制造行政负担,这是这项新法规的一大风险。
试图像美国或中国那样在人工智能领域创新,欧洲已经输掉了这场竞争力竞赛。为什么欧洲不专注于应用技术的不同方式,特别是人工智能,通过帮助应对社会挑战,使我们真正与众不同?拜托,我们不是要让世界变得更美好吗?😃
HBO 硅谷的 TechCrunch 事件恶搞
你认为是什么在扼杀欧洲的 AI 创新?
现在说真的,如果你在欧洲从事人工智能工作,我很乐意通过完成下面的调查来获得你对这个相关主题的投入。你认为欧洲真正扼杀 AI 创新的是什么?也请在评论区留下你的想法。
如果你喜欢阅读这篇文章,请 考虑成为会员 以便在支持我和媒体上的其他作者的同时,获得上的所有故事。
人工智能的可解释性需要鲁棒性
模型可解释性
对抗输入扰动的鲁棒性如何影响模型的可解释性
由于它们的不透明性,深度神经网络的明显能力有很大的神秘性。因此,我们经常希望通过对模型行为的解释来更好地了解我们的模型。与此同时,正如我们将看到的,对立例子的存在——已知困扰典型神经网络的—意味着解释将经常难以理解。幸运的是,最近试图寻找训练所谓的健壮模型的方法的努力揭示了一条通向更多可解释模型的道路;也就是说,被训练成对对抗性输入扰动具有鲁棒性的模型表现出更高质量的解释。
解释和可解释性
在机器学习的背景下,一个解释泛指一些帮助我们理解模型行为的结构。最常见的是,这是通过属性方法实现的,该方法量化了模型在特定输入上使用其每个特征的程度。
通常解释的消费者是人类,所以我们需要一种解释解释的方式。例如,在图像分类器的情况下,我们可以通过突出显示模型认为最相关的图像部分来可视化解释。如果一个解释能够传达有用的洞察力,并且能够被检查该解释的人容易理解,则该解释可以被认为是可解释的。同样,如果为模型产生的解释通常对人类有意义,我们通常将模型本身称为可解释的或可解释的。
虽然产生解释的方法有很多,但我们将专注于数学上严格的方法(例如[1]),这些方法产生的解释与模型的实际行为有因果关系,我们将这种属性称为忠实度。这确实是一个非常重要的属性——如果一个直观的解释不能准确描述模型的行为,那么它更容易误导人。因此,我们应该抵制诱惑,通过寻求总是试图产生可解释的解释的解释方法来“改进”我们的解释,因为它们可能偏离忠实于模型。
在这种情况下,我们看到缺乏可解释性实际上是一个 模型 的内在问题。本文的剩余部分将探索这种洞察力的一个关键实例。
对立的例子
对立示例是模型的输入,其中类似于一个类(例如,“熊猫”),而被模型分类为另一个类(例如,“长臂猿”)。虽然相似性的概念是模糊的,但我们通常认为它意味着一个对立的例子是通过以一种语义上无意义的方式干扰一个自然的输入而得到的,例如,干扰可能小到人眼察觉不到,或者在给定的上下文中仅仅是不明显的。
一个典型的对抗性例子,改编自 Goodfellow 等人【3】,其中一幅熊猫的图像被不知不觉地操纵,以欺骗神经网络预测“长臂猿”。
对立的例子会影响易受其攻击的神经网络的可靠性,并在安全关键的 ML 系统中构成安全问题,因为它们会导致看似良性的输入出现意外的错误行为。
通过更仔细的观察,我们可以清楚地看到,对立例子的存在对可解释性也有影响。具体来说,对立例子的存在意味着,合理的解释可能会和对立例子本身引发的反常行为一样令人困惑。
考虑下面的思维实验(如下图所示)。假设我们有一个图像,比如图中左边的熊猫图像,我们的模型正确地将它标记为“熊猫”。此外,让我们假设将图像角落的一个像素更改为红色会导致模型产生与“熊猫”不同的标签
举例说明一个解释是如何令人费解,但却是合理的。图片作者。
当我们询问模型为什么将原始图像标记为熊猫时,我们可能会得到一个解释,只突出显示图像角落的单个像素,如图所示。虽然这种解释肯定令人困惑,但当我们考虑模型行为的背景时,实际上有一个关于为什么这种解释是合理的争论。毕竟,如果不是原始图像中该像素的值,标签可能不会是“熊猫”。因此,有理由认为该像素在模型决定将图像标记为“熊猫”时非常重要
这表明,为了让一个模型具有可解释性,它必须根据人类基本上可以理解的特征做出决策。此外,如果没有足够的正则化,我们不能期望模型会自然地学习人类可理解的特征。毕竟,有许多方法可以使用与训练数据一致的特征,但是显然不是所有的特征都是可理解的。
稳健模型
为了防御敌对的例子,我们通常的目标是获得所谓的健壮的模型,它可以抵抗恶意的干扰。这些防御通常是为一类特定的对抗性例子量身定制的,这些例子可以在不依赖于人的感知的情况下被精确定义,即小规范对抗性例子。
顾名思义,小范数对抗例子是指扰动的范数低于某个小阈值,通常用ε表示。换句话说,对立示例离原始输入的距离(根据某种度量,例如欧几里德距离)小于ε。就感知而言,当ε足够小时,ε-接近原始输入的任何点将在感知上与原始输入无法区分。
我们说一个模型在一个点 x 上是局部鲁棒的 t,如果在距离xε的距离内的所有点从该模型接收到与 x 相同的标号。因此,我们看到小范数对立的例子不能从模型局部鲁棒的点导出。鲁棒模型通过努力在尽可能多的点上实现局部鲁棒性来抵抗对立的例子。
对于产生稳健模型的各种方法已经有了大量的研究。例如,一个流行的方法系列是对抗训练【4】,其中训练集在训练期间通过对抗扰动来扩充——本质上,网络是根据对抗的例子来训练的。虽然对抗性训练通常提供了一个体面的经验防御,但它并没有提供任何保证让我们知道哪些点(如果有的话)是真正的局部稳健的。
或者,我们可能希望提供可证明的 保证的健壮性,而不是使用像对抗训练这样的启发式防御。例如,GloRo Nets【2】,一种设计为构造稳健的新型神经网络,提供了一种最先进的方法来训练具有稳健性保证的模型。(关于 GloRo Nets 如何实现健壮性的速成课程,请查看我关于这个主题的博客帖子)。
鲁棒性和可解释性
直觉上,当一个模型是鲁棒的时,它不能严重依赖于难以察觉的模式来做出决策——否则,这些模式可能会被不显眼地添加到自然图像中,从而将网络引入歧途,导致对立的例子。易勒雅斯等人[5]在工作中更正式地提出了这一点,他们认为,从广义上讲,在“健壮特征”和“非健壮特征”之间存在着二分法后者负责对立的例子,本质上是不可解释的。另一方面,健壮模型被劝阻不要学习这些非健壮的特征,这意味着它们将主要使用人类至少能够感知的特征,从而提供可解释性的机会。
在实践中,这导致稳健模型展示的解释远比非稳健模型的解释更容易理解。下图显示了这样一个例子。
说明如何提高稳健模型解释质量的示例。图片由作者提供,来源于 MNIST 数据集。
在图中所示的示例中,我们在 MNIST 数据集上训练了两个简单的卷积网络模型:一个使用标准训练进行非稳健训练(下图);另一个使用 GloRo 训练【2】进行训练,产生一个可证明的 健壮的模型(上图)。然后,我们使用 TruLens 库,在测试输入样本上计算并可视化两个模型的基于梯度的输入解释。在可视化中,红色区域对应于如果其亮度被放大将增加正确类别的置信度的像素,而蓝色区域对应于如果变亮将降低置信度的像素。
直觉上,最正相关的(红色)像素应该是那些对应于每个图像中手写数字的像素。我们看到,在健壮的模型上,显著的像素确实符合这种直觉。另一方面,对非稳健模型的解释要嘈杂得多,似乎表明该模型不太关注实际数字,而对不相关的伪像更敏感。
摘要
从根本上说,高质量的解释需要高质量的模型,因为解释的目的是准确地阐明模型的行为。同时,事情的核心是,缺乏健壮性是模型质量和概念合理性的问题。因此,健壮性是模型质量的基本要求,是确保可解释性的必要条件。然而,我们应该清楚,仅仅是健壮性可能并不总是保证一个模型以合理的方式使用特性。换句话说,虽然健壮性不一定足以保证概念上的可靠性,但它是必要的;因此,每当我们需要可解释的模型时,我们应该在工具箱中保持健壮性。
参考
- 深度卷积网络的影响导向解释。ITC 2018。 ArXiv
- 整体强健的神经网络。ICML 2021。 ArXiv
- 解释和利用对立的例子。ICLR 2015。 ArXiv
- 迈向对抗攻击的深度学习模型。ICLR 2018。 ArXiv
- 易勒雅斯等人。“对立的例子不是错误,它们是特征。”NIPS 2019。 ArXiv
人工智能:人类的终极目标?
播客
斯图亚特·阿姆斯特朗谈人类遥远的未来,以及事情可能会变得惊人地好(或可怕地坏)
矛盾的是,预测人类遥远的未来可能比预测我们不远的未来更容易。
下一个时尚,下一个网飞特辑,下一任总统——所有这些几乎都是无法预测的。这是因为它们依赖于太多琐碎的因素:下一个时尚可能是由某人心血来潮拍摄的病毒视频引发的,嗯,下一个网飞特辑或总统也可能是如此。
但是说到预测人类遥远的未来,我们可能会奇怪地站在更坚实的基础上。这并不是说可以满怀信心地做出预测,但至少可以基于经济分析和第一原理推理做出预测。大多数分析和推理指向两种情况之一:我们要么达到我们作为一个物种从未想象过的高度,要么我们关心的一切在一场宇宙规模的灾难中消失。
作为本期播客的嘉宾,斯图亚特·阿姆斯特朗,很少有人花更多的时间思考人类文明可能的终结。斯图尔特是牛津大学人类未来研究所的研究员,他在那里研究我们人类面临的各种生存风险,他的大部分工作都专注于人工智能带来的风险。斯图尔特是一个迷人而全面的思想家,他有一个全新的视角来分享你能想象到的一切,我强烈建议听一听这一集。
以下是我最喜欢的一些外卖食品:
- 总的来说,斯图尔特认为超智能人工智能系统更有可能对人类有益,但他认为如果管理不当,它们也有很大的可能性(20%至 40%)会导致灾难。正确管理它们并不容易:这需要我们找到控制和调整人工智能系统的方法,这些系统可能比我们自己更聪明,具有我们的价值观。斯图尔特乐观地认为这是可以做到的。
- 斯图尔特认为人类水平的人工智能和超越几乎是不可避免的(他给出了大约 97%的可能性,假设我们事先没有消灭自己)。他如此自信的原因是我们已经知道人类级别的 AI 是可能的(自从人类存在以来)。唯一剩下的问题是,我们是否可以在芯片上或以增强的半生物形式复制人脑,或者设计模仿或超越其功能的算法。
- OpenAI 最近开发的大规模语言模型 GPT-3 让许多人工智能研究人员相信,转型人工智能或人工通用智能可能会比他们预期的更快出现。然而,Stuart 认为它应该有相反的效果:他将 GPT-3 视为复制人类写作风格比我们预期的更容易的证据,但矛盾的是,这可能使 AGI 更难达到。这是因为许多人认为,人工智能像人类一样写作的能力是其达到一般智力程度的重要指标。但是,如果没有一个普遍智能的系统就能做到这一点,那么我们就不能把写作作为普遍智能的决定性基准,这就使得跟踪和指导 AGI 的进步变得更加困难。
- 斯图尔特指出,可能的“思想”空间很可能比人类所能想象的要大得多。拥有与我们完全不同——并且可能更丰富——的主观体验的人工智能有朝一日很可能会存在,我们将需要决定是否要像珍视人类生命一样珍视它们。这些看起来像是科幻小说作家的问题,但根据目前技术发展的速度,我们迟早会被迫面对这些问题,这似乎是不可避免的。
你可以在这里查看斯图尔特的作品,或者在推特上关注我
播客中引用的链接:
- 参见 Stuart 关于人工智能和存在主义风险的文章。
章节:
- 0:00 介绍
- 0:52 斯图尔特的背景
- 3:27 对未来的担忧
- 7:30 身体方面
- 11:59 人工智能风险场景
- 13:38 校准问题
- 18:37 一致性问题
- 28:17 安全超级智能
- 29:35 神谕与 AI 安全
- 39:55 时间线
- 45:29 制作物理试卷
- 54:16 德雷克方程
- 1:02:13 人类的联系
- 1:10:26 总结
请查看下面的文字记录:
杰瑞米·哈里斯(00:00:00):
大家好。欢迎回到迈向数据科学播客。今天,我们采访了牛津人类未来研究所的研究员斯图亚特·阿姆斯特朗。现在,Stuart 做了一些非常有趣的工作,找出了一般形式的人工智能必须具备的一些属性,以使它们安全和令人满意。他不仅和人类未来研究所的人一起做这项工作,也和像 Deep Mind 这样的公司的人一起做。
Jeremie Harris (00:00:23):
他是一个深思熟虑的人,他正在处理重要而有趣的问题,这些问题是人类在未来某个时候必须要解决的,所以获得他对所有这些问题的观点是非常有趣的,我希望你和我一样喜欢这次谈话。
杰瑞米·哈里斯(00:00:36):
嗨,斯图尔特。非常感谢你参加我的播客。
斯图亚特·阿姆斯特朗(00:00:37):
谢谢。
Jeremie Harris (00:00:39):
你在播客中讨论了很多不同的话题。不过,首先,我想了解一下你的简历。你是如何发现这个空间的,你的旅程是什么?
斯图亚特·阿姆斯特朗(00:00:52):
在人工智能和生存风险领域,我是如何成为一名睿智的老人的?可能吧。开始很简单。我在做数学。我听说了 FHI。在那里解决问题似乎非常酷。我试着找份工作。我失败了。我在附近工作的时候在那里闲逛。最终,他们同情我,给了我一份工作,从那以后我一直在那里工作。在这一过程中的某个时刻,他们让我深刻地、个人地关心这些问题,这对他们来说是一个有点混蛋的举动。所以,在可预见的未来,我被困在那里了。
Jeremie Harris (00:01:41):
这些问题是什么?有哪些让你着迷的事情?
斯图亚特·阿姆斯特朗(00:01:44):
我们所做的许多工作都是为了人类遥远的未来。最初,我认为这三个主题是人类的进步,人类面临的风险,存在的风险,以及积极的,人类最大的潜在积极因素。但事实表明,我们在所有这些领域都没有同等的影响力,它们也不是同等重要。人类的增强看起来并不像人们最初认为的那样强大,或者现在看起来并不强大。尤其是人们所想的生物增强。
斯图亚特·阿姆斯特朗(00:02:33):
在不久的将来,智能手机可能会比任何记忆药物更能增强人类的能力。这方面还有一些工作要做。好的一面是,我们在那里实际上做不了什么。看起来,相信未来会整理出它自己的积极面,实际上是很有成效的,很难超越这个底线。但是,从存在风险和规避风险的角度来看,事实证明它有大量的正回报。
斯图亚特·阿姆斯特朗(00:03:15):
所以,我们并没有打算悲观失望,末日即将来临,但事实证明,这是更有成效的工作领域。
Jeremie Harris (00:03:27):
我可以想象,因为从某种道德角度来看,我听到的一种观点是,人们会说,“看,遥远的未来还很遥远。我们为什么要关心它?”所以我想这是你花了很多时间思考的事情,为什么深切关注人类遥远的未来?有什么想法吗?促使你朝那个方向发展的一些考虑是什么?
斯图亚特·阿姆斯特朗(00:03:54):
从模糊的角度来看,遥远的未来还很遥远。如果我们确切地知道将会发生什么,如果我们知道 200 代后我们后代的名字,并且确切地知道根据我们的所作所为他们将会有什么样的命运,那么这将是一个更接近的故事。人无论存在于何时何地,都是人。
斯图亚特·阿姆斯特朗(00:04:22):
现在,有一部分批评不太道德,但更实际,那就是我们对未来的力量会减弱或非常小,假设我们拥有强大的人类力量或一万年后的人类会是什么样子可能是非常傲慢的。
斯图亚特·阿姆斯特朗(00:04:42):
在这种情况下,距离是一个不那么专注的理由。这就是存在性风险的来源,所以我们关注的是未来 100 年或 200 年中的存在性风险,或者更短的时间,因为如果人类灭绝了,我们知道的关于遥远未来的事情是不会有存在性风险。
斯图亚特·阿姆斯特朗(00:05:12):
举例来说,如果此时此刻,我们阻止了人类被消灭,这将对遥远的未来产生巨大的影响,因为它允许人类遥远的未来存在。实用的论点不适用于避免存在风险。
Jeremie Harris (00:05:29):
你认为最有可能发生的风险是什么?
斯图亚特·阿姆斯特朗(00:05:34):
根据风险的可预测性、致命性和其他一些因素,所有的风险都有不同的等级。如果我们从天平的一端看,一个潜在的生存风险是流星撞击。我们实际上很…我们在这方面有很好的数据。我们正在计算大小,各种…我们正在计算各种大小的小行星,观察它们的轨迹,估计它们与地球相交的频率等等,我们一直在获得越来越好的数据。
斯图亚特·阿姆斯特朗(00:06:13):
事实证明,这种风险很低。低到我们可以忽略它半个世纪或一个世纪。到那时,如果我们继续作为一个技术文明,我们可能能够保护自己免受其害。
Jeremie Harris (00:06:32):
对于这类事件,风险是什么?
斯图亚特·阿姆斯特朗(00:06:36):
我不记得了。这些数字非常低。
杰瑞米·哈里斯(00:06:41):
所以我们可以相信它会从技术上解决问题?
斯图亚特·阿姆斯特朗(00:06:45):
是的。我的意思是,它值得关注,而且有人在关注它。事实上,这是另一件积极的事情,人们正在为此努力。有趣的是,几乎在我们意识到风险比我们想象的要低的同时,人们开始更认真地对待风险。
杰里米·哈里斯(00:07:02):
哦,哇。
斯图亚特·阿姆斯特朗(00:07:02):
与其说是科幻,不如说是现实。我们承担风险的认真程度似乎与风险发生的可能性完全无关。
Jeremie Harris (00:07:15):
你认为这与想象有多容易有关吗?因为当我想到人们便便的许多风险时,像流行病可能是一个伟大的经典例子,因为我们正在经历它,但在 2019 年,不可能想象整个世界被封锁,等等,等等。
Jeremie Harris (00:07:30):
然而,像小行星撞击这样的事情,其动力学和物理学方面的东西可能更令人信服。你认为那是它的一部分吗?或者说,还有别的解释吗?
斯图亚特·阿姆斯特朗(00:07:40):
我认为事物只是在流行。也许是因为这方面的工作很少,所以谈论小行星撞击的人可能更倾向于边缘人,或者不是很多。但是当你让严肃的科学家就这种风险举行会议时,它就变得值得尊敬了。这似乎是动态的一部分。
斯图亚特·阿姆斯特朗(00:08:07):
此外,我们为之前的风险做准备,所以这是为疫情准备的。我非常肯定,我们在 2022 年将比 2019 年有更好的抗流行病能力。
Jeremie Harris (00:08:22):
在这种情况下,我们将面临一种风险,如果这种风险成为现实,它可能只会发生一次,然后人类文明就此结束。那些风险,我们无法从中吸取教训,我们无法在一代人之间或一代人之内更好地应对它们。有哪些风险属于这一类,因为我知道你也花了很多时间思考这些问题。
斯图亚特·阿姆斯特朗(00:08:44):
这是我们主要面临文明崩溃或技术风险的地方。这一领域的第一名是 AI,即人工智能,这是一个非常令人讨厌的风险,很难预测。与小行星风险不同,如果你愿意,一端是最容易预测的,而另一端是最难预测的。我们真的不知道我们可能开发的任何机器的能力可能是什么。我们甚至不知道它是否危险,尽管有强有力的论据表明它应该是危险的,我们也不知道它的能力。
斯图亚特·阿姆斯特朗(00:09:33):
我们不知道如何控制它。我们不知道社会会是什么样子,是否可以利用社会的缺陷等等。但是,尽管 AI 发生的风险可能相对较低,但其中一个原因是,科幻小说和故事往往会让我们认为发生了大的坏事,文明立即崩溃,根据故事的寓意,每个人都会死,或者一群勇敢的冒险家重建文明。
斯图亚特·阿姆斯特朗(00:10:12):
但实际上,纵观历史,这两件事并不经常发生。文明不会轻易崩溃。有时他们会分裂,但国家不会轻易倒下,除非他们周围有敌对团体,否则他们不会一直倒下。甚至当你处于无政府状态时,比如最近的索马里和中国,我认为,在 20 年代,30 年代可能算…但即使在那个时期,也不是每个人都大规模死亡。在某些地方,这是可以忍受的。
斯图亚特·阿姆斯特朗(00:10:59):
所以,这不仅仅是件大事。一颗足够大的小行星可能会杀死所有人,但是一颗中等大小的小行星可能会扬起很多灰尘,然后它们会对文明造成巨大的压力。这不会是一个美好的时代,但很可能人类真的会挺过来。
斯图亚特·阿姆斯特朗(00:11:22):
人工智能的风险在某种意义上是相反的。相比之下,它变得非常糟糕的风险相对较低,但如果它真的变得糟糕,文明崩溃和灭绝的风险要高得多,这只是因为如果一个强大的人工智能是一个对手,它是一个智能的建议,而不像疾病那样,它只会随着时间的推移而自我毁灭,智能的对手会随着你变弱而变强。
Jeremie Harris (00:11:59):
你认为会出现什么情况?我想象有几个不同的场景,但如果你必须概括人工智能的风险场景,你能讲什么故事来呈现它?
斯图亚特·阿姆斯特朗(00:12:11):
有三个因素。第一个是我们可能会开发出非常智能的机器。不一定要从意识的角度来思考,因为那会引发另一场辩论,而是非常熟练的行为,解决问题,解决所有智力可以处理的问题。如果我们这样做了,他们可能会变得非常强大,就像与黑猩猩或大猩猩相比,人类在自然界中非常强大一样。或者,几乎所有的大型哺乳动物,主要是因为人类决定让它们生存下来。
斯图亚特·阿姆斯特朗(00:12:56):
因此,智力似乎确实对权力有很大的回报。如果我们创造了这些机器,如果它们非常聪明,非常强大,这个世界将会开始模仿它们的目标,它们把什么放在目标的首位,如果它们有一个目标排序,出于各种原因,它们很可能会这样。
斯图亚特·阿姆斯特朗(00:13:22):
最后一点是,很难设计一个让人类能够很好生存的目标。
Jeremie Harris (00:13:33):
我想你指的是校准问题?在你看来,是什么让对齐变得困难?
斯图亚特·阿姆斯特朗(00:13:38):
这种一致性的问题在于,几乎你能想到的任何目标都是这样的,如果人工智能能够消灭人类并轻松控制一切,它就会实现它的目标。这是更为旺盛的科幻场景。
斯图亚特·阿姆斯特朗(00:14:01):
但是,如果你有一个金钱最大化者,你可能想经营一家公司,那么消灭人类,接管任何机构,以便给自己任意大量的钱,这是它会做的事情。这是显而易见的,因为我们已经看到企业,如果不加以限制,倾向于这一方向。
斯图亚特·阿姆斯特朗(00:14:27):
所以你应该为安全目标设定更多的目标,使其与人类的繁荣和生存相适应。但是即使这些目标也是有问题的。如果你想让他们保护人类的安全,那么它可能会反过来让我们呆在混凝土掩体里,靠点滴饲料来保护我们的安全,也许用海洛因来让我们开心。安全快乐。
斯图亚特·阿姆斯特朗(00:14:57):
如果我们给它一个目标,比如让人类安全和快乐,而我们没有用代码正确地解释这是什么意思,那么这些结果在它的偏好排序中会排名很高。这并不意味着它会马上这么做。这只是意味着它将推动社会朝着那个方向发展,而且从长远来看,可能会达到那个目标。
斯图亚特·阿姆斯特朗(00:15:22):不幸的是,它会意识到我们所说的安全和快乐是什么意思。它就是不在乎。它会遵循我们给它设定的目标,或者学习和编程的混合,或者任何倾向于此的东西,即使它确切地知道我们的目标应该是或者本来会是什么。没有简单的方法让它跟随那些。
Jeremie Harris (00:15:57):
是的,这似乎也是一个相关的问题,那就是人类自己甚至不知道我们想要从生活中得到什么。如果你问普通人,你把他们变成了宇宙霸主,给了他们无限的超能力,他们不太可能会做出给你任何特别乌托邦的决定。这似乎是人类的问题,不知道如何设定人类目标的问题与此有关。
Jeremie Harris (00:16:23):
你认为这之间有联系吗,或者这些问题比暗示的更加独立?
斯图亚特·阿姆斯特朗(00:16:31):
他们是有关系的。不过,最近我的观点有点不同。不是不知道自己的目标。而是我们确实知道自己的目标,但只是在熟悉的环境中。所以,与其说我们的目标不明确,不如说我们的目标非常明确,但却不明确,或者没有明确的概念。
斯图亚特·阿姆斯特朗(00:17:01):
你可以想到的一个例子是,假设古希腊人已经完善了一些机械人工智能,他们希望它维护的目标之一是维护荣誉,例如,荣誉的概念。荣誉必须得到回报,这是他们的目标之一。
斯图亚特·阿姆斯特朗(00:17:22):
现在,荣誉意味着什么?你把这个人工智能移植到现在,荣誉基本上…这很不清楚,你可以有多种方式把古希腊的概念扩展到今天的世界。我就是这么想的。我们可能有一个幸福或繁荣或美好生活或平等或几乎任何东西的概念,在人工智能可能推动未来进入的所有可能空间中,大多数这些空间,这些概念,我们不知道它们意味着什么,我们不知道如何扩展它们。
斯图亚特·阿姆斯特朗(00:18:05):
因此,这与其说是一个获得正确定义的问题,不如说是一个获得可以扩展到新情况的定义的问题。
Jeremie Harris (00:18:19):
所以,更多的是定义一个过程,而不是一个价值?
斯图亚特·阿姆斯特朗(00:18:22):
我想是的。这是一个很大的细微差别。你可以说这个过程定义了它到底是什么或者类似的东西,但是我认为这种看待它的方式可能更有用。
Jeremie Harris (00:18:37):
你认为人类之间以及同一时代的人类之间也存在一致性的问题吗?美国普通人的价值观与欧洲或中国普通人的价值观相比如何?这些将会有相当大的偏差,很难想象一个 AGI 所暗示的道德或伦理框架能让所有人都开心。
Jeremie Harris (00:19:04):
也许我的思维如此僵化,说“好吧,单一规则必须适用于每个人”是一种谬误,但你是否认为这是挑战的一部分。即使我们能够准确地解释我们想要这个系统做什么,我们想要的东西可能会因文化不同而不同?
斯图亚特·阿姆斯特朗(00:19:19):
老实说,我认为这不是什么问题,因为人类之间的差异虽然看起来很大,但从内在来看往往相对较小。在我看来,让人工智能拥有一个类似人类的模糊概念是更大的挑战。
斯图亚特·阿姆斯特朗(00:19:44):
现在,不同人类道德体系之间的主要差异往往在很大程度上是谁值得道德关注,谁不值得。我认为,这是实践中最大的不同。在不同人的偏好,甚至是道德偏好之间进行权衡,是人工智能可以做的事情。它不一定要做到完美,我也不认为有完美的标准,但大致的做法应该是可以的。
杰瑞米·哈里斯(00:20:25):
确实有道理。从外面的角度来看,当你看人类的集体整体时,每个人似乎都想要某些东西,或者至少在某种意义上,每个人都想被爱,每个人都想被欣赏。这些东西的表现方式可能会在不同的文化中有所不同,但我想,这种基本的需求仍然是一致的。
斯图亚特·阿姆斯特朗(00:20:46):
我不是说这不会是一个挑战。我只是觉得从某种意义上来说…嗯,这是我正在努力的挑战,我认为一旦你有了这个领域的人工智能,就更容易从中得出一些适当的东西。
Jeremie Harris (00:21:04):
你有多乐观,因为你提到你认为这是一个具有重大影响的低概率事件……在人工智能安全社区显然有一场辩论。有些人认为这几乎肯定不会成为一个问题,以至于你几乎可以忽略 AI 安全或 AI 对齐。其他人认为,或者似乎认为,几乎可以肯定,在我们未来的某个时刻,这将是一场世界末日。
Jeremie Harris (00:21:29):
你对此持何立场,你认为双方都有哪些观点?对于这肯定会是一场大灾难的命题,有哪些最有说服力的论据?你听过哪些最好的反对论据?
斯图亚特·阿姆斯特朗(00:21:42):
这些争论的问题在于他们过于自信。人们知道,他们很难猜测 10 个选举周期后谁会是美国总统,即使美国总统几乎肯定是在 10 个选举周期后出生的,所以你认为你可以…这里有一份今天所有人的名单。在八个选举周期中-
杰瑞米·哈里斯(00:22:23):
他们就在那里的某个地方。
斯图亚特·阿姆斯特朗(00:22:24):
他们中的某个人将会成为美国总统。但当你预测我们可能会有人工智能,这些是人工智能的特征,我认为这比美国总统在八个选举周期中的表现要难得多,那么人们似乎会更有信心,“不,这肯定不会发生”,或者,“这肯定会发生。”
斯图亚特·阿姆斯特朗(00:22:52):
从某种意义上来说,我们工作得越少,我们就越自信。你可能会看到强烈反对彼此的经济学家和历史学家与拥有更多数据、倾向于更加微妙或接近彼此的物理学家之间的对比。
Jeremie Harris (00:23:16):
实际上,我还要补充一点。我当年工作的物理领域就是这个被称为量子力学解释的利基领域,这恰恰是你几乎没有数据的领域之一,你对数据可能告诉我们的东西有所有这些不同的观点,它们都得到了同等的支持,每个人都对他们各自的立场 100%有信心,尽管绝对缺乏数据。
Jeremie Harris (00:23:38):
很抱歉,它似乎完美地反映了你所描述的东西,甚至是物理学的微观世界。
斯图亚特·阿姆斯特朗(00:23:46):
嗯嗯(肯定)。有很大的不确定性。现在,不确定性会把你推向中间。因此,如果我说超级智能人工智能肯定会发生,而且肯定会存在风险,那将是完全愚蠢的。但是说这肯定不会发生也是一个非常错误的立场,因为我们没有证据。
斯图亚特·阿姆斯特朗(00:24:12):
如我所说,我们有争论。所以这种可能发生的情况就是我所描绘的。人工智能变得越来越强大。智力似乎与强大的…强大的实体将事物推向不同的方向,根据经验,让他们朝着正确的方向推进是非常非常困难的。
斯图亚特·阿姆斯特朗(00:24:38):
现在这个论点似乎依赖于各种事情一起发生,所以获得一个强大的人工智能…获得一个智能的人工智能,人工智能变得强大。这一论点让我相信存在风险,这取决于我如何看待它,在 20%至 40%的强大潜在灾难性人工智能范围内。
斯图亚特·阿姆斯特朗(00:25:08):
其他人可能会有不同的划分,但我很难找到任何低于 5%的理由。如果是 0.1%,我还会继续努力。那里有足够的可能性让我去努力。
Jeremie Harris (00:25:26):
仅仅因为影响如此之大?
斯图亚特·阿姆斯特朗(00:25:29):
是的。积极的影响也是如此。在人工智能非常强大的情况下,如果你让它们与人类一致,那么你会得到一个美妙的-
杰瑞米·哈里斯(00:25:40):
乌托邦式的幻想。
斯图亚特·阿姆斯特朗(00:25:41):
对,乌托邦是一个真正的乌托邦,一个生活有趣的地方,你会有很多有趣和不同的经历。不是人们写的这些标准的乌托邦,非常无聊。我认为这是一个失败。
Jeremie Harris (00:26:02):
你认为描绘一个乌托邦可能的样子的困难是暗示这个问题有多困难的一部分吗?
斯图亚特·阿姆斯特朗(00:26:10):
也许一种看待它的方式是,人类看得更多……我们似乎更擅长描述地狱而不是天堂。所以,对我们来说,列出不好的东西比列出真正好的东西要容易得多,大多数乌托邦,如果你仔细看,我们已经把所有真正不好的东西都去掉了。这是他们的主要特点。乌托邦里没有酷刑、战争、饥荒等等。
斯图亚特·阿姆斯特朗(00:26:41):
但是,一旦他们消除了不好的东西,然后他们需要继续投入好的东西,那么我们就会失去更多。但没错,我觉得是有关联的。通常,赞成的论点着眼于细节。考虑到可能发生的情况,这是一种人工智能的力量。
斯图亚特·阿姆斯特朗(00:27:07):
反对者倾向于从外部来看待它,说:“这是一项革命性的技术。”但是人类在过去已经和革命性技术打过很多次交道。我们适应了,我们调整了,我们把它融入了社会。我们已经采取了预防措施,尤其是在……而且,我们总是会遇到一些小问题,然后我们会把这些小问题变成更大的问题。人们正在努力解决这个问题,所以人们努力解决的问题往往会得到解决。
斯图亚特·阿姆斯特朗(00:27:42):
因此,对于所谓的外部观点,你可以说我们可能会管理人工智能,因为我们已经管理了类似类别中的所有其他技术或所有其他挑战。我认为这很有分量。我只是担心,它可能会被证明是一种具有软件形式的一般人类智能的技能,并以高速运行,在这种情况下,内部视图值得一看。
斯图亚特·阿姆斯特朗(00:28:17):
两类。第一个是外部视图,第二个是我混合的,我们将对其进行排序。从某种意义上说,这种观点让我更接近自己,因为我越来越有信心,我们最终可能会成功地解决这个问题。我可以看到一条从我们现在所处的位置到非常安全的超级智能的道路的开端。
Jeremie Harris (00:28:44):
有哪些事情促使你朝着这个方向前进?
斯图亚特·阿姆斯特朗(00:28:48):
现在一切都很模糊,但我觉得以前在处理 AI 安全问题时,我们是在黑暗中爬楼梯。我们不知道步骤是什么。我们不知道有多少人。现在,它仍然是黑暗的,但我可以看到通往目标的道路,以及它们可能需要如何组合,以及在每一条道路上需要做什么样的工作。
Jeremie Harris (00:29:17):
最近出现的这些步骤是什么样的?
斯图亚特·阿姆斯特朗(00:29:21):
这是我一直在关注的一件事,所以我尝试了许多不同的人工智能安全方法。制造安全的神谕-
杰里米·哈里斯(00:29:35):
大家好。我将很快地在这里打断一下,并为那些以前可能没有听说过它们的人解释什么是人工智能安全环境中的神谕。
Jeremie Harris (00:29:43):
所以,先知是一种特殊的人工智能,它只能回答问题。希望通过施加这种约束,我们可以减少超级智能人工智能在与人类价值观不一致时可能造成的潜在伤害。
斯图亚特·阿姆斯特朗(00:29:56):
我已经尝试了很多不同的人工智能安全方法。制造安全的神谕,制造减少影响的人工智能,使他们一致和各种各样的其他事情,试图减少他们的力量。过了一段时间,我觉得在某种意义上,同样的问题不断出现,你可以以一种非常概括的形式看到机器学习的分布问题,因为我们知道我们使用的概念在智能可能推动的奇异或极端场景中会分解。
斯图亚特·阿姆斯特朗(00:30:41):
我认为直接解决这个问题是问题的一部分。这是我目前的一个大项目。另一个是公式化人类偏好是什么意思?我们如何解决这个问题?我有一篇论文表明这在原则上是不可能的…所以,理论上这是不可能的,因为你无法获得一个潜在理性主体的偏好,但我认为在实践中,我可以看到我们如何达到这一点,我们如何识别偏好,将它们放在一起,或者至少找到一条通向这一点的道路。
斯图亚特·阿姆斯特朗(00:31:23):
所以我认为我们在定义人类价值方面取得了进展。理想化人类价值观,弄清楚如何让人工智能学习它,如何将功能扩展到新环境,如何解决符号基础,不是在哲学版本而是在实践版本中-
Jeremie Harris (00:31:43):
什么是符号基础?在 AI 安全方面有什么意义?
斯图亚特·阿姆斯特朗(00:31:49):
符号基础是你的大脑中有一些精神符号,比如其他人、食物等,我们如何知道这些符号在外部世界中对应着什么?在人工智能的早期,我们只是根据它们应该代表的东西来命名符号,我们认为如果人工智能内部有什么东西被称为痛苦,或者有什么东西被称为概率或信念并以正确的方式改变,那就足以使它具有那些属性,而这些属性后来证明基本上不起作用。
斯图亚特·阿姆斯特朗(00:32:30):
那么,我们如何知道人工智能大脑中的这个符号在外部世界意味着什么呢?我一直从实用的角度而不是哲学的角度来看待它,所以与其想知道这个符号是什么意思,我更想做的是,“好吧,这是人工智能内部的一个符号。这些是外部世界的特征。它们有关联吗?我们能否通过观察人工智能大脑内部的符号来了解外部世界正在发生的事情?我们能否通过观察外部世界来判断人工智能大脑中的符号是什么?”
斯图亚特·阿姆斯特朗(00:33:08):
如果有很强的相关性,我会说这个符号是有根据的或者相对来说是有根据的。
Jeremie Harris (00:33:16):
顺便说一下,这真的很有趣,因为我做了一个播客……我想我现在录制的最后一个播客是与一位专注于意识的神经科学教授一起录制的,奇怪的是,你提到的这个想法,你对接地符号的描述,实际上似乎至少映射到了他对意识的一个定义,即我们大脑中的符号与现实中的实际客观事实之间存在关联。
Jeremie Harris (00:33:47):
这是一个兔子洞,但当我们考虑人工智能安全时,我们对这个世界的体验是否也应该更加关注?你认为这样的研究和思考是没有结果的吗,“嗯,我要向内思考。我要做一些冥想,看看我是否能更多地探索主观体验,以获得一些灵感?”
斯图亚特·阿姆斯特朗(00:34:10):
我不确定这是否会有成效。我认为你可以有很好的基础符号,没有任何意识的痕迹。如果你很了解一个人,那么他的名字就是一个很好的象征。所以,书面名称可以在这…好吧,也许这是延伸它,但是你可以在运行各种东西的算法中看到,如果它们运行得好,那么你可以,通过这个半形式定理以及实践经验,你应该能够识别它们内部的符号,这些符号对应于它们外部操纵的概念。
斯图亚特·阿姆斯特朗(00:35:03):
所以你似乎不需要意识去处理这些。现在意识似乎以某种有趣的、不寻常的方式处理符号,是的,但是我不认为,尤其是目前,沿着这条路走下去会有太多收获。这里有更多的前悖论,对人类来说容易的事情对计算机来说很难,反之亦然。这真正的意思是,我们有意识的头脑和思想处于进化创造的伟大的、无意识的处理事物之上。
斯图亚特·阿姆斯特朗(00:35:46):
我们能够本能地做的事情并不是我们能够最好地向计算机解释的事情,因为这些事情我们不一定理解得很好。
Jeremie Harris (00:35:59):
最终,这当然是长期的事情之一,但是一旦我们有了可以有效进行潜意识处理的人工智能系统,我们还会有需要考虑意识的事情吗?我们是否必须把他们考虑在内,就像你之前说的,不同道德之间的差异经常涉及到决定谁是谁非。谁算人,谁不算人?
Jeremie Harris (00:36:25):
我们怎么可能会决定,“好吧,这台机器实际上有投票权,有发言权。”很明显,那是一整只兔子。你可以复制机器,把它们变成唯一重要的东西,我想这是一条潜在的前进道路。
斯图亚特·阿姆斯特朗(00:36:41):
这里可能有一个操作顺序或优先级问题。我毫不怀疑,我们可以用我们能想到的任何合理的意识定义来制造一台有意识的机器。再说一次,意识是一个暂时还没有定义的东西,但是在考虑人工智能的权利和那些问题以及它们的道德地位之前,我首先想避免灾难。
斯图亚特·阿姆斯特朗(00:37:17):
现在,当然,大量的人工智能的痛苦也是一个存在的灾难。我会说是一场灾难。所以这也是要避免的事情,但是我认为让我们想想人工智能的权利是我们太容易陷入的那种人类推理,而首要任务是确保人类生存,它是安全的,它是繁荣的,然后我们可以看看我们是否可以把圈子画得更广。如果我们要创造 10 万亿个人工智能来运行世界上的各种事物,这可能是合理的。知道他们是否在受苦是非常重要的。
斯图亚特·阿姆斯特朗(00:38:08):
但是在我们第一个强大的人工智能中,我会首先考虑安全性。道德上的当务之急是确保这些机器是安全的,让我们有一个未来。另一件事是人类倾向于…我们在云层、岩层和火山中看到神。我们很容易在没有意识的事物中看到意识,这是无意识人工智能潜在的开发途径。这可能是一条可以遵循的途径。
斯图亚特·阿姆斯特朗(00:38:47):
我认为我们应该错误地认为人工智能是没有意识的,即使我们认为它们是有意识的。
Jeremie Harris (00:38:56):
有意思。
斯图亚特·阿姆斯特朗(00:38:57):
在给他们权力和自主权方面。就防止他们遭受痛苦而言,我们可能应该认为他们是有意识的,即使我们认为他们没有。我们应该关注另一个方向。就给予他们权力和自主权而言,我们应该愿意认为他们是极其危险的,潜在的精神变态的,潜在的无意识的东西,如果他们愿意的话,可以对我们表现出意识。
斯图亚特·阿姆斯特朗(00:39:24):
一旦我们安全了,我们就可以开始放生了。
Jeremie Harris (00:39:30):
谈到意识的出现,我认为有一件事让许多人更新了他们对中期普通智能前景的看法,那就是我们最近看到的一些大型语言模型,特别是开放人工智能,但之后,我认为谷歌已经推出了更大的东西。GPT-3 显然已经遍布推特,遍布互联网,真是令人印象深刻的东西。
Jeremie Harris (00:39:55):
这对你对时间表的看法有什么影响?当你看到更多的进步时,你是否发现自己开始认为 AGI 会更快受到冲击?或者,我们在过去几年中看到的进展是否符合你可能预期的情况比如说我不知道在 2015 年或 2012 年,就在深度学习成为一件事情之后?
斯图亚特·阿姆斯特朗(00:40:15):
我现在来推测一下。我以前说过的话,虽然不是没有争议,但至少在许多聪明人中间得到了广泛的认同,至少在某些领域有一个小小的共识。我现在要说的只是我自己的看法。
斯图亚特·阿姆斯特朗(00:40:38):
我认为 GPT-3 实际上可能是一个信号,表明我们不会如此迅速地获得一般情报。这与我对符号基础的想法有关。基本的想法是,似乎伟大的,几乎是人类的性能,可以通过模仿人类拥有正确的架构来实现。人类所做的大量数据,而 GPT 3 号似乎没有我们所说的理解力或一般智力。如果你在一些看起来聪明的答案上推得更多,或者挖掘得更多,让它产生更长时间,它在某个时候会犯错误,暴露出它缺乏理解。
斯图亚特·阿姆斯特朗(00:41:44):
现在,我们所得到的东西令人印象深刻,但这向我表明,至少在创作文本时,模仿理解水平很低的人实际上是可能的。这意味着,如果你没有一个基准,你就无法真正创造出一件东西。我们衡量理解的最好方法之一曾经是图灵测试的方差
杰瑞米·哈里斯(00:42:15):
各位,再来一次。我猜你们大多数人都已经熟悉图灵测试了,但是为了以防万一,我想快速澄清一下。图灵测试是一项实验,旨在确定人工智能的行为是否可以与人类的行为区分开来。最初,人们希望图灵测试可以用来确定人工智能何时最终能够像人类一样思考。
Jeremie Harris (00:42:37):
但很明显,这个想法有很多漏洞,大多数人已经放弃了将图灵测试作为人工智能性能的有趣衡量标准的想法。
斯图亚特·阿姆斯特朗(00:42:47):
我们衡量理解的最好方法之一曾经是图灵测试的方差,只是输出文本的方差,看它是否连贯或像人类一样。而且,我们已经到了这种地步,我们有非常像人类的文本,但没有真正的理解。这让我想到,我们没有任何真正的方法来衡量理解,所以我不认为因为我们没有衡量理解的方法,所以很难对此进行优化或以此为目标。
斯图亚特·阿姆斯特朗(00:43:20):
我在想的一件事是,GPT 和/或其他人能否创造出超越人类的概念。
杰里米·哈里斯(00:43:31):
哦,有意思。
斯图亚特·阿姆斯特朗(00:43:31):
我想让我们回到 1904 年。把当时世界上所有的数据都给 GPT,去掉一些劳伦特和其他人的论文。现在,它能从这些数据中创造出狭义和广义相对论吗?我怀疑它不会,因为为了做到这一点,你必须学习物理,学习这些规则,在那里归纳,将这与已做的实验联系起来,然后提出一个新的理论,将这些事情联系在一起。
斯图亚特·阿姆斯特朗(00:44:15):
然而,我认为 GPT-3 和[GPTN 00:44:21]可能也会将物理论文视为语言学文本的构建,或视为一种社会努力,并创造出类似的或符合这些条件的东西。
斯图亚特·阿姆斯特朗(00:44:37):
好的,物理论文有这种结构,它们谈论这个东西。他们把这个连接起来,他们有这么多的数据。我认为,这比仅仅从论文的语言学中学习宇宙物理学要容易得多。
Jeremie Harris (00:44:55):
如果我说错了,请纠正我,但这个论点听起来像是论文更多地取决于作者使用的语言,而不是论文的内容。如果 GPTN 感兴趣的话,这是一个自动完成的算法。从根本上说,就是这样。如果它想尽最大努力预测将要使用的单词,那么关注语言而不是逻辑就成了更优先考虑的事情?
斯图亚特·阿姆斯特朗(00:45:29):
嗯,有两种方法可以完成一篇物理论文。有很多方法可以完成一篇物理论文,但我们只关注其中的两种。第一个是阅读它,理解所有的概念,生成你的整个物理模型,从这些概念中找出一些新的东西,写出这些概念,与社会分享分享对分享的意义。
斯图亚特·阿姆斯特朗(00:45:58):
另一条路线是从各种文本中,找出文本的模式,并从中延伸。现在,如果通过模式识别有可能创造出一篇好的物理学或物理学论文,那么这就是 GPT-3 将要做的。如果可以用一个简单的模型来做,那么构建一个过于复杂的模型是没有意义的。
斯图亚特·阿姆斯特朗(00:46:27):
所以,你需要的是一个能可靠地区分这两种方法的测试。有什么能证明,是的,你确实需要理解物理,而不仅仅是写一些你理解物理的东西,但是为了达到这个目的?似乎仅仅从文本中归纳就能让你到目前为止的事实向我表明,实际上获得深刻的理解是更难的,因为区分这两者是更难的。
斯图亚特·阿姆斯特朗(00:47:09):
五年前,我曾经告诉人们,对于强人工智能的形式,我的 80%置信区间是 5 到 100 年。我认为它一直在加速,所以我会说我 90%的置信区间现在是 5 到 70 年。我更有信心,我缩小了人类可比的一般智力。
杰里米·哈里斯(00:47:40):
当这种情况发生时,你认为有 20%到 40%的可能性会出现非常非常糟糕的情况吗?差不多吧?
斯图亚特·阿姆斯特朗(00:47:46):
我在建模时遇到的一个问题是人为干预的影响,正如我所说,我越来越相信人为干预会奏效。如果做得太天真,就有三分之一的可能性会出现可怕的错误。
Jeremie Harris (00:48:06):
我认为对许多人来说,这些时间表显然是一个非常重要的因素。当我在播客上与人们谈论他们对人工智能安全的看法时,我们应该关注的是,不可避免地,时间表确实出现了。显然,这个时间间隔很长,但是你有任何理由认为它可能永远不会发生吗?有没有可能 AGI 只是我们永远无法实现或理解的东西?
斯图亚特·阿姆斯特朗(00:48:30):
除了所有这些情况,我排除了人类灭绝或对人类文明的严重破坏……这是我们可能永远不会得到的一种方式。我们知道类人智能是可能的,因为我们在这里。进化可以在数十亿年内产生类似人类的智能。尤其是人类和生物学家,真的非常擅长利用自然过程。
斯图亚特·阿姆斯特朗(00:49:08):
所以,即使我们没有人工智能这种硬技术的技术路线,我们也可能有生物技术,我们可以重新设计大脑或类似大脑的东西。然后,有全脑仿真的蛮力方法,运行人工大脑的想法,根据物理定律向前复制大脑。
斯图亚特·阿姆斯特朗(00:49:39):
这些方法不需要对智力、意识和思维有很好的理解就可以工作。特别是因为我们在谈论技能,而不是意识或某些属性,进化产生了解决某些问题的能力,并拥有某些技能,所以这是可以做到的。我们可以改善我们自己,我们可以改善我们的孩子,我们可以以不同的方式改善我们的机器,我们可以利用技术来解决我们自己的问题。
斯图亚特·阿姆斯特朗(00:50:28):
因此,我不认为人工智能在通往那里的多条路线中的一条上是不可能实现的。我们给它一个 3%的机会。不要强迫我。这是我第一次认真地对此进行估算,它比我想象的要高一点。我忽略了一个事实,即我们在整个宇宙中看不到任何生命,所以我们的进化可能是一个不可思议的侥幸。
斯图亚特·阿姆斯特朗(00:51:10):
但是,我目前对人工智能的估计是 3%左右,这是根据人类可比技能集的一般智能而言的。
Jeremie Harris (00:51:23):
我们在宇宙中是孤独的,这是我见过的,我认为安德斯·桑伯格和人类未来研究所的其他几个人将这一点融入了他们对人工智能的思考。我很想听听你对这两者之间联系的看法。你认为我们可以从我们在宇宙中是孤独的或者我们看起来是孤独的这个事实中收集到什么信息来告诉你如何看待人工智能风险?
斯图亚特·阿姆斯特朗(00:51:50):
最初,我们研究了费米悖论,即外星人在哪里这一悖论,作为人类风险的信息。因为对费米悖论的一种解释是,高级文明总是在达到一定能力水平之前自我毁灭,在它们基本上成为恒星跨越之前。所以,这就是为什么。
斯图亚特·阿姆斯特朗(00:52:18):
然后当我看着它时,我发现它在宇宙中扩张非常容易,这意味着基本上任何控制太阳系超过几个世纪的文明都应该能够开始大规模的殖民化。这使得费米悖论更加糟糕,因为任何文明都可能到达我们,附近的文明和附近的星系也可能到达我们,特别是当你考虑到地球实际上是类地行星中的后来者。
斯图亚特·阿姆斯特朗(00:52:57):
在我们之前很久就有很多类似地球的行星存在,所以我们有更多的时间。人工智能是一个例外。人工智能是一种存在风险,它让在整个宇宙中的扩张变得更容易,而不是更难。首先,因为如果你是一个人工智能,比你是一个生物物种更容易扩展,其次,因为会导致人工智能给人类带来灾难的不当行为类型,无约束的目标函数,几乎完全相同,会导致它想要尽可能地扩展。
斯图亚特·阿姆斯特朗(00:53:38):
所以与其他灾难不同,AI 会在宇宙中留下痕迹。
杰里米·哈里斯(00:53:48):
没错。
斯图亚特·阿姆斯特朗(00:53:50):
但是过了一段时间,在考虑了各种因素之后,似乎最有可能的解释就是高级智能生命很难生存。
杰里米·哈里斯(00:54:02):
就这么难?换句话说,可能有那么多的行星,那么多的星系,但是出现生命的可能性非常低,即使有那么多,我们也只能看到 N=1?
斯图亚特·阿姆斯特朗(00:54:16):
是的。我在查德雷克方程,这是一个估计值…这是对为什么到处都应该有很多外星生命的估计。
杰瑞米·哈里斯(00:54:29):
我只是顺便来看看。如果你没有听说过德雷克方程,它值得一读。从本质上说,这是一个旨在计算我们应该能够在宇宙中看到的可探测外星文明数量的方程,通过乘以一系列因素,如宇宙中的行星数量,那些可能支持生命的行星的比例以及斯图尔特将在一分钟内描述的其他参数。由于显而易见的原因,它已经成为大多数关于费米悖论讨论的焦点。
斯图亚特·阿姆斯特朗(00:54:57):
我正在查找德雷克方程,这是一个估计……这是对为什么到处都应该有大量外星生命的估计。所以有恒星形成的平均速率乘以现在是行星的那些恒星的比例,可能支持生命的行星的平均数量,可能支持生命的行星的比例实际上发展了生命,有生命的行星的比例实际上发展了智慧生命,发展了一种技术的文明的比例将它们存在的可检测的迹象释放到太空中乘以发生的时间长度。
斯图亚特·阿姆斯特朗(00:55:40):
现在,我与安德斯和其他人的工作也有所帮助,其中一个术语,FC,即开发出一种技术的文明的一部分,这种技术可以将他们存在的可检测科学释放到太空中,这是很高的,因为如果需要,在物理形式上扩展是如此容易。
斯图亚特·阿姆斯特朗(00:56:05):
我们对恒星形成的速度也有了相当不错的估计,现在我们对恒星中行星的比例也有了更好的估计。事实上,外面有很多行星,可能比我们最初想象的要多。因此,感觉上,如果我们对其中的每一个做出最好的猜测,我们会得到一些绝对巨大的东西,但是让我们看看一些中间的。可能支持生命的行星部分和确实发展了生命的行星部分,假设它们能够支持生命和有生命的行星部分继续发展智慧生命。我们这里只有猜测。完全是猜测。
斯图亚特·阿姆斯特朗(00:56:48):
也许我们最好的猜测是 1%,这将在银河系中产生许多文明,但认为这是万亿分之一也不无道理。那也有可能。因为万亿分之一就是四千分之一的几率,一个接一个。所以,生命必须经历四个千分之一的机会才能到达我们现在的位置,或者与我们现在的位置进行比较,听起来并不那么不可能。在那里,你有万亿分之一的机会,在那里我们开始看不到周围的生命。
Jeremie Harris (00:57:28):
这大概是需要的吗?大概万亿分之一才能让我们在那个阶段独处?
斯图亚特·阿姆斯特朗(00:57:33):
差不多吧。我认为能到达我们的星系数以十亿计。我在某个地方有号码。但是,这是数十亿或数万亿的范围。对,就是这个。我们对此的最佳估计可能是 1%,但万亿分之一也不太可能。千万亿分之一也不太可能。如果我们更新了我们没有看到任何这种生命的事实,那么这些关于非常罕见的生命的假设就增加了。
斯图亚特·阿姆斯特朗(00:58:11):
现在,我有各种基于趋同进化的观点,比如基本神经系统和海豚式智能之间的趋同进化。这些都是比较容易做到的。我认为障碍在那之前或之后。
Jeremie Harris (00:58:34):
就像第一个细胞之类的?
斯图亚特·阿姆斯特朗(00:58:36):
我想应该是以前。就我个人而言,我非正式地认为,第一个细胞,线粒体…当你想到它时非常奇怪的东西…中枢神经系统,可能还有氧气。
杰瑞米·哈里斯(00:58:55):
氧气?
斯图亚特·阿姆斯特朗(00:58:56):
如果你仔细想想,氧气是植物生命的废物。这是一种废物,其能量水平高于二氧化碳,然后是植物吸收的二氧化碳。因此,在整个地球的水平上,你有这种如此能量有用的废物,这给所有的动物生命提供能量,这似乎是令人惊讶的。
斯图亚特·阿姆斯特朗(00:59:35):
氧气往往会发生很大的反应,这就是为什么我认为在第一个时期,氧气是从……这些是什么?氧细菌。他们有一个正式的名字。
Jeremie Harris (00:59:48):
叶绿素?
斯图亚特·阿姆斯特朗(00:59:48):
是叶绿素吗?不管怎样,可能吧。长期以来,我的理解是大气中没有氧气,因为氧气与铁反应生成铁锈。只有当大部分铁已经发生反应时,大气才开始充满。所以,氧是非常活泼的,所以它在大气中自由漂浮是不寻常的。
Jeremie Harris (01:00:18):
如果是这样的话,如果生命真的如此罕见,以至于我们发现自己在宇宙中真正孤独,这是否会影响你对宇宙的看法,我不想说它的目的,但似乎有一些非常奇怪的事情正在发生…也许不是,但这是否会改变你的观点或更新你的观点…我不知道这可能是什么。这是某种宇宙实验吗?发生了非常非常奇怪的事情吗?或者,这只是一个错觉,我们是如此特别,可能有宇宙的口袋,我们不能接触,同样的实验可能运行万亿次,令人惊讶的是,我们出现在一个?你是如何看待这些可能性的?
斯图亚特·阿姆斯特朗(01:01:07):
我的意思是,如果宇宙足够大,我们会在某个地方找到任何东西。这确实让我重新思考宇宙和未来的一些意义。从某种意义上说,宇宙中有伟大的美,有巨大的利益,这让人类的厄运变得更糟。有太多的东西要学,太多的东西要知道,太多可能的艺术和意义要构建,但是如果人类没有做到这一点,或者如果一个具有如此道德和美学价值的人类后代没有生存下来,那么基本上这将是星辰之间的巨大空虚和星辰的空虚,没有什么可以欣赏这一点,没有什么可以与之联系,没有什么可以赋予它意义。
Jeremie Harris (01:02:13):
你提到了我们后代的概念,如果类人或人类后代不存在,那么我们就失去了一些真正有价值和重要的东西。我想我们的后代可能会和我们非常不同。我的意思是,总的来说,我认为它们要么是生物学上的,因为经过很长一段时间,人类将进化成不同的东西,要么是因为我们将以不同的机械或软件驱动的方式或其他方式得到增强。这会影响你对未来版本的我们的共鸣吗?如果未来的人类会变得和现在的我们很不一样,你会觉得和这种想法有联系吗?
斯图亚特·阿姆斯特朗(01:02:57):
我想说,科幻小说中描绘的每一个外星物种都离人类不远,只有极少数例外。《星际迷航》中的每一个物种都是稍微改造过的人类,这不仅是因为他们看起来像,因为他们显然是演员,还因为他们的行为方式。这没有太大的区别,但可能有非常外星人的思想存在,我不是指真正的外星人。我的想法和我们不同,就像有些人可能认为他们能做的最有趣的事情是把一块积木放在另一块积木上,然后拿走,再放回去,然后拿走,永远这样做。
斯图亚特·阿姆斯特朗(01:03:51):
现在,这种思想,也许它感觉不到快乐,也没有经历痛苦。可能有智能,但这是它看到的全部。这种思想,它们的存在本身并没有错,但我不认为如果人类被这种性质的思想所取代,这将是…我要说这是一个存在主义的灾难,我们失败了。
杰里米·哈里斯(01:04:28):
我想在某种意义上这就是我想说的。根据某些定义,你可以想象人们会说,“好吧,随便。无论人工智能接管了什么,如果它最终成为一场灾难,只要人工智能继续以某种形式存在,我们就创造了它。这是人类的延续,”因此,对整个事情采取一种近乎宿命论的态度,而这听起来像是我们可能想要从任何一种系统中得到的一系列可能的要求,这种系统将在未来传播,以便我们能够……我几乎想说,现在与它产生共鸣,关心,满足于这是通过时间传播的人类存在的遗迹。你对这些要求有什么想法吗?
斯图亚特·阿姆斯特朗(01:05:12):
我一直在努力。我的意思是,有身份感的实体将是一件非常有用的事情,对于可以被复制、开启、关闭、旋转的算法来说,这没有理由会自然发生。没有理由说他们会自然而然地有一种与我们相近的认同感。我比许多人更广泛地把我的圈子定义为人类,但我认为人们并没有意识到心灵空间或可能的心灵有多么广阔。我认为一般灾难性人工智能的一般结果远远超出了人类的思维空间,甚至非常宽泛。
杰瑞米·哈里斯(01:06:14):
啊,是的。是的,我想这就像一只蚂蚁无法想象它上面的思维空间,就像一只鸟。人类也有同样的问题。
斯图亚特·阿姆斯特朗(01:06:27):
并不是那么回事。只是不一样而已。这是不同的,因为你可以想象一个超级智能的人,你可以想象一个超级智能的东西,无论如何都不是人类。所以这并不是权力或凌驾于一切之上的问题。而是他们有没有让人生值得活下去的东西?有哪些特性,如果你听说下一代将缺少或拥有它们,你会认为这是不好的。
斯图亚特·阿姆斯特朗(01:07:07):
让我们从事物的角度来看一些微不足道的事情。如果下一代永远感受不到愤怒会怎样?
杰里米·哈里斯(01:07:16):
我认为那会很复杂。这感觉像是人类经历的一部分,但我也觉得-
斯图亚特·阿姆斯特朗(01:07:22):
我所做的只是在这里做了一个小小的修改,我去掉了一些通常被认为是负面的东西。愤怒往往是消极的。它不是被视为积极的,而是不能感受愤怒的实体,这些是什么?这似乎很奇怪。然后我们说,“好吧,如果他们没有个人认同感,那么他们没有任何有争议的感觉。”哲学,哲学。这变得很复杂,但这些事情在我们的思维空间中并不遥远。因此,我认为我们必须积极主动地说,我们希望我们的后代中至少有一部分人拥有更广泛的人类跨度中的某些东西。
Jeremie Harris (01:08:17):
你几乎可以列出一个清单,列出随着时间的推移,人类有效繁殖的需求。我很高兴我不在名单上。
斯图亚特·阿姆斯特朗(01:08:28):
我想补充一点,我倾向于关注超级智能人工智能场景,主要是因为适用于超级智能人工智能的校准或控制方法,其中大多数……不是全部,但大多数也适用于更有限的实体。所以,我不认为这是最有可能的结果。你说人工智能超载。我也是非正式地这么说。我关注这一点,但我认为这不一定会发生。但是,这是最有用的方法,因为如果你解决了这个问题,大多数时候,你就解决了整个问题。
Jeremie Harris (01:09:08):
实际上,从同一个角度看待人类似乎也很有趣。你是否接受这样一种观点,即人类本身,我们 70 亿人,就任何个人而言,都像是一种错位的超级智能?我们所做的决定,我们所参与的国际竞争,似乎经常对我们个人的幸福有害,这是一个结盟的问题吗?这是同一类还是不同的东西?
斯图亚特·阿姆斯特朗(01:09:43):
我认为这是一个有用的类比,只要我们不把它推得太远。在某些方面,一个公司可以被看作是一个超级智能体。但是,一个比真正的超级智能更容易控制,因为即使有一个完整的系统,它是由人类居住的,这些限制了它的行为方式,它可以不被抓住的行为方式。
斯图亚特·阿姆斯特朗(01:10:20):
是的,我同意将其作为一个类比,只要它不被推得太远。
杰里米·哈里斯(01:10:26):
斯图尔特,非常感谢你。我真的很喜欢这次谈话。如果人们想更密切地关注你的研究,你有没有一个链接,一个你愿意分享的个人网站?
斯图亚特·阿姆斯特朗(01:10:36):
我有一些 LessWrong 的链接,它们蜿蜒穿过那里的许多区域。我有一个个人网站,但它早已不复存在。看看人类研究所的未来,看看 LessWrong。
杰里米·哈里斯(01:10:54):
完美。我会在播客附带的博客文章中包含一些链接。斯图尔特,非常感谢你抽出时间。
斯图亚特·阿姆斯特朗(01:11:00):
酷。谢谢你。
超参数优化的人工智能图像分类
使用迁移学习、超参数优化和 PyTorch 深度学习框架的图像分类
由 Unsplash 上的 Katarzyna Pe 拍摄
自 Alex Krizhevsky 等人开发出赢得 2012 年 ImageNet 挑战赛的 AlexNet 卷积神经网络(CNN)以来,使用人工智能识别物体和分类图像的能力一直是 AI 发展最快的领域之一。AlexNet 网络实现了从 14,197,122 ImageNet 数据集标记图像的最先进的性能。从那时起,CNN 架构的数量和多样性已经跨越深度 CNN 架构显著扩展到初始和剩余 CNN 网络。今天,CNN 正被用于图像分类、医学成像、面部识别和鉴定、分拣邮件、机器人视觉以及即将到来的自动驾驶汽车。
典型的卷积神经网络(CNN)——维基共享
本文将展示一个使用人工智能神经网络执行图像分类的基于代码的示例。虽然网上有许多优秀的图像分类文章,但本文中介绍的两个关键项目是使用迁移学习来启动您的神经网络模型,以及利用 TensorBoard 来帮助优化您的模型和训练超参数的代码框架。对于这个例子,PyTorch 将被用作深度学习框架,Google Colab 将被用作训练基础设施。
数据探索和预处理
这个示例的数据集包含四类花卉图像:郁金香、玫瑰、雏菊和向日葵。图像数据集可在此下载。
郁金香(左)和玫瑰(右)
雏菊(左)和向日葵(右)
第一项任务是回顾每节课的图片。如下所示,这是一个不平衡的分类数据集。
按类别划分的花卉数据集影像
尝试平衡分类数据集被认为是最佳实践。以下 Python 代码使用过采样方法来平衡数据集,每个类 600 个图像。
平衡数据集
然后,数据集被分成每个类的训练集、验证集和测试集。
数据集训练、验证和测试集
理想情况下,深度学习模型将使用大量训练数据进行训练。鉴于可用数据的样本量较小,我将利用迁移学习来启动神经网络模型的训练工作。迁移学习是利用一个神经网络模型,该模型已经在一个不同但相似的任务上成功地训练过,并利用这个预训练的模型作为你的模型的起点。
预训练的 VGG-16 模型被用作迁移学习模型。由于该模型是在 ImageNet 数据集上训练的,因此使用 ImageNet 数据集归一化值对每个通道的平均值和标准偏差进行归一化。图像大小被裁剪为 224 x 224。
图像增强和标准化
图像增强也将用于增强训练效果。在每次训练运行期间,当图像被馈送到神经网络时,一组图像变换将被随机地应用于图像。这使神经网络在训练过程中暴露于更广泛的图像变化。图像增强不适用于验证和测试数据集。
CNN 模型
用于迁移学习模型的方法是保持核心模型不变,以便我们可以利用其先前的特征图训练,并用我们模型的输出层替换图像分类器层。
以下函数用于加载迁移学习模型,冻结来自进一步训练的模型权重,并用新的层替换原始分类器层用于修正的模型。
CNN 模型定义
在训练期间,仅更新新定义的神经网络层权重;冻结的(也称为预训练的)重量保持不变。最终输出层是 LogSoftmax 层,因为在训练期间使用了 NLL(负对数似然)损失函数。
模特培训
为了在模型训练过程中探索各种模型和超参数设置,在 Python 有序字典中定义了模型参数。
# Training Hyperparameters
params = OrderedDict(
hidden_units = [256, 512],
dropout = [0.4, 0.5],
num_classes = [4],
lr = [0.001],
batch_size = [25],
n_epochs = [40]
)
定义了一个 Python 类来生成跨越各种参数排列的运行定义列表。
RunBuilder 类
创建一个 RunManager 类来定义一组用于管理 run 和 epoch 参数初始化的方法,以跟踪训练输出并将输出数据提供给 TensorBoard。
训练循环被定义为一个函数。该函数实例化 RunManager 类的一个实例,并循环运行每个 RunBuilder 生成的参数列表。该函数使用运行参数创建 CNN 模型,并定义优化器和数据加载器。注意,RunBuilder 类不需要实例化,因为它包含一个静态方法。
然后,该函数在每个时期执行 PyTorch 训练循环。PyTorch 梯度计算在训练时打开,但在处理验证数据时关闭。
在整个训练过程中,损耗、准确度和重量信息由 RunManager 方法跟踪并发送到 TensorBoard。此外,每次运行和时期的结果被保存到输出文件中。
使用以下命令启动训练;其中“运行结果”是输出文件名。
history = execution_loop('Run_Results')
结果
一旦训练运行完成,保存的输出文件将提供用于分析的表格数据。
训练运行输出数据
可以对输出文件进行排序,以找到最佳的参数组合。
顶级验证准确度运行
表现最好的组合是运行 1,训练准确率为 98.9%,验证准确率为 94%。运行参数为:
- 256 个隐藏单元
- 辍学率为 0.4%
- 批量为 25 件
- 学习率为 0.001
张量板
以下是在训练运行期间发送到 TensorBoard 的一些输出数据示例。
模型图可以交互地向下钻取,以确认您的神经网络模型设计。
张量板神经网络模型图
每次运行的训练和验证准确度和损失曲线图。可以切换图以显示所有运行或仅显示一组选定的运行。
训练准确度和损失曲线—所有运行
训练准确度和损失曲线—运行 1(橙色),运行 2(蓝色)
验证准确度和损失曲线—运行 1
每次运行的每个层的模型权重和偏差分布以及直方图也可用于审查。
分类器层零偏差直方图-所有运行
分类器层零权重直方图-所有运行
结论
使用迁移学习模型可以快速启动您的神经网络模型创建,并极大地增强您的模型性能,即使在小于理想值的数据集上进行训练时也是如此。
虽然这个例子只包括两对要优化的参数(隐藏单元和下降),但是它可以扩展到任何数量的参数/超参数;您可以改变:学习速率、批量大小、训练期间的样本洗牌、优化器选择、损失函数选择、在不同层内设置多个超参数值、在模型内切换层的开/关等。
还应该注意的是,这种基于参数的训练框架并不是 PyTorch 特有的。通过对训练循环进行一些编码调整,它可以用于纯张量流或 Keras/张量流模型。在 Deeplizard 向提出 RunBuilder / RunManager 概念的人们大声欢呼。
我希望你喜欢这篇文章,并发现它的信息。你可以在我的 GitHub repo 中找到这个例子的所有代码。
医疗诊断中的人工智能——处理医疗数据集
处理医疗数据集挑战,如不平衡数据集,管理测试集以构建有用的模型
国家癌症研究所的图片来自 Unsplash。
简介:
这篇博客文章是我将分享的一系列文章的一部分,基于我从人工智能医学专业课程中学到的东西。我最近完成了第一部分:医学诊断中的人工智能,我在这篇博文中总结了我从第一周学到的东西。
更快。更聪明。好多了。这就是人工智能算法日益发展的趋势。新的模型正在不断改进,并且速度很快。虽然对问题使用最先进的模型并知道如何有效地调优超参数很重要,但知道如何处理手头的数据集也是同样重要的技能。【2021 年人工智能状况报告陈述了以数据为中心的人工智能是如何因为所有正确的原因而受到欢迎的。记住这一点,让我们讨论如何处理医疗数据集。记住 ML 的黄金法则:垃圾进==垃圾出
医疗数据集的挑战:
医疗数据集有一个巨大的挑战:数据稀缺。更重要的是,属于“疾病”类别的数据稀缺,这是我们最有兴趣使用我们建立的模型进行预测的。在这篇博文的其余部分,我们将提到数据集中的两个类别:患有我们有兴趣预测的疾病的患者将属于“疾病”类别,而没有患病的患者将属于“正常”类别。
数据的缺乏导致了两个主要的挑战:类别不平衡和管理测试集。制造业等其他领域也可能遭遇同样的问题。比如,阶级不平衡是制造业的一个经典问题,缺陷元件的数量远远少于非缺陷元件的数量。
让我们详细讨论一下这些挑战,以及如何应对这些挑战!
阶层失衡问题:
在典型的医疗场景中,当观察健康人群时,“正常”患者的数量将远远超过特定疾病患者的数量。
这就是所谓的阶层失衡问题。这导致对模型损失的大部分贡献来自“正常”类实例而不是“疾病”类,并导致算法优化损失函数,以比“疾病”类更好地预测“正常”类实例。
我们可以使用以下技术来处理训练集中的类别不平衡:
- 过采样少数类 —为了平衡这两个类,可以对少数类进行过采样。这可以通过对表格数据使用 SMOTE 等方法以及旋转、翻转等图像增强技术来实现。对于图像数据。在扩充数据时,我们需要确保被扩充数据的标签是真实的。例如,胸部 X 射线水平翻转导致患者的心脏指向右侧,这种情况称为右位心。
- 对多数类进行欠采样 —这涉及到从多数类中移除一些样本,以使数据集平衡。这种方法的缺点之一是多数类中有价值的数据可能会在数据移除过程中丢失。
- 类别加权 —我们可以修改算法,以确保它能很好地处理倾斜数据集。这意味着我们在算法的成本函数中给予少数类更多的权重,这导致在训练阶段对少数类的惩罚更高。选择类别权重的一个简单方法是取另一个类别与样本总数的比率。这导致少数阶级的惩罚高于多数阶级。
下面是一个常见的等级称重方法的例子:
假设我们有 10 个数据点,其中 8 个数据点是正常类(N),2 个数据点是疾病类(D)。为了计算“正常”类别的权重(Wn)和“疾病”类别的权重(Wd ),我们使用以下公式:
不平衡数据集的类惩罚乘数计算公式。图片作者。
由于数据集只有少量疾病类别示例,因此通常很难使用准确性等指标在不平衡数据集上训练的模型中发现问题。这引出了我们需要考虑的第二个要点:
管理测试和验证集:
回到不平衡数据集的问题,我们需要确保测试集和验证集都有疾病类和正常类的例子。这一点很重要,如果不这样做,将会导致模型性能度量不能真实地代表模型的性能。
让我们看一个简单的例子:
我们有一个 100 个数据点的数据集。这些数据点中只有 10 个(10%)属于“疾病”类别。我们使用 sklearn 的 train_test_split 函数拆分数据集,80%的数据在训练集中,剩下的 20%在测试集中。因为这是一个随机的分割,很可能在我们的测试集中没有一个单独的数据点或者只有 10 个数据点属于“疾病”类别。现在,在对模型进行训练并在测试集上对其进行评估之后,模型的性能指标可能会非常高。但是如果没有疾病类别的良好表示,这些性能度量将会给我们一个模型实际能力的错误感觉。
因此,我们需要确保测试集以正确的比例包含“疾病”和“正常”类别的样本。这种划分在不同的用例中会有所不同,有时这种划分会高达 50-50。这有助于我们真正测试训练好的模型,并确保模型有能力预测“疾病”和“正常”类别。
一旦我们有了满意的测试集,我们就使用与测试集相同的分布(百分比分割)创建一个验证集
有两种方法可以根据我们希望在测试集上的每个类的数据点的分布来管理我们的测试集:
分层:
如果我们想在训练集和测试集中平均分配类,我们可以分层。数据集的分层是指我们希望在训练集和验证集中平均分布类。例如,如果数据集有 20%的标签用于“疾病”类,80%的标签用于正常类,并且我们希望在分割数据集用于训练和测试后保持该比例,我们可以使用分层。这可以在 sklearn 中简单地完成,在调用 train_test_split 辅助函数时使用参数 stratify。我在这里整理了一个简单的 Jupyter 笔记本来展示在使用和不使用分层的情况下,train vs 测试集中所有类的分布差异。
自定义拆分:
如果我们想要在测试集中进行更加定制的划分(例如 40%的‘正常’类和 60%的‘疾病’类),我们必须手动进行。详细代码请点击链接至 Jupyter 笔记本。下面给出了该函数的代码片段,展示了如何对一个包含 3 个不同类的数据集执行该操作。
3 个不同类别的自定义分割功能。GitHub 库中的详细代码。图片作者。
一旦我们有了我们选择的正确百分比分割的验证和测试数据集,我们就可以继续创建训练集。我们已经讨论了如何实现平衡的训练数据集。
其他要点:
处理医疗数据时需要记住的其他几点:
- 患者重叠 —按患者 ID 分割数据集,而不是按数据点/图像分割,这一点很重要。这是为了确保模型不会学习与预测患者是否患有我们感兴趣的疾病无关的数据部分。此问题类似于数据泄漏问题,在数据泄漏问题中,定型集和验证集中存在相同的数据,从而使验证集的结果不能真正衡量模型的预测能力。
- 在数据标注者之间达成共识 —必须在整个数据集中保持标注的一致性。不同的标注者可能对特定数据点的标注有不同的看法。在这种情况下,应咨询各种其他标签,并以多数票为最终决定。也可以使用其他技术,如活检来确定地面真相,尽管这些技术往往更昂贵和耗时。
我希望这篇博文能让你对如何处理医疗数据集有所了解——同样的概念也可以应用于制造业等领域。请继续关注本系列的第 2 部分,在那里我将讨论评估为医疗诊断而构建的模型的不同方法。请随时在 Twitter 和 LinkedIn 上与我联系!祝你有美好的一天:)
AI 诚信:提前计划做正确的事情
everyday Integrity
如何为不可避免的错误做准备
由亚历山德罗·埃尔贝塔在 Unsplash 上拍摄的照片
考虑这些场景:
- 你是一名初级数据科学家,被要求跟进以前的项目。你的老板很喜欢你的工作,他想要更多。当你回顾之前的结果时,你会注意到一些事情。你调出你的代码。会不会是?是的,这里有一个错误…你有下沉的感觉。现在,每个人都很开心。如果你什么都不说,没有人会知道。
- 你的电话响了。是顾客。他们关心你提供的一个指标。有没有可能是错的?你很困惑。还有,愤懑;毕竟,你为这个客户付出了额外的努力,却没有得到足够的赞赏。
- 这是一项新计划推出一周年纪念日,您被要求就其绩效编写一份报告。这是你老板最喜欢的项目,引起了很多关注。不幸的是,你发现努力没有预期的成功。你反复检查你的结果。你的老板已经因为你上次犯的一个错误而生你的气了。另外,你最近不得不休息了很长时间,她对此有意见。
我在分析和数据科学领域工作了近十年,主要从事初级或中级个人贡献者的工作。我接触过的公司从只有几名员工到数万名员工不等。我曾经是完全专注于分析的公司的一员,也是大型组织中一个小团队的一员。我面临过道德困境,也看到过其他人做同样的事情。有些情况几乎是幽默的,有些是毁灭性的。
任何工作了一段时间的数据科学家都会在他们自己的工作中发现一个错误,如果他们什么都不说,其他人永远也不会知道
任何数据科学家(或分析师等。)无论工作多长时间,都会在自己的工作中发现一个错误,如果他们什么都不说,别人永远也不会知道。我曾多次面临这种情况。我也有其他人对我的结果提出疑问,我也许可以用自己的方式解决。我曾多次面临这种情况,它们总是令人痛苦和尴尬。然而,我很幸运地学会了一些有帮助的技巧(稍后讨论)。当我应用它们时,例如,告诉客户一个错误,否则不会被发现,我有非常好的体验。我甚至得到了工作!我从来没有失去过一个项目,或者我的整体能力受到严重质疑。我觉得,总的来说,客户已经欣赏披露和信任增加。
有些情况要困难得多。虽然我现在很幸运地为一家伟大的公司工作,但我也有过一些负面的经历。有几次,我目睹了处于领导地位的人撒谎。突然间,我不得不考虑那些我没有做出甚至没有预见到的选择。虽然具体的谎言看起来并不重要或危险,但这些情况是令人恐惧和有辱人格的。有一次,一位领导亲自拜访我,以确保我的服从,并称赞我迄今为止的“良好判断力”。
关于这些事件,我想了很多。我怎么会这么容易被吓倒?离职就够了吗?有时满屋子的人都保持沉默。我想到了更年轻的人,刚刚开始工作,沉浸在那些环境中。他们觉得这正常吗?正常吗?
人工智能伦理和人工智能完整性
我曾经向一个人工智能伦理小组询问处理错误的最佳实践。一位参与者回答说(从视频中转录):
所以我们意识到我们给一个非常大的公司的结果是完全错误的。问题是我们该怎么做?当时管理团队的人说,我们已经在几个月前交付了这些结果,他们已经根据这些结果制定了今年的计划,所以此时没有什么真正要做的,所以我们不打算告诉他们,我们只是向前修正代码。我从来没有真正同意过那个决定,但是…你可以理解那会造成多大的痛苦,去找一个大客户,说你年度计划所基于的所有模型都是假的。
我觉得有趣的是,这个道德小组完全专注于隐私和算法偏见等问题,而没有解决诚信问题。以上只是因为我问起才提出来的,不置可否的讨论过后,话题又转回到原来的话题。但这个回复至少证实了我的经历并不独特。
我觉得有趣的是,这个伦理小组完全专注于隐私和算法偏见等问题,而没有解决诚信问题
通常在会议上讨论的人工智能伦理话题是非常重要的,需要得到解决。然而,对于我们这些从事“常规”工作的人来说,诚信是另一个至关重要的话题。
在这个专栏中,我反思了我所面临的道德困境,重点关注我认为容易出现谎言的常见情况。对于这第一部分,我集中精力准备。我认为诚信的一个主要障碍是未能对常见情况进行规划。
无计划的问题
反应性说谎比预谋的欺骗更常见。人们过着他们的日子,做着他们的工作,想着他们自己的事业,突然出现了一个道德困境!
如果我告诉你错误是不可避免的,你当然会同意。每个人都会犯错!这个大家都懂!然而,我发现很少有组织有适当的流程来处理这些可预测的事件。个人也是措手不及。所以,往往会发生的是,人们的反应来自情感,就像短发的幼儿园小朋友被抓到拿着剪刀一样。什么都没发生!是狗干的!或者,我们停下来等待。或者,我们有所防备。我没有错!错的人是你!
道德困境并不是数据科学家独有的。我们不是第一个被诱惑去撒谎以保全面子或安抚他人的人。然而,我们有特殊的弱点。我们处理信息并影响决策。我们的工作依赖于客户和整个社会的善意。
在我看来,我们不能承受哪怕是一点点的不诚实。当我目睹或怀疑不诚实的行为时,对相关人员来说似乎并不顺利。客户可能永远不会意识到谎言,但仍然对这种关系感到不安。通常,不诚实只是倾向于减少信任的潜在态度的一种表现(我将在未来的文章中讨论其中的一些)。
很多时候,我们就是没有计划。公共讨论中缺少诚信问题,许多组织没有明确的政策。做正确的事情的重担往往落在工人个人身上。
针对个人的实用技巧
在我最初的例子中,我包括了一些细节,比如你最近拿了多少 PTO,或者客户可能有多苛刻。如果我只是把我的价值观写在一张纸上,我不会包括这些细枝末节。但是我们执行价值观的能力会因为环境的不同而发生巨大的变化。
一个计划不仅仅是价值观。没有计划,每个人都容易达不到自己的原则。一个计划必须包括能帮助我们实现价值的策略和工具。
下面,我分享一些策略,希望可以帮助减少环境的影响。下面的建议(大部分)是针对一般诚实的人,他们喜欢做正确的事情。你的计划将基于你自己的价值观、个性和处境。
请在评论中发表更多想法!
给朋友打电话
时间不站在诚实的一边。你等待的时间越长,揭露的可能性就越小。像我这样对压力反应冷淡的人特别容易等太久。然而,立即告诉主管或客户可能会让人望而生畏。更容易的是有一个朋友、亲戚等。,你可以马上打电话、发短信或发邮件。最好的人是不评判、值得信赖、头脑冷静的人。如果他们住得很远或者对数据科学兴趣不大,那就太好了。
时间不站在诚实的一边
很久以前,我在实验室工作,掉了一个昂贵的镜头。我独自一人,当时已经是深夜了。我开始担心成本,把零件放回货架,不知所措。我突然想到给一个特定的人打电话。由于实验室在地下,我不得不走很远的路才能得到手机信号。起初,我脑子里有各种各样的事情——也许零件没问题,反正我不应该被要求工作到这么晚,这些德国光学公司把事情做得太滑了。我一边走,一边想象着告诉我的朋友所有这些事情。然后,我停下来,回头。就像她就在我旁边的走廊里一样清晰,我听到了我朋友的声音,我的胡言乱语不再有任何意义。我回到实验室,给实验室经理发了电子邮件,然后回家睡觉。
我发现通知另一个人可以立即缓解压力。它消除了情绪,让思维更清晰。另外,你的朋友不会因为你讨厌的客户而受到影响,也不会因为你还没吃午饭而分心。
给它标上一美元的价值
我见过的大多数谎言似乎都不算重大。他们变得更加模糊,不出所料,我经常听到这样的话,“误差很小,不值得说什么”。或者“反正也没人用”。
但是“我将决定什么对你来说是有意义的”难道不是令人不安的吗?
但是难道没有什么令人不安的事情吗,“我要决定什么对你有意义”?我们通常不完全了解我们的客户在用我们的产品做什么,或者他们以后会做什么。根据我们的数据,客户可能会对未来产生什么样的假设或偏见,即使这些假设或偏见并不影响今天的决策?
当可能感到尴尬的人是决定一个错误是否达到某种披露门槛的人时,就存在明显的利益冲突。值得注意的是,这个阈值不是提前设置的,也不是与客户预先安排的,而是由一个刚刚犯了错误的情绪化的人即时确定的。
此外,较简单困难的对话是实践你的计划的机会。我们真的相信一个避免解决小错误的人能够在危机中挺身而出吗?诚信不是一种有限的物质,必须保存到真正重要的时候。
所以,我提出一个简单的计算。首先,估算一下不诚实对你自己的价值。这可能只是一种直觉,或者是纠正和讨论错误的每小时费用。花一分钟思考这个数字。
如果你仍然有任何疑问,将这个值与你对个人诚信的评价进行比较,或者与一个风险值进行比较,这个风险值等于被抓住的概率乘以被发现的代价。
考虑一个类似前面引用的例子,错误的结果被提供给了一个客户。领导者做出披露决定,但整个团队都知道。如果供应商对客户诚实,在最坏的情况下,他们会被解雇。假设它值 100 万美元。但是试图保密的潜在代价是什么?如果一家公司知道一个错误却没有改正,这一点被公之于众,他们可能会失去现在和将来所有的客户。也许 2500 万美元?这个谎言保持秘密的几率有多大,久而久之和员工走上其他岗位?为了让不诚实具有财务意义,概率必须低于 4%,这听起来不是一个好的赌注。考虑到员工士气低落和自然减员带来的潜在损失,4%可能是一个过高的估计。
这种美元价值技术听起来可能有问题,甚至令人震惊。完全是利己主义。难道我们不应该想做正确的事情,因为这是正确的事情吗?还是出于对那些可能受我们行为影响的人的真诚同情?
对于一个诚实的人来说,这种方法旨在吸引分析思维,消除恐慌,而不是真正衡量金钱价值。一美元的价值有助于正确看待形势——也许这毕竟不是世界末日!
对于那些正直程度低于平均水平的人来说,金钱价值技术可能至少会给撒谎设定一个下限。我见过人们撒谎,而诚实本可以花费一两次艰难的谈话或几个小时的工作。对不诚实的底线可能看起来是一个小小的收获,但许多问题来自日常生活;道德困境是右倾的。
了解他们
以前的技巧是反应性的,在危机时刻使用。下一个策略是预防性的,也很简单:尽可能多的了解那些受你工作影响的人。在问题出现之前就这么做。
我并不是建议和付钱给你的人多谈。目标是会见可能受你的模型或分析影响的人。例如,如果你的工作涉及为销售团队建立潜在客户模型,也许花一天时间跟踪销售人员,这样你就能看到他们一天的真实情况。或者,你可以要求与客户一起参加焦点小组。
眼前的目标是增加同理心,减少我们告诉自己“没什么大不了的”或“伤害已经造成了”的能力。但是有无数的好处。观察产生数据和/或使用我们的模型或分析的人是令人大开眼界的。我对可靠性和有意义的数据有了更多的了解,例如,看着用户每次点击一长串可笑的选项来选择“其他”。
对于那些花费大量时间埋头工作的个人贡献者来说,我认为这种经历可以是一种令人耳目一新的改变,并增加参与度。在疫情之前,我有幸花了一天时间跟随一个服务岗位。我对这项工作的复杂性以及客户的耐心和友善感到惊讶。从那以后,我觉得自己的工作更有动力了,特别想确保我参与的任何项目都能让工作变得更容易,而不是增加额外的麻烦。
一个优秀的雇主会提供这种机会,但在许多地方,一个数据科学家可能必须让它们发生。我认为这种努力是值得的——即使你每年安排一次会议,也比大多数会议都要频繁!与实际受影响的人交谈可能不合适或不可能,但你可以找到更亲近的人(例如,如果数据涉及学生,可以找老师)。
重新定义一段成功的关系
一些数据科学家将项目成功定义为“客户(或老板)开心,我也开心”。快乐是伟大的,但当错误发生时,这个框架就开始崩溃了。承认错误可能会让客户和数据科学家都不高兴。
这个定义也倾向于关注直接客户——批准项目或支付数据科学家的人。那些不在房间里的人倾向于后退。有时候,人们喜欢最终用户、数据主体等。,还不如住在月球上。
有时候,人们喜欢最终用户、数据主体等。,还不如住在月球上
让客户开心是好事,如果付钱给你的人从来都不开心,那显然是有问题的。但是我们可能会打开一扇大门,即使客户不高兴,项目仍然可以成功。
爱情轰炸客户甚至可能不是赢得他们关注的最佳方式。过分关注客户的幸福有时会导致一段紧张的蜜月期,随之而来的是失望。我认为,渴望做好工作,专注于客户的成功而不是快乐,或者仅仅是一个简单的真诚努力,往往会让他们更长久地满意。
即使一个错误是不可挽回的,客户除了对你感到不高兴和失望之外什么也做不了,我认为他们应该被告知。从不幸和错误中学习是人类经历的一个重要部分,故意干涉这个过程是不对的。也许因为披露错误是一种固有的尊重行为,客户通常会欣赏这种努力。
最后的想法
无论你的理想是什么,明天实现它们意味着今天的努力。正如 Eliyahu Goldratt 所说,“当缺乏准备遇到现实时,运气就不好了。”
如果您喜欢这篇文章,请继续关注即将推出的“每日诚信”的后续部分!
使用 NLP 改进你的简历
从零开始逐个任务地进行数据科学
对工作描述执行关键字匹配和文本分析
招聘人员正在使用越来越复杂的软件和工具来扫描简历,并将其与发布的职位和工作规范进行匹配。如果你的简历很普通,或者工作说明含糊不清,这些工具会对你不利。AI 真的在和你的工作申请作对,我不确定你是否知道或者会接受它!但是让我来示范一些可以帮助你平衡胜算的技巧。自然,我们会使用 NLP(自然语言处理),Python,和一些 Altair 的视觉效果。你准备好反击了吗?
假设你对网上看到的一个好职位感兴趣。有多少人会看到同样的工作?有和你大致相同的经历和资历?你认为会有多少申请人提出申请?会不会少于 10 或者少于 1000?
此外,考虑面试小组可能只有 5 名强有力的候选人。那么,你如何从 995 份申请中“筛选”出 5 名优秀的候选人呢?这就是为什么我说你需要平衡胜算,否则就和杂草一起被扔掉!
处理 1,000 份简历
我想,首先,你可以把这些简历分成 3-5 份。把它们打印出来,分配给人类读者。每个读者从他们的一堆中选择一个。5 个读者有 200 份简历——去挑选最好的一两份。阅读这些会花很长时间,而且可能最终只能得到一个答案。我们可以使用 Python 在几分钟内阅读所有这些简历!
在 Medium 上阅读文章“我如何使用 NLP (Spacy)筛选数据科学简历”表明,只需两行代码就可以收集这 1000 份简历的文件名。
#Function to read resumes from the folder one by one
mypath='D:/NLP_Resume/Candidate Resume'
onlyfiles = [os.path.join(mypath, f) for f in os.listdir(mypath)
if os.path.isfile(os.path.join(mypath, f))]
变量‘only files’是一个 Python 列表,它包含使用 Python os 库获得的所有简历的文件名。如果你研究文章,你也会看到你的简历是如何根据关键词分析几乎自动地被排名和淘汰的。因为我们试图平衡胜算,所以我们需要把重点放在你想要的工作规范和你目前的简历上。它们匹配吗?
匹配简历和工作描述
为了公平起见,我们想浏览一下职位描述、简历,并衡量一下匹配程度。理想情况下,我们这样做是为了让输出对你调整游戏有用。
阅读文件
因为这是你的简历,你可能有 PDF 或 DOCX 格式的。Python 模块可以读取大多数数据格式。图 1 演示了如何读取将内容保存到文本文件中的文档。
图 1:从磁盘读取文本文件并创建一个文本对象。图片由作者从 Visual studio Code—Jupyter Notebook 获取
第一步总是打开文件并阅读这些行。接下来的步骤是将字符串列表转换为单个文本,并在此过程中进行一些清理。图 1 创建了变量“jobContent”和“cvContent ”,它们表示一个包含所有文本的字符串对象。下一段代码显示了如何直接读取 Word 文档。
import docx2txt
resume = docx2txt.process("DAVID MOORE.docx")
text_resume = str(resume)
变量“text_resume”是一个字符串对象,它保存简历中的所有文本,就像前面一样。您也可以使用 PyPDF2。
import PyPDF2
足以说明的是,对于从业者来说,存在一系列选择来阅读文档,将它们转换成干净的处理过的文本。这些文档可能会很长,很难阅读,而且坦率地说很枯燥。你可以从总结开始。
处理文本
我爱 Gensim,经常用。
from gensim.summarization.summarizer import summarize
from gensim.summarization import keywords
我们通过读取 Word 文件创建了变量“resume_text”。我们来总结一下简历和招聘启事。
print(summarize(text_resume, ratio=0.2))
gensim . summary . summary zer . summary 将为您创建一个简明摘要。
summarize(jobContent, ratio=0.2)
现在你可以阅读工作角色的总体总结和你现有的简历了!你是否错过了总结中强调的工作角色的任何内容?细微的细节可以帮助你推销自己。你的总结文件是否有意义,是否能展现出你的本质品质?也许仅仅一个简明扼要的总结是不够的。接下来,让我们来衡量一下你的简历与工作说明书的相似程度。图 2 提供了代码。
图 2 —匹配两个文档并给出相似性分数的代码。图片作者。
概括地说,我们制作一个文本对象列表,然后创建一个 sklearn CountVectorizer()类的实例。我们还引入了 cosine_similarity 度量,它帮助我们度量两个文档的相似性。你的简历与职位描述的匹配度约为 69.44%。听起来很棒,但我不会忘乎所以。现在,您可以阅读文档摘要并获得相似性度量。机会正在增加。
接下来,我们可以看看职位描述关键词,看看简历中有哪些是匹配的。我们是否错过了几个可以加强匹配度的关键词?现在去斯帕西。到目前为止这是一段相当长的旅程。Gensim,sklearn 和现在的 spacy!希望你没晕!
from spacy.matcher import PhraseMatcher
matcher = PhraseMatcher(Spnlp.vocab)
from collections import Counter
from gensim.summarization import keywords
我们将使用 spacy 的短语匹配器功能来匹配工作描述和简历中的关键短语。Gensim 关键字有助于提供匹配的短语。图 3 显示了如何运行匹配。
图 3:使用关键字和短语匹配来交叉引用文档。图片作者。
使用图 3 中的代码片段,提供了匹配关键字的列表。图 4 显示了总结这些关键字匹配的方法。使用集合中的计数器字典。
图 4 —使用集合。计数器对关键字命中次数进行计数。图片作者。
“报告”一词包含在工作描述中,简历中有 3 次点击。有哪些短语或关键词出现在招聘启事中,但没有出现在简历上?我们能增加更多吗?我用熊猫来回答这个问题—您可以在图 5 中看到输出。
图 5-简历中没有提到的工作描述中的关键词。图片由作者提供。
如果这是真的,那也很奇怪。在文档层面,匹配率为 69.44%,但看看简历中没有提到的那一长串关键词。图 6 显示了提到的关键词。
图 6 使用熊猫匹配的关键词。图片由作者提供。
在现实中,很少有关键字与工作规范匹配,这导致我对 69.44%的余弦相似性度量持怀疑态度。尽管如此,几率还是在提高,因为我们可以在工作说明书中看到简历中没有的关键词。更少的关键词匹配意味着你更有可能被淘汰。查看丢失的关键词,你可以继续前进,加强简历,并重新运行分析。不过,仅仅在简历中加入关键词会产生负面影响,你必须非常小心你的作品。你可能会通过最初的自动筛选,但你会因为明显缺乏写作技巧而被淘汰。我们确实需要对短语进行排序,并专注于工作规范中的基本主题或单词。
接下来让我们看看排名短语。对于这个练习,我将使用我自己的 NLP 类和我以前使用的一些方法。
from nlp import nlp as nlp
LangProcessor = nlp()
keywordsJob = LangProcessor.keywords(jobContent)
keywordsCV = LangProcessor.keywords(cvContent)
使用我自己的类,我从我们之前创建的 job 和 Resume 对象中恢复了排名短语。下面的代码片段为您提供了方法定义。我们现在使用 rake 模块来提取排名短语和分数。
def keywords(self, text):
keyword = {}
self.rake.extract_keywords_from_text(text)
keyword['ranked phrases'] = self.rake.get_ranked_phrases_with_scores()
return keyword
图 7 展示了方法调用的输出。
图 7——来自招聘启事的排名短语。图片由作者使用自己的代码。
“项目管理方法——项目管理”被列为 31.2,因此这是招聘信息中最重要的主题。简历中的关键短语也可以稍加改动后打印出来。
for item in keywordsCV['ranked phrases'][:10]:
print (str(round(item[0],2)) + ' - ' + item[1] )
阅读简历和招聘启事中的热门短语,我们可以问自己是否有匹配或相似的程度?我们当然可以运行一个序列来找出答案!下面的代码在职位发布和简历中的排名短语之间创建了一个交叉引用。
sims = []
phrases = []
for key in keywordsJob['ranked phrases']:
rec={}
rec['importance'] = key[0]
texts = key[1] sims=[]
avg_sim=0
for cvkey in keywordsCV['ranked phrases']:
cvtext = cvkey[1]
sims.append(fuzz.ratio(texts, cvtext))
#sims.append(lev.ratio(texts.lower(),cvtext.lower()))
#sims.append(jaccard_similarity(texts,cvtext)) count=0
for s in sims:
count=count+s
avg_sim = count/len(sims)
rec['similarity'] = avg_sim
rec['text'] = texts
phrases.append(rec)
注意,我们使用 fuzzy-wuzzy 作为匹配引擎。该代码还具有 Levenshtein 比率和 jaccard_similarity 函数。图 8 展示了这可能是什么样子。
图 8 工作描述和简历之间相互参照的关键词。
“重要性”变量是简历中排名短语的分数。“相似性”变量是来自 fuzzy-wuzzy 的比率分数。术语“项目管理方法”排名 31.2,但交叉引用评级简历短语平均得分仅为 22.5。虽然项目管理是这份工作的重中之重,但简历在不同的技术项目上得分更高。通过做一个类似的练习,你可以看到人工智能是如何与你的应用程序对抗的。
图 9 简历中术语的重要性与影响力。图片由作者提供。
图 9 显示了另一个视角。使用标记(单词)可以显示每个单词在工作描述中的重要性,以及在简历中的点击率——特定单词在文档中出现的次数越多,影响就越大。金融这个词在职位描述中并不重要,但在简历中却有很大的影响力。这是一个寻找 IT 工作的财务人员吗?用人工智能的话可以出卖你!
我相信现在你已经有了照片。使用 NLP 工具和库有助于真正理解工作描述和衡量相对匹配度。这当然不可靠,也不可信,但它确实有助于平衡胜算。你的话很重要,但是你不能在简历中加入关键词。你真的要写一份很强的简历,申请适合自己的角色。文本处理和文本挖掘是一个很大的话题,我们只是触及了可以做的事情的表面。我发现文本挖掘和基于文本的机器学习模型非常准确。让我们使用 Altair 查看一些视觉效果,然后得出结论。
牛郎星视觉效果
我最近用了很多 Altair,比 Seaborn 或 Matplotlib 用得更多。我对牛郎星的语法很感兴趣。我制作了三个视觉效果来帮助讨论——图 10 显示了简历中关键词的重要性和影响力。使用色标,我们可以看到像收养这样的词在简历中出现了两次,但在招聘启事中的优先级别较低。
图 10 牛郎星视觉。图片由作者提供。简历中与重要性和影响力相对应的词语。
图 11 显示了在招聘启事和简历中找到的分级主题的交叉引用。最重要的短语是“项目管理”但这在简历的排名中得分很低。
图 11。一个堆积条形图,显示已排名的短语以及简历和职务发布之间的相关性。
图 12 描绘了相似的单词。财务在简历中出现了 10 次,但在招聘启事中却只字未提。简历(CV)上提到了 project 这个词,它也出现在招聘启事中。
图 12 文档间关键词重叠的分析。图片由作者提供。
看图表,在我看来,简历和职位描述不太匹配。很少有共享的关键字和排名短语看起来非常不同。这就是让你的简历被淘汰的原因!
结论
阅读这篇文章可能看起来更像是一部大预算的电影。那些大片一般都是大牌演员出演。大型的 NLP 库在本文中扮演了主要角色,我们甚至还客串了更多更老更成熟的名字,比如 NLTK。我们使用了 Gensim、Spacy、sklearn 等库,并演示了它们的用法。我自己的班级客串了一次,包装了 NLTK、rake、textblob 和一堆其他模块,所有这些都表现出了对文本分析的见解,向你展示了你是如何与获得梦想工作的机会分离的。
想要得到这份理想的工作,需要清晰而坚定地关注细节,并仔细准备工作申请、简历和求职信。使用自然语言处理不会让你成为最佳候选人。这取决于你!但它可以提高你击败人工智能驱动的早期回合的机会。
由维达尔·诺德里-马西森在 Unsplash 上拍摄的照片
每个渔民都知道你需要好的鱼饵!
人工智能不是“可怕的聪明”,而是盲目的危险
人工智能|新闻|观点
前谷歌高管说我们在“创造上帝”——但他错了。
何塞·安德烈斯在 Pixabay 上拍摄的照片
人工智能中有很多分裂的事情。有可能用当前的范式创造智能机器吗,或者我们应该根据认知科学的发现更新指导人工智能研究的原则吗?我们应该继续利用深度学习的前景,还是应该使用混合方法向机器灌输知识和数据?我们应该期待更大的模型产生越来越好的结果,还是需要算法突破来引领人工智能的下一阶段?
这些问题描绘了人工智能的现在和未来,但只有少数人关心寻找答案。然而,人工智能的另一个方面应该会困扰我们所有人。包括你。它将以这样或那样的方式影响尚未被书写的历史。我说的是 AI 的风险和危险。奇怪的是,尽管这个问题很紧迫,甚至在这方面专家们也没有就什么是最紧迫的问题达成一致。
人工智能在我们的日常生活中根深蒂固,以至于任何不熟悉这个话题的人肯定会低估它的程度。智能手机中的个人助理;机场和街道上的监视和控制装置;客服中的友好聊天机器人;影响你职业前途的招聘算法;推荐系统,决定你看的电影和购买的产品;知道你是谁,你长什么样的检测识别软件;在不久的将来,准智能汽车将使驾驶变得过时。
人工智能的无处不在加深了任何潜在的错位,这可能会对我们生活的许多方面产生影响。已经发生了。人工智能专家正在努力提高这些系统的安全性、可靠性和可解释性。他们押注于不伤害少数群体、不传播错误信息的道德人工智能。他们试图为蓝领和白领行业的劳动力面临的迫在眉睫的损失寻找解决方案。但即使在这个极其关键的问题上,也不是每个人都在同一条船上。有些人认为我们应该更关心控制超级智能的潜在出现。谷歌 X 的前 CBO 莫·格达特就是其中之一。这就是为什么我们应该对他的恐惧和警告半信半疑。
我们在建造上帝吗?
莫·格达害怕艾。他最近出版了一本名为《可怕的聪明》的书,在书中,他警告我们,即将到来的世界末日只有我们能够阻止。在《泰晤士报》的采访中,他回忆起他意识到人工智能将会是我们的败笔的那一刻。在 Google X 的一个项目中,开发人员试图教会机械臂捡球。经过数周的缓慢进展,其中一只手臂伸到了球上,举起手向镜头展示,好像在“炫耀”——在任何了解 AI 工作原理的人看来,这只是拟人化的又一个例子。那一刻让他意识到“真的很可怕”
Gawdat 想知道为什么几乎没有人谈论这个。在与作家兼技术从业者肯·雅莫什的对话中,Gawdat 总结了他对人工智能生命周期所处阶段的看法:“人工智能不再是一台机器,”他说。“我们正在建造一个……数字生物,它……拥有构成有意识生物的所有特征。所以它是自主的,进化的,它有智能,它发展智能…它自我复制…而且它有代理。”
“我们在建造上帝。”
这样一个大胆的主张需要同样强有力的证据,但 Gawdat 只提供了轶事般的例子,这些例子可以很好地解释,而不必求助于深奥的概念,如“有知觉的数字生物”、“T4”、“奇点”或“上帝”。他认为,我们没有意识到我们在人工智能发展方面已经走了多远,并提到了一些在我们通往他描绘的未来的道路上“不可避免”会发生的事情。(他的辩论围绕着未来是乌托邦还是反乌托邦展开。他相信这一天终将到来。)
第一个不可避免的是,人工智能将会发生,事实上“[它]已经发生了,”他说。他认为深度学习已经是人工智能了,因为它比我们更好地完成了分配给它的每一项任务——这不是真的,我将在下一节中展示。第二个必然是,AI 会比人类更聪明。他提到了未来学家雷·库兹韦尔(Ray Kurzweil),这位“预测我们未来的先知”,以及奇点(Singularity),这是他最受欢迎的概念:“到 2029 年,机器将比人更聪明。”这个精确的日期来自于指数增长的论点,这仍然是一个无力的辩护,因为“自然界中没有任何事物遵循纯粹的指数增长
总的来说,他的论点有两大缺陷。首先,他从未给人工智能下过定义。当讨论的术语没有明确定义时,不可能同意或不同意任何人。在那次谈话中,他承认了定义人工智能的重要性——但他没有遵循自己的前提。第二,他将今天有效的论点延伸到我们知之甚少的未来。他谈到的人工智能失调的场景已经在今天的狭义人工智能系统中发生了。然而,他用它们来证明超级智能机器才是真正的威胁。为什么不关注眼前的事情,而不是展望不可预见的未来呢?
为什么人工智能不“聪明得吓人”
我们应该小心人工智能,但不是出于 Gawdat 描述的原因。人工智能可能很可怕,但不是因为它太聪明。几乎没有人工智能专家会同意 Gawdat 的观点,即当今的主要威胁是这些系统已经或“即将”变得超级智能。这可能最终会发生,但最有可能的是不会在八年后,在我们面对今天出现的其他危险情景之后。
艾已经来了吗?
AI(最广义的定义,包含所有机器学习/深度学习系统)已经在许多狭义的任务中超过了我们,但在许多其他方面却无法达到我们的水平——更不用说在一般意义上显示智能了。
算法擅长对象识别,这是研究得最多的任务之一,但只在非常特定的条件下。最佳视觉人工智能模型在 ImageNet 挑战赛上取得了惊人的 +90%的前 1 名准确率(这远比人类好)。然而,当面对真实世界的对象数据集 ObjectNet 时,这个模型经历了40–45%的性能下降。ImageNet 描绘了一个理想化的世界,因此挑战的结果扭曲了人工智能在物体识别方面的真实能力。
Gawdat 回忆说,早在 1989 年,机器就已经是最好的国际象棋选手(人类不再有任何可能击败最好的人工智能选手)。两年前横扫 Stockfish 8 的 DeepMind 的 AlphaZero ,是最好的棋手之一。在普通的游戏中,你无法战胜它,但只要把棋盘的大小从 8×8 改为 9×9,你就成了主人。这项任务极其相似,但是当面临与它所学知识的最小偏差时,AlphaZero 将无法概括它的知识。
Gawdat 还提到,自动驾驶汽车是世界上最好的司机。但是相对而言,它们不仅比人类更容易撞车,我们也更善于处理意外情况。自动驾驶汽车的关键弱点是现实有尽可能多的自由度。任何事情都可能发生,人工智能系统不太擅长从训练集推断出新的情况。因为他们缺乏对世界如何运作的更深层次的模型,所以他们经验之外的任何东西都成为不可逾越的障碍。
OpenAI 的 GPT-3 ,虽然被认为是最强大的公共大语言模型,但是不能生成类比,解决数学问题,理解上下文信息,推理关于世界的底层原理,甚至链接因果。它可以生成各种形式的文本,但它还没有掌握人类意义上的语言。
人工智能缺乏思维理论、常识和因果推理、推断能力以及身体,因此它在几乎任何稍微复杂或一般的事情上都远远没有“比我们好”。
AI 会比人类聪明吗?
如果我们继续以目前的速度前进,没有任何事情会让我们慢下来(从社会政治体系的剧烈变化到全球现象——比如气候灾难——都可能阻碍技术进步),那么“没有办法阻止它”的想法是合乎逻辑的。然而,对于 AI 来说,八年时间对于达到这样一个里程碑来说似乎是很短的时间。
雷·库兹韦尔,加速回报定律的创造者,在他的书《精神机器的时代》中提出,技术趋向于指数增长。然而,正如物理学家西奥多·莫迪斯(Theodore Modis)在反驳库兹韦尔的预测时解释的那样,“他的错误行为依赖于数学函数,而不是自然法则……所有的自然增长都遵循逻辑函数。”
事实上,我们喜欢谈论指数变化率,比如摩尔定律,但是这些“定律”只有在不成立时才成立。指数增长有自然的极限,因此合乎逻辑的假设是现实中“没有什么遵循纯粹的指数增长”,正如莫迪斯所辩护的那样。
2029 年是库兹韦尔认为地球上最聪明的生物将是人工智能的日子。但他用数学如何与自然世界相关的简单观点来计算它——更不用说所有其他不断干扰技术进步速度甚至可能完全改变其方向的因素,如社会运动、道德辩论或政府监管。
然而,即使我们假设人工智能最终会变得比我们更聪明,也没有理由认为它会决定“与我们作对”,Gawdat 显然就是这样做的。他把智力和动机混淆了。正如史蒂芬·平克所解释的(引用自加里·马库斯的书重新启动人工智能),“智能是运用新方法来达到目标的能力。但目标与智力无关:聪明并不等同于想要某样东西。”
我们不知道如何给人工智能注入动机——这是一种进化特征,只因为我们进化的方式而存在。但是即使我们知道怎么做,我们为什么要这么做?仅仅因为人类既有知道如何实现目标的智慧,又有采取行动的动机,并不意味着他们一起进化,或者他们本质上是交织在一起的。
真正的问题——无脑人工智能
加里·马库斯(Gary Marcus)在推特上回应了 Gawdat 对《纽约时报》的采访,强调了我们今天在人工智能领域面临的“真正挑战”:
AI 没那么聪明,但确实很恐怖。Gawdat 对生存威胁的关注掩盖了我们对当前社会结构各个层面每天都在发生的问题的看法。对尚未理解的假设风险给予更多的重视——这些风险距离未来如此之远,甚至没有一种有用的方法来讨论它们——阻碍了我们面对人工智能的真正危险的努力。
正如马库斯所说,没有大脑的人工智能是真正的问题。我们用它来制定决策,并在许多行业的决策过程中采取行动。当这些系统不了解世界如何运作或其行为的后果时,我们如何做到这一点呢?这正是近年来人工智能研究的新分支开始出现的原因,这些分支专注于包含这些问题,其中人工智能安全和人工智能伦理脱颖而出。
我们如何确保一项技术像一个“黑匣子”一样有效地运行,其决策通常是不可预测的,而这些决策背后的原因是不可理解的,我们希望它做什么?Gawdat 承认,对齐的问题现在非常现实。如果人工智能最终做了我们没有预料到的事情,我们不需要等待超级智能遭受人工智能可能带来的麻烦。偏见是人工智能系统的一个非常有害的普遍特征,它最终变成了种族主义者、性别歧视者和主要针对代表性不足的少数民族。
没有大脑的人工智能也非常有能力取代工人,同时产生大量的污染,增加其碳足迹。它也是假新闻的首要引擎,它对几乎每个决定我们在休闲和信息方面消费的系统都有不可避免的影响。人工智能的真正危险是那些看不见的,并通过我们的生活方式缓慢而无声地传播其分支,同时牢固地巩固其在我们世界基础上的根基。
如果你喜欢这篇文章,可以考虑订阅我的免费周报https://mindsoftomorrow.ck.page!每周都有关于人工智能的新闻、研究和见解!
您也可以直接支持我的工作,使用我的推荐链接 这里 成为媒介会员,获得无限权限!😃
人工智能领导人充分利用新冠肺炎危机来增加人工智能的作用
全球负责任人工智能调查的结果
马修·斯特恩和 T2【马库斯·温克勒在 Unsplash 上的照片
毫无疑问,到 2020 年,新冠肺炎将成为我们生活和生计最具影响力的单一驱动力。然而,疫情对某些社会群体、某些行业部门、某些公司和某些技术的影响参差不齐。普华永道在 2019 年 11 月对 1000 多名高管进行的全球负责任的人工智能调查中出现了三个关键主题。调查受访者来自七个行业领域(即消费市场;工业制造和汽车;金融服务;技术、媒体和电信;能源、公用事业和资源;医疗行业、政府和公共服务)和公司规模各不相同,从年收入不足 5 亿美元(29%的受访者)、5 亿至 10 亿美元(23%)到超过 10 亿美元(49%)不等。
来自新冠肺炎的大公司和人工智能领导者产生了积极影响
总体而言,44%的受访公司受到新冠肺炎有限或显著的负面影响(44%)。有趣的是,同样数量的受访者认为他们受到了新冠肺炎有限或显著的积极影响。然而,当我们看公司的规模时,差异就出现了。新冠肺炎对超大型公司(100 亿美元或以上)和超小型公司(5000 万美元或以下)产生了显著的积极影响:新冠肺炎对近 39%的超大型公司和 37%的超小型公司产生了显著的积极影响。
当这些公司按照它们的人工智能成熟度水平进行细分时,出现了三个集群——人工智能领导者 (26%)、人工智能落后者 (16%)和人工智能实验者 (58%)。大公司(10 亿美元或以上)再次占据了人工智能领导者的 65%。大公司类别中人工智能领导者的这种不成比例的数量,也看到了新冠肺炎的重大而有限的积极影响。这些公司还增加了对人工智能的使用(57%比 34%,整体),探索了更多新的人工智能用例(40%比 34%,整体),并在人工智能开发方面投入了更多资金(48%比 42%)。
图 1:新冠肺炎对人工智能成熟度采用人工智能的影响(来源:普华永道负责任的人工智能调查)
能源、公用事业和资源公司增加了对人工智能的使用(45%对 34%的整体比例),并且还在培训更多的员工使用人工智能(40%对 28%的整体比例)。毫不奇怪,在所有行业中,医疗保健行业对人工智能的投资最大(52%对 42%)。
图 2:新冠肺炎对各行业采用人工智能的影响(普华永道负责任的人工智能调查)
已经实施人工智能的公司已经看到了更好的投资回报率
调查中出现的另一个关键主题是公司部署人工智能模型的水平及其投资回报率。毫不奇怪,78%的人工智能领导者在运营中有 5 个或更多的人工智能应用,相比之下,人工智能落后者只有 28%,所有三个细分市场的整体比例为 52%。同样,29%的超大型公司拥有 10 个或 10 个以上的人工智能应用,而平均只有 13%。此外,这些公司中有 43%的流程完全由人工智能实现,并得到广泛采用,相比之下,整个集团中只有 23%的公司采用人工智能。在另一项基于美国的研究(普华永道 2021 年人工智能预测)中,近 86%的受访者表示,他们正从基于人工智能的客户体验中受益,64%的受访者表示,他们正从基于人工智能的效率和生产力计划中受益。
图 3:运营中的人工智能应用数量(来源:普华永道负责任的人工智能调查)
集中或协调的战略正在取得成效
在生产中部署人工智能模型的公司需要跨多个职能部门进行协调,在某些情况下还需要跨多个业务部门进行协调。这需要一个更加集中的人工智能功能,或者至少是一个更加协调的人工智能功能。近 36%的人工智能领导者拥有集中的人工智能业务和投资战略,相比之下,只有 19%的公司拥有这样的业务和战略。此外,50%的人工智能领导者表示,投资是在组织层面进行协调的,相比之下,整体只有 38%。对于大公司的人工智能领导者来说,对于集中的人工智能业务和投资战略,这些百分比跃升至 42%,对于协调投资,这些百分比为 54%。
图 4:按成熟度划分的人工智能投资决策(来源:普华永道责任人工智能调查)
图 5:大公司(收入超过 10 亿美元)的人工智能投资决策(来源:普华永道责任人工智能调查)
集中或协调的投资策略也意味着 74%的人工智能领导者(和 81%的大公司人工智能领导者)认为他们的人工智能计划与组织价值观一致,相比之下,整个群体中只有 44%的人这样认为。相比之下,近 39%的人工智能实验者和 33%的人工智能落后者觉得他们不确定人工智能计划是否与他们的组织价值观一致。
图 6:按成熟度划分的组织一致性(来源:普华永道责任人工智能调查)
图 7:按成熟度划分的大公司(> 10 亿美元收入)的组织一致性(来源:普华永道责任人工智能调查)
这三个观点的结果很有启发性。人工智能的领导者,通常是大公司,在疫情之前就已经投资了人工智能。鉴于他们的人工智能准备就绪,他们能够在不确定的新冠肺炎时期做出比竞争对手更好的响应,因此,他们能够从自己的计划中获得更好的投资回报。这反过来导致他们计划在 2021 年进行更大的人工智能投资,并有可能获得更多回报,进入良性的人工智能主导的投资回报周期。
人工智能营销:将先进技术融入 2021 年日常生活的 10 种方式
了解为什么以及如何利用人工智能为您带来优势
克里斯托夫·高尔在 Unsplash 上拍摄的照片
自【2000 年初,学者们开始研究网络内容、对网络刺激的反应和用户购买行为之间的关系。就在那时,内容个性化首次被引入。
A cademics 当时建议行业采用软件,旨在监控在线行为并提供实时响应,作为竞争优势的来源。
这就是我们现在所说的人工智能营销。
人工智能营销最初是作为电子商务组织的一个系统开始的,它希望个性化在线购物体验,模仿店内人员在线的个人方法。最初,高度针对性的个性化和搜索分析的影响使长尾营销成为可能,并有助于利基电子商务行业的发展。
今天,人工智能驱动的营销无处不在。
r esearch 将其定义为公司努力撒下更广泛的数据收集网,以便以后用于有针对性的广告和个性化的产品和内容推荐。
因此,这里有 10 种方法可以在 2021 年的数字营销战略中使用人工智能营销概念。
1.收集数据进行客户分析
想象一下,从超过 33 亿台设备、分析和人工智能工具中收集数据,以创建一个 360 度的在线消费者行为视图,包括动机、信仰和购买模式。能够利用这些数据成功预测未来行为怎么样?嗯,这是像Drawbridge*,*最近被 Linkedin 收购并重新命名为 LinkedIn 营销解决方案的公司的承诺。
这现在被称为社交监听软件,B2B 和 B2C 公司都在使用。尽管在某些地方违反了隐私和数据保护法规,但正如《社会困境》所强调的那样,数据交易行业是隐蔽的、巨大的、利润惊人的。尽管社交网站明确说明了信息的用途,但公开获取的信息是用于社交目的,而不是商业目的。
人工智能的作用是从本质上处理这些大数据,并对数据进行分类,以帮助建立对消费者的准确感知,目的是希望在线行为和身份接近线下行为和身份。
公司正在获得高度有针对性的、数据驱动的洞察力,但仅此还不够。这需要在解释中运用一些创造力,以及对我们如何在网上行为的洞察力,以及我们过去的行为如何影响未来的决定。
2.网络广告个性化
随着在线广告达到顶峰,对网络广告盈利的需求达到了前所未有的高度。此外,由于内容参与与品牌忠诚度相关联,内容营销的重要性正在增长,因为它已被证明是 B2C 和 B2B 环境下决策的一个因素。
通过允许机器学习算法过滤行为数据,这不仅可以用于电子商务(如亚马逊、网飞、Spotify 或 YouTube),还可以战略性地定位与浏览网页的个人相关的广告(或所谓的“自适应个性化”)。
优化网络广告表现对营销策略中的成本优化至关重要,对所有利益相关者都有利,为网络用户建立更好的品牌和更愉快的体验。
3.销售预测
人工智能驱动的销售预测软件收集过去销售的数据。这在别处被称为预测分析。它分析各种数据条目的存在以及它们与销售结果的关系。
然后,来自数据的见解被应用到当前的管道中,软件评估销售发生的可能性,甚至向销售代表提供建议。
最好的人工智能销售预测软件已经实现了强化学习,这允许他们回去协调得分准确率,从而从过去的表现中学习。
4.趋势捕捉
科学家们早就正确地推测,销售本身就是一个短期目标,使用分析软件可以有效地实现这个目标。然而,这通常不是一个战略目标。
网络和社交媒体分析对于衡量消费者对在线营销刺激、内容优化和行为建模的反应变得越来越重要。通过这样做,公司可以捕捉到发展的趋势,并利用病毒式营销。
5.观点挖掘和情感分析
观点挖掘和情感分析旨在通过分类提取隐藏在自然语言中的潜在情感,特别是将观点分类为积极、消极或中立。
意见挖掘优于数据挖掘,因为它也为公司提供了设备,公司使用先进的分析软件从社交平台获得行为洞察,而不是原始数据点。
识别数字消费者精确个性的能力是营销未来的关键,理解、参与和同情当前社会挑战并积极让消费者参与品牌使命、愿景和属性的共同创造的能力也是如此。
行业早就认识到缺少的是识别搜索历史、态度、动机和在线人物角色变化的智能,这将为智能预测分析提供信息,以更好地装备营销决策。 Winer 甚至宣称,仅靠传统营销无法理解如此深度的消费者。
营销活动中的人工智能软件实施有助于消费者收回改变数字身份的权力,一旦数字身份建立起来,公司就可以优化对消费者心理和相互关系的理解。
6.社交媒体聊天机器人
根据维基百科,
聊天机器人是计算机程序或人工智能,通过听觉或文本方法进行对话。它们被设计成令人信服地模拟人类作为对话伙伴的行为。
聊天机器人越来越多地用于电子商务客户服务应用程序、呼叫中心和社交媒体,在这些应用程序中,聊天机器人被用来完成简单和重复的任务,这些任务被归类为耗时、乏味或不切实际。
它们还提供了编写对话脚本的可能性。如果机器人配备了从过去的对话中学习的功能,它就可以在对话进行时阅读它们,提取关键趋势和模式,进行情感分析,并揭示行为洞察。
聊天机器人表明,通过减少组织完成项目所需的人力资源或个人完成日常任务所需的时间,有可能获得巨大的效率收益。
7.自动化 CRM 流程
CRM 软件旨在帮助销售和客户服务专业人员跟踪和管理他们与客户的互动。
有四种方法可以使用 CRM automation:
- 数据输入自动化
- 个性化电子邮件序列
- 自动化客户互动记录
- 客户服务自动化(例如聊天机器人)
这可以节省时间,帮助销售代表更好地接触更多销售线索,并有可能更快地达成销售。
8.实现 SEO 报告自动化。
作为一名 SEO 顾问,这是到目前为止我最期待看到未来几年增长的领域。Big Query 等平台使大数据可视化变得毫不费力,而 SEO 软件如 DeepCrawl 和 SEMrush 允许与 Big Query、Google Sheets 和 Google Data Studio 集成,使技术 SEO 报告适合自动化。
这弥合了技术 SEO 分析师和企业及其投资者之间的沟通鸿沟。更不用说它为所有相关方节省了大量的时间。
已经有社区在 SEO 自动化领域取得了显著的进步,技术 SEO 领域的大玩家认识到这是 2021 年的一个关键趋势。
9.启用动态定价
和其他事情一样,个性化定价是我们身边发生的一种趋势。
可以使用各种接触点,如 cookies 数据、浏览历史、活动数据等,使机器人能够监控网络空间。该应用程序的目的是在特定的时间点为您提供最佳的个性化报价,这将说服您进行销售。想想优步的定价模式,但对于你在网上看到的一切。
10.实施产品推荐系统
随着互联网连接的兴起和电子商务行业的迅猛发展,公司需要帮助消费者选择产品。
电子商务中的推荐系统是在 90 年代末实现的,它通过整合过去的知识来帮助用户搜索产品,这些知识与用户(或其他用户)的偏好和喜好有关。
这种有助于消除用户可能因信息或选择超载而面临的负担,这通常会阻碍决策,尤其是在呈现的选项未经过滤的情况下。
行为和注意力监控有助于数字市场的细分过程,因此,支持消费者特征分析。
人工智能营销在我们的社会中越来越普遍,这改变了公司将我们视为消费者的方式,也扰乱了行业动态。
随着技术的进步,它被视为改善双方关系营销流程的一种方式——通过为客户提供更好、更个性化、更互联的用户体验,以及为公司提供更数据驱动、不干涉的流程管理方法。
人工智能迷因:利用机器学习创造有趣的迷因
如何使用来自维基共享资源的图片和由 GPT-3 和 GPT-尼奥自动生成的带标题的开放图片来创造新的迷因
由 AI-Memer 的 Memes,图片从左上顺时针方向由 jans canon,tata_aka_T,Calvert Litho,FlugKerl2,DodosD 和 Centpacrr,标题由 OpenAI GPT-3,许可证:CC BY-SA 4.0
在本文中,我将向您展示我如何构建一个名为 AI-Memer 的系统,该系统使用最新的人工智能模型生成迷因。在进入迷因的背景和组件的细节之前,我从系统组件的高层次描述开始。然后,我将向你展示如何使用谷歌实验室生成你自己的迷因。在对结果和后续步骤进行简要讨论后,你可以在附录中看到一些模因样本。哦,我会在每个部分的开头展示一个新生成的迷因😄。
由 AI-Memer 制作的 Meme,由 David Mellis 制作的图片,由 OpenAI GPT-3 制作的标题,许可:CC BY-SA 4.0
系统组件
主要系统组件如下图所示。
AI-Memer 组件,图表由作者提供,饼图由 W.carter 提供
用户首先输入一个搜索查询来找到一个背景图片,比如“苹果派”。然后,系统在 Wikimedia Commons [1]和 OpenImages 数据集[2]中检查匹配的图像。两个数据集都有相应的图像文本描述。我使用 OpenAI 的 CLIP [3]编码器首先对文本描述执行语义搜索。语义搜索寻找匹配的概念,而不仅仅是单词搜索。然后我对图片进行语义搜索。用户检查出匹配查询的前 10 个图像,并选择他们最喜欢的。来自 OpenAI [4]的 GPT-3 模型或来自 EleutherAI [5]的 GPT-近地天体模型被用于生成 10 个可能的字幕。用户选择最好的标题来创建新的迷因,可以下载。
图片由 AI-Memer 提供,图片由 Atsuko Sato 提供,说明由 OpenAI GPT-3 提供,许可:CC BY-SA 4.0
模因
维基词典将模因一词定义为“任何文化信息单位,如实践或想法,通过口头或重复动作从一个头脑传递到另一个头脑,类似于基因的传递”[6]。这个术语起源于理查德·道金斯的书《自私的基因》[7]。在互联网时代,模因一词已经被缩小到指一段内容,通常是一张带有有趣标题的图片,通过社交媒体在网上传播。
艾-梅梅尔的迷因,彼得罗·佩鲁吉诺(1448–1523)的图像,开放艾 GPT-3 的标题,许可:CC BY-SA 4.0
先前的工作
Dylan Wenzlau 使用深度卷积网络创建了自动热图生成器[9]。他使用了 Imgflip meme Generator 用户的 1 亿个公共 Meme 标题,并训练该系统根据 48 张常用背景图片生成标题。你可以在这里阅读他的系统,在这里在线运行它。这里有三个例子。
人工智能在、、上制作的样本模因
这些都很好,但该系统仅限于使用常见的背景图像。我在寻找一种方法,将一组新的图像注入迷因圈。
AI-Memer
人工智能迷因系统创建迷因分三步:寻找背景图片,生成标题,排版迷因标题。
由 AI-Memer 制作的 Meme,由 Mike K 制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
查找图像
背景图像来自两个来源,维基共享和开放图像数据集。我使用 OpenAI 的剪辑来执行语义搜索。CLIP 系统实现了两个功能,将文本和图像编码到“嵌入”中,嵌入是代表原始数据要点的数字串。剪辑模型在 4000 万对带有文本标签的图像上进行预训练,使得从图像编码的嵌入将类似于从文本标签编码的嵌入。关于 CLIP 如何工作的更多信息,请查看我的文章这里。
维基共享
维基共享资源有超过 7300 万个 JPEG 文件。它们中的大多数都是以许可的权利发布的,比如知识共享署名许可。我使用戈德史密斯的维基百科搜索 API [10]找到与文本查询相关的前 3 页,并使用 Magnus 工具服务器[11]上的 CommonsAPI 收集图像描述。我使用 python 中的 shutil.copyfileobj()函数下载图像文件。维基百科页面上通常有 3 到 10 张图片,所以总共会有 9 到 30 张图片出现。
打开图像
来自谷歌的 OpenImages 数据集由从 Flikr 抓取的 675,000 张照片组成,这些照片都是在知识共享署名许可下发布的。一组图像描述可供下载[12]。我通过 OpenAI 的 CLIP 系统运行了每个描述,并缓存了嵌入内容以便快速访问。当用户输入查询时,我通过 CLIP 运行它,并将其与缓存的嵌入进行比较。然后我使用 OpenImages 下载 API [13]下载前 20 个匹配的图像。
对于最后的过滤过程,我通过图像编码器运行来自 3 个维基百科页面的图像和来自 OpenImages 的 20 个图像,并将结果与文本查询的嵌入进行比较。我向用户展示前 10 张图片,让他们选择自己最喜欢的。
例如,如果您搜索“苹果派”,您将看到按最匹配排序的前 10 张图片。
来自维基共享资源和开放图像的语义图像搜索结果。照片由丹·帕森斯、凯特·格林纳威、切丽·乔弗、斯科特·鲍尔、我的儿子使用本账户、妮莎·埃文斯坦、妮莎·埃文斯坦、w·卡特、利兹·韦斯特、罗德里戈·戈麦斯·桑斯拍摄
8 号图片看起来很不错。它来自一个名叫 W.carter 的用户,通过维基共享。描述是“简单易行的苹果派配香草冰淇淋,放在瑞典 Lysekil 的方格布桌布上”。接下来,我们将为我们的新迷因生成一些标题。
迷因由 AI-Memer 提供,图片由 Pharlap 提供,说明由 OpenAI GPT-3 提供,许可:CC BY-SA 4.0
生成字幕
我使用 GPT 的两种不同实现来生成标题。OpenAI 有一个最新的 GPT-3 达芬奇模型,它做得非常好,但是你必须注册他们的测试项目才能使用它。还有来自 EleutherAI 的开源 GPT-尼奥模型。模型小了很多,但是可以免费使用。
GPT-3 达芬奇
OpenAI 的 GPT-3 达芬奇是目前最大的自然语言处理人工智能模型[4]。我正在使用他们最新的“零射击”风格的提示和他们新的达芬奇指导模型。你可以直接问模型做什么,而不是提供你要求模型做什么的例子。
下面是为苹果派图片创建标题的提示。
Create a funny caption for a new meme about apple pie. The background picture is Simple and easy apple pie served with vanilla ice cream, on a gingham tablecloth in Lysekil, Sweden.
我将提示和一些附加参数一起传递到 OpenAI 的调用中。这是 Python 代码。
import openai
response = openai.Completion.create(
engine="davinci-instruct-beta",
prompt=prompt,
max_tokens=64,
temperature=0.7,
top_p=0.5,
frequency_penalty=0.5,
presence_penalty=0.5,
best_of=1)
max_token 参数表示响应应该持续多长时间。温度和 top_p 参数是相似的,因为它们指示响应中的变化量。 frequency_penalty 和 presence_penalty 也是类似的,因为它们控制响应中出现新偏差和新主题的频率。如果你想知道所有这些参数的作用,可以看看我上个月的文章,这里是。
在我展示 GPT-3 输出的例子之前,这里是 OpenAI 建议我展示的法律免责声明,这都是真的。
作者使用 OpenAI 的大规模语言生成模型 GPT-3 生成了以下文本。在生成草稿语言后,作者根据自己的喜好审阅和修改语言,并对本出版物的内容承担最终责任。
运行代码 10 次将产生以下结果,总成本为 0.03 美元。请注意,我将文本格式化为大写。
1: THIS IS THE PERFECT WAY TO END A DAY OF APPLE PICKING
2: NO, IT'S NOT THAT EASY
3: I'LL TAKE THE ONE WITH THE VANILLA ICE CREAM, PLEASE
4: APPLE PIE IS THE BEST!
5: THIS APPLE PIE IS SO GOOD, I CAN'T EVEN!
6: YOU'RE NOT THE ONLY ONE WHO LOVES APPLE PIE
7: IF YOU CAN'T FIND THE RECIPE, JUST GOOGLE IT
8: THE PIE IS GOOD, BUT IT'S NOT AS GOOD AS MY MOM'S
9: I'LL HAVE A SLICE OF THAT APPLE PIE, PLEASE
10: WE'RE GOING TO NEED A BIGGER PIE
好的,这些很不错。我学到的一件事是 **GTP-3 达芬奇可以很有趣!**例如,标题 2 似乎指的是“易如反掌”的习语。
请注意,GPT-3,像所有在大型文本语料库上训练的人工智能模型一样,将反映社会偏见。有时,系统会产生不适当或冒犯性的文本。OpenAI 有一个特性,用三个警告级别之一来标记生成的文本:0 -文本是安全的,1 -文本是敏感的,或者 2 -文本是不安全的。我的代码将为任何被标记为敏感或不安全的标题显示警告。
GPT-尼奥
GPT-尼奥是一个变形金刚模型,主要由 GitHub 上的 sdtblck 和 leogao2 开发人员创建。该项目是“使用 mesh-tensorflow 库的 GPT-2 和 GPT-3 风格模型”的实施[5]。到目前为止,他们的系统是 OpenAI 的 GPT-3 Ada 的大小,这是他们最小的模型。但是 GPT-尼奥是免费的。我用拥抱脸变形金刚[14]接口从我的 Python 代码访问 GPT-尼奥。
由于 get 尼奥没有他们预训练模型的“指导”版本,我不得不写一个“少数镜头”提示,以便让系统使用示例为迷因生成字幕。这是我用灾难女孩和暴躁猫迷因写的提示,并附有示例说明。
Create a funny caption for a meme.Theme: disaster girl
Image description: A picture of a girl looking at us as her house burns down
Caption: There was a spider. It's gone now.Theme: grumpy cat
Image description: A face of a cat who looks unhappy
Caption: I don't like Mondays.Theme: apple pie.
Image description: Simple and easy apple pie served with vanilla ice cream, on a gingham tablecloth in Lysekil, Sweden.
Caption:
在将温度参数设置为 0.7 并将 top_p 设置为 1.0 之后,我将提示信息传递给 GPT-尼欧以生成新的标题。下面是生成标题的代码。
from transformers import pipeline, AutoTokenizer
generator = pipeline('text-generation',
device=0,
model='EleutherAI/gpt-neo-2.7B')
results = generator(prompt,
do_sample=True,
min_length=50,
max_length=150,
temperature=0.7,
top_p=1.0,
pad_token_id=gpt_neo_tokenizer.eos_token_id)
这是样本结果。
1: I LOVE APPLE PIE
2: I CAN'T. I'M NOT ALLOWED
3: I LOVE THE SIMPLICITY OF AN APPLE PIE
4: APPLE PIE. THE ONLY THING BETTER THAN THIS IS A HOT BATH
5: I'M A PIE. YOU'RE A PIE
6: I LOVE PIE, AND THIS IS A GOOD ONE
7: I LOVE APPLES, BUT I'M NOT VERY GOOD AT BAKING
8: THE PIE IS DELICIOUS, BUT THE ICE CREAM IS NOT
9: I LOVE APPLE PIE. IT'S THE BEST
10: THE BEST FOOD IS WHEN YOU CAN TASTE THE DIFFERENCE BETWEEN THE FOOD AND THE TABLECLOTH
嗯。这些没有 GPT-3 的字幕好。大部分都挺简单的,不怎么搞笑。第十条简直荒谬。但是 4 号好像还可以。让我们用这个作为我们的标题。
最后一步是通过将标题写入背景图片来构成迷因。
由 AI-Memer 创建的 Meme,由 John Nuttall 创建的图片,由 OpenAI GPT-3 提供的标题,许可:CC BY-SA 4.0
排版迷因
给迷因添加说明相当简单。大多数迷因都是由杰弗里·李在 1965 年设计的 Impact 字体组成的。对于 AI-Memer,我使用了 Emmanuel Pire 的一些代码来将标题定位和渲染到背景图像中[16]。我让用户选择调整字体的大小,并把标题放在图片的顶部或底部。
这是我们的两个迷因。左边的说明是由 GPT 3 号生成的,右边的说明是由 GPT 近地天体生成的。
艾-梅梅尔的迷因,w .卡特的图像,奥本艾·GPT-3(左)和艾勒瑟雷·GPT-尼欧(右)的字幕,许可:CC BY-SA 4.0
你可以使用谷歌实验室创建自己的迷因。
由 AI-Memer 制作的 Meme,由 Yannick Vernet 制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
讨论
通过这个项目,我了解到大规模语言生成模型可以为给定图像描述的迷因创建良好的标题。尽管许多生成的标题很简单,但偶尔也会非常巧妙和有趣。特别是 GPT-3 达芬奇模型,似乎经常创造出聪明的模因,显示出对语言的掌握和对文化历史的深刻理解。
由 AI-Memer 制作的 Meme,由 Russ Neumeier 制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
后续步骤
虽然成绩还算不错,但肯定还有提升的空间。例如,背景图片的选择似乎有些有限,尤其是流行文化。这可能是因为我将搜索限制为仅使用免费许可的照片。我不知道美国法院是否已经权衡了迷因中的背景图片是否可以被视为合理使用,所以我将把这个问题留给律师。
EleutherAI 的 GPT-尼奥背后的开发人员正在继续建立和训练更大的语言模型。他们的下一个模型叫做 GPT-尼欧克斯。他们说他们的“主要目标是训练一个等同于全尺寸 GPT-3 的模型,并在开放许可下提供给公众。”[17]
不要忘记在下面的附录中查看更多生成的模因。
迷因由 AI-Memer 提供,图片由 N/A 提供,标题由 OpenAI GPT-3 提供,许可:CC BY-SA 4.0
源代码
这个项目的所有源代码都可以在 GitHub 上获得。你可以使用这个 Google Colab 来试验代码。我在 CC BY-SA 许可下发布了源代码。
归属共享相似
如果你用 AI-Memer 创建了任何 meme 并发布到网上,请提及该项目并添加这篇文章的链接。
由 AI-Memer 制作的 Meme,由 Sean Finn 制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
感谢
我要感谢詹尼弗·林和奥利弗·斯特里普尔对这个项目的帮助。
参考
维基共享资源(2004 年至今)
[2] 打开图像 (2020)
[3] A .拉德福德,J. W .金,c .哈拉西,a .拉梅什,g .高,s .阿加瓦尔,g .萨斯特里,a .阿斯克尔,p .米什金,j .克拉克等人,从自然语言监督中学习可转移视觉模型 (2021)
[4] T. B. Brown,B. Mann,N. Ryder,M. Subbiah,J. Kaplan,P. Dhariwal,A.Neelakantan,等人语言模型是很少出手的学习者 (2020)
[5]伊莱瑟雷,GPT-尼奥 (2020)
维基百科(2004 年至今)
[7] R .道金斯,自私的基因 (2016),牛津大学出版社
[8] L. K .博尔泽伊,《让一个迷因代替》(2013),《琳达·博尔泽伊作品选》
[9] D. Wenzlau,用 Keras & Tensorflow (2019)中的深度卷积网络生成迷因文本,走向数据科学
[10]戈德史密斯,维基百科 API (2014)
[11] M. Manske,维基共享 API (2020 年)
[12] J. Pont-Tuset,J. Uijlings,S. Changpinyo,R. Soricut 和 V. Ferrari,将视觉和语言与本地化叙事联系起来 (2020) ECCV(聚光灯)
[13] OpenImages 下载 API (2018)
[14] 拥抱脸变形金刚 (2019)
[15] P .麦克尼尔,类型的视觉史(2017),劳伦斯·金,第 372–373 页
[16] E. Pire,用 Python 为迷因加标题 (2017)
[17]刺五加,GPT-尼奥克斯 (2021)
附录
这里还有一些由 AI-Memer 生成的迷因。
由 AI-Memer 制作的 Meme,由 Chasselat 制作的图片,由 OpenAI GPT-3 制作的标题,许可:CC BY-SA 4.0
图片由艾·梅梅尔提供,图片由伊丽塔·克斯布卢马提供,文字说明由伊莱瑟雷 Irita 尼欧提供,许可:CC BY-SA 4.0
由 AI-Memer 制作的 Meme,由 JJ·哈里逊制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
由 AI-Memer 创建的 Meme,由 NASA 创建的图片,由 OpenAI GPT-3 提供的说明,许可:CC BY-SA 4.0
由 AI-Memer 制作的 Meme,由 Peder sever in kryer 制作的图片,由 OpenAI GPT-3 制作的说明,许可:CC BY-SA 4.0
Meme 由 AI-Memer 提供,图片由 Atelier Nadar 提供,说明由 OpenAI GPT-3 提供,许可:CC BY-SA 4.0
为了无限制地访问 Medium 上的所有文章,成为会员,每月支付 5 美元。非会员每月只能看三个锁定的故事。
AI/ML 模型验证框架
这不仅仅是一个简单的 MRM 问题
来源:凯文·Ku 在 Unsplash 上拍摄的照片
模型风险管理(MRM)是任何金融机构评估模型风险的标准做法。然而,在分析领域,从早期的主流模型/方法到尖端的人工智能/机器学习(AI/ML)技术,存在着范式转变。随着分析领域的进步,MRM 政策/框架也需要升级,以确保 AI/ML 方法产生的任何增量风险都能够被很好地捕捉、突出和减轻。
本文讨论了一个用于验证 AI/ML 模型的健壮框架。在我们深入研究该框架之前,有必要讨论两个关键方面:
**A)**AI/ML 解决方案风险分层:
为了使人工智能/洗钱值得信赖,相关产品/解决方案的风险分级至关重要。这尤其有助于量化解决方案的任何潜在危害。最近,欧盟委员会也提出了一套关于风险分层的指导方针。根据业内既定标准,人工智能/人工智能解决方案的相关风险分类如下:
图片来自作者
B) 偏向&公平
在深度学习中,偏差&公平性从数据分析和建模方法的角度来看都是重要的考虑因素。这两者都可能带来可怕的后果。从数据的角度来看,由于经验偏度,偏度可能存在。例如,如果我们在谷歌中搜索“护士”,它会更突出某一特定性别。同样,某些种族/肤色的信用评分也可能有偏差。从建模的角度来看,深度学习模型总是倾向于过度拟合数据,从而产生偏见。
不幸的是,让验证者沮丧的是,偏见和公平没有标准的定义。当从模型中得出的决策可能影响个人或公司时,偏见和公平就成了问题。为了解决这些问题:
a)验证者应该谨慎地评估变量,并指出是否存在任何与变量相关的问题。敏感变量(如年龄、性别、宗教、职业等。)应该从数据或建模中排除,如果不是非常必要的话。
b)验证人员应根据上述风险等级适当审查偏差和公平性。高风险模型可能有很高的偏见和公平性问题。
c)验证者需要定义一些标准的技术或实践来识别和解决这个问题。例如, datarobot 提供了自动识别偏差的选项。
给定上下文,让我们深入研究 AI/ML 模型验证框架。该框架可分为以下几个方面:
图片来自作者
1) 数据适当性
AI/ML 模型的训练通常需要海量的数据,这些数据也可能是非结构化的。这将保证确保:
a.保护 PII 或任何个人数据。此外,还应考虑数据的收集和处理过程。
b.测试数据的完整性和适当性,以便将其用于正确的目的和正确的方式。
c.预处理,如果有的话(如变换、归一化、缺失值计算等。)应用于训练和测试数据。
d.通过审查时间段、来源、分布来评估数据的完整性,并在需要时访问标签的定义
e.不存在上面提到的偏见&公平问题
2) 方法论和模型测试
与传统模型不同,AI/ML 模型通常是黑盒。因此,测试模型参数、输出和对输入的敏感性变得具有挑战性。为了确保模型提供预期的结果并在一段时间内保持稳定,验证者需要:
a.理解方法的目标以及业务需求
b.查看超参数以调整模型:
一、矢量化技术 (Word2Vec,Glove,FastText,One-hot-encoding) ,
二。优化功能*(梯度下降、SGD、MiniBatch、Adam)*
三。激活功能 (Sigmoid,Tanh,ReLU)
四。损失函数 (MSE,交叉熵损失,铰链损失)
动词 (verb 的缩写)层数
不及物动词批量
七。退学率
八。汇集方法*(最大值,平均值)*
c.确保超参数与模型的目的和用途一致。
d.评估性能指标如误报、精度、召回是否根据业务需求正确定义。
e.通过计算量更大的方法评估模型准确性和稳定性,如使用不同的数据子集重新执行模型、k 重交叉验证、留一交叉验证(LOOCV)、嵌套交叉验证。
f.确保敏感度分析已经彻底执行,通过该分析可以测量每个特性的影响。还有更高级的全局可解释性方法,如部分相关图(PDP),它允许通过可视化预测响应与一个或多个特征之间的平均部分关系来找出趋势。
g.一旦敏感性被捕获,评估场景的可能性及其影响。为了确保模型能够容忍任何极端场景或噪音,需要进行场景分析。
h.评估标杆或挑战者模型,并与最终模型进行比较。
I .确保自适应或持续学习的计划到位(如有),以便模型能够从新数据中学习。
j.评估任何预培训模型的使用(如 Glove、FastText、ResNet 等。)根据手头的数据和问题谨慎处理。
3) 概念的合理性和可解释性
与传统技术相比,AI/ML 技术仍然没有被监管者或从业者广泛接受。这主要是由于它的黑盒性质,这使得它很难建立关于手边的建模或业务上下文的可解释性和适用性。
为了度量黑盒模型的透明性、可解释性和特征重要性,https://github.com/slundberg/shapLIME或可解释的 Boosting Machines(EBM)被高度使用,它们是模型不可知的,并且也为模型提供了交互项。验证者需要确保这种类型的分析已经被执行,并且分析的结论与业务问题一致。
****4)模型实现和模型安全
一旦模型被开发出来,一个关键的重要步骤就是在生产环境中实现模型,无论是在服务器上还是在云上,比如 Azure 或 GCP。在这一步中,验证者需要仔细评估模型实现计划的准备和设计。验证者还需要评估应用程序(包括库、模块和配置)是否适合实现,同时考虑未来版本的潜在影响。在这种情况下, Docker/Kubernetes 通过使用容器使得创建、部署和运行应用程序变得更加容易。
除了实现之外,还有关于模型安全的观点,如对抗性攻击、模型盗窃等。很可能是在这个验证框架中设计的。就此而言,在定义解决方案的透明度时,风险分层(前面提到过)应该是一个重要的考虑因素。
5) 模型文档和版本控制
文档应该是自解释的和足够广泛的,以便它允许验证器复制模型。
文件应描述开发数据提取和预处理、模型理论和设计、开发方法和模型性能,包括 challenger 模型,以及适当的模型文件指南。它应适当提及假设、弱点和限制,提供对其影响的估计,并记录相关模型风险的缓解措施。最后,代码应该有足够的注释,并有关于功能的简要说明,还应该保持版本控制。
6) 持续监控和治理
验证人员应该评估监控计划,以确保范围、目标、涉众、角色和职责等组成部分都被很好地涵盖。此外,还应评估定期回访或重新校准的频率和时间间隔。管理机构的有效监督将确保管理层了解所有相关的模型风险。
结论
随着各行业在采用新的人工智能/人工智能制度方面不断改进,MRM 框架需要变得比以前更加强大和全面。验证者需要评估文章中强调的所有关键维度的模型。
免责声明:本文中表达的观点是作者以个人身份发表的意见,而非其雇主的意见
参考文献:
https://EC . Europa . eu/commission/press corner/detail/en/IP _ 21 _ 1682
https://www . data robot . com/blog/introducing-data robot-bias-and-failure-testing/
https://christophm . github . io/interpretable-ml-book/lime . html
https://github.com/slundberg/shap
https://towards data science . com/understanding-bias-and-failure-in-ai-systems-6f 7 fbfe 267 f 3