TowardsDataScience 博客中文翻译 2020（九十二）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

研究发现，人工智能现在比你的医生更好地诊断疾病

原文：https://towardsdatascience.com/ai-diagnoses-disease-better-than-your-doctor-study-finds-a5cc0ffbf32?source=collection_archive---------14-----------------------

同行评议的研究表明，你很快会咨询机器人医生的第二意见

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: upklyak

电子战研究发现，因果机器学习模型不仅比以前基于人工智能的症状检查器更准确，而且在许多情况下，现在可以超过人类医生的诊断准确性。这主要是由于所使用的方法，这些方法允许在诊断中有更多的“创新”,甚至对更复杂的患者疾病有更高的准确性。

在由来自巴比伦健康和伦敦大学学院的研究人员撰写的同行评审研究中，当任务是诊断真实疾病的书面测试案例时，新模型的得分高于 72%的全科医生。

该报告称，到目前为止，尽管进行了大量的研究工作，诊断算法仍难以达到医生的诊断准确性。这是因为机器学习算法试图遵循与医生在症状检查中相同的过程。但是，如果我们让机器去执行哪怕是最不可能的计算——它们的诊断准确率会比人类高。

通过不遵循与人类诊断相关的更传统和可预测的模式，使用反事实方法的新因果机器学习算法可以自由地运用所有可能性。这是夏洛克·福尔摩斯在诊断中可能尝试的方法:“当你排除了不可能，剩下的，不管多么不可能，一定是真相”

反事实机器学习算法在定义“如果”时并不局限于人类的极限场景。

在实验中，医生的平均诊断准确率为 71.40%，而标准关联算法的准确率为 72.52%，是研究中排名前 48%的医生。

但新的反事实算法以 77.26%的平均准确率击败了他们两人，使其成为前 25%的医生，并实现了“专家临床准确性”。对于罕见疾病，这些改善甚至更加明显，因为这些疾病的诊断错误更常见，也往往更严重。

现在，机器比人更有“创造力”

有人可能会认为，由于无限的存储、即时的历史回忆、对数据的访问和计算速度，机器学习比人类医疗从业者更熟练。然而，在这项研究中，反事实的机器学习算法取得了成功，因为它们比医生更具“想象力”。

本质上，反事实机器学习算法并不局限于人类在定义“如果”时的限制场景。“我们让一个人工智能拥有强大的算法，并赋予它想象交替现实的能力，并考虑‘如果这是一种不同的疾病，这种症状会出现吗’？这使得人工智能能够区分病人疾病的潜在原因，并比超过 70%的医生得分更高，”巴比伦健康科学家兼该研究的主要作者乔纳森·里奇斯博士说。

这与典型的人类医生诊断形成对比，在典型的人类医生诊断中，医生“旨在通过确定引起症状的疾病来解释患者的症状。”现有的机器学习算法效仿关联诊断——换句话说，识别与患者症状密切相关的疾病。该研究指出，包括贝叶斯模型和深度学习在内的这些算法基于关联推理(与患者症状和病史的相关程度)来识别疾病。

然而，这项研究中的研究人员将诊断重新定义为“将因果关系与病人的症状分开”像夏洛克一样，反事实可以测试如果某些前提条件不同，特定的结果会发生在哪里。该算法删除了症状的所有可能原因(疾病和外部因素)，然后隔离出唯一可能的原因。

根据这项研究，反事实可以量化疾病假说解释症状证据的程度，方法是确定如果有可能干预和治愈疾病，症状就不会出现的可能性。这个排除过程，不管多么不可能，都会导致更有创造性，更重要的是，更准确的诊断。

为什么它很重要

初级保健医生的诊断错误是一个全球性的挑战。根据另一项关于初级保健失误的研究，仅在美国，每年就有 5%的门诊病人接受错误的诊断。对于病情严重的患者，其中 20%被初级保健医生误诊。其中，三分之一的误诊导致了病人的伤害。

另外，医生超负荷工作，供不应求。据美国医学院协会称，到 2033 年，美国将面临 54000 到 139000 名医生的短缺。其中，随着越来越多的美国人接受门诊治疗，将需要多达 55，200 名初级保健医生。虽然今年 6 月发布，但 AAMC 分析是在 2019 年进行的-在冠状病毒袭击之前。因此，预计的缺口可能会更大。

在全球范围内，对医疗保健可及性的关注是最重要的。“世界上有一半的人几乎享受不到医疗保健，”Babylon 首席执行官兼创始人 Ali Parsa 博士说“人工智能将成为一个重要的工具，帮助我们所有人结束医疗保健分配不均的不公平现象，让地球上的每个人都更容易获得和负担得起。”

这项研究

在这项研究中，20 名全科医生创建了 1671 个名为 vignettes 的现实书面医疗案例，其中包括 350 多种疾病的典型和非典型症状。这些小插图模拟了一种疾病的典型表现，可能包括病史、症状和人口统计信息，如年龄和性别。为了模拟真实世界的条件，该列表并不详尽。

每个短片都由一名医生创作，并由其他几名医生验证是否“真实”。每个医生都有资格至少达到全科医生的水平，或相当于委员会认证的初级保健医生。

经过验证后，44 名全科医生(一个单独的小组)每个人都提供了至少 50 例(平均 159 例)进行评估。然后，通过在诊断简介中包含实际疾病的患者比例来衡量它们的准确性。

两个版本的人工智能被用于与全科医生进行比较——一个基于当前标准的算法使用相关性，以及新的反事实因果模型。

结果呢

医生的准确率在 50–90%之间，平均得分为 71.40%。旧的相关算法的表现与普通医生相当，达到 72.52%，位于前 48%的医生中。

新的反事实算法实现了 77.26%的准确率，高于医生的 32，等于 1，低于 11。这一分数使其在人类群体中排名前 25%，根据该研究，“达到了专家临床准确性。”

对于包括罕见疾病、复杂病例或混杂因素在内的较难的小插曲，反事实算法继续表现出色。在这些情况下，与关联算法相比，该算法为 29.2%的罕见疾病和 32.9%的非常罕见疾病提供了更好的诊断。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医生与算法患者诊断准确性(来源数据:Richens，J.G .，Lee，C.M. & Johri，S. 利用因果机器学习提高医疗诊断的准确性

上图用图形表示了算法与医生准确度的关系。线上的蓝色点对应于比算法实现的准确度低的医生，线下的绿色点显示医生比模型更准确的地方。红点指出了医生和机器学习算法达到相同精度的地方。

该研究进一步证明，更简单的医疗案例集导致更高的医生准确性分数，而更复杂的插图导致更高的机器学习分数。

第二种意见，问 Bot 医生？

医生担心被机器取代吗？一位参与这项研究的全科医生说，还没有。“我很兴奋有一天这个人工智能可以帮助我和其他医生减少误诊，腾出我们的时间，帮助我们专注于最需要护理的病人，”Tejal Patel 博士说。“我期待这种类型的工具成为标准，帮助我们增强我们的工作。”

该模型尚未用于商业应用，Parsa 承认，“这不应该被耸人听闻地称为机器取代医生，因为真正令人鼓舞的是，我们终于获得了允许我们提高现有医疗保健系统覆盖范围和生产力的工具。”所以这些工具可以用来增强混合场景，人加机器。

考虑到在这项研究中，医生倾向于在具有简单插图的病例集中实现比机器学习算法更高的准确性。相比之下，对于更复杂的场景，反事实算法比医生实现了更高的准确性。由于病例复杂性之间的反比关系，该研究表明，诊断算法是“对医生的补充，在医生错误更常见的情况下，该算法表现更好，反之亦然。”

这项研究甚至进一步假设:因果和反事实推理可以应用于医学诊断以外学科的机器学习方法吗？另一位研究作者、伦敦大学学院讲师 Ciaran Lee 博士认为是这样的。“这种方法有巨大的潜力来改善其他所有当前的症状检查器，但它也可以应用于医疗保健和其他领域的许多其他问题——这就是为什么因果人工智能如此令人印象深刻，它是普遍的，”Lee 说。

现有的机器学习算法已经开始接近或略微超过人类健康从业者的效率。现在，富有想象力的反事实分析进一步超过了健康从业者的准确性。研究人员指出，未来的实验可以专注于确定混合方法对提高患者诊断准确性的有效性。所以你的医生可能很快就会向机器人医生寻求第二种意见。研究作者假设，很可能“医生和算法的联合诊断比单独诊断更准确。”

人工智能驱动的零售:H&M 集团是如何做到的

原文：https://towardsdatascience.com/ai-driven-retail-how-h-m-group-does-it-c9606597f7bc?source=collection_archive---------20-----------------------

零售业中的人工智能:H&M 案例研究

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 exels.com的Ibrahim Boran 拍摄

时尚零售商越来越多地求助于人工智能(AI)来满足顾客的需求。人工智能驱动的零售使品牌能够在 21 世纪的经济中竞争，并通过个性化的购物体验来满足现代客户的需求。

随着越来越多的零售公司将其业务从传统的实体零售店转向电子商务，他们能够更深入地了解客户的偏好，以满足需求。

谈论零售中的人工智能将我们带到了时尚行业最受欢迎的品牌之一——H & m。

H&M 集团和他们人工智能驱动的故事

H&M 集团一直在人工智能方面进行大量投资，以保持在时尚周期的顶端，并支持其大规模增长。

自 1947 年成立以来，这家时装零售商一直在欧洲、美国和全球范围内快速扩张。早在 1998 年，他们就开始在网上销售。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 H & M 组拍摄

仅在 2004 年，H&M 就拥有 1000 多家店铺，这一数字呈指数级增长，在全球 72 个国家拥有近 5000 家店铺。截至今天，这家零售巨头雇佣了 177，000 名员工，并为其供应商雇佣的员工提供了 160 万个工作岗位。

但是，一个品牌经理如何保持这种增长，跨越不同的国家、市场甚至大洲？他们如何确保满足如此庞大的购物需求和期望各异的顾客群的需求？最重要的是，他们是如何管理全球数千家店铺的？

对所有这些问题都有答案的人是 H & M Group 的产品领域首席工程师 AI Foundation Errol Koolmeister。他在 2019 年 数据创新峰会 上的讲话中解释说，他们在 2016 年首次开始在业务中采用人工智能。数字化的影响是显而易见的，H & M 集团知道他们必须做些什么来保持相关性。“我们，作为一个公司，作为一个人，开始越来越多地上网”，Errol 描述道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

埃罗尔表示:“我们开始发现，拓展实体店的商业模式变得相当困难。”。显而易见的解决方案是，他们需要人工智能来维持增长。

人工智能驱动的零售的到来

意识到他们必须适应新的产业转移，H&M 集团问他们自己一个问题“作为一个公司，我们想去哪里？”这时，零售品牌意识到他们需要在人工智能和高级分析方面提升自己的水平。尽管他们在一些部门表现出色，比如 CRM，但他们知道他们还没有达到规模化。

这是他们开始进行第一次概念验证的时刻。埃罗尔解释说:“我们试图看看是否能从它们身上提取任何价值。幸运的是，H&M 集团挑选的用例是成功的，可以投入生产，使它们盈利。

“这一切都是为了快速行动，”他继续说道。埃罗尔表示:“如果我们在 2016 年只是说让我们做一个概念证明，然后就停止了，那就没有价值可言。”。不幸的是，90%的其他案例都是这样，他们只是做了概念验证，并没有继续生产。

视频由hyperlight AB——人工智能驱动的零售——埃罗尔·库尔迈斯特，H & MxAI

事实证明，H&M 集团的成功之处在于，他们在 2016 年就已经专注于生产。他们下定决心，如果他们要从人工智能开始，他们就要大干一场。Errol 强调说:“这实际上是从小处着手，大处着眼，快速扩展”。根据他的说法，在现实中，没有人工智能用例，它们都是商业案例。H&M 集团实际上使用人工智能来扩大他们的商业解决方案。

H&M 集团的用例有不同的成熟度等级。但不管情况如何，他们始终专注于生产。因此，他们有一个定义好的过程来实现用例:

概念验证(POC)——这并不需要很长时间就能实现，因为正如 Errol 解释的那样，他们已经有了自己的数据湖，随时可以使用。这使他们能够在几周内启动虚拟机并获得洞察力。如果 POC 成功，则进入下一阶段。
试点——H&M 集团在几个市场试点该解决方案，以测试理论是否符合现实。他们将该案例投入生产，进行测试并评估结果。如果试点成功，他们将推出解决方案。
工业化和推广—流程的最后一步是向所有 72 个国家、177，000 名员工和近 5，000 家商店推广该解决方案。考虑到用户的数量，解决方案必须非常可靠。

人工智能驱动的零售的真实 H&M 集团例子

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:人工摄影在 Unsplash

这里有一些由于实施人工智能解决方案而产生的具体例子。

保持流行商品的库存 — H & M 依赖于保持对潮流的领先才能获得成功。在算法的帮助下，他们分析商店收据和退货，以评估每个商店的购买情况。这样，时尚品牌就知道在某些地方应该促销和储备哪些商品。

预测市场需求——像 H & M 这样的时尚零售商依赖价格有竞争力的新鲜产品。数据洞察有助于 H & M 预测市场需求，这样他们就不必打折出售库存。

自动化仓库 —如今，客户期望随时随地获得快速、无障碍的交付。因此，H & M 集团投资了自动化仓库，最终将为大多数欧洲市场提供次日送达服务。这些仓库和它们的免费运输，只对忠诚的客户开放，是由算法和数据驱动的。

个性化的线下顾客体验 —借助 RFID 技术，H & M 也在其实体店推出了个性化的在线推荐。顾客获得由算法选择的店内商品建议。他们还可以查看他们在网上看到的商品在实体店中是否有售，并扫描标签以查看该商品在另一家商店或网上是否有售。

定制服装 — 这家瑞典时尚品牌与一个人工智能技术平台合作，测试了按需生产，这显示出更具体地响应客户愿望以及根据当地需求调整产品数量的巨大潜力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Artem Beliaikin 在 Unsplash 上的照片

H&M 集团的故事有什么启示？

在当今的数字化世界，单靠人力管理像 H&M 这样的全球零售品牌是不可能的。在人类能力终结的地方，人工智能开始了。以 H&M 集团人工智能驱动的零售为例，零售商可以通过在业务中实施人工智能来提高人类智能，从而受益匪浅:更准确的商品决策，简化的供应链和顶级的客户体验。这就是 H&M 集团所说的放大智能——机器和人类、科学和艺术、数据和直觉之间的合作。

本文原载于 Hyperight.com。

使用分析表进行人工智能对话

原文：https://towardsdatascience.com/ai-enabled-conversations-with-analytics-tables-66a10c9a3d05?source=collection_archive---------21-----------------------

理解大数据

将自然语言数据库查询转换为 SQL 代码的人工智能进展综述

作者 Gowtham R 和Sundeep Teki2020 年 11 月 1 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由卡斯帕·卡米尔·鲁宾Unsplash

1。简介

近年来，驱动不同行业及其系统的数据量呈指数级增长。大多数商业信息以关系数据库的形式存储，关系数据库存储、处理和检索数据。数据库为多个行业的信息系统提供支持，例如，消费技术(例如，订单、取消、退款)、供应链(例如，原材料、股票、供应商)、医疗保健(例如，医疗记录)、金融(例如，金融业务指标)、客户支持、搜索引擎等等。

现代数据驱动型公司必须跟踪其业务的实时状态，以便快速了解和诊断数据中出现的任何问题、趋势或异常，并立即采取纠正措施。这项工作通常由业务分析师手动执行，他们用 SQL 等声明性查询语言编写复杂的查询，以获得存储在多个表中的业务洞察力。这些结果通常以图表或图形的形式进行处理，以使领导团队能够快速可视化结果并促进数据驱动的决策制定。

尽管解决基本业务指标的最常见的 SQL 查询已被预定义并合并到像 PowerBi 这样的商业产品中，这些产品能够洞察业务指标，但是任何新的或后续的业务查询仍然需要由分析师手动编码。数据库查询和相应结果的消费之间的这种静态交互需要耗时的人工干预，并导致缓慢的反馈周期。让非技术业务领导通过抽象出底层 SQL 代码的自然语言查询直接与分析表进行交互，效率要高得多。

定义 SQL 查询需要对数据库模式、SQL 语法有很强的理解，对于初学者和非技术利益相关者来说很快就会变得不知所措。弥合这一沟通鸿沟的努力导致了一种新型处理的发展，这种处理被称为数据库自然语言接口。随着微软[1][2]、Salesforce [3][4]和其他公司正在开发自然语言(NL)到 SQL ( NL2SQL) 的类似技术，这种自然搜索功能近年来变得越来越流行。当答案可以在不同的数据库或表格中找到时，转换后的 SQL 还可以使 Alexa、Google Home 和其他虚拟助手改善他们的响应。本博客将回顾 NL2SQL 的挑战、评估方法、数据集、不同方法和一些最先进的深度学习方法。

图一。从 WikiSQL 数据集转换为 SQL 的 NL 查询示例(来源)

图二。涉及多个表的 NL2SQL 示例( source )

2.技术挑战

2.1 理解 NL 查询并将话语与图式对齐

系统必须理解用户的问题和表模式(列、表名和值)，才能将查询正确地映射到 SQL。这里的一个关键挑战是理解 DB 表的结构化模式(例如，列的名称、数据类型和存储值)以及输入查询和模式之间的对齐。例如，对于问题，哪个国家的 GDP 最大？，模型需要将 GDP 映射到国内生产总值列。有时这个问题可能还需要理解列的语义，而不仅仅是列名。

图 3。一些查询可能需要理解单元格值(源)

对于图 3 所示的表格和问题，用于回答示例问题的场馆栏指的是主办城市。因此，该模型需要将查询中的“city”与表中的 venue 列对齐。****

2.2 跨领域推广

图 4。跨域设置中可能出现的错误示例(来源

为不同的领域收集大量的训练数据是昂贵且不可扩展的。因此，训练系统以推广到不同的领域和数据库是很重要的。这种概括将涉及识别新的实体、在 SQL 查询中正确地映射看不见的短语和实体，以及处理新颖的数据库和查询结构(更大的表、SQL 组件的组合等)。)[5].

2.3 订单事项问题

解决 NL2SQL 任务的标准方法之一是使用 seq2seq (因为 NL 查询和 SQL 都是序列)模型及其变体。这种方法的一个问题是，由于交换和关联属性，不同的 SQL 查询可能彼此等价。

图 5。两种方式编写相同的 SQL 查询(来源

在上面的例子中，我们看到，即使交换了 WHERE 条件，也会产生相同的结果，但是从语法上看，两个查询是不同的。如果我们将前者作为基本事实，而 seq2seq 模型预测后者，那么它将受到惩罚。

3.数据集

表 1。NL2SQL 的一些表格数据集概述(来源)

NL2SQL 任务有几个数据集。这些包含带注释的 NL 问题，对应于一个或多个表的 SQL 对。这些数据集在域(单个域与跨域)大小(查询数量——这对于正确的模型评估至关重要)，以及查询复杂性(单表与多表)方面有所不同。****

像 ATIS、GeoQuery 这样的早期数据集关注于单个域，并且在查询数量方面也是有限的。一些最新的数据集，如 WikiSQL、Spider，是跨域的，并且与上下文无关，具有较大的规模。WikiSQL 和 Spider 的一个显著区别是查询的复杂性。WikiSQL 中的查询更简单(只包含 SELECT 和 WHERE 子句)。此外，WikiSQL 中的每个数据库只是一个简单的表，没有任何外键。Spider 包含适度数量的查询，并包含涉及表连接和嵌套查询的复杂问题。SParC[15]和 CoSQL[16]是 Spider 数据集的扩展，它们是为上下文跨域语义解析和会话对话文本到 SQL 系统而创建的。

4.评估方法

评估 NL2SQL 系统最常用的方法是执行精度和逻辑形式精度。

执行准确性将预测 SQL 查询执行后的结果与基本事实查询的结果进行比较。这种方法的一个缺点是，可能有一个不相关的 SQL 查询与问题不对应，但仍然给出了正确的答案(例如，NULL result)。

图 6。SQL 规范化示例(图片由作者提供)

逻辑形式准确性将预测 SQL 查询的精确字符串匹配与基本事实查询进行比较。这一指标的局限性在于，它会错误地惩罚那些在执行时产生正确结果，但与真实 SQL 查询没有精确字符串匹配的预测。解决排序问题的一种方法是在比较之前对 SQL 查询进行规范化。SQL 规范化是一种通过对 SELECT 中的列、FROM 中的表和 WHERE 约束进行排序以及标准化表别名、大写和符号间的间距来使计算保持一致的方法。

Spider [19]的作者使用组件匹配，它测量不同 SQL 组件(如 SELECT、WHERE、GROUP BY 等)上预测和真实情况之间的平均精确匹配。预测和基本事实被解析和分解成子组件，然后按组件计算它们的精确匹配。

例如，要评估选择组件:

选择 avg(col1)，max(col2)，min(col1) 分解为*集合(avg，min，col1)，(max，col2)*

然后将该集合与地面真实集合进行比较。

图 7。来自 Spider 数据集的样本问题按硬度分类(来源)

尽管这解决了排序问题，但它仍然没有考虑预测何时使用不同的逻辑(与基本事实 SQL 相比)来获得相同的结果。因此，为了进行彻底的评估，还应该使用执行精度。

[19]中的作者还根据 SQL 组件、选择和条件的数量，通过硬度 T10 对查询进行分类。这种分类非常有助于更深入地了解模型在查询复杂性方面的性能。

5.NL2SQL 的不同方法

图 8。NLIs 的分类和使用的 NLP 技术(来源)

5.1 基于规则的方法

大多数现有方法集中于结合歧义检测的自然语言的基于规则的解析器。一些基于规则的系统使用触发词来识别用户问题中的模式。例如，“by”是聚合查询中常用的词，如“列出由<导演>执导的电影”。这里，触发词的左侧可能有 SELECT 子句所需的关键字，右侧有 GROUP BY 子句所需的关键字。**

图 9。从国家表中匹配国家资本的简单模式(来源

尽管这种方法很简单，但它(如果规则是格式良好的)已经被证明可以处理非常广泛的查询类型。Siri 和 Cortana 等现代对话代理遵循类似的原则，尽管规则不是确定性的，而是基于训练的(意图的逻辑回归分类器)。

5.2 基于语法的系统

在基于语法的系统中，用户的问题被解析，得到的解析树被直接映射到 SQL 中的表达式。创建可以描述用户问题的可能句法结构的语法。

图 10。过于简单的语法(来源)

图中所示的过于简单的语法认为用户的问题由名词短语和动词短语组成；名词短语由一个限定词后跟名词组成，限定词由“什么”或“哪个”等词组成。

图 11。解析“哪种岩石含有镁？”后得到的解析树用上面的语法(来源)

这个语法可以用来分析一个问题，比如“哪种岩石含有镁？”然后将得到的解析树映射到 SQL。这种到 SQL 的映射将由规则执行，并且完全基于解析树的语法信息。

5.3 基于深度学习的方法

基于规则的方法在覆盖范围、可伸缩性和自然性方面受到限制。它们对自然语言的多样性也不够健壮，并且很难跨域扩展。大规模监督数据集的出现，如 WikiSQL、Spider 等。、自然语言处理的进展、预处理【20】等。已经使深度学习模型能够在 NL2SQL 任务中实现最先进的结果。**

几乎所有的深度学习模型都使用编码器-解码器【21】模型从自然语言输入中生成 SQL 查询。编码器可能是【22】/【24】或最近的变压器【25】网络。大多数模型的不同之处在于它们对模式的编码方式(表名、列名、单元格值等)。)以及它们如何产生 SQL 输出。

一些模型将模式作为其输出词汇表的一部分。换句话说，他们把所有的表名、列名等。，并在解码 SQL 输出时，从词汇表中选择这些单词。NSP[10]，DBPAL[18]是使用这种方法的一些方法。这种方法的一个主要限制是我们不能使它们适应跨域，因为它们不能在输入中编码新的模式。

图 12。Seq2SQL 模型的组件，将问题、列名和 SQL 标记作为输入(源)

相比之下，SEQ2SQL[3]等其他方法使用模式作为模型的输入，在解码时，使用指针网络【26】使用输入中提到的表或列名。例如，在 SEQ2SQL[3]中，作者使用了列名、问题标记和 SQL 标记，如 SELECT、WHERE、COUNT、MIN、MAX 等。作为输入。他们的指针网络通过专门从这个扩充的输入序列中选择来产生 SQL 查询。作者还声称，除了限制输出空间之外，这种增强的指针网络还产生了更高质量的 WHERE 子句。

图 13。指针网络示例(来源)

基于从自然语言输入生成 SQL 查询，存在三种类型的模型:序列到序列，序列到树，以及槽填充【23】。序列对序列模型将 SQL 生成为单词序列。序列到树模型生成预测 SQL 查询的语法树。槽填充方法将 SQL 查询视为一组槽，然后使用每个槽的相关解码器对整个问题进行解码。基于语法的解码器的一个优势是它们可以在每一步检查语法错误，产生带有连接、嵌套查询等的复杂查询。没有任何语法错误。

5.4 现代深度学习方法

现代深度学习方法使用更多技术来学习 NL 问题和表格中呈现的结构化信息的联合表示。他们使用各种基于注意力的架构进行问题/模式编码，使用基于 AST 的结构架构(序列到树)进行查询解码。IRNet [1]，RAT-SQL(当前 spider 中的 SOTA 方法)[2]使用BERT【21】(用于 NL 表示)以及内部策略对表中的结构化信息进行编码。相比之下，TaBERT[27]使用通用的预训练方法来学习自然语言句子和表格数据的表示。这些技术包括模式链接、更好的模式编码、使用 DB 内容(单元格值而不仅仅是列名和表名)、问题和模式表示的上下文化。

5.4.1 模式链接

图 14。RAT-SQL 中的模式链接(问题到列和表的链接)(源)

这包括将问题中的实体引用与正确的模式列或表对齐。文本匹配是问题-模式对齐的最佳证据，它可能直接有利于编码器。链接一般是通过 IRNet 和 RAT-SQL 中的字符串匹配来完成的。问题中的 n 元语法(长度最大为 5 或 6)用于匹配模式中的列名或表名(包括完全匹配和部分匹配)。链接后，IRNet 用相应实体的类型(表名/列名等)标记问题中提到的每个实体。)一边编码。基于 n 元语法与问题单词的重叠，列名也被分配了精确匹配和部分匹配类型。另一方面，RAT-SQL 用问题单词和列/表名作为节点构建一个图，边是问题-列-M、问题-表-M 等。，其中 M 是 EXACTMATCH、PARTIALMATCH 或 NOMATCH 之一。

图 15。IRNet 中的模式链接(源

基于价值的链接

自然语言问题也可以提到值(如“对于 4 缸汽车，哪种型号的马力最大”中的“4”)，它将作为某个表中的单元格值出现。IRNet 在知识库中查找问题中提到的值，并在返回的结果中搜索部分或完全匹配的列名。根据匹配情况，为列名分配类型值完全匹配和值部分匹配。另一方面，如果问题单词作为一个值出现在列中，RAT-SQL 会在问题单词和列名之间添加一个边缘列值。

TaBERT 直接使用 DB 内容，而不是链接和使用列名。作者认为内容提供了关于列语义的更多细节，而不仅仅是列名、，后者可能有歧义。他们选择一个内容快照，该快照仅包含几行根据字符串匹配(n-gram 重叠)与 NL 问题最相关的内容。****

模式编码

图 16。具有多个表格的示例图表模式(源

这包括对数据库中的关系结构进行编码。在具有多表关系的数据库中(对主键、外键等进行编码)，这更具挑战性。是必不可少的)。IRNet 对列和表进行编码，以获得列和行的表示。这些列由列名及其类型表示，它们是通过模式链接定义的。最终的表示是通过添加列名嵌入、上下文嵌入(基于问题中匹配的 n 元语法)和类型嵌入来创建的。

图 17。RAT-SQL 模式图中的边类型(来源

RAT-SQL 将模式表示为以列和表为节点的有向图。这些边由上图中详述的数据库关系定义。

5.4.4 问题和模式表示的上下文化:

这有助于学习有效的联合表达。RAT-SQL 通过在问题词和模式链接后定义的模式实体之间添加边来扩充模式图。他们引入了一个关系感知自我关注【25】层来使用输入中的关系结构，并学习序列元素之间的“软”关系。它们通过提供一种交流已知关系(如主键、外键等)的方式来做到这一点。在边缘标签中定义)的方法。

图 18。 rij 对已知的关系进行编码，并添加到自我关注方程中(来源)

6.结论和未来趋势

图 19。整合人类反馈以改进 NL2SQL 系统的示例(来源)

在这篇博客中，我们回顾了 NL2SQL 的最新发展水平——问题陈述、挑战、此类系统的评估以及解决该任务的现代机器学习技术。最近的工作还集中在改善用户在使用这种系统时的体验。Photon [4]是一个灵活的系统，支持 NL 问题和 SQL 输入。它还有一个困惑检测模块，可以检测无法回答的问题，并帮助用户解释一个问题以获得正确的答案。[28]中的作者还表明，纳入人类反馈可以进一步提高这些系统的准确性和用户体验(见图 19)。

图 20。展示 NL2SQL 系统可解释性的示例(来源)

尽管现代 NL2SQL 技术在基准测试集上取得了良好的准确性，但它们在生产环境中仍远未表现出稳健的性能。在商业决策的背景下，培养和建立用户对这种系统的信任对于实现可靠的性能是至关重要的。NL2SQL 方法有可能显著提高人类分析师的效率，因此他们可以将更多的时间集中在结果的上下文解释和验证上。现代端到端深度学习系统的输出缺乏可解释性，尽管有关于人工智能系统如何在引擎盖下工作的重要研究，但将人纳入环中以提供反馈并提高预测能力将加速 NL2SQL 系统在现代数据驱动的组织中的采用和使用。

7.参考

[1]郭，，等.“跨域数据库中复杂文本到 sql 的中间表示研究”(2019) arXiv 预印本 arXiv:1905.08205

[2]王，白林等，“Rat-sql:文本到 sql 解析器的关系感知模式编码和链接”(2019) arXiv 预印本 arXiv:1911.04942

[3]钟、维克托、、熊和理查德·索彻。" Seq2sql:使用强化学习从自然语言生成结构化查询."(2017) arXiv 预印本 arXiv:1709.00103

[4]曾，吉川等，“光子:一个健壮的跨域文本到 SQL 系统”(2020) arXiv 预印本 arXiv:2007.15280

[5] Suhr，Alane 等人，“探索跨数据库语义解析的未探索的泛化挑战”(2020)计算语言学协会第 58 届年会会议录。

[6] Dahl，Deborah A .等人，“扩大 ATIS 任务的范围:ATIS-3 文集”(1994)人类语言技术:1994 年 3 月 8 日至 11 日在新泽西州普兰斯伯勒举行的研讨会会议录。

[7]唐、拉普昂和雷蒙德·穆尼。“在归纳逻辑编程中使用多子句构造函数进行语义分析.”(2001)欧洲机器学习会议。施普林格，柏林，海德堡，2001。

[8]唐、拉普昂和雷蒙德·穆尼。“数据库接口的自动构建:整合语义分析的统计和关系学习.”(2000)关于自然语言处理和超大规模语料库的经验方法的联合 SIGDAT 会议。

[9]李、费和 H. V .贾加迪什。“为关系数据库构建交互式自然语言界面.”(2014)VLDB 基金会会议录 8.1:73–84。

[10] Iyer，Srinivasan 等人，“从用户反馈中学习神经语义分析器”(2017) arXiv 预印本 arXiv:1704.08760

[11] Yaghmazadeh，Navid 等，“SQLizer:从自然语言中进行查询合成”(2017)美国计算机学会程序设计语言会议录 1。OOP SLA:1–26。

[12]钟、维克托、、熊和理查德·索赫尔。" Seq2sql:使用强化学习从自然语言生成结构化查询."(2017) arXiv 预印本 arXiv:1709.00103

[13] Finegan-Dollak，Catherine 等人，“改进文本到 sql 的评估方法”(2018) arXiv 预印本 arXiv:1806.09029

[14]俞，陶，等.“Spider:面向复杂跨领域语义分析和文本到 sql 转换的大规模人工标注数据集”(2018) arXiv 预印本 arXiv:1809.08887

[15]于，陶，等.“Sparc:跨领域上下文语义分析”(2019) arXiv 预印本 arXiv:1906.02285

[16]俞，陶等.Cosql:跨域自然语言数据库接口的对话式文本到 sql 的挑战.〉(2019) arXiv 预印本 arXiv:1909.05378

[17] Finegan-Dollak，Catherine 等人，“改进文本到 sql 的评估方法”(2018) arXiv 预印本 arXiv:1806.09029

[18] Basik，Fuat 等，“Dbpal:数据库的学习型 nl 接口”(2018)2018 年数据管理国际会议论文集

[19]俞，陶，等.“Spider:一个面向复杂跨领域语义解析和文本转 sql 任务的大规模人工标注数据集”(2018) arXiv 预印本 arXiv:1809.08887

[20] Devlin，Jacob 等，“Bert:用于语言理解的深度双向转换器的预训练”(2018) arXiv 预印本 arXiv:1810.04805

[21] Sutskever，Ilya，Oriol Vinyals 和 Quoc 诉 Le。“用神经网络进行序列对序列学习.”(2014)神经信息处理系统进展。

[22]罗纳德·威廉斯；杰弗里·辛顿；通过反向传播错误学习表征。(1986 年 10 月)《自然》。

[23] Kim，Hyeonji，等,“SQL 的自然语言:我们今天在哪里？."(2020)VLDB 基金会会议录 13.10:1737–1750。

[24] Hochreiter，Sepp 施密德胡伯，于尔根《长短期记忆》。神经计算。

[25]瓦斯瓦尼、阿希什等人，“你所需要的只是关注。”(2017)神经信息处理系统进展。

[26] Vinyals、Oriol、Meire Fortunato 和 Navdeep Jaitly。“指针网络”(2015)神经信息处理系统进展。

[27]尹，彭成等，“表格:联合理解文本和表格数据的预处理”(2020) arXiv 预印本 arXiv:2005.08314

28 埃尔戈哈里、艾哈迈德、萨加尔·侯赛尼和艾哈迈德·哈桑·阿瓦德拉。“与你的解析器对话:交互式文本到 SQL，带有自然语言反馈.”(2020) arXiv 预印本 arXiv:2005.02539

人工智能增强的阿波罗 16 号镜头让你登上 4K 的月球

原文：https://towardsdatascience.com/ai-enhanced-apollo-16-footage-puts-you-on-the-moon-in-4k-4ed7b39822fd?source=collection_archive---------43-----------------------

体验前所未有的月球

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

截图由荷兰蒸汽机器提供(YouTube)

人类最后一次在月球上行走是在 1972 年作为阿波罗 17 号任务的一部分在 T2。不言而喻，自那以后发生了很多变化。在技术领域，这近 50 年等同于不可思议的进步。

虽然美国宇航局的宇航员尽最大努力捕捉他们在月球上冒险的镜头，但当时的技术让他们失望了。幸运的是，现代人工智能(AI)技术可以扭转局面。

YouTube 频道荷兰蒸汽机器最近上传了阿波罗 16 号任务的增强镜头。它将观众放在任务月球车的乘客座位上，分辨率为 4K，每秒 60 帧。

昨日问题的现代解决方案

在 70 年代，高清摄像机的想法甚至都不存在，更不用说技术本身了。当阿波罗 16 号任务的宇航员访问月球时，他们用 16 毫米胶片以每秒 12 帧(fps)的速度拍摄了他们的视图。虽然它足以让观众对场景有一个大致的了解，但它并不出色。

YouTube 的创作者使用了一个名为 DAIN 的人工智能平台来放大这些镜头。虽然分辨率的提高很好，但最令人印象深刻的是该剪辑现在以每秒 60 帧的速度运行。这为月球车前往月球矮子环形山边缘的 4 号站创造了一幅平滑的图像。

运动平滑功能并不受欢迎。然而，如果做得好，就像在这个视频中一样，他们可以制作出更好的剪辑。人工智能的增强使月球车的镜头比原始版本更具沉浸感。

进一步增强其魅力的是，该剪辑与阿波罗任务的原始音频同步。倾听宇航员探索月球表面的声音既有趣又可爱。它以一种他们巨大的宇航服和达斯·维德式的呼吸噪音所没有的方式使他们人性化。

在现实中，这听起来像是一对德克萨斯的爸爸在一次随意的周日驾车旅行中叙旧，而不是两个训练有素的科学家在探索一个天体。人们几乎很容易忘记他们当时距离地球 239，000 英里。

人工智能助手

没有额外的镜头，就不可能真正提高视频的帧速率。然而，人工智能提供了一种解决方法。

本质上，DAIN 平台逐帧分析镜头，以确定哪些元素在每一帧之间移动。然后，AI 会根据它确定的以更高的 fps 拍摄的帧，在原始帧之间插入新帧。通过这样做，它可以将最初以 12 fps 拍摄的剪辑增强到 60 fps。

每秒包括更多的帧允许视频捕捉更多的运动而不显得跳动。事实证明，人工添加框架几乎同样有效。

不过，希望人类的下一次月球之旅不会依赖于低质量的镜头。当美国宇航局的宇航员通过 Artemis 计划返回月球时，他们可能会带着 4K 记录设备，这些设备将捕捉前所未见的镜头。也许他们甚至能够创造一个虚拟现实(VR)体验。

原载于 2020 年 7 月 9 日 https://www.theburnin.com。

人工智能伦理不存在

原文：https://towardsdatascience.com/ai-ethics-doesnt-exist-87803ee8fddc?source=collection_archive---------62-----------------------

意见

拿一片止痛药，这可能会变得复杂

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击这里查看更多有趣的图片

人工智能 (A.I)是革命还是战争？上帝还是宠物？锤子还是钉子？难道我们 真的还需要更多的比喻来形容吗？如今，人工智能决定了在社交媒体上向我们展示哪些信息，我们看到哪些广告，以及我们在线上和线下的报价。一个算法可以在技术上编写和分析书籍，在几乎所有可以想到的游戏中击败人类，制作电影，创作古典歌曲帮助魔术师表演更好的戏法。除了艺术，它还有可能鼓励更好的决策，做出医学诊断，甚至解决一些人类最紧迫的挑战。与刑事司法、零售、教育、招聘、医疗、银行、农业、运输、战争、保险、媒体……不胜枚举。

然而，我们经常忙于讨论人工智能是否能做某事的细节，以至于我们很少问自己是否应该设计它。

这就是伦理的用武之地。公司和政府都已经意识到 类固醇 的统计数据能够造成巨大伤害，并且正在研究各种方法来应对潜在的后果，而不影响他们的底线或战略地缘政治优势。他们提出了几十条“原则”，一条比一条更难执行，甚至无法就基本框架达成一致。讨论战争，自动化，大规模监控，威权至上；但是这些讨论不能在关键道德原则和红线达成一致之前进行。

因此，下面是围绕人工智能和伦理讨论的“快速”指南。它旨在帮助使对话民主化:我们不一定需要更聪明的人坐在桌子旁(我写的任何东西对专家来说都不是新闻，但是我们确实需要一张更大的桌子。或者更多的桌子。或者更多的座位。或者某种视频会议解决方案。

我讨厌隐喻。

伦理可以有许多不同的含义

在我们深入当代关于伦理的讨论之前，我们首先需要了解什么是伦理。伦理有一个非常简单的字典定义:“管理一个人的行为或进行一项活动的道德原则”。

在像我这样的反向投资者破坏所有人的乐趣之前，这大概是所有人能做到的极限了。你看，即使我们把规范伦理学(对伦理行为的研究)与其较弱的表亲元伦理学和应用伦理学分开，仍然没有一个关于什么是好/坏和/或错/对的定义。的确，好的可能是错的，坏的可能是对的。

为了更好地理解为什么人工智能伦理学的当前主张与道德原则没有什么关系，我们应该了解以下几个学派:

；TL；最大多数人的最大幸福是道德和立法的基础，也就是“目的证明手段的正当性”。近亲:功利主义。
义务论；TL；我们有责任总是做正确的事，即使这会产生负面的后果。“你避免让自己受苦的事，不要强加给别人” ( 爱比克泰德，又名，在哲学上有着最史诗般名字的家伙——也是一个斯多葛派)。近亲:康德主义。
享乐主义；TL；最大化自我满足是我们作为人能做的最好的事情。
道德直觉主义；TL；在没有诸如善或恶等其他概念的先验知识的情况下，知道什么是道德的是可能的。
实用主义；TL；道德在进化，规则应该考虑到这一点。
状态结果论；TL；任何对国家有利的事情都是道德的。
美德伦理；TL；美德是一种性格特征，源于通过知识对善与恶的区分。它与一个动作或一种感觉是分开的。近亲:斯多葛主义。

如果一个公司或政府告诉你它的道德原则，你有责任去挖掘并询问他们这些原则是基于哪个道德分支。在这些定义中可以找到很多信息。

问这个问题很重要，因为正如我们在下面看到的，机构喜欢使用伦理这个词，而实际上从来没有接近过任何类似于道德原则的东西(请参考这篇文章的标题进行常规的理智检查)。然而，好消息是知道很多关于道德的知识和行为合乎道德之间实际上没有关联。

“道德剧场”困扰着公司

公司的存在是为了奖励股东 。至少，这是过去 50 年来一直信奉的商业哲学。因此，公司没有动力去做“正确”或“好”的事情，除非他们的利润面临风险。从技术上来说，对他们来说最重要的是客户认为他们做得好/对。道德剧场的理念是，公司将尽一切努力表现出尽最大努力合乎道德，而不这样做，以防止消费者的反弹。做到这一点的一个完美方法是宣布宏大的、不具约束力的原则和规则，这些原则和规则与实际的道德规范没有任何联系，一旦出现任何挑战，就指向它们。

下面是一些大型人工智能公司定义的原则。这绝不是详尽无遗的(然而也是令人筋疲力尽的)，但是提供了一个对公司赞助的道德清洗的洞察。这些规则通常分为 4 类。

问责制/责任

"指定一名首席人工智能道德官员 " ( IBM )，"人工智能设计师和开发人员负责考虑人工智能的设计、开发、决策过程和结果* " ( IBM )，“对负责对人 " ( 谷歌)” AI 系统应该有算法 问责 " ( 微软)。***

为什么是 B-S :首先，就像下面的许多观点一样，这些都不是关于道德本身的，即使一些论文的标题中实际上有这个词。第二，没有任何地方写着高管应该对国家法律负责，让他们随心所欲。事实上，在人工智能中很少有法则存在，但这正是我们有伦理的真正原因；没有任何地方说明这些公司将根据什么标准承担责任。道义论？结果主义？在这一点上谁也说不准。

透明度

“不要隐藏你的 AI " ( IBM )，“解释你的 AI " ( IBM )，” AI 的设计应该让人类容易感知、察觉、理解其决策过程 " ( IBM )，” AI 系统应该是可以理解的 " ( 微软)。

为什么是 B-S :我不会在这里讲太多细节，因为这是技术性的多于理论性的(这里有一个快速指南)，但是 A.I 本质上是一个黑箱。为了实现完全透明，公司必须公开他们的部分代码，这一点已经被讨论过，但是遭到强烈反对。另一个解决方案来自于 GDPR 的“解释权”,集中于输入而不是输出。所述权利要求用户能够要求为他们做出的算法决策背后的数据。这是一个很好的想法，但在欧洲以外的任何地方都没有实施。

公平/偏见

“测试你的 AI 对于 的偏见 " ( IBM )，” AI 必须被设计成最小化的偏见并促进包容性的代表性"(IBM)；“避免制造或强化不公平的 偏见 " ( 谷歌)，” AI 系统应该公平对待所有人 " ( 微软)。****

为什么是 B-S:一个用来寻找数据模式的系统可能会找到错误的模式。这是人工智能偏见最简单的定义。这样的流行语有助于公司避开诸如性别歧视、种族主义或年龄歧视等棘手的话题。上帝禁止他们向自己提出尖锐的问题，或者对他们使用的数据集负责。我们完全有权利(义务)要求解决哪些偏见，以及如何解决。

数据和隐私

" AI 必须被设计成保护用户数据，并保留用户对访问和使用"(IBM)；"融入隐私 设计原则 " ( 谷歌)，"人工智能系统应该是安全的，并尊重 隐私 " ( 微软)。

为什么是 B-S: 如果他们真的在乎，他们早就实施欧洲标准了(GDPR 万岁)。他们没有。结案了。

在我读过的许多报告中，只有两次真正提到了道德:

"人工智能的设计应该符合你的用户群体的规范和价值观 " ( IBM ) " 我们不会在以下应用领域设计或部署人工智能:会造成或可能造成整体伤害的技术。如果存在重大的危害风险，我们将仅在我们认为益处大大超过风险的情况下进行，并将纳入适当的安全约束。”(谷歌)

这告诉我们，IBM 信奉实用主义(很公平)，而谷歌是结果主义公司。这很奇怪，因为“不作恶”，该公司的长期口号，在技术上是义务论。这样的二分法凸显了一个明显的疏忽:世界上最大的公司之一正在定义人工智能原则，这些原则可能会在社会上产生深远影响，同时又违背其内部文化。这听起来像是过度分析，直到你意识到 在过去的几个月里，谷歌内部因为这个原因发生了许多员工起义。

你可能已经注意到上面只提到了三家公司(谷歌、IBM、微软)。这是因为其他主要的人工智能公司还没有拿出任何值得挑剔的东西，而是选择投资于最终会影响政府的智库。这一点凸显了所有原则共有的一个重大缺陷:没有一个原则要求公司遵守可执行的规则。那么，为什么公司会为道德剧场而烦恼呢？如上所述，第一个原因确实是为了影响政府并引导对话朝着“正确”的方向发展(见下文公司和政府优先事项标准的相似之处)。其次，被客户和员工认为是有道德的很好，这样可以避免任何抵制。第三，或许也是最重要的一点，制定标准可以赚大钱:专利 x 普遍使用= $$$。

第二课:公司对道德知之甚少，没有动力去表明什么是好的或正确的。企业伦理是一个矛盾体。

因此，政府需要加快步伐，因为企业不太可能为了社会利益而放弃利润。

政府正在尽最大努力

有许多政府发布的白皮书，但它们要么含糊不清，要么不完整。此外，许多人从经济和地缘政治竞争的角度看待人工智能。一个明显的例外是在欧盟人工智能战略和愿景中明确强调道德和责任，特别是相对于美国和中国(这两个国家在道德上已经名誉扫地)。为了全面了解各国认为人工智能道德应该是什么样的，我将它们的原则分为 7 类，其中大部分都与上述对企业的分析非常相似。****

请注意，这仅仅是由比我更聪明、更有见识的人所写的数千页内容的(相关)过度简化。我强烈推荐阅读链接文档，因为它们提供了关于所列原则的深入信息。

问责制/责任

问责 按设计英国)；"那些对人工智能系统生命周期的不同阶段负责的应该是可识别的，并且 对人工智能系统的结果负责的(……)"(澳大利亚 ) " 所有人工智能系统必须是可审计的 " ( 挪威)；"国防部人员将行使适当水平的判断和谨慎，而剩余的 负责 人工智能能力的开发、部署和使用 " ( 美国国防部)；责任原则 ( 中国)；"机制应到位，以确保人工智能系统及其成果的 责任和问责(……)"(欧盟)；"开发、部署或操作人工智能系统的组织和个人应根据上述原则 " ( OECD ) " 负责其正常运作。设计和部署使用人工智能的人必须履行 责任 和透明********

对什么负责？！对谁？！这个问题是如何被如此系统地回避的？

透明度

"过程与结果透明度 原理 " ( 英国)；“应该有 透明度 和负责任的披露，以确保人们知道他们何时受到人工智能系统的重大影响，(……)”(澳洲)；" AI 型系统必须是 透明 " ( 挪威)；“国防部的人工智能能力将得到发展和部署，以便相关人员对该技术有适当的理解(……)”(美国国防部)；"数据、系统、AI 商业模式应该是 透明(……)"(EU)；“围绕人工智能系统应该有 透明度 和负责任的披露，以确保人们理解基于人工智能的结果，并能够挑战它们”(OECD)；“原则上，AI 系统必须是可解释的”(梵)。******

不如我们先强迫公司透露他们是否真的使用了人工智能技术？

公平/偏见

"歧视性非伤害原则 " ( 英国)；"人工智能系统应具有包容性和可访问性，不应涉及或导致对个人、社区或群体的 不公平"(澳洲)；"人工智能系统必须促进包容性、多样性和平等待遇 " ( 挪威)；"该部门将采取审慎的步骤，最大限度地减少人工智能能力中无意的偏差"(美国国防部)；“不公平 偏见 必须避免，因为它可能会产生多重负面影响，从弱势群体的边缘化，到偏见和歧视的加剧(……)”(欧盟)；“不制造或按照偏见 行事，从而维护公平和人的尊严” ( 梵蒂冈)。******

提醒一下，通过确保输入的数据代表现实，并且不反映现实中存在的偏见，可以避免偏见。

数据和隐私

" AI 系统应尊重和维护 隐私 权利和 数据保护 ，并确保 数据 " ( 澳大利亚)；" AI 必须把 隐私数据保护"(挪威)；"除了确保充分尊重 隐私和 数据保护 之外，还必须确保充分的数据治理机制，考虑到数据的质量和完整性，并确保对数据的合法访问 " ( 欧盟)；"人工智能系统必须安全地工作，并尊重用户的 隐私"(梵蒂冈)。****

哦，中国和美国不在名单上？酷，酷，酷…只是巧合，我确定。我相信这也是一个巧合，三个完全不同的组织提出了措辞非常相似的原则。

安全/保障/可靠性

"安全性 ，健壮性原则 " ( 英国)；"人工智能系统应该 可靠地 按照它们预定的目的 " ( 澳)；"基于 AI 的系统必须是 安全 和技术健壮 " ( 挪威)；"部门的 AI 能力将有明确的、定义良好的用途，而 安全，安全(…)“；“国防部将设计和工程人工智能能力，以实现其预期功能，同时拥有检测和避免意外后果的能力(……)”(美国国防部)；” AI 系统需要有弹性 安全(……)"(EU)；“人工智能系统必须以稳健、 安全、 和 安全、 【方式(……)运行，并应持续评估和管理”(OECD)；“人工智能系统必须能够可靠地工作”(梵)。******

说起来容易做起来难当一个简单的贴纸 就能让一个算法产生幻觉 。

利益相关方参与/社会公益

"利益相关者影响评估原则 " ( 英国)；"人工智能系统应该造福个人， 社会和环境 " ( 澳洲)；”艾必利 社会和环境”(挪威)；人类利益原则 ( 中国)；人工智能系统应该造福全人类，包括子孙后代。因此，必须确保它们是可持续的和环境友好的。“人工智能应该通过推动包容性增长、可持续发展和福祉来造福人类和地球”(OECD)；必须考虑到所有人的需要，这样每个人都能受益。

嘿，还记得 什么时候一个面部识别软件“能说出”你的性取向 吗？在俄罗斯？

权利

"人工智能系统应该尊重人类的 权利 、多样性以及个人的自主性 " ( 澳大利亚)；"当人工智能系统对个人、社区、团体或环境产生重大影响时，应该有一个及时的流程，允许人们质疑人工智能系统的使用或输出 " ( 澳洲)；"基于 AI 的解决方案必须尊重人类的自主性和控制力 " ( 挪威)；”权利 和责任【原则】 ( 华)；“人工智能系统应该赋予人类权力，允许他们做出明智的决定，并培养他们的基本权利。”(欧盟)；"人工智能系统的设计应尊重法治、人权、民主价值观和多样性，它们应包括适当的保障措施(……)以确保公平和公正的社会 " ( 经合组织)。******

嘿，还记得脸书给 65000 名俄罗斯用户贴上‘有意叛国’的标签吗？

五点分析

只有欧盟、挪威和澳大利亚处理所有 7 项原则；从某些国家忽略的内容中可以看出很多东西。这种缺乏共识的情况也令人担忧，因为一个实体在几个国际准则、其本国的国家政策以及公司和非营利组织的建议之间做出决定，最终可能会一事无成。
除了这 7 点之外，没有主要的风险投资，而且它们很少彼此偏离太远。这凸显了群体思维的一个非常真实的风险(这将有利于私营部门)。例如，没有任何地方提到 自决权 ，而人工智能很容易被用来以某种方式推动人(比如说，在选举期间)。
可耻的是没有红线:没有一个国家禁止自己使用某些人工智能，这些原则也没有法律约束力。仅供参考，强有力的监管是这样的:
讨论中完全没有技术定义。任何相关的KPI都可以衡量这些原则。谁在乎有些东西目前在技术上是否遥不可及？这么说意味着误解了战略的定义(同样，威胁要对公司罚款，他们会很快找到技术解决方案)。****
道德准则的缺乏起初并不明显。它们也不是必须的，否则我们会问“如果一个原则违背另一个原则会发生什么？”。他们排名吗？有重要的顺序吗？如果放弃隐私权对社会有益，会发生什么？当我们开始处理多个，通常是相互竞争的目标，或者试图解释像“自由”和“幸福”这样的无形事物时，一个令人满意的数学解决方案是不存在的。这就是清晰的伦理哲学有用的地方:如果状态结果主义被优先考虑(在中国通常是这样)，这至少给了我们一个关于什么将被优先考虑的线索(阿西莫夫的 机器人的三大法则 在这个中相当棒)。**

第三课:在制定相关原则方面，政府比公司走得更远。然而，他们仍然缺乏坚持原则的勇气，以及使这些原则得以实施的技术诀窍。

道德很容易，但勇气却不容易

现在，我们已经建立了道德必须提供的基本原则(从表面上看并不是很多)，并且我们已经分析了公司和政府等的各种尝试，下面是一些建议，它们不仅基于道德，而且基于关于重大问题(战争、政治、自动驾驶汽车、司法……)的勇气。我提到勇气是因为这是当前人工智能话语中所缺少的。下面的原则可能以前就有过，但很可能因为它们所包含的内容(竞争力的丧失、战略优势、酷哥点……)而被摒弃。我提出这些问题没有任何风险，因为我在这次谈话中没有任何实权；如果我代表一个人/一家公司，我可能不会持有同样的观点。****

合理性原则

萨特有句名言，“是别人的地狱”。当涉及到人工智能时尤其如此；不是因为人们强迫算法变坏，而是因为我们的行为可能会创造一个世界，在这个世界里，坏行为已经被算法所铭记，迫使自己采取所说的行为或因此遭受痛苦(例如:一个女人从她的简历中删除性别词汇)(如果这让你困惑，你可能需要一本关于机器学习的初级读本)。托克维尔称之为多数人的暴政:一个基于数字而不是正义或优秀来统治的决定。在理性的原则下，关键的黄金法则将通过公众咨询和技术咨询在所有人工智能公司内强制执行，确保即使人们失去理智，也不会构建出体现疯狂的算法。我可以推荐从这段鲜为人知的义务论历史开始吗

排名原则

我们假设上面的原理在全球范围内都适用( ha！)。在创建算法时，公司如何处理相互竞争的基本权利？例如，我们能否放弃第 9 条和第 12 条，以更好地执行第 5 条？我们能制造出一种人工智能来搜索通讯频道以发现潜在的犯罪活动吗？这些问题正是我们需要一个伦理立场的原因，这将有助于发展一个稳定的价值观、伦理和权利的等级，其中一些将高于其他。以臭名昭著的电车问题为例，应用到自动驾驶汽车上。如果可以选择，自动驾驶汽车应该优先拯救两名行人而不是一名乘客吗？如果乘客是国家元首呢？如果行人是罪犯呢？选择一个思想流派，尽管这可能很难，但将有助于创建符合我们信念的算法。

矛盾原则

上面的例子不是随机的:有史以来最大规模的道德偏好研究始于 2014 年，鼓励世界各地的用户对“电车问题”的许多变体做出回应。尽管在意料之中，但结果是明确的:不同的文化在伦理方面信仰不同的东西。例如，日本和中国不太可能伤害老年人。较贫穷的国家对违法者更加宽容。个人主义国家通常更喜欢多留些性命。道德是动态的，但编码是静态的。这就是为什么不应该创建一个算法来为多个群体做出决策。在我看来，至少应该做出基于不同世界观的三套:西、东、南。

简单来说，如果我进入一辆中国自动驾驶汽车，我希望在发生事故时能够选择西方标准。

问责原则

对于许多自由市场的支持者来说，这一原则似乎是亵渎神明的，因为他们是在烟草集团不会导致癌症、酿酒厂不会导致酒精中毒、枪支不会导致校园枪击以及制药公司不会导致药物过量的国家长大的。硅谷明白这一点，当它的产品造成伤害(失业、偏见、死亡……)时，它的首要借口是说它的技术是价值中立的，它们无力影响其实施的性质。那只是一条简单的出路。算法出人意料的行为现在是生活中的一个事实，正如汽车制造商现在必须意识到排放问题，欧洲公司必须保护他们客户的数据一样，的技术高管(而不是科学家，他们的存在的理由是推动障碍——这是应该的)必须密切跟踪算法的行为，因为它随着时间和环境的变化而变化，并在需要时减少恶意行为，否则他们将面临巨额罚款或监禁。**

搞不定？不要开绿灯。

你批准了一个最终对女性有偏见的项目？交罚款。你让一辆自动驾驶汽车上路，一名行人死亡？去坐牢吧。你的 A.I 犯了战争罪？和你一起去海牙。

如果你的签名在这一页的底部，你就要对法律负责。

净正值的本金

是一个。我真的值得吗？目前，即使是最简单的算法就其本质而言也是不道德的:采矿、冶炼、物流、商业秘密的暗箱操作、数据中心资源、现代奴隶制、加纳的电子垃圾山 …所有这些都是不可持续的，尽管英国、澳大利亚和欧盟都在它们的大原则中提到了环境。为了微小的快乐和简化，真的值得吗？一次，就一次，在讨论中保持一点理智是有好处的。

我说的理智是指能够看到整个该死的供应链，否则你的算法不会进入生产。

环境问题不能再被放在次要位置，即使是在讨论像数字世界这样看似无辜的事情时。

结论

面对有限的技术和过多的潜在用途，人工智能的好处显然大于风险。然而，在机器人开始为我们说话之前，没有理由不谈论它的实现。

我为后面的人大声说一句 : A .我不是可以信任或者不可以信任的东西。它只是一个人造的工具，被“输入”数据，以便大规模地自动化某些任务。你信任你的洗衣机吗？你的计算器(是啊，我也没有。数学是黑魔法)？人们很容易认为某样东西是不存在的。人工智能没有善恶之分。人类是善或恶的(通常同时是两者)。说到底，人工智能只不过是社会的一面黑镜，反映了社会的成功和不平等。最重要的是，这让人很不舒服。这很不舒服，因为我们不断发现我们是 a 洞。

A.I 伦理不存在。

让我为后面的人大声说一遍:算法是为非常具体的目的服务的。他们不能偏离这些目标。重要的是，一家公司是否认为这个目的值得在一个黑盒子里自动化。因此，人工智能道德的问题应该重新表述为“我们是否相信(在此处插入公司名称)的管理人员将我们的最佳利益放在心上？“如果是的话，”我们是否相信公司的程序员会在考虑到潜在数据缺陷的情况下完美地实现这一愿景？“那就更棘手了，不是吗？但是更现实。

人工智能伦理并不存在。

让我为后面的人大声说出来:模糊的清单和原则，无能为力的道德官员和没有权力的顾问委员会是为了保全面子，避免改变，逃避责任。如果你从这篇文章中学到了什么，那就是:

人工智能伦理不存在。

本文最初是为欧洲专注于开发者的求职平台honey pot . io撰写的。

人工智能伦理:首先不伤害

原文：https://towardsdatascience.com/ai-ethics-first-do-no-harm-23fbff93017a?source=collection_archive---------53-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

弗兰基·查马基在 Unsplash 上拍摄的照片

劳拉[fic是两个孩子的忙碌妈妈。她疯狂的日程安排与新冠肺炎在家工作不协调。每一天都像是原始生存的练习。为了最大限度地减少精神紧张，每当风险较低时，她都会默认为自动驾驶模式，不需要她全神贯注。有一个老派的男管家不失为一种可取之处。这不是一个经济上的选择，所以劳拉试图依靠任何她能负担得起的虚拟帮手。亚马逊运送她的早餐，网飞在与高管们开会时逗她的孩子开心，Doordash 送来温暖的餐盘，让家人聚在一起。有了这些虚拟助手，她至少可以为陈腐的事情关掉决策肌肉，专注于大局。虚拟助手并不总是做出最好的选择，但谁有时间记分。劳拉偶尔会喝脱脂牛奶，而不是通常的 2%。她有时会发现孩子们正在看一部恐怖电影，尽管这类内容是禁止的。时不时地，Doordash 的厨师会忘记劳拉点的是无麸质的，这就导致了大家再熟悉不过的紧急冷冻晚餐。推荐人 AI 本意是好的。

寻找道德准则的灵感

医生有改善所有人健康的道德义务。自古以来，医生必须遵守规则和指导原则。医学界的标准道德誓言是希波克拉底誓言。它要求新医生宣誓遵守包括医疗保密和无罪在内的道德标准。医疗宣誓经历了几十年的演变，最重要的修订是二战后出现的“日内瓦宣言”。在许多国家，宣誓医疗誓言的修订版仍然是医学毕业生的成人礼。

人工智能科学家应该定义指导原则来解决他们工作的道德、价值观和合规性吗？这样的誓言会让科学家意识到他们的社会和道德责任。为医学以外的职业制定职业道德准则的想法一点也不新奇。类似于希波克拉底医学誓言，阿基米德誓言是工程师的职业道德准则。洛桑联邦理工学院(EPFL)的一群学生在 1990 年提出了这个誓言。随着时间的推移，阿基米德誓言在几所欧洲工程学校得到了温和的采纳。科学家有他们自己的誓言——科学家的希波克拉底誓言——由约瑟夫·罗特布拉特爵士在 1995 年诺贝尔和平奖接受演讲中提出。

伦理人工智能指南

就像医学影响人们的福祉一样，人工智能系统也会有选择地影响我们的生活体验。人工智能在现实世界中的应用如此天衣无缝，我们几乎不会注意到。我们是不是患上了沸腾青蛙综合症？陪审团还没有出来。像任何工具一样，人工智能可以用来做好事，也可以造成伤害。例如，在谷歌上快速搜索人工智能招聘，会出现像“使用人工智能消除招聘偏见这样的正面标题，但也会出现像“人工智能辅助招聘有偏见”这样的负面标题。以下是如何让它更公平的方法。

人工智能道德准则的提案已经准备就绪。一个有效的计划应该将来自工业界、学术界和政府的不同利益相关者聚集在一起。这样一个跨学科的委员会将使我们能够设计一个值得生活的未来。

艾轻松地解释道

原文：https://towardsdatascience.com/ai-explained-easily-aa6f81574fd6?source=collection_archive---------34-----------------------

很容易解释

5 分钟看懂 AI

你会如何向一个中世纪的时间旅行者解释汽车是什么？简单地说，他缺少太多的知识:他不知道什么是电、燃料和电池。你可以对他说的是，车是一个工具，可以把你从 A 点带到 b 点，说真的，他还需要知道别的吗？

就像汽车一样，你不需要了解可燃发动机的机械设计和工作原理就能理解它的用途。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个简单的方案，你可以如何代表一个人工智能的决策过程:特征，标签和规则。稍后，将对此进行详细解释。

问题

你想知道人工智能是什么的唯一原因是想知道你能用它解决什么问题。

我说的问题这个术语是什么意思？如果你希望使用人工智能，你需要数据。你想从数据中提取什么，本质上是一个你要解决的数学问题。一些问题的例子是:

例如，如果你有一个关于新冠肺炎的数据集(数据集本质上是一个包含数据的 Excel 表格)，你可能想预测明天世界上会有多少新病例。

如果你有一个包含数百万封电子邮件的数据集，你希望将垃圾邮件与非垃圾邮件区分开来，如果你有一个路标数据集，你希望计算机能够通过将它们分成不同的类别来识别它们。

这里列出了 AI 可以为你解决的常见问题。如果你碰巧有任何包含信息的数据集，并且知道你想要解决什么问题，使用适当的工具你可以用个人电脑(甚至在 Google Drive 上)免费创建一个人工智能。这让你对 2020 年这项技术的可用性有所了解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可以使用人工智能解决的最常见问题列表

这些是机器学习中最常见的统计模型类别。您可以选择使用哪一个来解决您的问题。(这两个缺失的统计模型被称为关联和降维，但它们并不实用，因此不在本文中讨论)。

为什么这么多例子？

当然，你可以用 AI 解决的问题并不仅限于这里列出的问题，但这是一个最实际和最常见的问题的集合。

如果我只列举一个例子，你可能不会理解它的实际用途。有这么多的例子，你可以看到不同领域的实际应用。如果你正在管理一家公司，你希望充分利用它的数据，你有很多选择:预测未来收益，更详细地了解你的目标…

AI =机器学习

为了最大限度地降低其复杂性，你可以将 AI 视为可以应用于数据的统计模型的集合。这个庞大的集合被称为机器学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以从许多统计模型中选择

机器学习也分为两个子类别:有监督的和无监督的。每个类别都包含大量的统计模型。鉴于我们的问题，我们只需选择统计方法。

《出埃及记》

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

给定一个问题，我们选择最佳的统计模型

我们陈述了我们的问题:我们希望预测明天在我们国家会有多少新的新冠肺炎阳性病例。在众多的统计方法中，我们选择使用第一张图，这是一种回归方法。(数据分析师需要选择具有最佳参数的最佳模型，这就是为什么在本文中您找不到任何关于我们如何从一个模型中选择另一个模型的信息)。

数据的作用

因为有两类问题可以用人工智能解决，我们将首先研究监督学习。下面的例子显示了一个表格数据，一个简单的 Excel 文件:一个数据集。

要用 AI，需要数据。数据越多越好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面我们有所有 627 名泰坦尼克号乘客的数据。问题:我们能否建立一个能够预测谁能在“下一个泰坦尼克号”中幸存的人工智能？

我们知道问题所在。现在我们必须选择统计模型:

机器学习>监督学习>分类

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分类是我们一直选择的统计模型

功能和标签

所有人工智能共有的元过程如下:这就是你需要理解的全部。我们将数据分为两部分:

特性

允许我们预测数据的列。在这种情况下:性别，年龄，兄弟姐妹，羊皮纸，票价，阶级，甲板，上船 _ 镇，独自

标签

我们想要预测的列。在这种情况下，该列“幸存”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

问题:考虑到一名新乘客的特征，n. 628(女性，24 岁，有一个兄弟姐妹，parch 0，75.05 美元票价，头等舱，D 舱，从瑟堡出发，不是一个人):她能活下来吗？

现在我们有了特征和标签，人工智能将提出一些规则。

训练人工智能:发现规则

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过使用我们选择的算法(我们的统计模型)，发现了规则。我们可以使用相同的规则来解决我们的问题，并根据他的数据(性别、年龄、兄弟姐妹……)找出谁将能够在泰坦尼克号上幸存。

预测:第二艘泰坦尼克号

现在，让我们假设有第二艘泰坦尼克号。我们仍然不知道谁幸存了下来(标签“幸存”不见了)；我们有特色，因为我们的 AI 已经训练好了，所以我们也有规则。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还不知道谁能从泰坦尼克 2 号中幸存下来

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

给定特征和规则，我们可以预测标签:谁将在泰坦尼克 2 中幸存。

摘要

这是整个过程的概要:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就这样吗？

我给你们展示的是人工智能的三个范例之一:监督学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当您足够幸运地同时拥有特征和标签时，您可以使用监督学习方法来解决它。如果你只发现自己有特征(例如，猫和狗的图像集合)，那就叫做无监督学习:你会使用不同的统计模型。

- *第三种范式被称为强化学习，但目前还不知道这是一个实际的东西。

为什么这么多算法？

当你增加复杂性时，你可以看到每种人工智能方法都有无数不同的算法。为了解决你的特定问题，你需要一个特定的算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AI 和统计学有什么区别？

你可能很好奇 AI 和统计学在这一点上的实际区别是什么。有了统计，你就可以做预测，人工智能也一样。有区别吗？

简单地说:人工智能是一组用来进行预测的统计工具。

我在这篇文章中遗漏了什么

这篇文章的目的是给你一个想法，如果你有数据要分析，你可以如何使用人工智能。深度学习是一种非常强大的人工智能，但出于简化的目的，没有提到它。同时，我省略了 AI 训练的其他详细程序，包括特征选择和测试。

因此，请将本文的内容视为理解人工智能所需的一般原则。

AI Feynman 2.0:从数据中学习回归方程

原文：https://towardsdatascience.com/ai-feynman-2-0-learning-regression-equations-from-data-3232151bd929?source=collection_archive---------4-----------------------

麻省理工学院马克斯·泰格马克实验室的新人工智能库

让我们在一个全新的图书馆上踢轮胎

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自皮克斯拜 (CC0)

1.简介
2。代码3。他们的例子
4。我们自己的简单例子
5。噪声数据的符号回归

1.一个新的符号回归库

我最近在 LinkedIn 上看到麻省理工学院教授 Max Tegmark 关于他的实验室发布的一个新的 ML 库的帖子。我决定尝试一下。论文名称为 AI Feynman 2.0:利用图模块性的帕累托最优符号回归，提交于 2020 年 6 月 18 日。第一位作者是席尔武-玛丽安·乌德瑞斯库，她很慷慨地和我通了电话，解释了这个新的机器学习库的背景故事。这个名为 AI Feynman 2.0 的库有助于将回归公式与数据进行拟合。更具体地说，它有助于使公式适合不同复杂程度的数据(按位定义)。用户可以从一组运算符中选择求解器将使用的运算符，求解器将完成它的工作。运算符是指诸如取幂、余弦、反正切等运算。

符号回归 是一种将用户指定的数学函数串在一起，为输出“y”构建一个最适合所提供数据集的方程的方法。所提供的数据集采用每个输入变量 x0、x1 等的样本点(或观察值)的形式，以及相应的“y”。由于我们不想在数据上过度拟合，我们需要限制方程允许的复杂性，或者至少有能力在复杂性约束下求解。与神经网络不同，学习一个只有几个简短表达式的公式会给你一个高度可解释的模型，并可能导致你从具有数百万权重和偏差的神经网络模型中可能得不到的洞察力。

这为什么有意思？嗯，科学往往会产生大量的观察结果(数据)，科学家们希望将其归纳为潜在的规则。这些规则是“符合”观察结果的方程式。与“通常的”机器学习模型不同，形式为 y=f(x) 的方程非常清晰，它们可以省略数据中一些不需要的变量。在实践机器学习工程师的工具箱中，回归树%20are%20called%20regression%20trees.&text=In%20decision%20analysis%2C%20a%20decision,represent%20decisions%20and%20decision%20making.)将是我能想到的最接近的概念，它实现了学习将观察与预测联系起来的可解释模型的想法。有一种新的方法来尝试将回归模型拟合到数据，这是对您可以在数据集上尝试的工具箱的一个很好的补充。

在本文中，我想作为一个用户(如何使用它)来探索这个新库，而不是作为一个科学家(它是如何工作的)。AI-Feynman 2.0 让我想起了 UMAP ，因为它在求解器内部包含了非常奇特的数学，但以一种抽象的方式做了一些对我有用的事情，我可以将其视为一个黑盒。我知道代码将在接下来的几个月里分阶段更新，所以当你阅读这篇文章时，今天代码的界面看起来可能不是它的工作方式。希望还会添加更多的文档，为您提供在数据上尝试这种方法的快速途径。目前，我在这篇文章中包含了一个笔记本，这样你就可以一头扎进去，从一个地方开始工作。

该库使用机器学习来帮助方程发现，递归地将问题分解为子问题，但我们不要太深入。让我们转而关注图书馆的使用。欢迎您阅读该论文，以了解更多关于该库如何解决数据上的符号回归之谜的信息。

2.密码

包含本文所有代码的 Google Collab 笔记本可从这里获得:

[## 夏皮罗/艾-费曼

permalink dissolve GitHub 是超过 5000 万开发人员的家园，他们一起工作来托管和审查代码，管理…

github.com](https://github.com/dcshapiro/AI-Feynman/blob/master/AI_Feynman_2_0.ipynb)

关于输出 的一些注意事项很重要。求解器多次打印出复杂度、 RMSE、和表达式。要知道，RMSE 数实际上并不是均方根误差。这是本文中描述的平均错误描述长度(MEDL ),这一信息将很快改变。此外，表达式打印输出不是数据集的等式，而是求解器当前正在处理的整个问题图中的子问题。这一点很重要，因为你会发现有时打印出来的结果看起来误差很小，但它只适用于某些子问题，而不是你要找的方程。最终结果使用输入文件的名称存储在结果文件夹中。

3。尝试来自 AI-Feynman 知识库的第一个例子

克隆存储库并安装依赖项。接下来，编译 Fortran 代码并运行 AI-Feynman 存储库中的第一个示例数据集(存储库中的 example1.txt)。

下面列出了最初的几个步骤:

接下来，将这个文件放入代码目录，并使用 python3 运行它:

example1.txt 文件的第一行是:

1.6821347439986711 1.1786188905177983 4.749225735259924 1.3238356535004034 3.462199507094163

示例 1 包含从方程生成的数据，其中最后一列是回归目标，其余列是输入数据。以下示例显示了 example1.txt 文件的第一行与用于生成数据的公式之间的关系。

通过运行上面的代码片段，我们可以看到 example1.txt 中的目标“y”数据点是使用第 3 行的等式生成的，其中输入是除最后一列之外的所有列，等式生成最后一列。

让我们现在运行程序。在文件夹 AI-Feynman/Code/ 中，运行命令python 3 AI _ Feynman _ magic . py以运行我们上面编写的程序，该程序进而将方程拟合到 example1.txt 数据集。

求解器运行很长时间，尝试不同复杂程度的不同类型的方程，并评估每个方程的最佳拟合。当它处理解决方案时，它打印中间结果。如果它遇到一个超低的错误，你可以停止程序，只使用方程。如果你让它跑到最后，那真的是你说了算。对于输入文件 example1.txt ，结果显示在AI-Feynman/Code/results/solution _ example 1 . txt中。还有其他产生结果的地方，但这是我们现在关心的地方。该文件“解决方案 _…txt ”对确定的解决方案进行排序。有趣的是，假设 y 是一个常数是求解者的常用策略。常量没有输入变量，因此就位数而言，它们的复杂性较低。在例 1 的情况下，方程**((x0-x1)* * 2+(x2-x3)* * 2)* * 0.5**拟合最好。

4.试试我们自己的简单例子

在 Collab 笔记本中，我现在将存储库和数据移动到 Google Drive，这样它们就可以持久保存。下面的代码从一个等式中生成 10，000 个例子。这个例子有 2 个“x”变量和 2 个重复的“x”变量。当然，y 仍然是输出。

绘制第一个变量与 Y 的关系，我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们的例子中，x0 对 y 的坐标图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们的例子中，x2 对 y 的绘图

既然我们已经看了一眼我们的数据，让我们要求求解程序使用我们的数据集找到一个适合我们的数据的简单方程。我们的想法是，我们希望求解器注意到，为了拟合数据，您不需要所有提供的变量。

下面是一个权限问题的示例:

如果您在尝试运行代码时遇到文件权限问题，请像这样打开文件权限:

chmod +777 AI-Feynman/Code/*

下面是运行求解器的命令。去买咖啡，因为这不会很快…

python3 ai_feynman_duplicate_variables.py

如果你没有更好的事情要做，就看着求解器走吧。请注意，求解器在混合之前会遍历一系列方程类型。它尝试的初始模型很快映射到 x0 和 x2，因为它“意识到”x1 和 x3 是重复的，因此不需要。后来，求解器找到了方程**3.000000000000+log(sqrt(exp((x2-x1))))**这有点疯狂，但看起来像一个平面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: WolframAlpha

我们可以在 WolframAlpha 上看到这个等式的等价形式是:

y=(x2 - x1)/2 + 3.000000000000

这就是我们用来生成数据集的！

求解器确定了 y = log(sqrt(exp(-x1+x3))+3.0，从上面的 wolfram alpha 中，我们知道这是对我们平面的正确描述。求解器最终使用 x1 和 x3，删除 x0，因为它是 x1 的副本，因此不需要；同样，删除 x2，因为使用 x3 时不需要它。

现在，那起作用了，但是它有点像垒球的问题。数据有一个精确的解，所以它不需要拟合噪音数据，这不是一个现实的真实世界的情况。真实数据很乱。现在让我们向数据集添加噪声，看看这个库是如何支持的。我们不需要引入缺失变量和插补。让我们把问题变得稍微难一点，让解算器更难处理。

5.噪声数据的符号回归

以下代码在与上一个示例相同的平面上创建点，但这次添加了噪波。

注意:在笔记本代码中，我将数据集大小增加到 100K 个样本(来自当前的 10K 样本),使数据集大小类似于示例 1。你不需要这样做，所以我把这个要点作为 10K 样本。

下图显示了重复列现在如何不再是完全重复的。求解程序会对带有噪声的点进行平均以获得更好的信号吗？我会将 x0 和 x1 平均为一个更清晰的点，然后将 x2 和 x3 平均为一个更清晰的点。让我们看看求解器决定做什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绘制 x0、x1、x2 和 x3 与 y 的关系。标签是列号。0 代表 x0，1 代表 x1，依此类推。最后一列，第 4 列，是 y。

我们现在制作另一个跑步者文件如下:

如果你有权限问题，做 chmod 777 的事情，或者 775 或者别的什么。要运行该程序，请执行以下操作:

python3 ai_feynman_duplicateVarsWithNoise.py

当求解者处理想法时，它会想出一些疯狂的东西。您可以在下图中看到求解器尝试的一个解决方案中类似平面的形状:1.885417681639+log(((((x1+1)/cos((x0–1))+1))。不幸的是，它在这里尝试的两个变量是 x0 和 x1，它们是彼此的副本，只添加了少量的噪声。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

求解器早期解决方案之一的 WolframAlpha 3D 图。

不错的尝试求解器。让我们继续运行，看看接下来会发生什么。

求解器找到了方程:

*y = 3.0–0.25 (x0+x1)-(x2+x3))

正如我所希望的，求解器计算出平均 x0 和 x1 可以得到更清晰(噪声更小)的 x01，平均 x2 和 x3 同样可以得到噪声更小的 x23。回想一下，在我们向输入中添加噪声之前，用于生成“y”的原始公式是对输入数据进行运算的:

y = -0.5x01+0.5x23+3

有趣的是，求解者还发现

y = 3.000000000000+log(sqrt(exp((x2-x0))))

这是该公式的另一个版本，它使用更少的变量来换取稍微不太完美的数据拟合(因为添加了噪声)。因此，规划求解为用户提供了查看适合不同复杂程度数据的公式的选项。

6.结论

本文测试了一个名为 AI-Feynman 2.0 的符号回归解算器，从回购中的例子开始，到我们自己从头制作的例子，最后通过添加一些噪声来挑战解算器。转载本文的笔记本可以在这里找到。

特别感谢席尔武·玛丽安·乌德瑞斯库帮助我更好地理解代码，并审阅了这部作品的早期草稿，以确保我没有说傻话。尝试现实世界的问题会很有趣。我已经为Gravity-ai.com容器化了这个库，以应用于真实世界的数据集。希望您会发现它很有用，并将其用于您自己的工作。

如果你喜欢这篇文章，那么看看我过去最常读的一些文章，比如“如何给人工智能项目定价”和“如何聘请人工智能顾问”还有嘿，加入快讯！

下次见！

——丹尼尔
lemay . ai
丹尼尔@lemay.ai

用于 3d 打印的人工智能(第一部分):基于 K-均值聚类的异常熔池检测

原文：https://towardsdatascience.com/ai-for-3-d-printing-anomalous-melt-pools-detection-and-classification-part-1-e84ed6f5a137?source=collection_archive---------48-----------------------

本文是 3d 打印人工智能系列的第一部分。阅读 第二部分 和 第三部分 。

几个月前，我刚刚完成了机械工程硕士学位的最后一年计算机视觉项目。这是一个有趣的项目，因为它展示了如何使用各种机器学习模型来检测和分类 3d 打印过程中出现的异常。这一系列文章是我在进行项目时试图说明我的一些关键学习点和思维过程。希望它能激励机器学习(或数据科学)以外领域的专家在解决各自领域的新问题时考虑使用机器学习作为工具。

免责声明 : 这不是一个循序渐进的教程。为了避免冗长的讨论，省略了一些细节。

背景

为了提供背景，增材制造(AM，广义上称为 3-D 打印)指的是以分层和增材方式打印出产品的各种制造技术。与传统的制造方法相比，调幅具有许多优点。首先，由于其逐层印刷方法，在 AM 中可以避免传统制造技术中常见的材料浪费问题。更重要的是，AM 提供了前所未有的设计自由度，因为具有复杂几何形状的制造零件可以轻松打印出来。这也意味着零件设计和制造过程可以优化，以获得更高的结构强度重量比。在应用方面，AM 的优势使其对医疗工程、汽车、航空航天等行业极具吸引力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LPBF 扫描的横截面。一旦当前印刷层被固化，更多的金属粉末将被散布在当前层的顶部用于随后的印刷。(图片由作者提供)

在这个项目中，感兴趣的调幅技术被称为激光粉末床融合，LPBF。在 LPBF 中，脉冲激光束扫描预定的路径，并逐层打印出最终零件的横截面。首先，金属粉末将通过印刷平台顶部的辊均匀地散布。在扫描过程中，来自激光束的高能量密度产生局部区域，在该区域中金属粉末主动熔化并熔合在一起，形成被称为熔池的局部区域。一旦该层完成印刷，更多的粉末将被散布在固化的横截面上。在随后的扫描中，新层和固化层将融合在一起，整个过程一直持续到打印完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

脉动熔池的慢动作同轴记录。注意偶尔的飞溅颗粒喷射和熔池不稳定的尾部。

虽然 AM 提供了很大的好处，但是由于缺陷形成而产生的不一致的零件质量极大地阻碍了它在大规模制造中的广泛采用。类似于其他类型的 AM 技术，LPBF 产品也遭受缺陷形成。这些缺陷的形成主要由对熔池中的局部温度场非常敏感的构造中的微结构发展所控制。很明显，在不利的印刷条件下，会促进缺陷的形成，但即使使用优化的扫描参数，缺陷仍可能意外形成。

目标

这个项目的主要目标是开发用于异常熔池检测和分类的机器学习框架。熔池几何形状的研究至关重要，因为熔池条件会直接影响成型质量。具体来说，正如我们将在后面看到的，熔池成像数据以视频帧的形式出现，我们将建立模型来量化这些熔池的异常程度。对于缺陷研究来说，知道异常何时发生是不够的。研究工程师还对缺陷形成的熔池动力学研究感兴趣，即不同尺寸和形状的熔池是如何形成的，以及它们对成型质量的影响。因此，异常熔池也必须根据其几何形状进行分类。

简而言之，给定一个熔池框架，我们希望用某种度量来量化它的异常程度，如果这个度量超过某个阈值，那么我们将基于它的几何形状对熔池进行分类。

如上所述，即使有正确的扫描参数，缺陷的形成仍然是不可避免的。因此，该项目的长期愿景是将经过良好测试的机器学习模型整合到 LPBF 现场监控系统中，以便能够对印刷工艺参数进行实时控制和监控，从而最大限度地降低制造过程中形成缺陷的可能性。这也意味着，对于实时检测，我们的模型处理数据的速度很重要。目前，数据采集速度为 100k FPS。同样地，如果我们想要将任何类型的演算法整合到 3d 印表机中，每一个视讯画面的资料处理速度必须少于 10 微秒。

数据

用于分析的主要数据包括印刷过程的同轴熔池视频帧。熔池的温度是同轴解析的(即我们跟随熔池移动，因此它将保持在屏幕的中心)，并在打印的同时记录。
我们还有位置数据集，为熔池视频帧提供位置参考。

用于打印该数据集的预定义扫描路径被称为曲折策略(基本上是之字形路径)。因此，在我们的数据集中，我们有向相反方向移动的熔池。

探索性数据分析

在探索性数据分析(EDA)中，对一些熔池进行了检查，以获得对数据集的早期理解。这对于建立对数据集中潜在异常类型的预期至关重要。给定数据集中的一些熔池视频帧随机显示如下。请注意，给定的数据集由聚焦和失焦的熔池帧组成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

聚焦和失焦印刷的随机取样熔池图像

一些类型的熔池在许多随机观察中一致出现。例如，一些熔池具有不稳定的尾部。带有不稳定或分离尾部的熔池可能导致剥蚀，由于熔体流的表面张力，周围的金属粉末被吸向熔池。这改变了局部粉末形态，并可能导致孔隙缺陷。此外，我们还在熔池周围观察到羽流喷射。通常，羽流的尺寸较大，形状快速变化且不规则，与普通熔池不同。最后，还观察到飞溅颗粒离开熔池的快照。飞溅颗粒是未熔化或部分熔化的粉末颗粒。由熔池周围的涡流循环引起的飞溅颗粒的喷射使熔池周围的金属粉末重新分布，这又会导致气孔问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尾部分离、羽流和飞溅粒子喷射

根据观察到的熔池动态，开发了一些粗略的指标来帮助理解数据集。每个指标旨在回答关于熔池动力学的不同问题:

子区域平均值(SRM) 是视频帧的外边界中的平均像素强度的量度(定义为在所有 4 个方向上距离视频帧边缘 20%的宽度),并提供关于飞溅颗粒的分散性的见解，
亮像素比例(PBP) 测量亮像素的覆盖范围或熔池的大小
像素值的标准偏差(SD) 由于像素亮度与解析温度成正比，因此可洞察熔池温度场的分布。

计算出的度量被标准化，并相对于帧数或扫描进度绘制。根据该图，我们意识到，当聚焦高度为 0 和 4 毫米时，指标相对更稳定，幅度更小。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

扫描过程中各种标准化指标的时间变化。

不涉及太多细节，该图对应于具有不同聚焦高度的九个圆柱形块的印刷。具有相对稳定度量的区域对应于具有 0 和 4mm 聚焦高度的印刷。

特征提取

记住，这里的目标是识别在一组优化的参数下产生的异常熔池(何时何地发生)。来自 Skimage 模块的 Python 的 Regionprops 函数用于提取几种类型的熔池和飞溅颗粒特征。这些功能与以下内容相关:

大小
古怪和
数量(仅飞溅颗粒计数)

举例来说，下面是熔池和飞溅颗粒尺寸的分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不同聚焦高度下熔池(假定为视频帧中最大的斑点)的面积或大小直方图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

飞溅面积或飞溅颗粒大小的直方图。

同样，这些分布与 EDA 的观察结果一致，即聚焦高度为 0 和 4 mm 的熔池印刷更稳定(具有更一致的尺寸和更少或更小的飞溅颗粒)。

随后，对区域 props 特征进行标准化，并对来自焦点高度= -4 mm、0、4 mm 和 8 mm 的那些熔池帧的标准化特征采用 K 均值聚类。为了方便起见，来自-4 mm 和 8mm 数据集的所有帧被标记为失焦，而来自 0 和 4 mm 数据集的帧被标记为聚焦。区域 props 特征被传递给 k-means 聚类算法，然后标签被用于聚类分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用于确定聚类数的肘形图，k 表示 k 均值聚类。

根据弯管图，选择 k=15。增加聚类的数量，k 将导致误差平方和(SSE)的递减，而降低 k 将导致大的 SSE。

聚类分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

聚类分析:已识别聚类中聚焦(或失焦)熔池的比例。

做了一个重要的假设，即重点数据集中的大多数熔池是正常熔池(非异常)。因此，后续聚类分析的目标是找出最能代表聚焦熔池的聚类。基于聚类分析，聚类 1 和聚类 9 最好地代表了按比例集中的熔体池。此外，分析显示，聚焦熔池彼此更接近，而离焦熔池分散在标准化特征空间的各处。

执行快速健全性检查，聚类的质心坐标(在逆变换回预先标准化的特征空间之后)确实支持我们的假设。簇 1 和簇 9 的形心具有零飞溅特性，同时具有相似的熔池尺寸和偏心率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

区域属性特征空间中聚类的质心值

聚焦熔池更集中，而离焦熔池分散在特征空间的各处。

从集群中可视化聚焦熔池框架:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自簇 1 的熔化池。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第九组的熔池。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其他星团的熔池。

很快，我们可以看到来自不同团簇的熔池的视觉外观差异。簇 1 和簇 9 中熔池更干净，没有太多的飞溅喷射，且在尺寸和几何形状上更一致。另一方面，来自其它团簇的熔池在尺寸、几何形状和动力学方面不太一致。

一些想法

理论上，我们可以为区域 props 特征确定一些合适的阈值，然后实时提取熔池特征以标出异常。这将允许我们绕过任何机器学习步骤。然而，区域道具提取每个视频帧的特征需要大约 10 毫秒，比视频的每秒帧数慢大约 100 倍。此外，我们最终可能会有太多的指标来跟踪异常检测。对此的补救办法是只提取异常熔池的特征用于缺陷研究。也就是说，在特征提取之前，我们采用异常检测框架来检测异常。由于异常很少发生，我们也许能够显著减少需要区域道具处理的帧数。

通过 K-Means 聚类分析，我们观察到正常熔池在特征空间中倾向于彼此靠近，而异常熔池倾向于分散在正常熔池周围并远离正常熔池。被称为一类学习的无监督机器学习概念是这类问题的合适候选，我们将在第 2 部分对此进行更多的探讨。

结束语

本文说明了如何使用区域 props 函数和 k-means 聚类等简单技术和工具从熔体池数据集中标记出视频帧异常。在下一篇文章中(3-D 打印系列的 AI 第 2 部分，我们将展示第一个用于异常检测的机器学习框架。感谢阅读:)

三维打印的人工智能(下):异常熔池检测的一类学习

原文：https://towardsdatascience.com/ai-for-3-d-printing-anomalous-melt-pools-detection-and-classification-part-2-895704203c5a?source=collection_archive---------53-----------------------

本文是 3d 打印人工智能系列的第二部分。阅读 第一部分 和 第三部分 。

从第 1 部分中，我们得出结论，需要为 LPBF 现场监控系统定义一个单一的度量标准来测量熔池视频帧的异常程度。理想情况下，该度量的评估应该在计算上不昂贵，从而可以在接近实时的设置下计算。本文介绍了一个异常检测框架，该框架以一类学习的概念为中心。

免责声明:本文的目的是展示如何将不同的模型放在一个异常检测框架中。诸如超参数微调和模型架构的细节将被省略。

介绍

单类学习是一种无监督的训练分类器的方法，当数据集中的一些类要么数量很少，要么没有明确定义的特征。不平衡的数据集问题引入了过度拟合的风险，因为受监督的机器学习模型通常难以推广到少数类。通过一类学习，分类器被训练成专门从单个类中识别良好表征的实例，因此这种类型的分类器也被称为一类分类器。

在检测异常熔池的情况下，尽管异常熔池的比例相对于正常熔池较小，但理论上，我们可以通过生成一组具有较差印刷过程的异常训练样本来修复数据不平衡。故意产生的异常是否与真实异常具有相同的分布将是一个问题，但更重要的是，这里的真正问题是异常没有被很好地表征。这意味着手动注释异常容易出现不一致的错误，这是由于异常的定义不太明确(例如，熔池必须喷射多少飞溅颗粒，这些颗粒必须有多大才能被认为是异常情况？).一级学习提供了监督培训的替代方案，因为培训阶段不需要贴标签。

有一些单类学习算法的例子，例如自动编码器和单类支持向量机。在这个项目中，使用深度卷积自动编码器进行异常检测的实验。

通过一个类的学习，我们可以分配一个连续的度量来测量熔池异常的程度。在无监督的基础上操作，一类分类器不需要用于训练的标记数据。

自动编码器

本节简要介绍自动编码器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自动编码器的一般结构。

上图显示了自动编码器的一般架构。自动编码器由两个主要部件组成，即编码器和解码器。编码器将高维输入数据压缩到低维潜在空间，这是自动编码器架构的瓶颈。解码器然后将编码解码回原始维度空间。编码-解码过程受到输入和输出在欧几里得意义上必须相似的约束。

数学上，这可以写成，Z*= g(X)和X '= f(Z)服从X≈X '，其中*

自动编码器的损失函数

用于自动编码器训练的损失函数是 X 和**X’**之间的欧几里德距离。自动编码器的目标是在训练过程中最小化损失函数，使得结果输出类似于输入数据。注意，损失函数也是输入和输出之间不相似性的度量。因此，它也被称为重建误差(RE)。

由于瓶颈中的维度空间较小，编码器被迫只对瓶颈输入中最具代表性的特征进行编码，以允许解码器重构输入数据。决定潜在空间的维度是至关重要的，因为小的维度将对从编码器到解码器的信息流施加太多的限制，使得解码器难以重构输入数据。另一方面，对于过大的潜在维度，编码器将不会学习捕捉输入数据的重要特征，因为对信息流没有施加太多的限制。

数据预筛选

本节介绍了用于培训数据准备的数据过滤方法。如上所述，一类学习要求异常实例是训练数据集中的少数。确保所需约束的快速方法是通过使用无监督聚类算法，例如 k-means 聚类。具体来说，来自聚类 1 和 9 的聚焦解链池被混洗并用于训练我们的自动编码器。

来自聚类 1 和聚类 9 的聚焦解链池用于自动编码器的训练

由于自动编码器在训练过程中暴露于大多数正常的熔池图像，它将学习捕获基本的正常熔池表示，使得大多数重建的输出与输入相似。这导致整体训练损失较小。

异常检测

重构误差(RE)度量用于测量输入和重构输出之间的差异。作为健全性检查，计算并可视化离焦熔池的 RE 度量。

健全性检查:经过训练的自动编码器应用于失焦熔池视频帧。

如图所示，自动编码器未能重建所遇到的异常，结果，度量尖峰指示异常事件的发生。测试还表明，对于离焦印刷，RE 提供了异常程度的良好的相对测量。例如，与较小的羽流实例相比，覆盖范围较大的羽流实例会产生较大的 RE。

从(a) RE <0.003 (b) 0.004 0.006 取样的熔池

下面还介绍了一些异常的熔池重建。

原始(第一行)、重建(第二行)和错误熔池图像，顶部为 RE x 10(第三行)

请注意自动编码器如何无法重建异常部分，如熔池的不稳定尾部和飞溅颗粒。为了比较，下面显示了具有较小 RE 的熔池图像。

原始(第一行)、重建(第二行)和错误熔池图像，顶部为 RE x 10(第三行)

我们还可以将熔池视频帧投影到二维散点图上，以显示熔池图像。下面显示的是具有锚定的训练熔化池视频帧的第一潜在成分对第二潜在成分的图。

对于一些训练数据点，第二潜在分量 Z2 相对于第一潜在分量 Z1 绘制。

有趣的是，自动编码器捕捉熔池的移动方向，正常的熔池确实在潜在空间中以簇的形式出现。

对于一些测试数据点，第二潜在分量 Z2 对第一潜在分量 Z1 作图。

对于类似的图，但是在测试数据上，我们观察到一些异常位于远离集群的位置。

模型性能评估

接下来，标记了大约 1500 个看不见的数据点。然后，标记的数据点可用于帮助确定合适的 RE 阈值，并量化自动编码器的性能。

用于确定最佳 RE 阈值的 ROC 曲线

用受试者工作特征(ROC)曲线确定合适的 RE 阈值。注意，异常被定义为正类，而正常熔池被标记为负类。

最后，根据确定的 RE 阈值，对自动编码器在两种熔池类别的召回率和精确度方面的性能进行了评估，并总结在下表中:

一些想法

测量该异常检测框架所需的时间，从最小最大归一化图像到重新计算，自动编码器平均花费 1 微秒来输出预测。这比单独的区域道具特征提取快大约 1000 倍。更重要的是，图像处理也比所用的 LPBF 原位监测系统的 FPS 更快。

作为一个完全无监督的模型，自动编码器的训练不需要任何人工标记，这是一个巨大的努力节省，因为有监督的深度学习模型通常需要大量的标记数据。总的来说，一类学习框架的实现显示了 LPBF 原位监测的巨大计算时间节省。随着处理速度的加快，我们现在可以有选择地提取熔池的特征，用于后续的异常分析。

或者，我们可以利用潜在向量作为训练分类器的提取特征，因为编码包含关于熔池几何形状的最有价值的信息。这将在本系列的第 3 部分中详细说明。

警告

当在一个完全不同的看不见的数据集上部署时，自动编码器的性能会有很大的不同。数据外推主要是机器学习模型的一个问题，但是，由于自动编码器通过对输入数据中最具信息性的特征进行编码来工作，因此它的使用甚至更加数据特定。这对于一个类学习的目的是好的，但是对于在不同印刷参数下产生的熔池图像，RE 的鲁棒性将是有问题的。例如，用从弯曲扫描捕获的熔池训练的自动编码器可能在从岛扫描策略重建大多数熔池图像时表现不佳，不管它们是否异常。

结束语

本文阐述了深卷积自动编码器在熔池异常检测中的应用。通过 K-均值聚类在预先筛选的数据集上训练，自动编码器能够很好地重建正常的熔池图像。未能重建异常熔池，自动编码器会产生较大的重建误差。自动编码器的使用在潜在的计算节省和性能方面显示出有希望的结果。在下一篇文章中，我们将更多地探讨普通自动编码器的概率变体在异常分类中的应用。感谢阅读:)

三维打印的人工智能(三):异常熔池分类的非纠缠变分自动编码器

原文：https://towardsdatascience.com/ai-for-3-d-printing-part-3-disentangled-variational-autoencoder-for-anomalous-melt-pools-aaed53b80140?source=collection_archive---------49-----------------------

本文是 3d 打印人工智能系列的第 3 部分。阅读 第一部分 和 第二部分 。

自动编码器的使用提供了一种用较少的参数描述熔池图像的方法。本质上，这是一种数据压缩形式。然而，如第 2 部分所示，自动编码器编码的潜在向量高度密集，并以簇的形式出现。因此，潜在空间不是平滑和连续的。在潜在空间中可能有严重的过拟合，其中当重建时，彼此接近的两个潜在向量看起来非常不同。这是因为缺少正则化项来控制在损失函数中应该如何压缩数据。

嗯，你可以说自动编码器为了压缩而压缩数据，因此它不一定在潜在空间中保持数据的结构。

如果我们想两者兼得，这是一个问题:

较小的参数(可通过自动编码器实现)和
高质量数据压缩(自动编码器不是为此目的而优化的)

来描述熔池的几何形状。

使用 autoencoder 的变体可以解决这个问题。本文介绍了一种自动特征提取方法，用于异常熔池检测和分类任务，其核心是使用一种无纠缠的变分自动编码器。具体地说，变分自动编码器的质量数据压缩特性将用于提取不同的熔池表示。

介绍

变分自动编码器(VAE)具有与自动编码器相似的结构，除了它是后者的概率变型。VAE 的使用假设有几个未观察到的数据生成因素(也称为表示)，每个因素控制输入的不同方面。接下来，这里的目标是训练 VAE 来近似表示的分布，以便编码器可以有效地用作特征提取器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

VAE 的一般架构

VAE 的一般架构如上所示。注意，不同于普通的编码器和解码器，VAE 由两个概率组件组成。概率编码器将输入数据 X 映射到潜在向量 z 。另一方面，解码器将来自潜在空间的任何采样向量映射回原始维度***【X’***。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

VAE 的损失函数

这个损失函数有两项。重建损失确保重建数据与输入相似。第二项，也称为KL-散度项，是数据的潜在分布和潜在编码的先前分布之间的差异的度量。当网络将输入编码到一个高度密集的区域时，它会对网络施加一个惩罚，从而促使编码获得一个类似于先前分布的分布，该分布假定为~N(0，I)。

约瑟在他的媒介文章中对 VAE 做了非常直观和清晰的解释。参见下面的文章:

[## 了解变分自动编码器(VAEs)

逐步建立导致 VAEs 的推理。

towardsdatascience.com](/understanding-variational-autoencoders-vaes-f70510919f73)

为了获得β-VAE 的损失函数，VAE 的损失函数通过将β的因子乘以 KL 散度正则化项来修正。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

β-VAE 的损失函数是由 VAE 的损失函数修改而来的。KL 散度项被赋予一个相对权重β。

本质上，这种修改允许我们控制编码的潜在成分之间的解缠结的量。当每个组件对表征的某一方面的变化相对敏感而对其他方面不敏感时，一组潜在组件被称为解纠缠。在熔池几何形状的背景下，当潜在编码被完全解开时，改变一个潜在成分将仅仅改变熔池几何形状的一个方面。而对于正常的 VAE，很难理解每个单独的潜在成分捕捉到熔池几何形状的哪个方面，因为改变一个潜在成分会导致多个变化的熔池表示。

在这个项目中，β被选择为 4，因为这个β值根据经验给出了最好的解缠结效果。

数据预处理

为了更精确地描述熔池的几何形状，熔池图像从 128x128 的尺寸裁剪为 32x32。这是因为熔池的周围不包含太多关于其几何形状的信息。我们还确保熔池的质心与图像的中心对齐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

熔池框架的 ROI。

对所有裁剪的视频帧执行最小最大归一化。与一类学习框架不同，该框架不依赖于正常熔池的任何分析。因此，数据不需要预先筛选。

特征提取

通过在熔池视频帧上训练β-VAE，编码器学习熔池潜在表示的概率分布。为了探索编码，可以从潜在维度的特定范围采样，并解码采样的潜在向量以便可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有固定的第三潜在成分的生成的熔池图像的网格。(图片由作者提供)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有固定的第二潜在成分的生成的熔池图像的网格。(图片由作者提供)

根据生成图像的网格图，我们观察到:

第一个潜在分量捕捉熔池的尺寸
第二个潜在分量捕捉熔池的圆度。熔池图像被垂直或水平挤压。
第三个潜在分量捕捉熔池的尾部长度。第三潜在成分的符号也捕捉了熔池的移动方向。

此外，我们可以验证压缩是高质量的，因为熔池图像在潜在空间中平滑地从一种形式“变形”为另一种形式。此外，当我们改变单个潜在成分时，我们几乎可以完美地隔离熔池几何形状的变化。例如，增加第一个潜在成分会改变大小，但对其他两个方面几乎没有影响。这就是我先前所说的解开表象的意思。

从 Arxiv Insights 了解更多关于解开变分自动编码器的信息:

Arxiv Insights 的变分自动编码器简介。

如果我们检查训练数据的潜在成分的分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) Z1，(b) Z2 和© Z3 的分布

第一和第二潜在分量类似于高斯分布，而第三潜在分量类似于双峰分布(两个高斯分布的叠加)。第三潜在组分的双峰分布归因于所采用的曲折扫描策略，该策略导致熔池以之字形行进。由于β-VAE 损失函数中 KL 散度项施加的正则化力，所有分布都以 0 为中心，并具有接近 1 的标准偏差。

异常检测和分类

接下来，编码的熔池以散点图的形式呈现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Z2 与 Z1 的散点图，带有锚定熔池图像。(图片由作者提供)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Z3 与 Z1 的散点图，带有锚定熔池图像。(图片由作者提供)

根据散点图，编码似乎与潜在的表征定性一致。此外，几个异常清楚地编码远离密集区的潜在空间。这表明使用从一些参考点的欧几里德距离度量作为异常测量。基于可视化，将数据点分类成簇也是明智的。接下来，可以计算熔化池离它们的群集质心的距离，并将其用作异常度量。

从概念上讲，这意味着一组给定的熔池特征偏离它们的平均值越多，熔池就越不规则。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a)所有数据点，(b)由 DBSCAN 识别的异常值(橙色)和正常数据点(蓝色)，©拟合正常数据点的 K 均值聚类，以及(d)所有数据点和两个识别的聚类的散点图。(图片由作者提供)

使用基于密度的聚类算法 DBSCAN 来清理数据，然后在清理的数据集上拟合 k=2 的 K 均值聚类。这些聚类的质心将被存储用于测试期间的欧几里德距离计算。距离度量将被用作熔池异常程度的量度。

三种不同的监督分类器，支持向量机(SVM)、K 近邻(KNN)和随机森林(RF)用于熔池异常分类任务。这次，我们明确地将熔池的类型分为几类——具有不稳定尾部的熔池、羽状熔池和大型熔池。

分类器的最优超参数通过五重网格搜索交叉验证获得。最后，使用测试数据集来量化分类器的性能。分类结果总结如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) SVM，(b) KNN 和© RF 的混淆矩阵

一些正确的分类如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正确的分类:( a)不稳定尾翼,( b)羽流,( c)大型熔池。

我们的 VAE 框架现在可以分配异常度量，此外，它还具有根据熔池的几何形状对其进行分类的能力。

这种一体化异常分类和检测框架在三条扫描线上的使用示例:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个框架顶部的熔池和异常度量的预测类别。

一些想法

β-VAE 框架比端到端的监督深度学习方法(端到端的深度学习方法是，在没有任何特征提取的情况下，在标记的数据上训练监督的神经网络)具有一些优势:

对于异常分类问题，没有监督模型是很难进行的。β-VAE 框架通过首先提取熔化池表示来工作。这为后续的聚类和经典的监督模型提供了适当的特征空间来操作。意思是，框架的前半部分是完全无人监管的。与在没有足够数量的训练数据的情况下容易过拟合的端到端监督深度学习方法相比，β-VAE 框架的后半部分将需要较少的标记数据来进行训练。
就可解释性而言，β-VAE 将熔池图像分解成三个明显的清晰表示。我们已经看到并验证了表示分布与生成的熔池图像的网格图一致。至于端到端深度学习，更难解释为什么某些融化池会被归类到某些类别中。

未来的工作

未来的工作可能涉及用更精确的训练数据集来训练β-VAE。在已知限制的情况下(在一组指定的打印参数内工作)，该框架可以被合并到现有的 LPBF 监控系统中。用序列模型解决这个问题是另一个有待实验的有趣方法。本质上，我们可以将熔池动力学建模为一个时间序列问题。这是有意义的，因为像羽流这样的异常情况的特征是它们在多个帧中快速变化的形状。也许用这种新的视角来看待这个问题将是建立一个更准确的框架的关键。

结束语

在这篇文章中，我们探讨了更多的数据压缩能力的一个解开变分自动编码器。通过各种可视化，我们验证了所产生的潜在空间是平滑和连续的，在某种意义上，熔池图像是相似的，彼此编码紧密。此外，利用这个框架，我们还可以提取有用的和可解释的熔体池表示，用于异常检测和分类。通过对潜在表示训练一些监督分类器，我们还表明该框架可以用于分类异常并同时量化其异常程度。

感谢阅读:)

人工智能促进可持续社会

原文：https://towardsdatascience.com/ai-for-a-sustainable-society-731fe5116471?source=collection_archive---------37-----------------------

我们不能只靠消费来实现一个更可持续的世界。—詹妮弗·妮妮

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者为寻找人工智能和可持续社会之间的中间地带而拍摄的照片。

一个现成的人工智能语言处理系统可以产生多达 1400 磅的碳排放[1]。一个基于人工智能的语言系统可以创造大约 80，000 磅，这是一个人一生呼吸量的两倍[1]。搜索和训练神经网络架构的能量大约为 616000 磅[2]'，大约是美国普通汽车排放量的五倍！

你没听错；人工智能带来的大量碳足迹给科技领域带来了风险。

没错，人工智能继续呈指数级增长，并将继续存在——但环境问题也岌岌可危。人工智能不仅成为了道德问题的焦点。它也贡献了全球 3%的二氧化碳总量[3]。

问问你自己——机器驱动的社会是为了谁？

技术和社会——这两者正处于十字路口。想想有机器人的道路，有机器的人类和其他由数字驱动的一切——你看到了什么？你看到智能城市或带有偏见观点的工程意识形态了吗，或者你想象一个社会公益已经转化为社会正义的世界？

想想吧。

我们喜欢称之为工程教育，令人惊讶的是，它并不是来自基础知识。这只限于学校和社区传授的教育。在教育系统中教授一些东西只是帮助那些思想模糊的人，他们认为一切都将转变为数据驱动的生态系统，而对环境完全没有影响。Erin A Cech 博士[4]在 2013 年谈到美国如何试图强调培养有道德、有社会意识的工程师的重要性，但相反，工程教育本身未能鼓励新手将公共福利视为他们的职业责任，因此给出了一个人工智能和无知观点各占一半的伪现实。

还有更多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Ridham Parikh 在 Unsplash 上拍摄的照片

去政治化——它表明社会的文化和社会问题在“真正的”工程工作中并不适用，因此应该被抛弃。也就是说，我们确实在某个地方带来了技术进步的概念，但它将如何影响我们周围的人类或环境，我们对此最不关心。没有任何思想围绕在专业人员周围所做的工程工作只是没有好处的技术。由于技术和社会被视为两个不同的支柱，这使得公共福利工程师很难理解他们在做什么，如何影响社会。我们确实需要指标，这些指标可以由“社会技术”人员带入到精心制作的图片中。

工程头脑谈论了很多事情，包括数据隐私、物联网、易访问性、5G 等等——与此同时，它打开了一个接近容易被利用的世界。教育系统的网络安全可能是最好的例子之一。由于加强了监视、监管等。在当今社会追求更好的正义，这也为不道德的手段打开了后门。在现代社会，即使我们谈论智能城市，但大部分资金确实来自政府和商界人士。

一切的基础？信任。而这正是机器所缺乏的。

*嗯，解决办法？*一个财团，可以被在不同环境下培养出来的人信任，让大家对他们寄予信任。至少，我们可以期待有人能够就人类现在将要付出的代价做出决定，从而纠正过去的行为，并为人类更光明的未来做出决定。需要一个基于社会正义的社会。围绕非殖民化研究方法的研究的出现，确实表明我们已经开始，我们正在走向更美好的世界。新一代确实知道我们失去了什么，也知道我们面临的现状。

最大的问题是——技术只是更智能，而不是更环保吗？

企业正在匆忙吸收数据并获得洞察力，这给了人工智能一个动力，让它变得更强大，从而提供更好的结果。但是支撑这个负担的是环境。更粗放的车型，更多的消耗，对环境的负面影响。

当“数据饥渴”的机器说话时，全世界都在倾听。

碳排放。能源消耗。减少温室气体排放。–他们都受到机器提供的闪亮见解的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由法兰克诉在 Unsplash 拍摄

从 2012 年到 2018 年，深度学习的计算所需的能量增加了大约 300，000 倍[5]。机器学习模型通常需要更多的数据，并且容易消耗更多的功率。为了使这些模型更加熟练和准确，人们需要更多的训练和执行，这是一个永无止境的消费过程。

典型的例子 — OpenAI 最近推出了其最大的基于人工智能的语言模型——gp T3，在大约 5000 亿单词的数据集上进行训练，而之前的 GPT2 模型在 400 亿单词的数据集上进行训练[6]。在此之前，在 2018 年，最好的 NLP 模型 BERT 在 30 亿个单词的数据集上进行训练，BERT 的表现优于 XLNet，XLNet 在 320 亿个单词上进行训练[7]。—这些数字一开始听起来非常乐观，但随之而来的风险包括漫长的培训课程转化为更多的能源消耗，并最终导致大量的碳排放。

这条数据隧道的尽头是否有一丝曙光？

肯定有。毫无疑问，人工智能拯救了环境，促进了国家的经济发展，提供了治理的透明度。如果普华永道最近的一份报告可信的话，用于环境应用的人工智能有可能使一个国家的 GDP 增长 3.1-4.4%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 S. 在 Unsplash 上拍摄

如果一切照常，到 2030 年，它可以将全球温室气体排放量减少约 1.5-4.0%，同时大幅提高 GDP[8]。早期的 GDP 增长在欧洲、北美和东亚等世界少数地区显而易见，约占 1 万亿美元[8]。能源和交通部门的温室气体排放总量可能分别减少约 2%和 1.7%[8]。尽管如此，仍然需要更加关注水和农业，因为从更广泛的意义上来说，它们在环境中发挥着重要作用。

虽然人工智能可以帮助做出正确的决定，改善气候预测，并努力分配可再生资源，但必须有一些解决方案来减轻风险。

●人工智能模型培训课程可以转移到云中，并在可再生资源消耗更大的地方附近举办。由于云可以存储更多的数据集，也更容易利用来自不同位置的数据。

●开发高效的人工智能算法会有所帮助——斯坦福集团最近开展的一项研究评估了同一任务的不同算法。结果显示，调整算法和未调整算法的耗电量相差近 880 千瓦时，这是美国家庭一个月的典型耗电量[1]。如果我们编写更好的代码或更好的模型，我们就可以对减少应用程序的碳足迹产生巨大的影响。

●根据默认配置评估程序，并在模型修复后对其进行微调。我们知道，不仅机器学习模型的训练需要高能量，消耗这样一个人工智能系统消耗的能量也远远超过训练。不仅需要算法方面的发展，还需要建立在可持续能源基础上的基础设施，以促进如此巨大的人工智能依赖应用。

好吧，让我们希望人工智能管道变得环境可持续——这难道不是字面上的两全其美吗？

参考文献:

[1]
【2】https://www . technology review . com/2019/06/06/239031/training-a-single-ai-model-can-emit-as-much-cars-as-fifth/
【3】https://www . seai . ie/data-and-insights/seai-statistics/key-statistics/CO2/
【4

人工授精的人工智能——传感器数据的深度拓扑分析

原文：https://towardsdatascience.com/ai-for-ai-artificial-insemination-deep-topological-analysis-for-sensor-data-9fceccb59bf?source=collection_archive---------16-----------------------

了解 TDA 和深度学习如何对事件进行分类，并发现物联网活动传感器数据流中的隐藏模式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Shutterstock

假设您有多个传感器数据流，并且您希望能够对事件进行分类。它可以使用飞机引擎上的传感器来检测次优模式或医学诊断来检测疾病。

位置(三个方向的罗盘数据)
速度(三个方向的陀螺仪)
加速度(三个方向的加速度计)

使用 PowerBI 或 Tableau 等流行的商业智能工具无法分析这种类型的数据。这样的系统将无法捕捉数据中的复杂模式，也不允许你去探索它们。

然而，这对于深度拓扑分析(DTA)和复杂模式的视觉理解来说是一个很好的情况。DTA 是无监督机器学习的一个例子，这意味着您不需要在分析之前标记您的数据。输出是忠实于基础数据但对主题专家来说是直观的行为聚类。这种更精炼的方法可以让你发现你不知道的你不知道的*。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

流程的高级表示

首先，一个人类的例子

手机是运动数据的典型来源:x、y、z 平面上的位置、速度和加速度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

手机活动集群化，包括 smartlab 提供的视频【1】

对这些数据运行 DTA 可以让您看到算法是如何工作的(见图片)。每个点都是一个短暂的时间窗口，两个点越靠近，在该窗口中发生的行为越相似。自然的行为集群从算法中出现，这些集群可以很容易地被主题专家识别(在这种情况下，我们都熟悉在房子周围移动)。

广泛的集群——站立、坐着和躺着——立即显现出来。但是放大图像会显示更多有趣的子结构，比如上楼、下楼和其他类型的有趣行为。这种类型的可视化给出了对那些了解该领域的人有意义的集群的广泛分布，并且在许多情况下，子结构增强了对主题专家的理解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用手机拍摄的活动片段

艾对一瘸一拐的牛

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不是一瘸一拐的牛，跳舞的牛 youtube 视频

一个好的农民了解他的奶牛，并且知道它们什么时候发情。但是用一个低成本的项圈远程做到这一点是一个数百万美元的数据科学挑战。每个项圈都安装了一组传感器，可以全天候捕捉数据，并每分钟发送一次数据快照。每个传感器产生 9 个数据流:

位置(三个方向的罗盘数据)
速度(三个方向的陀螺仪)
加速度(三个方向的加速度计)

所以每头牛都有很多数据要分析，我们可能在谈论成千上万头牛。

解决这个问题的一个简单方法是测量行走的距离——奶牛发情时会走更多的距离。然而，更精确的分析包括推断所述奶牛的事件和行为。这导致对奶牛正在做什么以及它们处于什么状态有了更完整的了解。重要的是，这种类型的分析可以让你发现你以前不知道的活动，比如跛行或疾病。

当数据变大时，标准方法很快就会丢失细节或完全失效。一些不起作用的方法有:

主成分分析(PCA) —非常快，但通常不适用于人工分析，因为容易产生斑点
多维扩展(MDS) —无法识别结构，速度太慢，对于大数据量来说内存不足
t-SNE——取得了一些成功，但经常遗漏细节，或者发现太多细节并导致错误的聚类，从而歪曲了数据的实际结构
UMAP——是一种很好的最新算法，它的性能优于 t-SNE，尽管它没有深度学习那样的学习能力来从数据中捕捉复杂的高级模式

使用所讨论的算法处理来自奶牛传感器的数据。所有算法都使用默认的元参数执行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PCA、MDS、t-SNE 和 UMAP 算法提供的嵌入

如你所见，主成分分析和 MDS 未能从数据中捕捉到任何结构。另一方面，t-SNE 似乎捕捉到了太多的结构，其中大部分并不存在于数据中。UMAP 显示了有希望的结果，尽管聚类不如 DTA 那样明显，并且结构有些模糊。DTA 结果如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对 43 头奶牛的活动进行聚类，聚类被自动发现，并由主题专家进行标记

图上的每个点代表数据集中每头奶牛活动的 10 分钟窗口。点放在一起形成独特活动的集群。

相比之下，DTA 维护许多细粒度的结构。随着时间的推移，我们发展了这种方法，这是我们处理集群问题的首选方法。

在 DataRefiner 以完全无人监管的方式使用 DTA 算法分析了奶牛传感器数据后，我们得到了几个非连续事件期间奶牛活动的地图。每头奶牛的总时间约为 2000 分钟(或 83 小时)；地图上有 43 头奶牛。每个点代表 10 分钟奶牛活动的窗口(按分钟滑动)。独立的聚类代表独特的活动类型，聚类之间的距离越远，活动的差异就越大。我们对活动模式进行了广泛的验证，可以确认细分是准确的。

正如你所见，奶牛大部分时间都在躺着和吃草/喂食，但也有一些其他活动，如跳跃或打滚。

以下是奶牛在活动中的分布情况:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

14 头奶牛群的活动分布

我们根据奶牛(前 14 头奶牛)给地图上的点着色，剩下的部分为灰色以便于阅读。奶牛在活动中的分布并不均匀，似乎每个奶牛都有自己的偏好。通过选择一只特定的奶牛，我们可以探索这头奶牛做了什么以及她参与了哪些活动模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

跛行奶牛模式动画(在集群视图和奶牛活动视图之间切换)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

发情的奶牛[2]

Cow6 有不寻常的活动模式——她在从食槽进食和非常接近行走的活动之间花时间。这是一个具有独特模式的独立集群，所以经过一些审查后，我们发现 Cow6 是一瘸一拐的。她不能跑长距离，所以她的行为通常不会被归类为发情。然而，我们可以看到，当它们发情时，她也活跃在“骑牛”群里(见图)。通过这种方式，我们知道我们有一只跛行的母牛发情了——这是一个非常精确的结果，否则可能会被错过。现在到了一种不同类型的人工智能的时候了:人工授精。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

易于使用的可视化工具有助于快速识别“奶牛饲养”集群，这是农业行业的直接行动号召。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分析 DataRefiner 平台中跛行 cow6 的“Cow Mounting”集群

深度拓扑分析

深度拓扑分析(DTA)是拓扑数据分析(TDA)和深度生成模型的结合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

传统 TDA 计算的四步流程

计算过程的目的是获得 2D 或 3D 平面上多维结构的近似表示。一般的 DTA 过程如下:

1 取原始维度的点云，计算嵌套的拓扑复合体。在这种情况下，我们将使用 Vietoris-Rips 算法。这是将附近的点连接成拓扑结构的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Viet oris-Rips 算法动画【3】

2 使用嵌套复合物计算这种结构的拓扑持久性。使用上一步创建的复合物，我们可以计算结构的条形码。这些条形码将帮助我们识别结构的持久元素。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从嵌套复合体生成条形码【4】

3 利用莫尔斯理论创建数据结构流形。这一步有助于我们简化原始尺寸的流形，并允许我们转换用户分析的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以高度函数为莫尔斯函数的圆环体。在左边我们看到一个平面表示级别，在中间是子级别集，在右边是相应的复合体[5]

4 从多维结构中提取 Reeb 图。使用 Reeb 图和 Morse 理论的结果计算 2D 和 3D 表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过谱聚类的 Reeb 图计算【6】

第 3 步和第 4 步的计算量非常大，尤其是对于具有大维数的大量数据。为了使这些步骤在实际应用中可行，我们必须进行近似和估计。

在这里，我们不是做一个简单的近似，而是使用生成模型不仅得到一个简单的近似，而且从数据中学习复杂的模式。这有助于获得更好的聚类和模式分离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 GAN 进行拓扑计算(OpenAI 的 GAN 图[7]的修改版本)

结论

在 DataRefiner，我们已经在许多公司使用这项技术，不仅用于物联网分析，还用于用户活动和文本分割。如果您想了解更多信息或预订演示，请联系我们。

DataRefiner.com是一家总部位于英国的公司，专注于复杂数据的分析和细分，如用户活动、传感器或文本。DataRefiner 平台是这里讨论的多年提炼方法的结果，但它被广泛应用于各种行业，包括航空、社交网络、欺诈检测等等。如需了解更多关于您所在行业的信息，请通过 ed@datarefiner.com 联系我们

原文:【https://datarefiner.com/feed/ai-for-ai】T21

参考资料:

[1]基于智能手机的人类活动和姿势转换识别，https://sites.google.com/view/smartlabunige

[2]纳迪丝。国家动物疾病信息服务。发情期的奶牛:https://www . nadis . org . uk/disease-a-z/黄牛/奶牛群的繁殖力/part-2-heat-detection/

[3] Vietoris-Rips 算法动画:https://towards data science . com/the-shape-that-survive-the-noise-f0a2a 89018 c 6

[4]拓扑数据分析—持续同源:【http://outlace.com/TDApart1.html】T4

[5]马蒂亚斯·温特拉肯:https://www-sop.inria.fr/members/Mathijs.wintraecken/Mathematica . html

[6]马腾；庄智武；裴洛；冯路。通过谱聚类进行 Reeb 图计算，2011 年

[7]原开乃甘图:图

商业人工智能:公司如何让数据为他们服务？

原文：https://towardsdatascience.com/ai-for-business-how-are-companies-making-data-work-for-them-14191369f513?source=collection_archive---------29-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:Pixabay

银行、营销、零售和医疗都已经看到了机器学习改变他们做生意方式的例子。其他人呢？

每个新闻周期似乎都会挖掘出一个关于人工智能变革力量的新的热门故事。最近有报道称，科学家利用强大的算法发现了一种新型抗生素，这一成就被认为是对抗日益严重的耐药性问题的突破。从新闻业到零售业、人力资源和航空航天等行业都见证了人工智能技术改变他们最近做生意方式的迷人例子。但这些引人注目的故事如何转化为真正的企业在地面上适应人工智能？

挑战:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:Pexels

人工智能对于企业来说是一个巨大的机会，可以利用相对较新的大规模数据激增。根据麦肯锡的说法，人工智能有潜力在 2030 年前带来约 13 万亿美元的额外全球经济活动，或比今天高出约 16%的累计 GDP。人工智能和机器学习是企业可以用来理解大数据(传统数据处理软件无法处理的庞大或复杂的数据集)的工具示例。但许多公司，尤其是中小型公司，面临着适应大规模技术的挑战。这些包括利用人工智能所需的技术技能不足，缺乏对其好处或用途的理解，或者难以定义战略和找到该技术的适当用例。清楚地了解你想用一个人工智能项目实现什么是至关重要的；就像拼图游戏一样，在你开始拼起来之前，你需要知道结果应该是什么样子。

“尽管我们听说大多数商业领袖认为人工智能提供了竞争优势，但直到最近，一些行业观察人士认为企业采用人工智能的比例还不到 20%。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图为-不完整的人工智能项目。图片:Unsplash

然而，一旦这些障碍被克服，这项技术将会有无穷无尽的应用。人工智能可以改善许多类似人类的过程的自动化、增强和缩放。这些可以包括:

流程应用:

自动化专家决策:例如，使用算法来计算工厂中的最佳维护计划。门票转售公司 StubHub 报告称，在实施预测分析和统计分析包后，在线欺诈减少了 90%。

自动化非技术性工作:例如，手写识别，以加快表格处理。

将技术工人从非技术任务中解放出来，让他们能够履行核心职责。这对各行各业都有影响，从减少护士必须完成的文书工作，让他们有更多时间与病人相处，到艺术家自动化创作过程中重复、耗时的部分。

洞察应用:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:维基百科

机器学习工具可以分析大型数据集，以识别模式或进行预测。例如，自然语言处理应用程序可以分析社交媒体帖子，以了解客户对某个品牌的看法或为客户量身定制的促销活动。西班牙金融服务公司 CaixaBank 最近报告称，通过个性化、有针对性的信息,“真实销售额”增加了 50%。

例如，一家医疗机构可以使用索赔和生物特征测量的数据来生成机器学习模型，该模型可以准确预测患者患病的可能性。该模型还可以预测最有可能改善患者健康前景的干预措施。

机会:

较小的企业和初创公司足够敏捷，可以从头开始实施自己的人工智能战略，并可能为更成熟的组织提供服务。许多尚未采用成功的人工智能项目的大型企业可能有惊人的机会这样做。这些可能包括尚未完全分析的大型数据集、非结构化数据集、分析分类和预测任务、预测或文档审阅和总结。

按行业划分的一些潜在使用案例包括:

营销: DX Marketing 报告称，通过机器学习，交付分析项目的速度提高了 70%，这相当于六个月内收入增长了 25%。

**金融服务:**虚拟助理、欺诈检测和自然语言合同处理已经在许多公司成功实施。

**零售:**购物篮分析和智能促销可以将企业与客户联系起来。

**能源:**简化操作、探索&发现和预测性维护都可以通过人工智能来实现。澳大利亚能源公司利用大数据解决方案监控世界上最长的互联电网，为客户提供无缝体验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:Unsplash

**医疗保健:**医疗记录、患者护理和医疗&图像分析可以得到简化，并且更加易于访问。据报道，NHS 能够检测到针对医疗保健专业人员的异常行为，并最终通过利用高级分析在整个部门节省了 5.61 亿美元。

**娱乐:**人工智能推荐占网飞使用量的 75%。预测消费者的选择是让人们继续关注的一个可靠方法。

对企业(和其他所有人)来说，好消息是，到 2020 年，人工智能将成为一个净积极的工作激励因素，消除 180 万个工作岗位，同时创造 230 万个工作岗位

对企业来说，更好的消息是，第三方基于云的机器学习解决方案有很多选择，消除了对昂贵的分析部门的需求。公司的战略家将不得不决定他们想如何抓住这个机会，牢记他们的业务规模和类型。可以肯定的是，机会是巨大的，存在于各行各业，从一个人的初创企业一直到大型企业。

人工智能医疗保健:介绍你可能想不到的一切

原文：https://towardsdatascience.com/ai-for-healthcare-an-introduction-f5ae368bc0ef?source=collection_archive---------46-----------------------

专注于计算机视觉、工作流程和放射学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

乔纳森·博尔巴在 Unsplash 上的照片

我们的医疗保健系统存在短缺。

美国医学院协会最近的一项调查发现，到 2032 年，仅在美国，我们就将缺少46，900 到 121，900 名医生，其他国家的情况也好不到哪里去。

这意味着医生将需要工作更多的时间，有更多的工作在他们的盘子上，同时试图为他们的病人保持高质量的护理。

在最近的疫情事件中，我们已经看到了我们的医疗系统是多么的脆弱，甚至忽略了医生的职业倦怠正在上升。

研究人员调查了在 119 个门诊诊所工作的 422 名家庭医生和普通内科医生，调查了这些诊所的 1，795 名患者，并审查了他们的医疗记录，以获得关于护理质量和医疗错误的信息。超过一半的医生报告在进行体检时经历了时间压力。 近三分之一的人认为他们需要的时间比分配给这项病人护理职能的时间至少多 50%。此外，近四分之一的人表示，他们需要至少 50%以上的时间进行后续预约。—医疗保健研究与质量局

但是我们可以建立系统来帮助减轻医生的负担，通过简化他们的工作流程和让他们使用高质量的工具来使他们更容易工作。

这篇文章将作为我将要写的人工智能在医疗保健系统中的应用的介绍。在这里，我将重点关注临床成像和人工智能算法的应用，以帮助临床医生。

用于临床成像的工具

在训练机器学习模型时，对数据集可能包含的图像类型有一个大致的了解非常重要。一些图像可能非常详细，并允许更高的训练精度。其他图像的细节可能较低，但使用频率更高。

例如，您可能开发了一个很好的模型，可以在 CT 扫描中确定骨折的位置，但该模型在 x 射线扫描中可能表现不佳。如果大多数医院和诊所使用 x 射线检查骨折，而你的模型不能很好地处理这类数据，那么它可能就没用了。

这就是为什么知道可用的想象工具的类型很重要，这样你就可以研究如何最好地实现你建立的模型。

我们将重点介绍临床医生使用的三种机器。

1.x 射线

x 射线通常用于骨骼，有时也用于像肺或心脏这样的致密器官。

这种机器的工作原理是让放射线(x 射线)穿过身体的某个部位。被高密度物体阻挡的辐射在电影中呈现白色。

它们通常用于诊断:

疾病/骨骼退化
变色
骨折
肿瘤
感染

这些图像通常不如其他成像解决方案详细，并且需要使用辐射。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自维基百科

x 射线将捕捉到一个单一的 2D 图像。

x 射线通常是医疗成像中最便宜的选择，有时会先做，即使临床医生认为你之后可能需要 CT 或 MRI。

2.CT 扫描

CT 扫描与 x 射线相似，都是利用辐射来捕捉图像。主要区别在于，它能够捕捉身体的多个切片，为医生提供所捕捉切片的 3D 视图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自维基百科

CT 非常强大，因为它们允许临床医生创建骨骼、血管、软组织和其他器官的详细图像。

它们通常用于诊断:

阑尾炎
巨蟹星座
创伤
心脏病
传染病。

重要的是要注意图像本身不是 3D 的**，而是多个 2D 图像**。

CT 扫描比 x 射线更贵，但能提供更多细节。

核磁共振扫描

磁共振成像(或 MRI)通常用于软组织损伤，如肌肉或结缔组织。这是因为他们为这些类型的组织提供了更多的细节。核磁共振成像使用电磁体来产生图像，因此不会受到辐射。

然而，这意味着它们不能被体内有金属的人使用。核磁共振成像可以产生 2D 和三维图像

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自维基百科

核磁共振成像是医生可能拥有的最昂贵的成像工具。

来源: 你可以在这里阅读更多关于差异

医学成像中的工作流程

下一个需要理解的重要部分是诊所和医院通常用于成像的工作流程。

这些信息将帮助我们知道，在 我们的模型应该部署到哪个阶段。

这里我们看到 5 个主要阶段。图像首先通过使用 X 射线、CT 或 MRI 拍摄。这些图像然后被存储在一个叫做图像存档和通信系统(PACS) 的在线服务器中。该服务器允许不同部门访问医院中的成像信息。然后一名放射科医师将按照先进先出的顺序阅读并解读图像。他们将识别异常，然后生成患者图像的解释。最后，医生将根据扫描结果和所有其他可用信息做出诊断。重要的是要知道诊断只能由内科医生而不是放射科医生做出。

执行的成像类型

1.诊断性影像学

如果临床医生认为患者有某种问题，需要通过想象来验证，那么我们称之为诊断图像。

例如，在医生可能认为脑震荡对大脑造成了严重损害的情况下，他们可能会要求进行 CT 或 MRI 扫描，以诊断是否有任何明显的脑损伤。

诊断图像可用于生命可能受到威胁的紧急情况(例如验证脑出血)或非紧急情况。

2.排查

这通常用在病人没什么问题，但风险较低的时候。例如，具有肺癌家族史的患者可以接受定期筛查以进行早期检测。

这些通常是非紧急情况。

来源 : 梅菲尔

基本 2D 图像算法

接下来，我们应该简单了解一下可以应用于医学图像的成像算法的类型。这些算法将帮助我们确定解决特定问题的最佳方法和解决方案。

分类

分类用于识别图像属于哪一类。这是通过识别结构或用图像寻找的算法来完成的。这可以是二进制或多类。用外行人的话来说，分类解决了“这是猫还是狗的照片”。在医学上，我们可以用它来检测图像中是否存在肿瘤。

例如，如果我将它交给一个图像分类器，它将返回结果“ 患者患有肿瘤 ”。它不会提供任何其他信息，如肿瘤的大小或位置。

维基百科

定位(检测)

定位类似于分类，因为它将识别一个结构或发现是否存在。但它走得更远了。

本地化不会告诉您存在一个发现，而是将模型已经识别的每个发现的位置装箱。这对于吸引放射科医师的注意力非常有用，放射科医师可以更快地识别潜在的感兴趣点。

在上面的例子中，肿瘤非常明显。但在下一个例子中，我们将寻找肺部病变。

中值技术

这里，该算法能够正确识别肺部病变。有时，还会给出一个置信度来帮助放射科医师了解模型认为它识别了正确区域的可能性有多大。

分割

分割类似于定位和分类，因为它将识别结构或发现是否存在，并定位它们在图像上的位置。

分割将识别图像中包含结构的像素，并突出显示该结构。这对于获取结构的面积或大小以及跟踪其随时间的增长或收缩非常有用。

例如，在这个例子中，这个模型不是仅仅包围肿瘤所在的区域，而是试图勾勒出确切的肿瘤轮廓。这使得从某个切片或图像通过计算确定肿瘤的大小变得更加容易。

ingegneriabiomedica.org

利益相关者

如果你想把你的产品推向市场，重要的是要注意哪些利益相关者参与其中，并以对每个利益相关者都有利的方式形成你的产品。

放射科医生(临床利益相关者)

这通常是算法的最终用户，应该熟悉算法的准确性和可能出现的故障类型。
在开发您的模型时，他们将扮演重要的顾问角色，提供他们日常面对的重要见解。
放射科医生最关心的是有低分配到那里已经繁忙的工作流程。拥有一个难以使用的优秀表演模型是行不通的。

临床医生(临床利益相关者)

临床医生对你的算法的理解会更模糊。
临床医生也关心对工作流程的低干扰。一个耗时太长或者提供的数据不容易被临床医生理解的算法对他们来说是没有用的。

患者(临床利益相关者)

病人将是最重要的利益相关者。
病人可能永远不知道人工智能参与了诊断过程。
患者最关心的是理解为什么他们的诊断是这样的，获得诊断的时间长度，以及诊断的准确性。

医疗器械公司(行业利益相关方)

这些公司生产用于医院、实验室和诊所的设备。
他们通常有自己的随行成像软件，并开发自己的 AI 算法。
医疗设备公司
了解这些系统的能力以及您的算法如何改进或增强当前已经使用的软件非常重要

软件公司(行业利益相关者)

为成像或临床应用开发人工智能算法。
他们必须明确他们的软件是在哪种类型的医学成像硬件上通过验证的(出于监管目的)。

医院和放射诊所(行业利益相关者)

必须能够支持部署的任何算法的基础设施(云资源/GPU/其他硬件)
随着时间的推移，对人工智能的兴趣通常与降低成本联系在一起。

监管机构(监管利益相关方)

他们主要关心的是病人的安全。这意味着非常严格的监管。
他们确保该算法被贴上标签，投入市场，并在临床环境中适当使用。
FDA 等监管机构将医学成像的人工智能算法视为医疗设备。

AI 什么时候最有效？

当它使每个相关人员的工作变得更容易、更高效时。算法的准确性很重要，但实现算法的方式也同样重要。

算法应该让关键研究更快地解读。
它应该有助于减少临床医生的倦怠和疲劳。
做出准确的评估。
易于相关人员使用。

案例示例

减少放射科医生的倦怠

应用:乳腺摄影筛查

摘要:美国每年进行数百万次乳房 x 光检查，需要 2 名放射科医师 解读结果。超过 85%的乳房 x 光片最终完全正常。

问题:放射科医生正在浪费时间解读正常的乳房 x 光片。

潜在解决方案:使用分类。根据模型的准确性，可以使用算法来确定乳房 x 线照片是阳性还是阴性，然后可以使用单个放射科医生来验证结果。

优化放射科医师在急诊室的工作流程

应用:下垂性脑出血

概要:放射科医生按照先进先出的队列从 PACs 系统中读取图像。

问题:如果不及时治疗，脑出血是致命的，需要迅速发现。

潜在解决方案:将图像放入 PACs 之前运行的分类算法。如果它确定存在脑出血，它可以被推到队列的前面，以便放射科医师进行验证。

考虑到所有这些因素，并对医疗领域有一个更全面的了解，是确保您的算法能够真正用于医疗环境的最佳方式。

如果你喜欢这篇文章，可以考虑看看我的其他作品！

* [## Epic 不是因为 30%的降价起诉苹果，而是因为其他事情起诉他们

他们不想只是推翻垄断，他们想要他们的份额

medium.com](https://medium.com/macoclock/epic-isnt-suing-apple-for-the-30-cut-they-re-suing-them-for-something-else-c5a0da2e2118) [## 数据可视化:动画条形图！

Excel 和 After Effects 中的数据可视化和动画

towardsdatascience.com](/data-visualization-animate-bar-graphs-df9ca03a09f2) [## 可共享的 Jupyter 笔记本！

最后，团队可以轻松地共享和运行代码

towardsdatascience.com](/sharable-jupyter-notebooks-bf3ec9c2e0be) [## 使用 Python 制作数据动画

仅使用 MatPlotLib 查看实时数据

towardsdatascience.com](/animate-data-using-python-dd558e9103d)*

工业过程控制的人工智能:控制策略介绍(上)

原文：https://towardsdatascience.com/ai-for-industrial-process-control-intro-to-control-strategies-part-1-b855fb6df61d?source=collection_archive---------22-----------------------

工业反应和预测控制器的概念概述

介绍

在过去的几十年里，“数字革命”使得制造商和公用事业公司能够为他们的工厂配备分布式监控系统。无论是工业膜还是生物反应器，这些控制系统都是重工业自动化的核心，使公司能够读取、解释和使用自己的机器生成数据来实现生产和合规目标。然而，尽管它们具有普遍性，但这些控制系统只是最近才开始作为人工智能(AI)破坏的潜在候选人而受到关注。

今天，大型工厂控制室中的操作员被期望在很大程度上依靠他们自己的判断和经验。在同时监控数十个过程信号的同时，他们需要调整控制系统设置、排除警报故障、执行质量测试，从而限制了他们的人力。好消息是，这些工厂正在不断捕捉和存储大量数据，这些数据可以很容易地被人工智能系统消耗。使用人工智能进行过程控制，可以显著简化数据处理，并为操作员提供增强的决策支持。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上科学高清拍摄的照片

在这一系列文章中，我们将深入探讨(1)这些工业过程控制系统今天是什么样子，(2)人工智能如何利用现有的工厂数据来增强它们，(3)制造商和公用事业公司今天可以做些什么来释放显著的成本节约和过程合规性机会。

控制系统分类

让我们从一些简单的术语开始。过程(即反应器、过滤器)由控制器控制，控制器消耗来自传感器(即流量计、分析仪)的测量值，传感器实时监控关键过程状态(即流量、温度、压力)，如图 1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图一。剖析一个原型工业控制系统 (图片由作者提供)

这些控制器使用这些测量来实时产生控制动作(即打开/关闭阀门，打开/关闭泵)。根据控制器如何消耗这些传感器测量值并产生控制动作的机制，可以将控制器分为反应型或预测型。反应控制系统中的控制动作仅基于当前或过去的状态，即过程的当前或最近的传感器测量。相反，预测控制器使用对过程未来状态的预测来产生控制动作，通常采用某种形式的系统数学优化和模拟模型。

反应式控制器的一些例子包括比例控制器的变体，例如比例积分(PI)和比例积分微分(PID)；而模型预测控制(MPC)是预测控制策略的一个例子。

反应控制的标志:比例积分微分(PID)控制

工业和公用事业过程中最常见的反应控制(也称为反馈控制)策略是比例积分微分(PID)控制器。在 PID 控制器中，控制动作是测量状态与所需设定点(即目标)偏差的函数，通常称为“误差”，如图 2 所示。该目标设定点通常由操作员指定，以便实现一些生产或符合性目标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图二。反应式控制器如何工作 (图片由作者提供)

PID 控制器的一个常见例子是简单的汽车巡航控制系统，如图 3 所示。这里，驾驶员(操作者)指定期望速度(设定点),控制器根据当前速度(显示在速度计上)和期望速度之间的差异计算相应的加速度要求。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3。简单的汽车巡航控制系统 (图片由作者提供)

PID 首字母缩略词中的每个字母表示一种“校正模式”，控制器使用这种模式来计算控制动作将如何响应当前状态与其目标的偏差，如图 4 所示。“比例”校正意味着控制动作被计算为对误差的即时或线性响应，而“积分”校正意味着控制动作被计算为一段时间内状态的累积误差的函数。它被称为“积分”控制，因为随着时间的累积误差是使用积分计算的。最后，“导数”校正使用状态误差的变化率，如其导数所测量的。因此，任何无功控制器都可以是这些计算(PI、PID 或 P)的任意组合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4。比例积分微分控制器框图 (图片由作者提供)

如图 4 所示，每个校正响应由常数缩放，如 KP 和 KI ，称为增益系数。这些参数通常由自动化或控制工程师调整。可以调节控制器增益，以使控制器输出变化对设定点和状态变量之间的偏差尽可能敏感；并且可以选择系数的符号，以使控制器输出随着误差信号的增加而增加或减少。

将微分和积分校正模式合并为控制器的一部分取决于被控制的过程的类型。综合校正确保不会出现长期持续的偏差或误差漂移，同时导数校正确保控制器快速响应误差变化，确保控制器在其响应中不会超调(过度补偿)。

虽然反应式控制策略的制定和部署非常简单，但它的致命弱点可能已经显而易见。

反应式控制器的控制响应是对系统当前状态的持续反应，对其未来动态没有预见。这意味着控制器容易受到不断演变的系统行为或异常的影响。

对于处于高度竞争的制造环境中的工厂，或者受到气候变化压力的公用事业系统，不断变化的动态可能是每天的现实。例如，如果生物反应器中出现大量营养负荷，该系统将消耗大量能量来驱动溶解氧回到所需的操作范围。可选地，泵可以在给定的控制范围内多次在在线和离线之间转换其状态，以确保下游罐在其操作范围内，从而导致由不期望的压力瞬变引起的潜在故障。

模型预测控制

上面列出的缺点正是模型预测控制(MPC)存在的原因。MPC 是一种为复杂、非线性过程的主动控制而设计的方法。基于反应的控制策略，如 PID 控制，其控制动作基于传感器记录的历史和当前系统状态，而 MPC 使用未来状态的预测。因此，MPC 控制器需要过程的精确仿真模型，以便产生可靠的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5。MPC 控制器的框图 (图片由作者提供)

如图 5 所示，有几个额外的元件构成了传统无功控制器中不存在的 MPC。其中包括:

1.仿真模型:过程动态的数学表示，即它可以根据各种控制动作序列预测过程的未来状态

2.优化器:一个数学解算器，可以根据仿真模型的输出迭代地确定“最优”控制动作

3.约束:指定优化器不能超过的可接受的未来状态的边界*，即氨排放浓度的符合性限制*

4.目标:运营商寻求实现的优化目标*，即降低能源成本*

预测控制通过执行动态、实时优化来产生控制动作，这些控制动作适应干扰并符合用户指定的约束。MPC 允许操作员通过比传统反应式控制器更接近约束条件的操作来更有效地运行他们的过程。

图 5 中的框图提供了 MPC 框架的概念性概述。虽然 MPC 结构比传统的反应式控制器更复杂，但它有几个重要的优点:

1.控制动作被优化以实现期望的结果，例如降低能量成本或提高反应效率

2.控制器对来自干扰的扰乱不太敏感，因为它可以预测它们并更快地响应

3.可以对控制器施加状态和控制的约束，以确保产生顺从的控制动作

4.准确的模型预测可以提供潜在问题的早期预警

5.过程模型捕捉控制、状态和干扰变量之间的动态相互作用

下一个？

到目前为止，我们已经讲述了过程控制的基础知识。在本系列的第 2 部分中，我们将更详细地探讨 MPC 控制器如何工作，并提供一些说明它们如何优于传统 PID 控制器的示例。

人工智能促进收入增长:使用 ML 推动更有价值的定价

原文：https://towardsdatascience.com/ai-for-revenue-growth-using-ml-to-drive-more-valuable-pricing-89e8c790f795?source=collection_archive---------31-----------------------

一个国家健身品牌如何使用机器学习来优化定价并使收入增长 11%

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

米歇尔·汉德森在 Unsplash 上的照片

介绍

价格优化是收入增长的有力杠杆，但它经常被太多的公司放在太硬的篮子里。

这是因为传统的定价优化方法不仅实施起来复杂，而且在准确捕捉影响定价的所有因素方面能力有限。

机器学习(ML)非常适合于定价优化问题——既因为它处理复杂特征的能力，也因为它概括新情况的能力。此外，托管服务的最新进展使得这些 ML 解决方案几乎可以为任何组织所用。

在这个匿名示例中，我们探索了一家没有数据科学专业知识的公司如何能够使用托管 ML 服务来实施 ML 驱动的定价策略，该策略的性能是传统方法的 2 倍，并使收入增长了 11%。

情况

FitCo 是总部位于洛杉矶的优质健身品牌，在美国经营着 600 多家健身房和健身中心。

在过去几年通过收购快速增长后，管理层的注意力现在转向了推动有机收入的增长，这在每个工作室的基础上一直顽固地保持平稳。

FitCo 将 FitClass——其专业健身课程套件——确定为有机增长的主要来源。具体来说，它已确定这些类别的定价是一个主要的潜在改进领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由吉尔特·皮特斯在 Unsplash 上拍摄

FitClasses 是 FitCo 旗下品牌中很受欢迎的产品。它们是迎合利基健身需求的优质体验，在标准会员资格的基础上按等级付费出售。

虽然 FitCo 确保了其产品组合的一致用户体验，但当地运营商仍然能够在他们的工作室中几乎完全独立地为 FitClasses 设定时间表和价格。因此，不同等级和不同地点的价格差异很大。

虽然 FitCo 理解这种差异反映了当地的条件，但他们也怀疑其投资组合的定价方式还有相当大的改进空间。

并发症

FitCo 在两年前进行了一次定价活动，之前的管理层选择集中 FitClass 的定价，并制定了 10%至 20%的全面提价。

这种生硬的方法没有成功。它未能考虑到客户需求在各种级别和地点的价格弹性，价格上涨实际上导致总收入下降2 %,因为许多级别需求的下降超过了价格的上涨。几个月后，他们被迫取消价格变动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然很痛苦，但这种经历至少给了 FitCo 一个关于 FitClass 客户群价格弹性的非常可靠的数据集。它可以绘制出三个利用率级别(高(> 85%)、中(50–85%)和低(< 50%)的价格增长对等级需求的影响。FitCo 模拟了价格上涨对需求的各种影响，估计更有效的定价将带来 15%的收入潜力。

为了抓住更高的收入潜力，FitCo 现在只需要能够准确预测未来对课程的需求(无论是当前的还是新的)，以准确模拟价格对收入的影响。这将使 FitCo 能够确定每一级别的价格上涨是否有利可图，以及上涨幅度有多大。

FitCo 最初尝试使用传统的基于规则的方法——实际上是一系列 if/then 语句，根据特定条件设置波段。经过大量的反复试验，他们成功地编写了一个函数，估计可以产生大约 5%的额外收入。这并不坏，但这种方法有两个主要限制:(1)它未能充分考虑与每个类别相关的各种因素的相互关系——它错误地预测了错误范围内的太多类别，导致使用率下降——以及(2)它未能推广到任何给定位置的新的课程安排或细节——它不能充分考虑因素或场景的新组合。

为了寻找替代方法，FitCo 求助于 ML。

毫升溶液

ML 非常适合这些类型的分类问题，因为它能够处理广泛的因素，并概括出未知或新的情况。

然而，像其规模和行业中的大多数组织一样，FitCo 没有 ML 能力或现成的数据科学家团队来设计、构建和部署 ML 解决方案。这在以前是采用 ML 的主要障碍。然而今天，ML 托管服务的可用性已经在很大程度上使 ML 功能的访问大众化。

对于他们的解决方案，FitCo 选择了 Amazon SageMaker，其中包括一项名为 AutoPilot 的 AutoML 功能，它可以接受一个简单的表格数据集，并自动围绕它构建 ML 工作负载。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AutoPilot 接受一个简单的表格数据集，并围绕它构建一个 ML 工作负载

有了自动驾驶，FitCo 不再需要一个数据科学家团队来获得 ML 的好处。相反，他们能够通过一个由 CFO(作为业务所有者)、CTO(作为技术所有者)和一个负责构建和集成解决方案的后端开发人员组成的三人项目团队来推动这项计划。

培训用数据

为了建立他们的训练数据集，FitCo 收集了他们每个班级过去两年的历史利用率数据。

每一个班级的利用率以占总名额的百分比来表示。FitCo 根据上述利用率范围将这一栏中的数据转换为“高”、“中”和“低”，并将这一栏命名为“目标”。这将是 ML 模型预测的列。

然后，他们将这些数据与一组他们认为可能表明利用率的内部特征结合起来。他们还添加了一系列他们认为相关的外部数据。结果是一个包含 800，000 个实例的数据集，它包含以下特征:

类别类型(分类)
位置(分类)
星期几(分类)
一天中的时间(数字)
讲师(分类)
工作室品牌(分类)
是公共假日(二进制)
是学校放假(二进制)
外部温度(数值)
目标(分类)

FitCo 做了一些基本的功能工程来更好地组织和格式化这个数据集，将其转换为 csv 格式并保存在 S3 桶中。他们现在有了一个数据集，可以用来训练他们的 ML 模型。

亚马逊 SageMaker 自动驾驶仪

FitCo 选择 Autopilot 是因为它能够简化和精简机器学习过程的核心组件。AutoPilot 自动化了探索数据、工程特性、测试不同算法和选择最佳模型的过程。它只需要您提供一个表格数据集。

此外，它会自动呈现它所使用的代码库，从而增加流程的可见性和可重复性。这对 FitCo 的首席技术官来说是一个重要的区别，因为它让 FitCo 有机会探索和学习生成模型所采取的步骤，并为其提供一个代码库，以便在未来对其进行修改和优化。

为了启动自动驾驶程序，FitCo 使用了亚马逊 SageMaker Studio 中的无代码接口。这需要三个关键步骤:

命名他们的实验
将 SageMaker 指向他们的培训文件所在的 s3 存储桶，并且
定义要预测的变量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AutoPilot 的无代码接口使 ML 对任何组织都触手可及

一旦输入这些细节，他们只需点击创建实验，FitCo 的 ML 模型构建正在进行中，运行一系列试验来确定最佳的 ML 方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自动驾驶仪进行试验的完整列表，以确定最佳性能模型

这个过程大约需要一个小时才能完成。一旦得出结论，FitCo 就可以简单地对试验列表进行排序，以找到性能最佳的模型。他们能够生成包含该模型代码的笔记本，还能够将该模型部署到 SageMaker 端点，使他们能够进一步测试该模型根据新数据生成的推断(预测)，甚至将其投入生产。

结果

当根据 FitCo 的测试数据集建模时，ML 模型的性能比他们基于规则的方法高出 2 倍，总收入估计增加了 11%。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ML 模型的性能是基于规则的方法的 2 倍

这种性能改进主要源于 ML 预测比基于规则的方法更高的精度。在多类分类问题中，挑战不仅在于预测正确的类，还在于最小化不准确的代价。例如，将低需求等级错误地预测为“中等”比预测为“高”成本更低。具体来说，根据 FitCo 的价格弹性曲线，这一特定错误的成本以需求下降的形式增加了约 4 倍。

传统方法和最大似然法之间的这种性能的比较可以在下面看到，并且说明传统方法实际上在准确预测高需求类别方面优于最大似然法。问题是，它无法做到这一点，而也准确预测中低需求等级。此外，它在不准确地将低等级预测为高需求等级方面犯了代价高昂的错误。ML 模型能够更好地更全面地映射数据的形状，以考虑这两种情况。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于规则的方法在 25%的情况下错误地将低级预测为高级

这些错误给基于规则的方法的收入带来了相当大的损失，而 ML 模型可以避免这些错误。例如，不准确地预测低需求类别为高需求导致需求下降近 50%，远远抵消了其余成员支付的 30%的高价格。

下面的矩阵显示了每种类型的预测对收入增长的影响，以传统方法和 ML 方法之间的性能差异表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ML 模型能够通过更加一致的整体准确性产生 5.5%的额外收入

尽管传统方法成功地击败了 ML 模型，正确地将较高比例的高级类标记为高(一种称为“召回”的度量)，但它也错误地将更多的“中等”和“低”需求类标记为高(称为“精度”)。

因此，尽管其准确的高预测产生了 1.4%的高收入，但这是以需求下降导致的 2.8%的收入损失为代价的，因为不正确地向弹性更高的中低阶层收取了更高的价格。类似的模式也出现在低预测中；ML 模型更高的准确性意味着它只是降低了人们预期会看到更高需求的类别的价格。

由于这种更高的精度，即更准确地预测高等级和低等级，ML 模型能够产生 5.5%的总收入，是基于规则的方法的两倍多。

结论

定价优化是收入增长的有力杠杆，而 ML 的应用提供了一个强有力的解决方案，它往往优于传统方法。

在 FitCo 的案例中，与基于规则的最佳替代方案相比，将 ML 应用于他们的挑战产生了 2 倍的收入增长，并产生了约 11%的收入增长。

FitCo 的例子有助于展示 ML 如何应用于优化定价，以及像 SageMaker AutoPilot 这样的托管服务如何能够将这些强大的 ML 解决方案放在几乎任何组织都可以达到的范围内。

有你想要探索的人工智能机会吗？在 LinkedIn 上和我联系。

纺织品人工智能——基于卷积神经网络的织物结构分类器

原文：https://towardsdatascience.com/ai-for-textiles-convolutional-neural-network-based-fabric-structure-classifier-c0db5433501d?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: AllNikArt ，via pixabay

T 如今，深度学习被广泛用于各种人工智能应用，包括面部识别、自然语言处理等。在纺织工程领域也有可能找到深度学习的许多应用，计算机视觉已经在这种背景下广泛使用。本文描述了开发卷积神经网络用于从织物表面的输入图像识别织物结构的方法。开发的模型能够成功地区分针织物和机织物结构。

由于针织和机织结构的结构差异，它们很容易区分。针织物的线圈结构和机织物上交织的经纱和纬纱使得这两种结构易于识别。如果通过显示一组标记的针织和机织织物图像，可以训练神经网络来学习织物结构固有的这些特征，那么神经网络将能够正确地区分针织和机织织物图像，这是它以前从未见过的。为了实现这一点，决定使用卷积神经网络(CNN)架构，因为 CNN 能够有效地从图像中提取特征。

该模型是使用 python 和 TensorFlow 框架以及 Keras API 开发的。为了获得用于训练神经网络的数据集，使用了在【https://ibug.doc.ic.ac.uk/resources/fabrics/】上可用的图像的开源数据库，该数据库最初是为一项研究而准备的( C. Kampouris，S. Zafeiriou，A. Ghosh，S. Malassiotis， 使用微观几何和反射率的细粒度材料分类 ，第 14 届欧洲计算机视觉会议，阿姆斯特丹，2016 年)。该原始数据集中的织物图像根据材料类型(即尼龙、聚酯、棉等)进行标记。).因此，在训练之前，从该原始数据集中选择总共 4300 幅图像，并根据织物结构(即，针织和机织)对其进行人工标记。在 4300 幅图像中，4200 幅用作训练数据，而剩余的 100 幅用作验证数据。(尽管验证数据集太小，但大多数图像用于训练以避免过度拟合)。训练和验证数据集都由相同数量的针织和机织织物图像组成。

最初，决定使用迁移学习技术。因此，使用 VGG16 架构(https://arxiv.org/abs/1409.1556)和预训练的权重。只有最终输出层被更改为具有两个单元的 softmax 层。使用迁移学习，训练最终输出层，保持其他层的权重不变，经过 100 个历元后，训练和验证准确率分别达到 88%和 83%。

为了改进模型，原始 VGG16 架构的最后三个密集层被移除，并由几个稍微修改的密集层取代。使用迁移学习，这些新增加的层被训练，同时保持其余层的权重不变。该模型最高训练准确率达到 99.81%，验证准确率达到 91%。该模型现在明显过度适合训练数据。

为了克服过拟合问题，再次训练模型的最终密集层，在最后两个密集层之间添加一个丢弃层，并增加数据。然而，在 20 个时期之后，该模型达到了 84.55%的训练准确度和 84%的验证准确度，并且似乎没有进一步改善。过拟合问题被克服了，但是现在模型有很高的偏差。

最后，决定训练整个模型，而不是使用迁移学习。然而，由于可用的训练数据量有限，因此决定降低原始 VGG16 架构的复杂性。因此，移除了原始 VGG16 架构的第五个卷积块，并添加了一个平均池层，之后是两个密集层。为了避免过度拟合，数据增强使用了几种增强技术，如旋转、垂直翻转、缩放和不同的亮度水平(【https://keras.io/api/preprocessing/image/】)。输入图像的旋转是重要的，因为它允许模型识别针织物图像的纵行和机织织物图像中的经纱和纬纱，由于捕获图像时发生的变化，它们在不同的方向上取向。放大图像使模型能够清楚地识别针织物的线圈结构和机织物的交织图案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模型摘要

import numpy as np;
import keras;
from keras.layers import AveragePooling2D;
from keras. layers.core import Dense, Flatten;
from keras.optimizers import Adam;
from keras.metrics import binary_crossentropy;
from keras.preprocessing.image import ImageDataGenerator;
from keras.models import Model;
from keras.applications import imagenet_utils;
from keras.callbacks import ModelCheckpoint;train_data_path = '/content/drive/My Drive/fabric_data/Train';
test_data_path = '/content/drive/My Drive/fabric_data/Test';train_data = ImageDataGenerator(rescale = 1.0/255, 
                                rotation_range = 180, 
                                vertical_flip = True, 
                                horizontal_flip = True, 
                                brightness_range = [0.5, 1.5], 
                                zoom_range = [1, 1.5]);train_generator = train_data.flow_from_directory(directory = train_data_path, 
target_size = (224,224), 
classes = ['Woven','Knitted'], 
batch_size = 70, 
shuffle = True);test_data = ImageDataGenerator(rescale = 1.0/255);test_generator = test_data.flow_from_directory(directory = test_data_path, target_size = (224,224), classes = ['Woven', 'Knitted'], batch_size = 50, shuffle = False);vgg16_model = keras.applications.VGG16();
x = vgg16_model.layers[-9].output;x = AveragePooling2D(pool_size = (2,2))(x);
x = Flatten(name="flatten")(x);
x = Dense(128, activation = 'relu')(x);
x = Dense(2, activation = 'softmax')(x);model = Model(inputs = vgg16_model.input, outputs = x);model.compile(optimizer = Adam(lr=0.00001, clipvalue = 0.5, clipnorm = 1), loss = 'binary_crossentropy', metrics = ['accuracy']);print("\nTraining.....");checkpoint = ModelCheckpoint(filepath = '/content/drive/My Drive/new_fab_model.h5', monitor='val_accuracy', verbose=1, save_best_only=True, mode='max');history = model.fit_generator(generator = train_generator, 
                              steps_per_epoch = 60, 
                              validation_data = test_generator, 
                              validation_steps = 2, 
                              epochs = 250, 
                              verbose = 1, 
                              callbacks = [checkpoint]);

使用 Adam 优化器以 0.00001 的学习率从头开始训练整个模型。经过 50 个时期的训练，该模型达到了 98%的训练准确率和 97%的验证准确率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

达到培训和验证的准确性

由于使用的验证数据集太小(只有 100 个图像)，为了进一步验证模型在现实世界中的性能，使用训练的模型测试了不同的 100 个织物图像的集合。该模型正确预测了其中的 97 幅图像。这个新测试样本的意义在于，图像是从与原始训练和验证数据完全不同的分布中获取的。一组图像是从互联网上下载的(3D 针织物图像)。使用扫描仪扫描另一组图像，图像被放大 50%，裁剪并调整为 224x224 像素，以输入神经网络。使用光度立体传感器捕获原始训练和验证数据集的织物图像( C. Kampouris，S. Zafeiriou，A. Ghosh，S. Malassiotis， 使用微观几何和反射率的细粒度材料分类 ，第 14 届欧洲计算机视觉会议，阿姆斯特丹，2016) 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由训练模型预测的织物结构

应该注意的是，模型的训练数据仅由纬编针织物组成。只有单面针织结构的技术正面图像可用，不包括 3D 针织结构。然而，经过训练的模型能够正确预测 3D 缆线编织结构，并且它也正确预测一些单面针织物的技术背面图像。训练集中的大多数织物图像由平纹和斜纹结构组成。

被训练的模型的中间激活被可视化以理解卷积如何从织物图像中学习特征。针织织物图像作为输入输入到模型中，相应的层激活如下所示。请注意，这里只显示了几层的一些卷积。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输入图像(作者提供的照片)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对应于输入图像的模型的层激活(仅示出了来自一组选定层的一些卷积)

模型的初始层似乎在识别图像的最基本特征，例如水平和垂直边缘。一些盘旋已经确定了针织物表面纵行的边缘。在中间层，卷积开始提取更精细的细节，如针织线圈的形状，最大汇集层突出了这些特征。最深层的激活很难从视觉上解释，因为根据模型在训练中所学的，它们正在编码特定于织物结构的信息。

应该注意的是，该模型仅用于学术目的。该模型只能区分两种主要的织物结构(即针织和机织)。区分几种织物结构变化(如单面针织物、罗纹织物和联锁织物)将是一项更有趣的任务，但由于无法获得此类不同类型织物结构的大型数据集，该模型仅限于区分针织和机织织物结构。然而，有了足够的数据，也可以训练一个模型来完成这样的任务。还应该注意，通过使用不同的神经网络结构和更多的数据，有可能进一步改进该模型。

人工智能生成的埃隆·马斯克加入变焦电话已经成为病毒

原文：https://towardsdatascience.com/ai-generated-elon-musk-joined-a-zoom-call-has-gone-viral-c0516e99a37c?source=collection_archive---------45-----------------------

人们已经被 deepfakes 技术迷住了。现在你可以使用 Avatarify 在流式播放时用别人的脸替换你的脸

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能生成的埃隆·马斯克使用 Avatarify 加入了变焦通话

埃隆·马斯克和我正在开会讨论一个 2 亿美元的项目！

如果你以这种方式告诉你的朋友，他们可能不会相信，但如果你给他们看一个视频通话，他们更有可能相信。事实上，埃隆·马斯克从来没有和你说过话，而所有这些都是由一个名为“Avatarify”的 deepfake 项目产生的。

Avatarify 是由阿里·阿利耶夫和卡里姆·伊斯卡科夫创造的。与大多数其他 deepfake 项目需要你预先录制视频不同，Avatarify 足够强大，可以在流传输的同时实时工作。阿里·阿利耶夫已经在两周前在 Github 上开源了这个项目。他在不到一周的时间里收获了 4k 星，迅速登上了日趋势榜榜首。

如果你想亲自尝试，请点击 GitHub 上的 Avatarify 查看。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Github 上的虚拟化

项目演示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虚拟化演示

如演示中所示，作者导入一张照片，照片中的人根据作者自己在摄像机前移动的动作进行动画制作。在实时电话会议中，扬眉、眨眼和说话都很流畅。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虚拟化演示

当然，你可以尝试一些更有趣的东西。比如爱因斯坦的一个眨眼，阿姆的凝视，史蒂夫·乔布斯扬起的眉毛，蒙娜丽莎的微笑。如果你愿意，你可以把你的脸换成任何人的。你需要做的只是找到一张你想玩的人的照片，放到项目的avatars文件夹里。

安装并运行虚拟化

你不需要任何编程知识来运行 Avatarify。您所需要的只是一些初级的命令行知识。支持 Linux、Mac 和 Windows，你可以点击这里查看 Avatarify 安装指南。对于 Windows，作者制作了一个视频教程，所以安装起来会很容易。

为了顺利运行 Avatarify，您需要一个支持 CUDA(NVIDIA)的显卡。否则，它将退回到 CPU，运行非常缓慢，性能急剧下降(< 1fps)。

一旦你把它安装到你的机器上，剩下的你需要做的就是找到你想玩的人的照片，并把它放在avatars文件夹中。之后，启动一个支持的视频会议应用程序，Zoom，Skype 或 Slack。

算法

Avatarify 是基于意大利特伦托大学的研究人员开发的一阶运动模型开发的。一阶运动模型可以生成视频序列，使得源图像中的对象根据行驶视频的运动而被动画化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一阶运动模型综述

一阶运动模型假设源图像 S 和一帧驾驶视频帧 D 作为输入。无监督关键点检测器提取由稀疏关键点和相对于参考帧 R 的局部仿射变换组成的一阶运动表示。密集运动网络使用运动表示生成从 D 到 S 的密集光流 Ts←D 和遮挡贴图 Os←D 。生成器使用源图像和密集运动网络的输出来渲染目标图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自一阶运动模型的动画示例

以上是来自一阶运动模型项目的一些动画示例。左边的视频显示的是驾驶视频。每个数据集右侧的第一行显示了源视频。最下面一行包含动画序列，其中的运动是从驾驶视频和从源图像获取的对象中转换而来的。

了解法律

最后，对于 deepfakes 提到法律是非常重要的。

根据《卫报》的报道，deepfakes 本身并不违法，但是生产商和经销商很容易触犯法律。根据内容的不同，deepfake 可能会侵犯版权，违反数据保护法，如果它使受害者受到嘲笑，则可能是诽谤。

尽情享受吧！

就是这样。以下是链接

归化项目:https://github.com/alievk/avatarify
一阶运动模型:【https://github.com/AliaksandrSiarohin/first-order-model
一阶运动模型论文:【https://arxiv.org/pdf/2003.00196.pdf

人工智能生成的合成媒体，又名 deepfakes

原文：https://towardsdatascience.com/ai-generated-synthetic-media-aka-deepfakes-7c021dea40e1?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从 pike picture-Adobe Stock 获得许可

人工智能(AI)和云计算的进步使得音频、视频和图像处理技术变得简单而快速。

这本书现在可以在亚马逊上买到——https://www . Amazon . com/deep fakes-aka-Synthetic-Media-Humanity-ebook/DP/b0b 846 ycnj/

介绍

想象一下，在选举前几天，一个候选人的视频被发布，显示他们使用仇恨言论、种族诽谤和绰号，削弱了他们作为亲少数族裔的形象。想象一下，一名青少年尴尬地看着自己的一段视频在社交媒体上疯传。想象一下，一位首席执行官在筹集资金的路上，一段描述她对产品的恐惧和焦虑的音频剪辑被发送给了投资者，破坏了她的成功机会。

以上所有场景都是假的，是编造的，不是实际的，但可以通过 AI 生成的合成媒体来制造真实，也叫 deepfakes[ 1 ]。同样的技术可以让一位因患卢·格里克病而失声的母亲用合成声音与家人交谈，这种技术也可以被用来制作政治候选人的虚假演讲，以损害他们的声誉。同样的技术可以让老师使用合成视频有效地与学生互动，也可以用来制作一个青少年的假视频，以损害她的声誉。

人工智能(AI)和云计算技术、GPU VMs(图形处理单元虚拟机)和平台服务的进步，导致音频、视频和图像处理技术的复杂性快速发展。对商用云计算、公共研究人工智能算法和丰富数据的访问，以及多样化和庞大媒体的可用性，创造了一场完美的风暴，使合成媒体的创作民主化。这种人工智能生成的合成媒体被称为 deepfakes。社交平台使得合成媒体的传播大规模民主化。

Deepfakes 是使用深度( 深度 )学习的人工智能技术生成的合成媒体( 假 )。

GAN 技术的创新和研究与不断增长的计算可用性相结合，以惊人的速度提高了合成数据的质量。新工具，其中许多是公开可用的，可以以越来越可信的方式操纵媒体，例如创建一个公众人物的声音的副本，或将一个人的脸叠加在另一个人的身体上。GAN 和 deepfakes 已经从研究和学术主题发展到商业创新、娱乐和社会参与的实际应用。

Cheapfakes 是通过简单的常规编辑技术进行的简单操作，如加速、减速和剪切，以及非技术性操作，如重新编排或重新编排现有媒体。一个廉价假货的例子是“喝醉的佩洛西”视频。最近，我们已经看到一些政治广告中使用了重新着色和修饰，这也可以打印出廉价的假货。

廉价假货或肤浅假货被定义为通过使用更直接的图像和视频编辑技术来传播错误/虚假信息或改变故事叙述而创建的操纵媒体。

Deepfakes 的类型

Deepfakes 已经成为面部交换和假唱的同义词。还有许多其他类型的基于人工智能的音频、视频和图像操作可以被称为 deepfakes。

换脸

面部交换是指一个人的脸被另一个人的脸或另一张脸的关键特征替换或重建。几乎所有的社交媒体、视频聊天应用都有一个共同的特征，那就是面部交换或使用滤镜。自 2014 年以来，社交媒体应用程序 Snapchat 就有了增强人脸的滤镜。使用面部检测镜头技术，你可以让自己变老，添加美容滤镜，或者给自己留猫耳朵和胡须。这些应用和技术的输出将有资格成为人工智能生成的合成媒体或 deepfakes。大量的免费和付费应用程序和在线工具使得面对两个人的交换变得超级简单。开发人员可以使用来自 GitHub 的 Faceswap 和 DeepFaceLab 的开源代码，通过一些定制代码和训练 AI 模型的努力来创建非常复杂的 deepfakes。

木偶表演

操纵木偶是使用人工智能渲染操纵的全身动作和行为。这是一种在视频中创建目标面部和身体的 3D 模型的技术，以充当木偶演员。也被称为全身 deepfakes。2018 年 8 月，加州大学伯克利分校发表了一篇论文，名为《现在人人跳舞【4】。这是关于人工智能如何将专业舞者的动作转移到业余舞者身上的研究。日本人工智能公司 Data Grid 创造了一个人工智能引擎，可以自动生成广告和时尚的虚拟模型。

假唱

嘴唇同步是一种渲染嘴部动作和面部表情的技术，使目标用他们的声音和正确的音调和音高说话。人工智能算法可以获取一个人说话的现有视频，并改变视频中的嘴唇运动，以匹配新的音频。音频可以是断章取义的旧语音、模仿者说话或合成语音。演员兼导演乔丹·皮尔用这种技术制作了一个关于奥巴马的病毒视频。

声音克隆

语音锥化是一种深度学习算法，它采用个人的语音记录来生成与原始语音过度相似的合成语音。这是一种创建个人定制语音字体，然后使用该字体生成语音的技术。有许多应用程序和云服务可以开发合成语音，微软定制语音， Lyrebird AI ， iSpeech 和 VOCALiD ，这些应用程序和云服务让个人和企业可以使用这些技术来改善他们的代理机构。

图像合成

图像生成或图像合成是一种使用计算机视觉技术、深度学习和生成对抗网络(GANs)来合成新图像的技术。它可以生成计算机生成的非真实的人或任何物体的图像。英伟达的一个团队用从 Flickr 下载的人脸图片训练了一台电脑，创建了网站ThisPersonDoesnotExist.com。现场还有其他例子，ThisXDoesnotExist.com。

文本生成

文本生成是一种自动生成文本、编写故事、散文和诗歌、创建长文档摘要以及使用人工智能技术进行文本和深度学习合成的方法。使用 RNN(递归神经网络)和现在的 GANs，有许多文本生成的实际用例。文本生成可以帮助行业内新的自动化新闻业或机器人新闻业。 OpenAI 的 GPT-3 可以生成任何文本，包括吉他标签或计算机代码。

积极使用

技术非常强大，是一个伟大的推动者。技术可以给人们声音、目的和能力，以大规模和快速地产生影响。由于数据科学和人工智能的进步，赋权的新想法和能力已经出现。人工智能生成的合成媒体有许多积极的用例。技术可以为所有人创造可能性和机会，无论他们是谁，如何听、说或交流。deepfake 的技术进步在某些领域有明显的好处，如无障碍、教育、电影制作、刑事取证和艺术表达。

更多关于 Deepfakes 的正面用例

恶意使用

与任何新技术一样，邪恶的行为者将利用创新并利用它为自己谋利。GAN 和 Deepfakes 已经不仅仅是研究课题或工程玩具。开始是作为一个创新的研究概念，现在它们可以被用作一种交流武器。Deepfakes 变得越来越容易制造，甚至更容易在政策和立法真空中传播。

Deepfakes 使人们有可能在未经同意的情况下制造媒体——交换面孔、对口型和木偶——并给心理安全、政治稳定和商业中断带来威胁。Deepfakes 可以用来损害名誉、伪造证据、欺骗公众和破坏对民主制度的信任。在过去的两年里，恶意使用使用生成式人工智能模型创建的合成数据的可能性已经开始引起人们的警惕。这项技术现在已经发展到有可能被武器化，对个人、社会、机构和民主造成破坏和伤害。深度造假不仅会造成伤害，还会进一步侵蚀已经下降的对媒体的信任。还可以帮助公众人物将自己的不道德行为隐藏在 deepfakes 和假新闻的面纱中，称自己的实际有害行为为虚假，也就是所谓的骗子红利。

Deepfakes 可以促成事实相对论，让威权领导人得以茁壮成长。

非国家行为者，如叛乱团体和恐怖组织，可以使用 Deepfakes 来代表他们的对手发表煽动性言论或从事挑衅性行动，以激起人们的反国家情绪。例如，一个恐怖组织可以很容易地制作一个 deepfake 视频，显示士兵侮辱一个宗教场所，以点燃现有的反政府情绪并引起进一步的不和。国家可以使用类似的策略来传播针对少数群体或另一个国家的计算机宣传，例如，一个假视频显示一名警察大喊反宗教诽谤或一名政治活动家呼吁暴力。

所有这些都可以用更少的资源、互联网的规模和速度来实现，甚至可以通过微目标来获得支持。