TowardsDataScience 博客中文翻译 2020（九十一）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

面向医疗保健的人工智能和机器学习

原文：https://towardsdatascience.com/ai-and-machine-learning-for-healthcare-7a70fb3acb67?source=collection_archive---------13-----------------------

AI/ML 在医疗保健中的应用概述。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家，本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息，可以点击这里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费用于商业用途)

介绍

21 世纪只有 20 年，可以肯定的是，本世纪人类社会最大的变革性技术和推动者之一将是人工智能(AI)。一个公认的观点是，人工智能及相关服务和平台将改变全球生产力、工作模式和生活方式，并创造巨大的财富。

例如，麦肯锡认为，到 2030 年，全球经济活动将达到约 13 万亿美元(T21)。在短期内，研究公司 Gartner 预计，全球基于人工智能的经济活动将从 2018 年的约 1.2 万亿美元增加到 2022 年的约 3.9 万亿美元。

[## 普华永道的全球人工智能研究:确定奖项

高度潜在的用例:基于数据的诊断支持人工智能驱动的诊断使用病人的独特历史作为…

www.pwc.com](https://www.pwc.com/gx/en/issues/data-and-analytics/publications/artificial-intelligence-study.html)

众所周知，这种转变在很大程度上是由强大的机器学习(ML)工具和技术推动的，如深度卷积网络、生成对抗网络(GAN)、梯度提升树模型(GBM)、深度强化学习(DRL)等。

然而，传统的商业和技术部门并不是唯一受到人工智能影响的领域。医疗保健是被认为非常适合应用人工智能工具和技术的领域。

诸如电子医疗记录(EMR) 等强制性做法已经为医疗保健系统应用大数据工具进行下一代数据分析做好了准备。AI/ML 工具注定会为这个流程增加更多的价值。它们有望提高初级/三级患者护理和公共医疗保健系统中自动化和智能决策的质量。这可能是人工智能工具的最大影响，因为它可能会改变全球数十亿人的生活质量。

医疗保健中应用 ML 的主要示例

人工智能辅助放射学和病理学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费商用)

如今，电子存储的医学成像数据非常丰富，DL 算法可以使用这种数据集来检测和发现模式和异常。机器和算法可以像训练有素的放射科医生一样解释成像数据——识别皮肤上的可疑斑点、病变、肿瘤和脑出血。因此，使用 AI/ML 工具/平台来帮助放射科医生，将会呈指数级增长。

这种方法解决了医疗保健领域的一个关键问题，因为在全世界范围内，训练有素的放射科医生越来越难找到。在大多数情况下，由于数字医疗数据的泛滥，这些技术工人承受着巨大的压力。根据本文中的，一个普通的放射科医师需要每 3-4 秒钟为一幅图像生成一个解释结果才能满足需求。

[## 放射学中的人工智能

人工智能(AI)算法，特别是深度学习，已经在…

www.ncbi.nlm.nih.gov](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6268174/)

识别罕见或难以诊断的疾病通常依赖于检测所谓的“边缘病例”。由于这种 ML 系统建立在包含这些疾病的原始图像(和各种转换)的大型数据集上，因此对于这种类型的检测，它们通常比人更可靠。

它们有望提高初级/三级患者护理和公共医疗保健系统中自动化和智能决策的质量。这可能是人工智能工具的最大影响，因为它可能会改变全球数十亿人的生活质量。

一个优秀的测试案例是微软的 InnerEye 项目，该项目采用 ML 方法，使用 3D 放射图像分割和识别肿瘤。它有助于精确的手术计划、导航和放射治疗计划的有效肿瘤轮廓绘制。

越来越多地用于早期癌症检测的 MRI 和其他先进成像系统正在配备 ML 算法。下面的文章提供了这方面的全面概述。

[## 深度学习，人工智能提高乳腺癌检测的准确性

来源:Thinkstock -新人工智能(AI)帮助放射科医生更准确地阅读乳腺癌筛查…

healthitanalytics.com](https://healthitanalytics.com/news/deep-learning-ai-improve-accuracy-of-breast-cancer-detection)

下面的 Nature 文章描述了如何应用 ML 技术来执行高级图像分析，如前列腺分割和多种成像数据源(如超声检查、CT 和 MRI)的融合。

[## 新时代:前列腺癌中的人工智能和机器学习

机器学习(ML)正在彻底改变和重塑医疗保健，基于计算机的系统可以被训练成…

www.nature.com](https://www.nature.com/articles/s41585-019-0193-3)

通过增加外科医生的显示，ML 工具也增加了重要的价值，例如在机器人手术和其他图像引导介入过程中的癌症定位。

因此，使用 AI/ML 工具/平台来帮助放射科医生，将会呈指数级增长。

ML 和数据科学提供可操作的见解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费商用)

在当今世界， 在各种医疗保健机构(公立医院、疗养院、医生诊所、病理实验室等)中，艾字节大小的医疗数据正在被数字化 。).不幸的是，这些数据通常是杂乱无章的。与标准事务型业务数据不同，患者数据不太适合简单的统计建模和分析。

强大而敏捷的人工智能平台能够连接到大量患者数据库并分析复杂的混合数据类型(例如，血液病理学、基因组学、放射学图像、病史),是当前的需求。此外，这些系统应该能够以深入的方式筛选分析，并发现隐藏的模式。

此外，他们应该能够将他们的发现翻译并可视化为人类可理解的形式，以便医生和其他医疗保健专业人员能够以高度自信和完全透明的方式处理他们的输出。

可解释的人工智能和分布式人工智能系统——非常符合这些要求，并准备在不久的将来满足这些系统的需求。

用于手术辅助的物理机器人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费商业使用)

手术机器人可以为人类外科医生提供独特的帮助，

增强在过程中观察和导航的能力，
产生精确的微创切口。
以最佳的缝合几何形状和伤口减少疼痛

人工智能/人工智能在这种数字手术机器人中的应用确实有令人兴奋的可能性。

借助大规模分布式处理的机器人以软件为中心的协作****
基于手术历史(由机器和人类执行)及其结果(有利或不利)的数据驱动洞察和指导
人工智能生成的虚拟现实空间用于实时方向和引导
远程医疗和远程手术的可能性相对简单的程序

下面的文章简要总结了潜在的应用。

[## 机器人和人工智能如何创造 21 世纪的外科医生

外科机器人超越了硬件，为外科医生提供了更好的技能，改善了患者的预后。罗杰·史密斯|…

www.roboticsbusinessreview.com](https://www.roboticsbusinessreview.com/health-medical/how-robots-and-ai-are-creating-the-21st-century-surgeon/)

用于医疗保健运营管理和患者体验的人工智能

在美国，普通公众接受适当医疗保健的费用和困难一直是长期激烈辩论的主题。

人工智能和相关的数据驱动技术为解决一些问题做好了独特的准备，这些问题被确定为根本原因——排长队，担心不合理的账单，漫长而过于复杂的预约流程，无法获得正确的医疗保健专业人员。

这些相同的问题已经困扰传统企业几十年了，人工智能/人工智能技术已经成为解决方案的一部分。这是因为，庞大的数据库和智能搜索算法是人工智能系统的强项，擅长于这种模式匹配或优化问题。因此，医院和公共卫生组织必须在日常运营中利用先进的 AI/ML 工具和技术。

[## 医疗保健 AI - Olive 的 11 个运营应用

人工智能和自动化在医疗保健操作中的应用:1。资格检查和事先…

oliveai.com](https://oliveai.com/blog/11-operational-applications-for-healthcare-ai/)

伟大的事情是，**对数据隐私的关注，这是医疗保健系统的一个复杂而困难的问题，**并没有对这种类型的人工智能应用构成巨大挑战。最常见的情况是，运营问题并不涉及与疾病、诊断或药物相关的机密患者数据，而是像任何其他现代商业企业一样，包含与财务、资本、营销或人力资源问题相关的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费用于商业用途)

这种系统的核心目标应该是使以为目标的人工智能辅助平台增强最大部分普通人的医疗保健服务体验。传统企业中已经部署的系统的首要目标是最大化利润。用于医疗保健运营管理的强大人工智能工具必须通过将同理心与盈利目标相结合，将自己与那些传统系统区分开来。

人工智能/人工智能技术辅助下的药物发现

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费商业使用)

人工智能和人工智能技术越来越多地被制药行业的大腕所选择，以解决成功发现药物这一极其困难的问题。一些突出的例子——涉及赛诺菲、基因泰克、辉瑞——摘自本文。这些案例研究涵盖了各种治疗领域——代谢疾病、癌症治疗、免疫肿瘤药物。

[## 人工智能如何改变药物发现

一个巨大的数字笼罩着寻找新药的科学家们:据估计，开发新药的费用高达 26 亿美元。

www.nature.com](https://www.nature.com/articles/d41586-018-05267-x)

超越传统的长距离过程，人工智能技术越来越多地被应用于加速早期候选选择和机制发现的基本过程。

例如，生物技术公司 Berg 使用其人工智能平台分析来自患者的大量生物和结果数据(脂质、代谢物、酶和蛋白质图谱),以突出患病细胞和健康细胞之间的关键差异，并识别新的癌症机制。

[## 伯格的人工智能:只是另一家生物技术或改变行业的公司？

评估伯格(波士顿生物技术)的战略在短期和中期就其人工智能，疑问…

digital.hbs.edu](https://digital.hbs.edu/platform-rctom/submission/artificial-intelligence-at-berg-just-another-biotech-or-industry-changing-company/)

这方面另一个突出的例子来自 DeepMind 使用他们的 AlphaFold 系统发表了与新冠肺炎病毒(新型冠状病毒)相关的可能蛋白质结构。

[## 与新冠肺炎相关的蛋白质结构的计算预测

科学界已经为应对最近的新冠肺炎疫情而振奋起来，建立在几十年的基本…

deepmind.com](https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19)

许多初创公司也在致力于使用人工智能系统来分析多渠道数据(研究论文、专利、临床试验和患者记录)，方法是利用**贝叶斯推理、马尔可夫链模型、强化学习和自然语言处理(NLP)中的最新技术。**关键目标是发现模式和构建高维表示，存储在云中并用于药物发现过程。

这是一篇综述文章，展示了 DL 在药物发现中的应用。

[## 综述:药物发现中的深度学习

深度学习算法已经在许多不同的任务中实现了最先进的性能。

towardsdatascience.com](/review-deep-learning-in-drug-discovery-f4c89e3321e1)

用于医疗保健运营管理的强大人工智能工具必须通过将同理心与盈利目标相结合，将自己与那些传统系统区分开来。

走向未来——精准医疗和预防保健

根据美国国家医学图书馆的说法， 精准医学 是"一种新兴的疾病治疗和预防方法，它考虑了每个人在基因、环境和生活方式方面的个体差异。

展望未来，这可能是 AI/ML 在医疗保健领域应用的最具影响力的好处之一。

这里的目标极其复杂和苛刻——根据个人病史、生活方式选择、基因数据和不断变化的病理检查，为个人找到精确的治疗方案。自然，我们需要引入最强大的人工智能技术——深度神经网络、人工智能驱动的搜索算法/高级强化学习、概率图形模型、半监督学习——来应对这一挑战。

除了对疾病和治疗进行预测和建模，这样的人工智能系统还可以预测未来患者在早期筛查或常规年度体检数据的情况下患特定疾病的概率。此外，人工智能工具可能能够模拟疾病更有可能发生的原因和环境，从而帮助指导和准备医生干预(以个性化的方式)，甚至在个体开始出现症状之前。

这里的目标极其复杂和苛刻——根据个人病史、生活方式选择、基因数据和不断变化的病理检查，为个人找到精确的治疗方案。

[## 人工智能如何推进精准医疗

人工智能和机器学习已经在医疗保健领域使用了多年，并将继续…

www.forbes.com](https://www.forbes.com/sites/nicolemartin1/2019/10/18/how-artifical-intelligence-is-advancing-precision-medicine/#13cc5c15a4d5)

公共卫生系统的人工智能

不用说，这种强大的技术可以应用于大规模公共卫生系统以及个体患者护理。事实上，流行病的数字监控和人工智能辅助的健康数据分析已经成熟。

[## 数字监控有助于控制疫情冠状病毒，但也威胁着…

苹果和谷歌正在合作开发一种新技术，这种新技术可以提醒持续使用智能手机的用户…

theconversation.com](https://theconversation.com/digital-surveillance-can-help-bring-the-coronavirus-pandemic-under-control-but-also-threatens-privacy-135151)

世界卫生组织(世卫组织)也这么说…

[## 大数据和人工智能

数字技术及其在公共卫生领域的应用正在迅速扩展。世卫组织的成员国是…

www.who.int](https://www.who.int/ethics/topics/big-data-artificial-intelligence/en/) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源: Pixabay(免费用于商业用途)

正在进行的新冠肺炎危机已经表明，对 T2 疫苗开发和 T4 治疗研究项目进行数百次平行试验是多么重要。从所有这些不同的来源获取数据并识别模式——通常产生具有高度不确定性的结果——几乎不可能用标准的统计建模技术来实现，这些技术针对小规模试验进行了优化。人工智能技术必须用于解决这样一个全球规模的问题。

[## 新冠肺炎临床试验中的潜在治疗方案

EBSCO 医学药物和临床信息学小组| 2020 年 4 月 8 日感染之外的前景…

health.ebsco.com](https://health.ebsco.com/blog/article/potential-therapeutic-options-in-covid-19-clinical-trials)

摘要

会上讨论了人工智能/人工智能技术和平台在医疗保健领域的各种令人兴奋和具有前瞻性的应用。从放射学助理到智能健康运营管理，从个性化医疗到公共卫生的数字监控，这些主题都得到了综述。

来自数据隐私和法律框架的已知挑战将继续阻碍这些系统的全面实施。确定第三方提供商(例如，人工智能和人工智能工具、物理设备或平台的所有者)可以合法查看和使用何种数据可能极其复杂。因此，在应对这些挑战的同时，需要对法律和决策进行大规模的合理化努力。

作为技术专家和人工智能/人工智能从业者，我们应该为一个光明的未来而努力，人工智能算法的力量将惠及数十亿普通人，以改善他们的基本健康和福祉。

答同样，你可以查看作者的 GitHub 知识库中的代码、思想以及机器学习和数据科学方面的资源。如果你和我一样，对人工智能/机器学习/数据科学充满热情，请随时在 LinkedIn 上添加我或在 Twitter 上关注我。

[## Tirthajyoti Sarkar - Sr .首席工程师-半导体、人工智能、机器学习- ON…

通过写作使数据科学/ML 概念易于理解:https://medium.com/@tirthajyoti 开源和有趣…

www.linkedin.com](https://www.linkedin.com/in/tirthajyoti-sarkar-2127aa7/)

享受中等:https://medium.com/@tirthajyoti/membership

人工智能和我们复杂的未来

原文：https://towardsdatascience.com/ai-and-our-complex-future-13b4ac36c5cd?source=collection_archive---------51-----------------------

变化、不稳定和混乱

德克·克内梅尔和乔纳森·福利特

我们如何在人工智能和新兴技术重塑科学、技术、社会和政策等大规模系统景观的可能未来中导航？我们采访了 Lux Capital 的常驻科学家 Sam Arbesman，他是两部获奖书籍的作者，最近的一部是“过度复杂:理解极限下的技术”，以更好地理解这个新兴世界的更大背景和影响——一个充满变化、不稳定和复杂性的未来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 01:变化、不稳定和复杂的未来。
[图片:《过度复杂:理解极限下的技术》的封面，作者 Samuel Arbesman。]

计算创造力和作者问题

如果人类工作和创造力的未来是计算性的，那么谁会得到荣誉呢？计算创造力——利用人工智能增强人类创造力——已经出现，但迄今为止，结果参差不齐。例如，计算音乐创作处于非常先进的状态，而相比之下，计算工程相对较新。“艺术、音乐和设计领域显然发生了很多事情，”阿贝斯曼说。“在科学中有很多计算创造力，在实际计算生成假设或计算测试方面。能够以我们以前可能无法做到的方式进行大规模的科学研究，对我们如何看待创造力有很多非常有趣的影响。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 02:大规模的计算科学对我们如何思考创造力有着有趣的影响。
[ 照片:迈克尔·朗米尔在 Unsplash 上拍摄的“显微镜特写”

计算创造力的另一个重要的相关领域是通过计算生成的计算机代码或程序合成。“假设你有一个你想写的计算机函数。因此，在给定某些输入的情况下，您可以指定所需的输出，而不是编写它。而且，程序实际上会为你编写那个函数的代码，”阿贝斯曼说。“现在，许多这方面的工作还没有完成，一个非程序员可以非常容易地编写大型、完整的计算机程序。我们还远没有达到那个程度。但是，我确实认为……计算创造力有很多非常有趣的潜力。”

在一个人工智能增强我们的工作、软件输出人机合作成果的世界里，信用和所有权成为一个法律和社会问题。“那么当机器和人工智能正在创造艺术和音乐时，我们如何看待信用？我们如何看待版权？这些东西是怎么工作的？”阿贝斯曼说。“我认为，我们如何看待这个问题，仍有很大程度的未决问题。”如果一个由艺术家或音乐家开发的人工智能系统产生了一个人自己无法产生的创造性和新奇的东西，或者这个人甚至不知道它是如何被创造出来的，这个人工智能是合作作者吗？“我认为这对于我们如何看待什么是信用，什么是所有权有一些有趣的影响。有很多法律学者谈到这一点，也有一些法律著作已经开始被用来思考这个问题。这将开启许多真正有趣的对话。”

了解复杂系统固有的风险

鉴于人工智能和新兴技术的复杂性，以及它们的采用速度和它们的存在所引发的变化，我们应该警惕各种风险。

“在技术和工程领域，我们认为，因为我们设计了一个系统，所以它应该是合乎逻辑和理性的，并且易于人类理解。“我们认为，如果我们能够将大脑应用于这些系统，我们应该能够理解它们，”阿贝斯曼说。

从表面上看，这个假设是有道理的。但是，正如他进一步描述的那样，情况未必如此。“举例来说，当你看到……仅仅是一辆汽车内的计算机代码数量，这些东西就比我们作为一个单独的个体阅读和理解时可能会感到舒服的任何其他东西都要大得多。”随着时间的推移而进化的软件系统有着大量的遗留代码，没有人能完全理解这些代码中的许多相互作用的部分。“在许多方面，它们确实有生物学的暗示，”阿贝斯曼说，这不仅表明了它们的复杂程度，也表明了它们如何开始模仿其他看似不同的系统。

“在技术方面，我们必须稍微远离这种传统的工程思维模式，转向生物学思维模式——采用生物学家可能如何询问复杂生物系统的一些想法，并将其用于我们自己的技术系统，”阿贝斯曼解释道。

像科学家评估生物系统一样评估事物给了我们更好的机会去理解和潜在地控制我们正在处理的复杂系统。“我认为在许多情况下，随着技术变得越来越复杂，我们使用人工智能——可能有数百万个参数由某种算法的复杂关系设置，大量数据涌入系统——当系统出错时，你几乎不知道系统为什么出错。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 03:生物学思维给了我们理解复杂系统更好的机会。
【图片:【美国地质勘探局在 Unsplash 拍摄的“亚利桑那州彩绘沙漠”】

为了说明系统复杂性的这一点，阿贝斯曼举了一个稍早一些的技术中的灾难性缺陷的例子——丰田汽车意外加速的案例研究，这导致了 2009-2011 年间的大量召回。“大约 10 年前，丰田生产的许多汽车偶尔会加速，人们不知道为什么。在某些情况下，这些车会撞车，实际上，在某些情况下，有人会死。这是一个非常严重的问题，尽管它被委婉地称为‘意外加速’。”

美国司法部长对丰田汽车意外加速的原因进行了为期四年的调查。它导致该公司因隐瞒安全缺陷而被罚款 12 亿美元，这些缺陷包括地垫和粘性油门踏板。值得注意的是，丰田电子节气门控制系统(ETCS)及其软件没有被列为缺陷之一。然而，这并不是故事的结尾。在 Bookout/Schwarz 诉丰田汽车公司一案中，陪审团判给原告 300 万美元的赔偿金。试验的一个关键点是电子油门控制系统的缺陷是否导致了致命的碰撞。

这份对丰田软件分析的精彩描述来自安全研究和战略公司:“备受尊敬的嵌入式软件专家迈克尔·巴尔(Michael Barr)花了 20 多个月的时间，在一个酒店大小的房间里的五个隔间之一审查丰田的源代码，保安人员负责监督，确保进入者不得携带纸张进出，不得佩戴皮带或手表。巴尔根据他 800 页的报告，为丰田源代码的细节作证。

巴尔的证词中包括了这句话(着重号后加):“有大量的功能过于复杂。按照标准的行业标准，其中一些是不可测试的，这意味着这是一个非常复杂的配方，没有办法开发一个可靠的测试套件或测试方法来测试其中可能发生的所有事情。其中一些甚至非常复杂，以至于被称为不可维护的，这意味着如果你去修复一个 bug 或做出改变，你可能会在这个过程中产生一个新的 bug。仅仅因为你的车有最新版本的固件，也就是我们所说的嵌入式软件，并不意味着它一定比旧版本更安全。结论是故障保险是不充分的。他们拥有的故障保险包含缺陷或缺口。但总的来说，安全架构是一个纸牌屋。在油门控制失效的同时，很大一部分故障保险可能会失效，”尽管陪审团在 book out/Schwarz v . Toyota Motor Corporation 一案中做出了裁决，但丰田仍继续对他们的 ETCS 存在缺陷提出质疑。

“我认为，在这种情况下，[丰田]最终使他们的系统变得比他们需要的更复杂，这导致他们更难理解，因此更有可能实际失败。但是，在许多情况下，当我们审视系统的整体复杂性时，有时这些技术缺乏可解释性，这将对我们如何看待责备和责任产生影响，”阿贝斯曼说。复杂的人工智能系统尤其如此。

最初，在法律成文和法规建立之前，围绕新兴技术的责任总是令人困惑。然而，从历史上看，至少有一种理解的假象——法官、陪审团或其他仲裁者对情况的机制有很强的理解，并以谨慎的方式做出决定。我们已经可以看到，对于复杂的软件，比如在丰田的例子中，这种理解并不总是可能的。深度学习人工智能系统的复杂性问题变得更加困难，这些系统在训练时会在人类视野之外自学，并且一旦部署，可能是不可理解的，不可能进行反向工程。

“应该有一种方法——当一个具有巨大预测能力和强大的人工智能做出决定时——我们至少有某种方法知道这个决定是如何做出的，或者这个预测是如何做出的，”阿贝斯曼说。我们需要能够审计人工智能决策。“有一种趋势——我认为我们会越来越多地看到这种趋势——试图创建可解释的人工智能和机器学习系统，”阿贝斯曼说。“我认为这将非常重要。”为了减轻风险，就像丰田案例所展示的那种问题，人工智能需要可解释的系统。阿贝斯曼对可解释的人工智能的乐观态度令人振奋，但至少有一个问题是，它是否会被证明是可能的，至少在从机器学习角度驱动的软件中。这将是一个需要关注的领域。

解决自动化的社会风险

除了人工智能系统本身的复杂性带来的风险，这种软件和自动化对整个社会的影响也带来了潜在的问题。这些延伸到诸如工作和就业的未来等重要话题，以及对人类生活的存在主义关切。阿贝斯曼说，自动化程度的提高有可能“造成一定数量的工作岗位减少，甚至几乎所有工作岗位的减少”。“我认为，我们需要围绕如何思考未来每个人生活的意义和目的进行更多的对话。”作为一个社会，我们希望未来是什么样的？

“即使在《星际迷航》后稀缺时代的最佳场景中，每个人的需求都得到了满足，每个人都能够过上真正美好的生活，没有人需要工作，没有人可以沉迷于自己的所有爱好，做自己想做的事情，问题仍然是:‘人们如何过上自己真正想过的生活？’”阿贝斯曼说。在这种情况下，人们如何看待他们有意义的生活？”我认为我们现在就需要进行这些对话，而不是以后。如果有很大一部分人不再需要工作，我们如何确保这些人感觉他们在为社会做贡献，做创造性的工作，实现一定的潜力和目标，如果他们不再需要拿薪水的话？"

但首先，我们需要以一种不对我们现有社会造成巨大破坏的方式进入这个后匮乏世界。“我可以看到，我们的世界现在正处于大量自动化和失业的边缘。也许，几百年后，我们将会在这个美妙的后匮乏时代的乌托邦里。但是，从现在到那时，可能会有大量的中断。我认为，作为一个社会，我们越早开始这些哲学对话，我们就会变得越好，因为当人们已经失去工作的时候……一大部分人，那就已经太晚了。所以，我们现在真的需要进行这样的对话，”阿贝斯曼说。

Creative Next 是一个播客，探索人工智能驱动的自动化对创意工作者，如作家、研究人员、艺术家、设计师、工程师和企业家的生活的影响。本文伴随 第二季第十二集——我们复杂的未来 。

机器学习和真实状态:预测阿姆斯特丹的租金价格

原文：https://towardsdatascience.com/ai-and-real-state-renting-in-amsterdam-part-1-5fce18238dbc?source=collection_archive---------11-----------------------

决定一套公寓是否物有所值从来都不容易。机器学习能帮助我们理解我们在房地产市场的地位吗？

无论你是大学生还是中产阶级家庭，租房或买房总是一个令人望而生畏的过程，往往看起来冲动或冒险(柠檬的真正经济市场)。

如果租房本身已经很难，在阿姆斯特丹租房也不会让事情变得更容易。随着城市法规越来越多，学生公寓的等候名单越来越长，人口过剩，在阿姆斯特丹租公寓让许多人不顾一切地寻找第一个机会，容易受到诈骗和高价合同的伤害。

在本教程中，我将介绍阿姆斯特丹租赁市场的整个数据科学项目，从收集数据、数据清理、可视化的基础，直到使用机器学习和超参数调整来开发该市房屋的估价模型。一路上也有很多关于有趣的机器学习话题的讨论，比如维数灾难和多重共线性。请随意修改代码，并在您所在的城市应用该项目，以更好地了解您作为租赁者/购买者的立场！

你在分析中使用的实际统计方法应该是你的价值判断，我会将更深入的解释与我使用的所有方法联系起来，所以请确保你检查了它们！

1)我如何获取数据？

有了(高质量的)数据，就越多越好。机器学习是统计学的一个特殊领域，我们将计算机算法应用于非常非常大的数据集。在你建立了你想要回答的问题之后(我应该租吗？该不该买？我应该搬到另一个城市吗？)你可以开始寻找包含回答这些问题所需数据的网站。

就我而言，我想在阿姆斯特丹找到一套物有所值的公寓。因此，我在阿姆斯特丹市搜索了**租房网站。**简单对吧？然而，总是检查他们的服务条款和 robots.txt，以确保你被允许尊重地搜集他们的数据。(我们将在教程的后面讨论这意味着什么)。对于这个项目，我将使用阿姆斯特丹租赁网站 Pararius。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿姆斯特丹的 Pararius 租赁页面

找到您想要从中获取数据的列表页面。点按“检查”以了解有关其网站中数据结构的更多信息。点击后，侧边栏会显示数据所在的 HTML 存储。在下面的例子中，我需要的数据主要在盒子

中，这意味着我将在后面的代码中使用这些信息来引用这些数据。此时此刻，我们不需要指定我们是否想要价格、位置、邮政编码…我们只想知道所有这些数据所在的“盒子”。

阿姆斯特丹的 Pararius 租赁页面

2)刮痧时间到了！

现在，我们要开始编码了！与任何网络搜集一样，我们将从向我们之前选择的网站发出请求开始，这样他们就可以向我们提供我们想要的数据。

我们应该记住，向网站发出请求类似于在特定页面上刷新我们的浏览器:这增加了他们服务器的流量，如果以机器人高速率完成，可能会淹没他们！我在代码中添加了随机睡眠时间，这样脚本会在抓取更多页面之前停止几秒钟。

如果您对请求和头的工作方式特别感兴趣，您也可以使用完全随机的头来创建您的请求。这对于大多数网站来说是不必要的(并且不应该破坏他们的 TOS ),但是如果你想在你的代码中增加安全性和匿名性，这是我的(尽可能)匿名标题的解决方案:

抓取完所有需要的页面后，您可以运行:

len(houses)

找出总共收集了多少房屋广告。因为我们稍后会用这些数据训练一个模型，所以你的目标应该是至少 1000 个房屋广告。

3)我们得到了数据，但我什么都不明白？

收集完所有数据后，您应该执行几个打印命令以确保一切正常:

如果请求成功(即我们没有被网站阻止)，将打印(响应)

len(houses)会打印出你成功刮到了多少房屋广告

print(house_data[1])将以 HTML 格式打印您抓取的第二个广告块。我总是更喜欢看第二个，因为第一个可能包含头和我们分析的下一部分:数据清理的混淆部分。

数据清理

当我执行 print(house_data[1])时，我在我的 Jupyter 实验室中得到这个:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好了，现在还不要逃避这个教程。你现在看到的是从你的列表网站上抓取的漂亮的 HTML 脚本！再往下看:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们实际上可以识别出一些东西！这个广告区的公寓好像在阿姆斯特丹大街 1078 号，月租 1500 欧元，60m！对于数据清理，我们需要在 HTML 的汤中找到这些信息，并记下它们的位置(就像我们之前对网站所做的一样！)

比如:要得到价格，你需要搜索，得到你需要的位置:

。您应该对您分析所需的所有信息进行同样的处理。然而，仅仅查找 HTML 标签和类可能会返回比您想要的更多的信息。确保尝试添加[0]，[1]，[2]，…来测试哪个参数会准确地给出您正在寻找的行。

点击方块查看 GitHub 上的代码

很多时候，即使找到了正确的行，也可能会有额外的字符需要从数据框中清除，比如租金价格中的字母，或者邮政编码中的空格。检查一下神奇的 regex 测试器(https://regex101.com/)来知道如何 str.replace()你的问题。几个例子:

要删除非数字字符:

df["column name"].str.replace("\d","")

要删除数字字符:

df["column name"].str.replace("\D","")

删除“新建”一词:

df["column name"].str.replace("new","")

这是我们的数据框清理后的样子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4)真实状态市场

不仅要有数据，还要知道如何使用数据。对于租客来说什么是重要的？租赁价格的差异是由什么造成的？根据您之前收集的数据，这些变量可能对您可用:

表面尺寸
卧室数量
如果公寓配有家具(二进制)
如果价格包含水电费(二进制)
到市中心的距离
邻近地区的流行趋势
租赁机构(二元)
临时合同与长期合同。(二进制)

在本教程中，我们将关注如何测量这些变量。我无法使用家具、公用事业账单或合同长度进行分析，因为我使用的网站上没有这些数据，但如果你可以获得这些数据，我强烈建议将它们包括在内。

5)离市中心的距离:地理位置

位置，位置，位置。租房的时候公寓的位置真的那么重要吗？阿姆斯特丹的许多人都会同意这一点，因为在迷人的中世纪街道上驾驶汽车是不切实际的，公共交通不是很实惠，在大风大雨中骑自行车简直太糟糕了。

但你如何区分这对租金价格的影响呢？地理定位！在本教程中，我们将使用主格。我们将使用它来获得数据集中每个公寓的坐标，然后将它们与城市中的一个(理想的)点进行比较。

代码如下:

这里的想法是获取数据框中每个地址的纬度和经度，这样我们就可以尽可能精确地计算距离。这是您应该得到的结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要注意的是，点、位置和高度栏将被删除。点只需要获得纬度和经度点，海拔是不需要的，因为我们正在研究荷兰的房子！(举例来说，如果你住在瑞士，这将是一个值得考虑的有趣因素)。

让我们来计算距离:到目前为止，你应该已经在你的城市中选择了一个点来计算公寓和这个特定点之间的距离。对于阿姆斯特丹，我选择了具有以下坐标(中心点)的阿姆斯特丹中央车站:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在选择了我的点并获得了它的坐标(也在 nomim 上)之后，您将创建两列，分别是该点的纬度(52.370216)和经度(4.895168)。

如果您正在分析一个较大的城市，该城市有多个被认为是理想的位置，那么您也可以根据需要对不同的地理点多次运行此代码。(不要忘记更改列名，这样就不会覆盖上一点！).

例如，阿姆斯特丹 Zuid 站附近有一个金融区，与居住在市中心附近的租户相比，该金融区与工作租户的相关性可能相同(甚至更高)。如果你使用类似多元线性回归的方法，而不是机器学习统计算法，衡量这些不同的场景更重要**，因为它们天生更擅长识别非线性关系和聚类。出于这个原因，我不会把它包括在这个分析中，但它是一个有趣的因素，取决于所使用的统计方法。**

6)可视化租赁市场趋势

现在我们已经有了数据集中所有公寓的地理位置，我们可以进一步可视化它们的租金价格在地理上的位置，并发现任何可能与我们的分析相关的趋势。我们将通过谷歌地图和 Jupyter 的 gmaps 包来实现这一点:

conda install gmaps ## to install the google maps package

您还需要一个 Google Maps API 密匙，这个密匙很容易请求(而且在大多数情况下是免费的)。你可以点击这里索取。

通过下面的简单代码，我们可以在 Jupyter 笔记本上请求交互式 google 地图(有时它无法与 JupyterLab 一起正常工作)，并输出一个热图图层，告诉我们该城市租金最高的地方。

我们应该得到阿姆斯特丹租金价格的美丽地理图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**热点图分析:**不出所料，租金价格较高的大多集中在市中心周边，具体来说就是德瓦伦，也有外围街区如德皮耶普和城市公园冯德尔帕克周边，这些地方都是豪宅集中的地方。Nieuw-West 、 Zuidoost 、 Ijburg 和 Noord 更远的街区似乎具有较低的租金价格，以绿色表示。位置似乎对租赁价格有很大的影响，但绝对不是唯一的因素。

关于 gmaps 的更多例子和教程点击这里。

我们还应该看看我们的数据框架中的变量如何与房价相关联。这是检查房价和表面积之间关系的代码:

import matplotlib.pyplot as pltplt.figure()
plt.scatter(amsmodel1['surface'],amsmodel1['house_price'], s=20, edgecolor="black",c="darkorange", label="surface")
plt.xlabel("Surface Area")
plt.ylabel("House Price")
plt.title("Surface Area vs. House Price")
plt.legend()
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

说到户型的表面积，两者之间有非常明显的向上倾斜的趋势关系！然而，应该注意的是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着房子越来越大，增加一平方米的边际价格急剧下降。因此，几乎总是选择更大的房子(如果你买得起的话)实际上会让你的钱花得更划算。

这是检查房价和卧室数量之间关系的代码:

import matplotlib.pyplot as pltplt.figure()
plt.scatter(amsmodel1['bedrooms'],amsmodel1['house_price'], s=20, edgecolor="black",c="darkorange", label="bedrooms")
plt.xlabel("Bedrooms")
plt.ylabel("House Price")
plt.title("Bedrooms vs. House Price")
plt.legend()
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个与表面面积有些相似的结论是，房子的卧室越多，租金就应该越高。然而，这也不是唯一的因素，因为有 5 个房间的公寓每月租金低至 3000 美元，高至 10000 美元。

如果您现在查看您的数据框，您会注意到许多列是“阶梯”列，以便获得有关房屋的更多信息。我们可以删除所有这些列，因为我们将不再使用它们。

del df5['address']
del df5['address2']
del df5['altitude']
del df5['latitude']
del df5['longitude']
del df5['point']
del df5['lat2']
del df5['lon2']
del df5['coord1']
del df5['coord2']
del df5['location']

多重共线性

如果我们运行多重线性回归(或一个变量的变体)，我们将不得不检查彼此之间高度相关的独立变量。一种方法是通过相关矩阵:

正如我们在下面的相关矩阵中看到的，有两个独立变量显示出一些多重共线性(r > 0.7):卧室和表面积。这是有道理的，因为房子越大，通常会有越多的卧室。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

解决这个问题的一个方法是将两个变量合并为一个，例如为每个卧室的平方空间创建一个新变量:

amsmodel1['surface_per_bedroom'] = amsmodel1['surface']/amsmodel1['bedrooms']

删除表面和卧室变量后，我们的相关矩阵如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该过程成功消除了数据集中的多重共线性。然而，对于大多数机器学习算法，我们从不需要检查变量之间的高度相关性— 多重共线性不会影响机器学习模型的准确性，尤其是集成学习模型，如随机森林算法。

在决策树的每一点上，该算法将进行最佳分割，这将更准确地预测目标变量，而不管自变量如何相互关联。此外，对于回归模型，目的是了解特定变量的影响，而在机器学习中，我们对模型的预测能力更感兴趣。如果你想了解更多这方面的内容，这里有一个关于这个主题的精彩讨论:https://stats . stack exchange . com/questions/168622/why-is-multicollinearity-not-checked-in-modern-statistics-machine-learning

7)邻居趋势:使用 Yelp API

在每个大城市，有几个街区似乎非常受欢迎(因此租金特别高)，尽管它们并不靠近市中心，也不一定住有更大的公寓。在我们的谷歌地图热图中可以找到的一个例子是 De Pijp ，它位于阿姆斯特丹环路之外，主要提供小型和未装修的公寓，但平均租金高于中央车站右侧的公寓。

我们如何以定量的方式来衡量受欢迎程度的影响？

一种方法是使用 Yelp！受欢迎的街区往往有受欢迎的酒吧和餐馆，评级高，价格也可能高。大多数支付更高租金居住的人用以下理由来证明这一点:

“这就是城市的生活！”

“所有的酷酒吧和餐馆都在那里”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由Louis Hansel @ shotsoflouis在 Unsplash 上拍摄

Yelp 可以帮助我们，为我们提供数百家餐馆，并以标准化和易于量化的方式告诉我们它们的评级和价格: $是便宜的食物，$ $和$ $处于中间，而$ $是昂贵的。此外，这也有助于我们了解目前可能不太受欢迎的街区，但传统上是更富裕的地区 (有许多$ $$$餐馆)，因此租金较高。

你需要注册 Yelp API，用你的替换我的 api_key ，并且用你正在分析的城市替换位置。还可以建立第二个外环，从不同的城市获取数据。如果您有一个包含列城市的数据框，您可以将该列转换成一个列表，并在该列表上迭代请求！

从 Yelp 收集数据后，我们需要将其与现有的租赁数据进行匹配。以下是如何做到这一点:

将 yelp 数据映射到我们的数据框后，删除任何空行并检查我们有多少列，数据框看起来是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们有了一个关于 yelp 价格和评级的更多信息的数据集，我们可以可视化它们与房价的关系，以了解这一指标是否可能改善我们的模型。

以下代码散点图 yelp 评分与房价的关系:

import matplotlib.pyplot as pltplt.figure()
plt.scatter(amsmodel1['yelp_ratings'],amsmodel1['house_price'], s=20, edgecolor="black",c="darkorange", label = "yelp")
plt.xlabel("Yelp Ratings")
plt.ylabel("House Price")
plt.title("Yelp Ratings vs. House Price")
plt.legend()
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下面的代码散点图 yelp 价格与房价:

import matplotlib.pyplot as pltplt.figure()
plt.scatter(amsmodel1['yelp_prices'],amsmodel1['house_price'], s=20, edgecolor="black",c="darkorange", label="yelp")
plt.xlabel("Yelp Prices")
plt.ylabel("House Price")
plt.title("Yelp Prices vs. House Price")
plt.legend()
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当只考察这两个变量之间的关系时，这里显然没有很强的线性关系。希望我们能够用机器学习算法来判断增加这些变量是否会对房价产生影响，尽管这种影响比线性影响更复杂。

9)虚拟变量

我们终于准备好训练模型了吗？没有。我们的模型将只接受整数类型的值，现在我们有几列是分类的(或者换句话说，在数字上没有意义，但作为我们公寓的类别)。我们需要创建一个叫做虚拟变量的东西，用计算机可以数字理解的方式来表示这些类别。

这里有一个关于虚拟变量及其作用的快速(但很棒的)解释:https://medium . com/@ Brian . Collins 0409/dummy-variables-done-right-588 f 58596 AEA

代码如下:

现在我们有惊人的 327 列！在数据科学项目中，我们应该批评我们分析的每一步，以防止偏见和其他误解。对于高维度的数据帧，我们需要考虑维度的诅咒，它会混淆机器学习方法，因为这些点相距如此之远，以至于它们看起来都一样(因此从分析中无法真正得出任何结论/区别)。如果我们的数据集遇到这个问题，它可能会降低我们在随机森林算法中的准确性。

最广为接受的经验法则是，对于数据集中的每个要素，我们至少应该有 5 个训练数据点。在这个项目中，我们有:

training data set = 3376*80% 
ration training points/features = 2700.8/327 = 8.26

这(幸运地)通过了我们的 5 个训练数据的特征比例规则！

此时，我们的数据框应该如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们有 3376 行，327 列，以及关于房价，卧室数量，表面积，离市中心的距离，yelp 平均价格和地区评级，邮政编码的虚拟变量和租赁机构的虚拟变量的数据。

9)随机森林

随机森林算法是一种集成学习方法，它构建决策树，分割数据并测试每个决策以了解每个要素的权重，有望实现数据集要素对目标(在本例中为房价)的真实影响。这里是一篇关于这个算法的很棒的文章。

对于随机森林，我还将结合 K-Fold(K = 10)交叉验证方法，这意味着我们将把数据分成 10 个部分，训练 9 个部分并针对第 10 个部分进行测试，并在每次迭代中使用 10 个部分中的不同部分作为测试数据，最大化数据集的大小以获得更好的结果。关于交叉验证的更多信息，请点击。

对于这个项目，我将使用开源包 sklearn 将算法应用于数据集。代码如下:

几分钟后，您应该开始得到一些结果。这些是我从这个数据集得到的结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

94.75%的平均准确率已经不错了，但是有没有可能增加模型的功效呢？我们可以尝试不同的超参数调整设置，以将准确率提高几个百分点:

超参数调谐

文章的这一部分在很大程度上基于这篇文章:超参数调优 Python 中的随机森林，你绝对应该去看看，以便更深入地理解代码。

Sklearn 具有强大的功能 RandomizedSearchCV，可以测试不同的参数，并推荐哪些参数可能最大限度地提高模型的准确性。

代码首先指定特性应该测试的每个参数的选择:

我们将随机森林回归器拟合到 RandomizedSearchCV 中，它在 100 个组合中搜索 3 次，并返回最佳参数。

这些是我们为此模型获得的最佳参数的结果:

{'n_estimators': 400,
 'min_samples_split': 2,
 'min_samples_leaf': 1,
 'max_features': 'sqrt',
 'max_depth': None,
 'bootstrap': False}

我们回到原始代码，包括这些参数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将我们的准确率提高到 98.30%！

10)决策树和特征重要性

如果你打开图像 tree.png，你应该得到这样的东西:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是表示所有随机森林算法决策的图表，包括分裂、分支、叶子、平均标准误差、样本数和每个分裂的预测值。浏览每一个树分裂并不是非常有用(或省时),但是看几个并看看它们对你是否有意义是非常有趣的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特征重要性条形图是 sklearn 的一个选项，在理解算法的发现方面更有效一些。首先，我们定义我们只希望看到决定预测结果 0.5%以上的特性，我们还将创建这些特性的列表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

list_of_index 将返回一个列表，其中包含最重要的列号数组。由于输出的格式，正确地转换列表有点困难，所以我用相应的正确列重新定义了列表。

list_of_index = [0,1,2,3,4,24,97,249,280,308]

接下来，我们需要获取列和列标签:

最后，这是 matplotlib 条形图的代码:

这是结果图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特征重要性图分析:与普遍的看法相反，位置(由变量 dist 表示)是第二重要的影响。相反，到目前为止，表面积是决定阿姆斯特丹租金的最重要因素。卧室数量、yelp 评分、yelp 价格和一些租赁机构也有显著影响。在其他条件相同的情况下，住在特定的邮政编码 1071(考虑到这是许多名人居住的地区，这在阿姆斯特丹确实是一个奢侈的邮政编码)会给你的房租账单增加一大笔钱。

如果我们分析每平方米房屋的租赁价格，而不是绝对价格，会怎么样？通过将以下代码添加到算法之前的流程中:

再次运行随机目录林，我们会得到以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

平均准确率为 98.309%，用平方米来衡量价格比我们之前获得的 98.30%稍微提高了模型的准确率。功能列表也发生了变化:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它仍然将表面积和位置作为决定租金价格的主要因素，但降低了它们的相对重要性，增加了 yelp 评级和价格的相对重要性，同时也将更多的租赁机构添加到可以影响(积极或消极)阿姆斯特丹房屋租金价格的机构列表中，其他一切都是平等的。

11)预测

我们有模型，我们知道它是如何工作的。然而，我们已经知道上市公寓的价格，我们对它是否值得标价有一个相当好的想法。这个项目如何对一个已经了解阿姆斯特丹真实市场的人有用？

该模型的真正魅力在于它的预测能力。虽然一个真正的国有开发商可能会凭直觉知道一套公寓应该值多少钱，但我们现在也有了一个定量工具，可以分析市场样本，并输出精确的价格，这可以将真正的国有房东或长期居住在阿姆斯特丹的人的专业知识带给新的租户和买家。

以下是如何使用训练好的模型进行预测:

上面的预测是针对一个 45 平方英尺的单卧室公寓。米，邮政编码为 1018，是从真正的国家机构 JLG 房地产租赁。我们可以从相应的邮政编码 1018 中查询 yelp_prices 和 yelp_ratings 数据帧，以在预测中指定它们。

对于这个特定的公寓，预测的租金价格是 1530 美元，这与该公寓的实际租金价格(1538 美元)极其接近，尽管该模型从未有过这个数据点，而且该公寓上市还没有一年多。

12)结论

这个项目让我明白，理解阿姆斯特丹的真实市场绝对比简单地看邮编和公寓的平方米要复杂得多。虽然这两个特征是最重要的，但你可以很容易地为同一套公寓支付更多的钱，仅仅因为你使用了特定的租赁机构，决定住在有好餐馆的社区，或者想成为名人的邻居(好吧，这不是令人震惊的*。*

希望我已经能够对这个市场的内部运作有更多的了解，并帮助一些人预测他们应该为他们的新房子支付多少钱。感谢您的阅读！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由格里洛·爱德华在 Unsplash 拍摄

参考

网络抓取算法:https://towards data science . com/looking-a-house-build-a-web-scraper-to-help-you-5ab 25 badc 83 e

随机森林可视化:https://towardsdatascience . com/how-to-visualize-a-decision-tree-from-a-random-Forest-in-python-using-scikit-learn-38 ad 2d 75 f 21 c

超参数调优:https://towardsdatascience . com/hyperparameter-Tuning-the-random-forest-in-python-using-scikit-learn-28 D2 aa 77 DD 74

人工智能和对疫情安全的美国工厂的竞争

原文：https://towardsdatascience.com/ai-and-the-race-to-pandemic-proof-american-factories-4609d0880b2e?source=collection_archive---------70-----------------------

机器人技术、人工智能和自动化从全球村庄到全球救星

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 https://www.pxfuel.com/en/search?q=welding+mask 的提供

随着我们摆脱冠状病毒的限制，新的制造业要务正在浮出水面。研究显示自动化正在加速，强调生产线灵活性的文章不计其数。

两千多年前，古罗马人就说对了: Mater artium necessitas ，换句话说就是“需要是创造力之母”。

在冠状病毒疫情期间，工厂的生产活动直线下降，因为与普遍看法相反，自动化、人工智能和机器人技术的水平远不能保证没有大量人类干预的运营。

如今，制造商正在寻找伟大的想法，促使创新企业更加努力地考虑在他们的流程和机器中嵌入更多人工智能。

揭穿了人工智能和机器人是工厂工人的敌人的神话，新冠肺炎经济的余波正在刺激人们对人工智能和自动化的兴趣——以及很快对它们的采用。如果我们考虑到疫情正迅速引领美国和欧洲的制造业复苏，这种需求就更加迫切。扎实的学术研究已经澄清了人工智能和机器人技术是美国失业原因的指控:麻省理工学院研究员 David Autor 最近的一项研究得出结论，我们如何大大高估了自动化带来的生产率增长带来的失业。相反，真正的罪魁祸首是将中国等低成本劳动力国家引入全球贸易体系。相反，研究表明，通过将工人与人工智能工厂结合起来，可以提高产品缺陷检测和质量保证，在不需要替换人类的情况下，将生产率提高 50%或更多。

这些国家熟练劳动力的持续短缺(过去几十年制造业消失，转而支持亚洲)正在减少对难以找到的人类专家的依赖，推动工人增强技术的采用，并最终降低成本。

到 2025 年，全球工业机器人市场规模预计将达到 730 亿美元，这表明制造商正专注于正确的技术。

虽然对许多人来说，“无人值守制造”(完全自动化的设备，完全无需人工干预即可运行)是遥不可及的，但该行业现在就需要解决方案，并且必须采取措施尽快缩短物理距离/减少物理存在。

人工智能能够在通常需要多人完成的任务中替代人眼，是可以立即投入工作的低挂“技术果实”。与机器人和复杂的工业 4.0 物联网基础设施不同，人工智能可以像现有机器上的软件升级一样简单，降低了在许多制造环境中采用的时间和成本障碍。

一步好棋孕育另一步。让第一个是每台机器里的 AI。

编者注: 走向数据科学 是一份以研究数据科学和机器学习为主的中型刊物。我们不是健康专家或流行病学家，本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息，可以点击这里。

关于人工智能可能是什么以及为什么它不是新的未来概念

原文：https://towardsdatascience.com/ai-and-travelling-consciousness-df940c3b45c4?source=collection_archive---------35-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新加坡未来世界@艺术科学博物馆滨海大道——照片由 @robynnexy 拍摄

人工智能战略告诉未来，并潜入反未来主义

未来到底是什么，又是如何描绘的？在这篇文章中，我看了一些关于人工智能的典型想象。也讨论了两部电影中不同的期待和表现。

通常我不会对遥远的话题进行进一步的讨论或思考。事实上，谈论太空旅行或人工意识似乎很神秘。然而，我的一个朋友提到了将 AI 送上太空的可能性或可以创造的意识，并进行更远的旅行。

它打动了我。为什么当我们谈论人工智能时，讨论变得如此宇宙或哲学？我是说，这并不是说讨论不有趣。如果我们真的可以将意识投射到整个空间，那将会很有趣，但是如果我们能先解决我们在地球上的问题，那将会有所帮助。人工智能策略通常不会走极端，但它们仍然画出了一个可能过于乐观的伏笔。也就是说，我没有看到任何疯狂的承诺(从我读过的大多数策略中)，然而思考未来是如何被感知或展示的是很有趣的。

复古未来派 (形容词复古未来派或复古未来派)是创意艺术中的一个运动，表现了早期时代对未来描绘的影响。如果未来主义有时被称为一门致力于预测未来的“科学”，那么反未来主义就是对这种预测的记忆。

在某种程度上，战略是对其固有目标的预期。它通常是为了实现一个长期或总体目标而设计的。很多时候，尽管知道单词或方向，我们可能不完全知道我们会在哪里结束。因此有一种期待或猜测的感觉。

比如一个白色人形机器人用大写字母 AI 跟踪源代码，手握着看似控制面板的东西。它可能就像这张来自 2018 年的经济时报的奇怪图片，当我搜索人工智能时，它出现在顶部，或者这篇来自 2019 年的福布斯撰稿人文章。

当然很奇怪。当我们说 AI 时，人们会想到人类和机器人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Flaticon 的桉树

这几乎像是回到了 2004 年的一部有点平庸的电影《伊赫曼》,在这部电影中，人类威尔·史密斯与人工智能的共同主角桑尼进行了对决。

桑尼，不是组装机器人。他是用密度更高的材料和二级神经网络特别建造的，这让他有能力忽略三大定律。这三大法则是:机器人不得伤害人类，也不得坐视人类受到伤害。机器人必须服从人类给它的命令，除非这些命令与第一定律相冲突。后来，桑尼声称自己有情感和梦想。

机器人变成了金属和白色的概念。

不像《星球大战》中的 C3PO 或 R2-D2 那样拥有某种人工智能。对未来的不同想象提供了更少的人类，更多的机器外观和感觉。相对于 iRobot 中关于一台打算杀死人类的机器的想法，这也许更为良性。相反，这台机器在 1977 年首次出现在《星球大战》电影中时是作为翻译机出现的。当然，从那时到今天，还有更多想象空间。

然而，有趣的是看到了向“恐怖谷”(不是机器人，也不是人类)中的某种东西的转变，而 C3PO 显然是一个机器人，但可以采取人类的行动，如说话、翻译、走动、反应和拥有某些代码。有趣的是，我们更接近 C3PO，而不是 iRobot 系列中描绘的 Sonny。这也许是迈向未来的一个飞跃，走向一个更有权利的智能，一个像我们一样做梦的智能，一个像我们一样的智能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

R2-D2 图标由那些图标

策略仍然向我们展示了未来或现在的景象(针对特定人群)。如教育领域的新加坡人工智能战略就是如此。想象自动标记系统和聊天机器人作为人工智能学习伙伴的适应性学习。

当然它是乌托邦，它是用来推销一种特定类型的未来。

然而，我们也许应该对某些关于未来的想象三思。

这并不是说我们不应该兴奋，但我们必须意识到，现在的想象可能不会成为未来，或者可能会以不同于我们想象的场景出现。

这是#500daysofAI，您正在阅读第 248 条。500 天来，我每天都在写一篇关于或与人工智能相关的新文章。我目前 100 天 200-300 的重点是人工智能的国家和国际战略。

人工智能在市场营销中的应用

原文：https://towardsdatascience.com/ai-applied-to-marketing-383bda3367cb?source=collection_archive---------62-----------------------

实用人工智能

寻找客户利基并理解数据

人工智能是可以应用于营销的最基本的算法集之一。由于这个主题的复杂性，我将把自己限制在人工智能对客户数据的最实际的应用上。

营销中的应用

营销严重依赖于数据收集和数据分析。您可以利用这些数据获得关于以下方面的深刻信息:

客户目标和利基
市场分析
竞争

你可以使用各种商业策略和统计工具从你的数据中提取信息，然而，AI 允许你执行两种特定的分析:

因素分析
聚类分析

实际例子

让我们假设您已经分发了以下调查。每个人必须回答 5 个不同的问题，分数从 1 到 10。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

7 个人已经回答了 5 个问题:7 个样本，5 个特征

本质上，该数据集的低分辨率版本转化为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因子分析与聚类分析

如果我们想对这个数据集应用无监督学习算法来找出额外的信息，我们可以执行因子和聚类分析。首先，让我们不要混淆术语，在初级数据科学家中，这种差异并不总是为人所知。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因子分析适用于特征，聚类分析适用于样本

聚类分析或客户细分

聚类分析用于了解不同类型的客户。对样本进行分析，目的是将样本分组。在我们的初始示例中，您可能会发现两种不同的集群:

吃很多巧克力、做很多运动的客户
吃很多巧克力并且根本不做运动的客户

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从聚类分析中出现了 2 个目标

如果您将您的整个客户列表划分为集群(或细分)，您将会更好地理解:

目标是谁
以哪里为目标

要素分析

因子分析比聚类分析稍微复杂一点，因为它不太直观。

如果你想访问已经被用来模拟这个解释的代码，从我的仓库下载它。

实际上，我们可以使用这个工具来理解我们调查中的许多问题。例如，如果每个人必须回答 20 个问题(可能是 100 个，也可能是 1000 个)，我们如何解释这些数据？

很简单，我们看到问题是如何变化的，这样我们就可以根据共同因素将它们分组。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

例如，在我的调查中，我问:

你吃多少巧克力？
你有多喜欢巧克力？

那些是不同的问题吗？不，本质上它们是同一个问题，如果你看所有的答案，它们几乎是相同的:它们的相关性为 0.9863，这几乎是完美的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用字母 A 到 E 表示的问题的相关矩阵

如果我们决定测量变量一起移动的强度，我们只需要计算它们的相关系数。我们可以立即将它们分成两个独立的列:我们称之为因子。因为数据集是简单的，我可以只看一个相关矩阵就得到这个结果，实际上，这要困难得多，过程也要繁琐和近似得多。

执行因素分析后，我们可以确定:

因子的数量
每个因素在多大程度上解释了差异

我们可以简单地使用两个因素来简化我们的调查，这两个因素可以命名为:

巧克力消费量(前 3 栏)
体育锻炼倾向(最后两栏)

如您所见，我们向客户询问的所有信息现在都更有意义了。

因子分析示例

因子分析通常被用来理解指标和测量。因子分析技术已被用于提取:

大五人格测试(5 个因素= 5 个特质)
智商测试(1 因素= 1 智力)
客户满意度研究
竞争对手分析

人工智能将如何影响营销

人工智能已经开始对营销和广告产生影响。由于大数据的可用性，你可以在你的市场范围内接触到唯一的潜在客户。一个很好的例子是社交媒体上的定向广告:但要利用它，你需要知道搜索什么。

我需要成为一家大公司才能使用这些工具吗？

不，只要你能访问数据，你就可以从你的客户那里收集任何类型的信息。收集大量数据是昂贵的，但在一定限度内，甚至可以免费下载。例如，关于人们的个性或顾客对某些产品的满意度的开源研究将会为你节省很多钱。

你总是可以选择自己下载数据，连接到数据库并使用人工智能工具，但大量的工作已经可以在互联网上免费获得，如 Kaggle 或 GitHub 等网站。

那些分析工具是创新的吗？

事实上，这些统计工具已经存在很长时间了。然而，他们的准入门槛现在低了很多。如果几年前你需要一个专家团队来执行必要的分析，现在任何由一名工程师操作的开源机器学习工具都可以以低得多的价格输出相同的结果。

我的竞争对手会使用类似的技术吗？

每个高性能的公司(不仅仅是大的技术公司)都会做市场分析，但是他们也会依赖他们的数据。期待你的竞争对手做这些准确的研究，以达到他们的潜在客户。

人工智能与真理仲裁

原文：https://towardsdatascience.com/ai-arbitration-of-truth-808b57a93a97?source=collection_archive---------43-----------------------

我们能制造一个人工智能事实检查器吗？语言、知识和观点都是移动的目标。

鉴于推特在事实监管方面的作用，是时候弄清楚一个 人工智能事实审查员 会是什么样子了。技术上是否可行，它的偏差是什么，等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

许多被标记的推文之一。

社交媒体公司和诉讼真相:简介

第 230 条是 1996 年《通信规范法案》的一项条款，它通过不要求互联网公司对其用户的内容承担法律责任来保护互联网公司。特朗普正在法庭上与之斗争。

让我们看看这两家声音最大的科技公司在事实核查领域都做了些什么。

推特的观点:我们有责任。

几个月来，杰克·多西一直在划清界限，看着川普挑战它。现在，Twitter 开始在其平台上处理假新闻。许多许多用户在短期内对此感到高兴(老实说，我是这样认为的，但是这将会带来长期的后果。如何以一种无偏见、最新的方式做出这个决定极具挑战性。我希望他们能成功地走过这条路，但肯定会有争议(可能在 11 月)。

脸书的观点是:让公司成为真理的仲裁者是危险的。

举个反例 Twitter 禁止政治广告 : 政治广告的界限是什么？我会把政治广告定义为一个花钱影响公众舆论的实体(而不仅仅是销售产品)。参议员购买选票显然是政治行为，但一家石油公司在拙劣的漏油应对措施后购买公众意见是政治广告吗？这里的具体答案对我来说并不重要——重要的是个人(或有偏见的计算机系统)必须决定政治和非政治广告之间的界限。

问题是，这两种仲裁事实的方法，都是有效的论点，如果做得对，都有巨大的好处。植入是关键。

监管的需要是有保证的，也是强烈的(脸书)，但当监管缺失时，我们的人性就会受到强大的拉力，去减轻对用户造成的伤害(推特)。

技术—变压器和自然语言处理

自然语言处理(NLP)是机器学习的子领域，涉及从文本中处理和提取信息。用于智能助手、翻译器、搜索引擎、在线商店等。 NLP(以及计算机视觉)是少数货币化的最先进的机器学习发展之一。它是被用来诠释真理的候选者。

迄今为止最好的 NLP 工具是名为变压器的神经网络架构。长话短说，变形金刚使用一种编码器和解码器结构，将单词编码到潜在空间，并解码到翻译、打字错误修复或分类(你可以认为编码器-解码器通过神经网络将复杂的特征空间压缩到更简单的空间——非线性函数逼近)。NLP 领域的一个关键工具是一种叫做 Attention 的东西，它学习关注哪些单词以及关注多长时间(而不是硬编码到一个工程系统中)。

一个转换器结合了这些工具，以及一些其他的改进，允许模型被高效地并行训练。下图显示了数据如何流经转换器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我从一个很棒的教程中找到了一个可视化的 https://jalammar.github.io/illustrated-transformer/。

在线事实核查

transformer 结构的关键技术点是它们是可并行化的(可以通过一个模型轻松运行多个单词和 tweets)。在线事实核查将意味着每一篇基于文本的帖子都将通过一个模型，要么 a)在公开发布之前，要么 b)在公开发布之后不久。这里的计算规模是前所未有的。

作为参考，每秒大约有 6000 条推文和脸书的数字更令人震惊。最先进的 NLP 工具 BERT 拥有超过 1 亿个参数。处理新内容所需的计算顺序在这些值中是线性的。这需要大量的 GPU(谷歌和脸书经常花费数百万美元来训练这些模型)。对这些公司来说，处理所有这些数据很可能会大幅增加成本(我可能会重新考虑这个问题，进行计算)。

脸书使用人工智能来减少虚假账户的创建，同时这些账户被用来消除下游的基础设施负担。也许这些公司可以使用分类器来确定潜在的基于事实的内容，并且只检查那些内容？事实证明，这种事实核查对正面的公众印象很有价值。

好了，我们有了模型和服务器群，接下来是什么。终极问题是什么是真的问题？基于学习的事实核查方法的问题是:移动的目标、有偏见的数据和不明确的定义。这是文章的关键，也是我一直在琢磨的，也是我认为自动化不可能实现的目标。

给在线话语添加结构

监管网络言论的过程肯定会带来一些阻力。所有公司都会遵守吗？参赛或弃权的代价是什么？这里讨论的主题将在未来几个月通过 2020 年美国总统选举的扩音器播放出来。

什么是事实？什么是真理？

这是一个根本性的问题，即不是所有的人都认为相同的信息是真实的。理想情况下，事实是一组不可质疑的项目。真理是个人持有并用来挑战他人观点的价值——真理也可以包括信仰。

真理是个人的移动目标。事实是科学和社会的移动目标。

一个人无时无刻不在一系列本地和全球的真理中工作。对我和许多我最亲密的朋友来说，一个当地的事实是划船是一项特殊的运动，由于它的合作和高极限而无人能及，但它肯定不是对每个人都是如此。一个全球真理是地球是圆的。在那些更难分类的真相之间有很多真相。

我认为互联网事实检查器的问题是，用户也希望他们当地的事实得到检查。我们如何收集真实陈述和不真实陈述的数据集？

谁管理数据库？

不可能将每一个有待检验的事实都归结为科学的首要原则(这只是当前的世界模型，所以可能会改变)。我们能为人类制作一个知识图表吗？这意味着将会有一些数据标记过程(让用户这样做似乎是一个巨大的挑战，因为本地的事实)。数据驱动的方法总是在偏差和方差之间有一个权衡，这是假设数据本身是有效的。我已经谈到了在进行物理自动化时数据偏差的挑战，但它在数字领域也会同样普遍。

[## 自动化大众化

让每个人都从人工智能热潮中受益可能比一些人预期的更具挑战性。

towardsdatascience.com](/democratizing-automation-744bacdc5e97)

让我们更深入地探讨一下这个问题。事实真相数据库没有明确的部署场景。

如果科学家决定事实，我会担心白人男性信息的不成比例的代表性。
如果社交媒体内容决定事实，我会担心俄罗斯的虚假信息决定事实数据库的真相。
如果书面媒体(报纸、书籍)决定了事实，那么这是在重现少数作者的世界观。

如果你把这三者结合起来，听起来还不错，但是总会有一些极端情况、遗漏的信息和令人困惑的偏见。

开源事实:

我读过的最佳解决方案 : 开源事实核查，有资金支持(可能来自政府和大型社交媒体公司)。这将意味着一个独立的组织定期更新和维护一个真相目录。这将是一项代价高昂的任务，但为了保持我们开放的互联网资本主义社会的稳定，这可能是必要的。

当有一个开源的事实检查组织时，剩下的是许多许多的角落案例。当一条推文没有被分类为真实或不真实时会发生什么——我们必须将其标记为新吗？采用数据库需要多大规模的公司？一个新的区域 deepfakes 来伪造真相探测仪怎么样？我认为这些都是我们能够并且应该解决的问题，但是讨论需要频繁和尽早。

出处。

*你如何根据基本原则进行事实核查？我认为这应该研究图中的表示理论。有一套核心原则，然后新的知识形成基于已证实的联系的优势。将会有不确定的断言区域(与真实图断开)，但是通过建立新的证明和新的边，我们可以向事实数据库添加更多的条目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由丫蛋古坦从佩克斯拍摄

我已经包括了大量关于这个主题的阅读材料。我也发现自己在发关于这件事的推文，如果你愿意 关注我 ，或者 本汤普森 (作者strate Chery)可能会做得更好。

新闻报道:

杜克大学的一个实验室研究报道机制(包括自动事实核查)。
去年来自《大西洋月刊》的两篇文章研究了 a) 事实核查和特朗普以及 b)事实核查对脸书的价值。
麻省理工科技评论在新冠肺炎时代用人工智能进行事实核查。
假新闻检测和政治立场调查。
通过 Twitter 进行开源事实核查的理由。

一个关于机器人和人工智能的博客，让它们对每个人都有益，以及即将到来的自动化浪潮…

robotic.substack.com](https://robotic.substack.com/)

像这样？请订阅我关于机器人、自动化和人工智能的直接时事通讯。感谢阅读！

人工智能、建筑和生成设计

原文：https://towardsdatascience.com/ai-architecture-and-generative-design-e22320828d46?source=collection_archive---------24-----------------------

创造性工作的算法头脑风暴

德克·克内梅尔和乔纳森·福利特

建筑，像许多创造性的职业一样，跨越了数字和物理世界。随着 3D 打印等技术推动这一学科在重建建筑环境方面向前发展，人工智能和生成式设计正在从规划和设计的角度对建筑产生影响，这一行业在很大程度上是数字和计算的。我们采访了 Autodesk 的 AEC 生成设计高级产品经理 Lilli Smith，她在建筑领域从业超过 20 年，在过去的 18 年里一直在开发建筑师用来设计作品的软件。

在建筑、艺术和其他创意领域，生成式设计是一种自动创建设计选项的方法，可以平衡各种竞争目标。最新一波的生成式设计是由人工智能推动的。“在建筑设计问题中，这是常有的事，”史密斯说。“没有一个你试图追求的单一目标——没有一个式的答案。但是，做一个建筑项目有很多不同的目标。因此，举例来说，在城市设计工作流程中，拥有大量的开放空间和良好的视野可能很重要。但投资回报和通过更多可出租区域产生的价值可能也很重要。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 01:创成式设计是一种自动创建设计选项的方法，可以平衡各种竞争目标。
[图片:由马库斯·斯皮斯克在 Unsplash 上拍摄]

创成式设计可以帮助自动创建选项，满足设计者希望编码到系统中的各种目标。生成式设计也可以是一种开拓设计师思维的探索工具——不一定要解决问题或提供一个正确的答案。

“使用算法来指导这些设计选项的创建，计算机会给你…它能给的最好的选项，给定的目标和探索的规模也是你指定的，”史密斯说。“然后，您可以与利益相关者讨论哪些目标实际上可能更重要，或者哪些设计……利益相关者可能出于其他原因更喜欢。这是与人交流的好方法。”

“当设计有几个输入时，人类很难记住这些输入的所有组合，”史密斯说。“实际上，计算机可以用不同输入的组合让你大吃一惊，这可能是你以前从未想过的……”

人工智能可以很快产生大量符合项目要求的概念。在同样的时间和金钱预算下，由机器进行的大规模概念生成，或我们过去可能认为的“头脑风暴”，比人类所能做的更负担得起，也更全面。这在架构环境中尤其重要，正如 Smith 所描述的，需求是复杂的、广泛的，并且经常是相互竞争的。“所以，计算机并不是真的自己想出任何东西，”史密斯说。“(它)只是有一种自动化的方式来产生所有这些人类不擅长的组合，但计算机确实擅长。然后能够对它们进行排序或搜索，考虑到你已经包括的不同指标，有时甚至会产生你意想不到的令人惊讶和愉快的结果。”

生成设计简史

尽管我们认为“生殖”这样的术语和应用是最前沿的，但程序艺术家已经使用这种创造性的方法超过 50 年了。“生成式设计其实并不新鲜，”史密斯说。“生成艺术有着悠久的历史。”20 世纪 60 年代，匈牙利计算机艺术家先驱 Vera Molnár 使用早期编程语言 Fortran 来生成图像，在她的作品中检查主题、变化、自动生成和选项显示。数字艺术家曼弗雷德·莫尔是算法艺术的另一位先驱，他在 20 世纪 60 年代和 70 年代创造了各种 3D 几何图形。在他们 1972 年的文章《绘画和雕塑的形状语法和生成规范》中，设计技术专家 George Stiny 和 James Gips 创建了一个设计系统的人工编码，描述了一个生成形状的生产系统。“对于参数化设计中发生的许多事情，这确实是一条直接的思路，也是 CityEngine 等工具的基础，city engine 是 Esri 基于 GIS 数据进行城市规划的工具，也是其他工具，”Smith 说。“20 世纪 70 年代的一些论文展示了人们在建筑中，特别是在医院平面图中是如何思考的，如何用算法来布置这些平面图，”史密斯说。“所以，这些想法在建筑领域已经存在很长时间了。他们也涉足工程领域。”

在人工智能驱动的生成方法的一个更近的例子中，美国宇航局使用程序设计来创建其卫星天线的配置。美国宇航局艾姆斯研究中心该项目的领导者杰森·罗恩在描述了算法设计方法，这是该机构于 2006 年发表的一篇专题文章:

Lohn 说:“人工智能软件检查了数百万种潜在的天线设计，然后选定了最后一种。根据 Lohn 的说法，在同样的情况下，该软件的速度比任何人都要快。“通过模仿达尔文‘适者生存’的过程，最强的设计存活下来，能力较弱的则无法存活。”

“我们告诉计算机程序天线应该具有什么性能，计算机模拟进化，保留接近我们要求的最佳天线设计。最终，它瞄准了满足任务所需规格的东西，”Lohn 说。

“他们搜索了成千上万个不同的天线，”史密斯说。“他们能够想出一种设计，这种设计是他们通过自己的传统设计过程无法想到的。但最终的天线设计比传统天线的效率高出 90%以上。”在美国宇航局的例子中，我们可以看到人工智能如何通过引入人类最初可能不会考虑的高级设计选项来通知和增强创造性决策，并带来令人惊讶的有效结果。设计输出更好，因为人和机器都在做自己最擅长的事情。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 02: NASA 使用程序设计来创建卫星天线的配置。
【图片:美国宇航局在 Unsplash

实践中的计算设计方法

部分受创成式设计历史的启发，Autodesk research 长期以来一直对使用创成式工作流感兴趣。“几年前，Autodesk 收购了一家名为“走出纽约”的建筑公司，”Smith 说。“[一群]才华横溢的设计师，他们也有计算机头脑。他们真的是很好的程序员，非常好的设计师。此外，他们还参与了许多涉及生成式设计追求的项目。”

“他们与空中客车公司合作开发隔板。这是一个计划的一个组成部分，可能看起来不是非常重要。但是，有许多不同的功能必须考虑到该面板。“他们必须能够移除它的某些部分，以容纳进入飞机的紧急担架，”史密斯说，“当然还有严格的安全标准和碰撞测试标准。”

“他们能够利用这一过程研究灵活的模型，并研究如何取出一种材料，但你仍然有这个面板的结构完整性。并且使用 3D 打印技术将每个隔板的总重量降低了约 45%或约 30 公斤，”史密斯说。“在一架非常大而且重量很重的飞机上，这可能看起来微不足道。但是，他们估计，目前这一代 A320 系列飞机的重量减轻可能会导致每年减少近 50 万公吨的二氧化碳排放。”

为了测试生成式设计的应用和理论，Autodesk 在他们新的 Autodesk 多伦多工厂的设计中使用了这种方法，该工厂被称为新兴技术新中心。“他们想使用生成技术来设计新的办公空间。因此，他们开始收集大量数据来指导设计，并帮助他们为理想的办公室设定目标，”史密斯说。“所以他们会问一些问题，比如:‘你想坐在谁的旁边？’，‘你一天能分心多少？’、“你是喜欢办公桌附近有充足的日光，还是因为你使用屏幕而不喜欢强光，所以需要一个更暗的环境？”。在进行了广泛的内部研究后，该团队制定了六个目标，用于评估他们的设计。”史密斯说:“他们调查了现有员工，然后将所有数据归结为六个目标，分别是关于亲近、分散注意力等。该团队创造了一种灵活的模式。”史密斯说:“他们知道这种设计将如何运作，也知道它如何灵活多变。他们想研究…他们在哪里放置一组桌子，在哪里放置一组便利设施，意味着会议室、电话亭、更多的私人空间。因此，他们开发了灵活的模型和方法来衡量这些设计的成功，并使用计算机来帮助指导他们找到满足这些目标的解决方案。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 03:人工智能可以帮助建筑师开发灵活的模型来设计理想的办公空间，并帮助指导他们找到满足这些目标的解决方案。
【图片:由纳斯图·阿布塔莱比在 Unsplash 上拍摄

人工智能和建筑的未来

“我们交谈过的许多人都看到了计算机增强他们设计努力的可能性，”史密斯说。“他们看到，人类在这些设计工作中仍然至关重要，因为他们将提出问题，决定解决什么样的问题，使用机器来帮助他们做得更好。”

“我认为，在机器为我们编写所有软件或进行设计之前，我们还有很长的路要走。也许有一天会实现，但我认为在机器人接管之前，我们还有很长的路要走，”史密斯说。我们的电脑霸主还有很长的路要走。机器将会帮助我们制造东西，而不是把我们从等式中移除。他们将删除更多的物理，手工，平凡，繁琐的部分。他们将不会解决核心问题，特别是在研究和需求的前面，但即使暂时，一旦生成方法确定了正确的基本方向，他们也不会解决核心解决方案。

“我认为生成式设计是设计师的一种不同的思维方式。考虑为 design 设计一个系统而不是几个一次性的设计是不同的…史密斯说:“考虑如何让整个设计系统为你所用是不一样的。“它还需要计算设计技能，这样你就可以使用计算机来增强你的能力。我们试图通过创建这些可视化脚本环境，让架构师和工程师更容易地编写代码，只需将这些不同的节点或不同的功能放在一起。我们还致力于开发人们可以共享的节点。并且发展一个希望彼此分享代码的社区。”

让创作者通过一个视觉界面，不需要学习编程或与不复杂的用户界面纠缠，这对于释放人工智能在创作环境中的潜力非常重要。提供可视化使用环境的方法，而不是期望非程序员使用编程来最好地使用下一代工具，是人工智能等新兴技术的一个常见主题。与流行的每个人都学习编程的重要性相反，现实是为创意人员创造工具的公司正在积极尝试制造这些工具，以便我们中的非程序员可以充分利用它们。事实上，虽然今天有很好的理由让许多创意人员学习某种程度的编程，以最好地利用我们可以支配的早期和新生工具，但这些技能可能会建立我们长期的整体知识库，但只会在较短的时间范围内实际适用于我们的工作，在这个过渡时期，计算创意还处于早期。

使用人工智能辅助的自动化方法来更好地设计建筑很可能是未来的必然趋势。“到 2050 年，地球上将有 100 亿人口。如果你算一下，我们将需要每天建造大约 13，000 栋建筑来容纳所有这些人，”史密斯说。“为了在不完全破坏地球的情况下建造所有这些建筑，我们将不得不开发更好的方法来设计和建造[它们]……生成式设计是这一努力中的一种工具。我认为我们必须彻底改变我们做事的方式，以适应地球上所有这些人的需求。”

Creative Next 是一个播客，探索人工智能驱动的自动化对创意工作者，如作家、研究人员、艺术家、设计师、工程师和企业家的生活的影响。本文伴随 第三季第六集—建筑与生成设计 。

作为电影制作人的艾

原文：https://towardsdatascience.com/ai-as-a-movie-maker-e5865b99a06c?source=collection_archive---------15-----------------------

我如何只用 ML 模型制作了一部完整的短片(你也可以做到)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Merzmensch 的拼贴画。

真热闹。我记得看了一遍又一遍的《T4》和《太阳之春》。被荒谬的对话迷住了，我试图理解这部短片中发生了什么。但这种意义曾经悄悄溜走。因为是 AI 写的。

本杰明是作者的名字。这个名字的背后是一个递归神经网络 LSTM 隐藏，由人工智能研究员兼诗人罗斯·古德温开发。这部电影由获得英国电影电视艺术学院奖提名的英国电影制作人奥斯卡·夏普执导，主演包括托马斯·米德蒂奇。

即使情节由荒谬和看似随机的短语组成，我们的大脑也在试图理解它。我思故我在。

罗斯关于人工智能和创造力的必读论文对我来说极具启发性。如果你没有机会，一定要读读这个。

[## 叙述现实中的冒险

由机器智能实现的书写语言的新形式和界面

medium.com](https://medium.com/artists-and-machine-intelligence/adventures-in-narrated-reality-6516ff395ba3) [## 叙述现实中的冒险，第二部分

正在进行的写作和机器智能实验

medium.com](https://medium.com/artists-and-machine-intelligence/adventures-in-narrated-reality-part-ii-dc585af054cb)

通过他的实验(以及后来他的人工智能生成的书“ 1 the Road ”)，罗斯证明了人工智能可能实现的目标。这一认识也是至关重要的:人工智能不仅仅是一个工具，也不是作家的完全替代品。你需要一个共生体来和艾一起创造艺术。

没有摄影棚的电影。

我们已经看到了机器学习有多少创造性的用途。

有了 3D 本·伯恩斯效应，我们可以制作动画梦境，将照片转换成空间相机的飞行。

我的系列的预告片

有了 OpenAI 的 GPT-2 ，我们可以写完整个故事。

但是如果我们把所有的方法结合到一件艺术品上呢？所以我就这样做了，用人工智能制作了一部短片。

…但是在你看它之前:你有一个想法吗，你需要什么来创作一部电影？

你当然可以为了艺术质量而放弃一些元素，但是通常，你需要以下要素来制作一部电影(即使是一部短片):

剧情
摄像机/视觉效果
演员们
音乐

你还需要一个原创的想法和(在大多数情况下)尚未使用的媒体资源。

那么，我们如何应用机器学习方法来满足所有这些要点呢？

剧情

如前所述， GPT-2 是一个强大的 NLP 模型(在 40 GB 文本上预先训练，有 15 亿个参数)来生成文字。它的主要缺陷——也是主要优势——是创作内容的超现实特征。它们通常没有意义(至少对于知识转移需求来说——在文学语境中它们可以是一个像样的解释对象)。并且:每次都会生成一个新的唯一文本。

让我们看看 GPT-3 未来会走哪条路( OpenAI 公布了这个拥有 1750 亿个参数的新巨型模型，由于其尺寸过大，目前无法进行微调)。

出于需要，我使用了一台由 Manuel Romero 设计的带有 Java 界面的 GPT-2 笔记本:

[## 谷歌联合实验室

编辑描述

colab.research.google.com](https://colab.research.google.com/github/mrm8488/shared_colab_notebooks/blob/master/GPT2_with_JS_UI.ipynb)

有几种不同的笔记本，允许你微调 GPT-2 或在你的文本上进行训练，但我选择了这种特殊的 Colab 笔记本，因为它的用户友好和坚固的结构，以及对整个 15 亿参数模型的支持。

对于我的电影，我输入了以下提示:

**Empty room.****A man enters the room.****He looks out of the window and says: "It still hasn't begun".****The woman enters. She has a white dress on and a book in her hand.****The woman: "I am waiting as well."****The man: "For how long?"****The woman: "For a while."**

GPT 2 为我提供了各种文本，但我选择的是一部荒诞戏剧的惊人之作，介于贝克特、姆罗泽克和大卫·林奇之间:

Empty room.A man enters the room.He looks out of the window and says: "It still hasn't begun".The woman enters. She has a white dress on and a book in her hand.The woman: "I am waiting as well."The man: "For how long?"The woman: "For a while."The man: "Ah, you know, I'm a very patient man."The woman: "I know, of course."The man: "I'm going to have to be less patient, then." The woman starts to laugh; the laughter has an ominous edge that only she can feel."In my defence," she says, "I never actually told you what it was I was going to tell you."The man, suddenly, remembers: "That's right."The woman: "So you are lying behind me." The man is surprised by the abruptness of the accusation. He does not, however, feel any anger; as he has noticed in previous encounters, it is the woman who is most convincing when she's saying the lies.The man: "But it was not what you expected."The woman: "Oh…no." She is trying to sound convincing.He wants to ask her about her mother. The woman: "Do you think she'll be willing to lie?"The man turns down the opportunity.The woman: "Maybe…""Why?""Maybe she's still grieving." She is smiling when she says this, and the man doesn't think she'll be the first to smile when the truth comes out.He gives up. "No."The woman: "It's not over." The man has not got to see her family again. He had hoped to return to his work. He has nothing else to do. He wants to be a man.

它也说服了我，因为模糊的沟通水平。这就好像在所有那些稀疏的短语后面隐藏着一个巨大的故事(人脑在解释过程中确实产生了奇迹)。

所以我有了一个剧本。

画面

我是 StyleGAN2 的粉丝，但尤其是它在art breader中的实现(至少在“肖像”部分)。

你可以生成新的面孔，你可以制作过渡甚至动画(点击了解更多关于使用 Artbreeder 的信息)。所以我创建了一堆面孔的图像(看这里的资产)男人、女人，还有一些房间的图片。

这是一件棘手的事情，以配合故事的一部分(例如，在“笑的时刻”等)。)，但是经过各种试错，对我来说还是管用的。

以下是一些用于视觉效果的资源:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我用 ArtBreeder 创建的图像

当然，你可以使用一阶运动模型来制作动态脸部动画(使用你自己的安迪·席克斯技巧):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我为本文生成的一阶运动模型。

但是对于我的荒诞和极简风格，面部变形是最合适的。

演员们

脸已经做好了，但是还缺少一些东西:声音。

语音生成可能是最古老的机器学习方法之一。我最喜欢的是梅尔内特——一个品质令人难以置信的模特。只听样本(在专业演讲者或名人数据集上训练)。唉，MelNet 不能作为工作存储库或 Colab 笔记本使用。

我的第二选择是亚马逊波利。作为亚马逊 AWS AI/ML 服务的一部分，Polly 提供了各种语言的大量语音。缺点是:他们中的大多数都有相当的主持人魅力，并不总是适合虚构的内容。

我在人工智能生成的视频“预测”中使用了一种声音:

尽管如此，如果在一些对话中使用非情绪化的声音，并不真正令人信服。

然后我发现了复制品工作室。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在https://replicastudios.com/我的仪表盘截图

他们目前提供了一个小的集合，但声音有惊人的质量。他们中的一些可以更好地用于主持人的需要，但另一个已经承担戏剧力量。

我选择了这三种声音——迪卡代表旁白，卡洛斯代表 男人， 和奥黛丽代表女人。

你也可以尝试各种声音的情感特征，你甚至可以训练他们你的声音，但这三个对我的需求来说是完美的。

复制品工作室的使用非常简单。你按时间顺序排列短语，并给角色配上合适的声音:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在https://replicastudios.com/的仪表盘截图

可以为您的项目将声音导出为 mp3 文件。

音乐

今年，在 OpenAI 发布了 JukeBox 之后，人工智能生成的音乐达到了新的质量水平——这是一个包含 7k 首歌曲和音乐作品的图书馆，由各种音乐家和词曲作者预先训练的模型生成(也可在此处阅读)。

他们中的许多人都相当浮华(像这个噩梦般的 【莫扎特】ppiece)。但是很多都很漂亮。尤其是与人工智能生成的视觉效果相结合，它们在内心唤起了奇怪的感觉。

我在我的系列“呼吸 ZeroX”中使用它们:

对于我们的视频，电影的东西应该通过，所以我查找了汉斯·季默的音乐训练(并改变了一点速度):

开始！

剩下的是相当艰苦的工作——对于我的视频，我使用了 Premiere Pro 和大量的咖啡。可能最棘手的事情是在时间上拉伸视频，并使它们与剧情同步(ArtBreeder 的原始面部过渡长度在 8-30 秒之间)。

建议 :我用了“时间插值:光流”。它在现存的画面之间创造新的画面，使画面流畅。有时它会产生小故障——但如果是关于数字生成的电影，它们总是受欢迎的！

现在:在这里。

空房间。

我想知道哪些新的视听珍品将采用新的 ML 方法。敬请期待！

人工智能作为设计材料

原文：https://towardsdatascience.com/ai-as-design-material-2748d84bbb7b?source=collection_archive---------61-----------------------

看到设计在创造人工智能驱动的产品中的作用

德克·克内梅尔和乔纳森·福利特

铅笔和速写本、记号笔和白板、像素和代码——这些是我们通常会联想到的设计材料。它们是设计师用来探索并最终实现他们需要解决的问题的解决方案的元素。无论是模拟还是数字，传统还是现代，它们在设计中的形式和作用都是显而易见的。不太明显的是，人工智能，更具体地说，机器学习，也是一种设计材料。虽然我们看到了人工智能对影响设计师的各种数字产品的影响，从常见设计工具的日益强大，如 Adobe Creative Cloud 到混合现实等新兴平台，但人工智能本身通常被认为是软件工程师的材料。此外，机器学习的最新发展仍处于新能力和新发明的发现阶段。我们离标准化的库和插件还有很长的路要走，这些库和插件可以被设计师以类似于今天的字体、照片和图标的方式应用。

乔什·克拉克是 Big Medium 的创始人和负责人，Big Medium 是一家纽约设计工作室，专门研究人工智能、互联设备和响应网站的未来友好界面。克拉克在世界各地发表演讲，阐述他的观点，即设计师应该将人工智能视为他们最新的设计材料。一般来说，人工智能，特别是机器学习，为设计师提供了一系列引人注目的功能和机会，以重要的方式创新和改善他们的设计体验。虽然 Clark 关于人工智能是一种新的设计材料的论点令人信服，但他关于人工智能现在是一种可用的设计材料的想法是一种反直觉的说法——这使得它变得更加有趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 01:铅笔和素描本、记号笔和白板、像素和代码——这些是我们通常会联想到的设计材料。[图片:由凯莉·西克玛在 Unsplash 上拍摄]

“所有设计师都使用某种材料。“HTML 和 CSS 是设计材料，……数据及其可视化是设计材料，”克拉克说。“和所有这些东西一样，每种材料都有一定的优点和缺点。就像我认为机械师或木工正在处理物理材料，并学习它能做什么，它的边界是什么一样，我认为思考机器学习的同样事情是有用的。”

机器学习作为一种新的设计材料的比喻很聪明。这有助于揭开人工智能的神秘面纱，也有助于将它框定为我们一般使用范围内的东西。这不仅仅是大公司和魔法工程师精心制作的节目的一部分。它实际上可以影响许多不同的体验。设计师的核心专长是，或者至少应该是，为用户体验的利益而创造，因此他们有非凡的潜力去了解机器学习技术，理解它们的使用环境，并领导产品、服务和体验的创造，以有意义的方式让我们的生活变得更好。不仅仅是将我们与技术联系起来，设计师现在还可以塑造让我们生活更美好的技术。这是一个令人兴奋的机会。

“对于许多设计师来说，他们一直认为机器学习和人工智能是数据科学家或算法工程师的领域，甚至可能没有设计师的角色，”克拉克说。“随着我越来越多地使用由机器学习驱动的产品，我越来越清楚地认识到，设计师有着巨大的作用，这在很大程度上是一种设计材料，我们迫切需要在设计上给予一些关注。”

设计师使用人工智能的五种方式

克拉克详细介绍了设计师在软件产品中使用人工智能的五种方式——推荐、预测、分类、聚类和生成。“人工智能已经准备好用于日常产品，有时是以小的方式，”克拉克说。“我认为，随着机器学习变得越来越普遍，正如我们已经开始看到的那样，随着越来越多的设计师和开发人员意识到这是一个你可以在工具包中拥有的工具，在界面中加入一点机器学习和一点智能就像在网页中加入一点 JavaScript 和一点互动一样常见。”

克拉克的观点不仅有助于进一步揭开人工智能用法的神秘面纱，而且实际上也有助于将它置于情境之中。就这一点而言，设计师可以利用人工智能的前三种方式——推荐、预测和分类——在早期的网站和软件设计中一直是考虑因素。人工智能增强了这些功能，但这些并不是新的方法，而是这些功能现在运行方式的一次重要演变。过去的设计者创建文字和静态的表单，现在他们可以提供动态的交互，如果应用得当，可以大大改善用户体验。Clark 提供了一些人工智能在当今产品推荐、预测和分类中的应用示例:

预测

“预测是基于历史数据:‘接下来最有可能发生的事情是这样的’。…在谷歌的 Gmail 功能中，它会提示下一个单词或短语，你可以在应用程序中加入这一点点智能，让它变得更好。”

分类

“(人工智能的)第三个应用是分类，这实际上是你在教机器将一个事件、一个物体、一张照片或一个短语与某种分类、某种类别进行匹配，”克拉克说。“我们在日常产品中看到的一个例子是谷歌表单，谷歌调查工具，它让你通过输入问题并选择答案来建立调查。……几年前，谷歌加入了一点机器学习，这样当你键入问题时，它会默认它认为最有可能的答案分类。”

克拉克接下来描述了群集和生成的人工智能功能，这些功能有可能为新软件提供巨大的动力。

聚类

“有了聚类，你给机器一大堆信息，它就开始定义类别。克拉克说:“它能识别‘这是基线’、‘这是正常’和‘这是一大堆以有趣或相似的方式不同于正常的东西’”。“这方面的一个例子是一个名为深度病人的系统，它收集了成千上万的医疗记录，并对它们进行大量处理以找到模式。”深度病人能够比大多数人类医生早两年预测精神分裂症的发作。“你可以用[深度耐心]来引导人类的注意力，”克拉克说。但是，这并不意味着可以替代医生的判断。

“我认为关于这一点有趣的事情之一是，我们并不真正理解机器如何或为什么进行这种聚类。所以，在深度病人和精神分裂症的情况下，你可能会想，‘哦，这太好了。这将让我们对精神分裂症的工作原理有新的理解。但实际上没有。“深度患者处理所有的患者记录，但我们实际上并不知道它是如何得出这个结果的。”“甚至创造这个系统的人也不理解它，”克拉克说。所以，这是个棘手的问题。“我们有信息，但我们不知道它是如何得到的。

“我认识几个策展人，他们通过这样的系统管理他们博物馆或研究所的艺术收藏品，并让机器开始对它们进行聚类和分组，”克拉克说，“机器以不同于人类策展人的方式做这件事。它们不符合我们更传统地看待艺术的正式艺术流派或时期，但它们仍然以有趣的方式分组。在费城的巴恩斯基金会，当他们通过图像识别搜索运行他们的收藏，并开始寻找，例如，映射到天使概念的艺术品。它发现了肯定不是天使的东西，包括雕塑和花瓶以及类似的一些奇怪的东西，但也有不完全是天使的东西。”

“你可能会想，‘嗯，那不是很有用’。……但是，策展人实际上把它看作是一种富有成效的摩擦，这些机器很奇怪，它们以不同的方式看待世界。他们不会像我们人类那样对事物进行分类。但是，这也让我们以新的方式看待这个世界，否则我们将无法看到，”克拉克说。生产摩擦是一个有用的术语:人工智能可以从一个新颖的角度处理问题，尽管一些结果可能没有用，但也可能有巧妙和意想不到的发现。

一代

机器也可以开始代表我们生成内容。例如，移动照片编辑应用 FaceApp 可以拍摄你的照片，并使用神经网络，以非常真实和令人信服的方式让你看起来老了几十年。“这是一代人的一个例子，”克拉克说，“无论是创造艺术、写作句子还是创造可视化——这种想法是机器可以开始进行某种创造。作为一名设计师，这是我感兴趣的事情。实际上，我已经看到机器接管了我工作中一些更机械的面向生产的方面。”人工智能支持的设计生成的一个例子可以在 Uizard 中找到，这是一个应用程序，使设计师能够拍摄他们的草图，然后用 HTML 生成完整的设计，将熟悉的线框符号映射到完整的设计模式。

聚类和生成开始感觉更像实际的智能，人工智能不仅仅是以方便的方式改进我们熟悉的东西，而是提供了一个超出设计师之前想象的额外处理层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 02:一个生成式人工智能工具可以将人们熟悉的线框符号映射成完整的设计模式。
[图片:由光晕上的 ]

模式检测和人机协作

机器学习最擅长的也许是检测模式。在这种背景下，克拉克提出四种功能成为可能——提出更好的问题并获得更好的答案，提出完全不同类型的问题，访问新类型的数据，以及浮现不可见的模式。

有了人工智能，我们可以更好地回答问题，并以更有效和更明智的方式来做。例如，人工智能可以围绕概念创建语义向量，而不是对搜索短语进行强力匹配。此外，人工智能可以让我们提出全新的问题。“我们现在能够搜索情感，而不是仅仅搜索文本或概念，”克拉克说。“例如，想象一下呼叫中心的某个人。现在，你不用按时间顺序接收邮件了……实际上，你可以查找紧急邮件，邮件中的措辞是紧急、愤怒或不安。在这个例子中，人工智能理解和分类内容的能力使运营商能够控制他们的日常工作负载，主动引导各种类别的传入流量和工作流。

因为机器现在能够理解人们相互交流的所有混乱方式——我们在拍什么照片，我们的讲话是什么，我们的笔迹是什么——人工智能使我们能够访问新类型的数据。“所有这些过去对机器完全不透明的东西现在都是机器可读和可理解的，”克拉克说。“这意味着我们可以从中挖掘数据和洞察力，但也意味着我们可以将这些新的数据源用作交互平台。”

人工智能使我们能够显现不可见的图案。“机器能够看到我们根本看不到的东西，部分原因是它们能够浏览和理解如此大量的数据，并找到否则会丢失的模式……而我们却无法发现自己，”克拉克说。“事实证明，在许多情况下，机器在一些我们作为人类最关心的事情上实际上非常糟糕，”克拉克说。“但他们擅长做我们通常不喜欢做的事情，那些重复的、容易出错的或无趣的任务。他们很擅长发现我们没有发现的模式。因此，我认为设计工作的一部分是找出用户旅程中的一个点，在那里机器实际上是有帮助的，并显示出我们不会发现的洞察力。”

克拉克描述了这种人机协作如何才能理想地工作。“我与一家医疗保健公司合作，试图找出如何使用机器学习来帮助放射科医生更好地完成工作。放射科医生通过图像和 x 光来识别我们身体中的问题——肿块或其他问题。而且，他们的大部分工作实际上都是在寻找不存在问题的东西，”克拉克说。“这是一个巨大的工作量，一张接一张地查看图像，直到他们有了真正需要他们专业知识的东西。例如，机器学习可以做的事情之一是分类，显然具有非常高的灵敏度。我们不希望有任何错误的否定，机器会传递一些重要的信息。“这个想法是，机器可以做一遍，把有趣的案例带给人类——不是做人类的工作，而是让人类做他们最擅长的事情。”这对设计师来说是真正的机会，不仅仅是自动化，而是推断由于这些新的机会而可能发生的事情，甚至是重新想象整个系统的更大方面

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 03:人工智能可以对大量的图像和 x 光进行分类，并显示出最有趣的病例。
【图片:由国立癌症研究所在 Unsplash

风险与机遇

克拉克非常关注数据，这是推动大量机器学习的原材料。“我认为我们必须意识到，不仅仅是我们如何使用数据，而且作为设计师，我们如何教育人们更明智地使用数据，理解它是如何被使用的以及为了什么目的，”克拉克说。“我认为，对于我们如何使用数据，我们有责任做到真正透明。我并不是说我们应该在使用条款中规定，你必须阅读成千上万的信息才能使用一项服务。”

克拉克说:“很多时候，人们和公司会说，‘嗯，你知道，如果我们告诉人们我们在用他们的数据做什么，他们就不会想使用我们的服务。’我认为这应该是一个巨大的危险信号，如果你这么说，那么你可能不应该做那件事。"

“在过去的几年里，你已经看到事情会如何出错，偏见会如何以令人不快的方式蔓延到系统中，这些系统会如何被外国政府以玩世不恭的方式用来操纵公司的民主，利用那些认为自己是客户但实际上是公司服务的人，而实际上他们是在为公司服务。”

“尽管机器学习的力量和前景都很强大，但它的风险在于，它将迅速加剧不平等并扩大差距，因为使用这项技术的人将能够从中获得最大的……好处。然后就进入了这种非常恶性和令人担忧的循环，”克拉克说。

“我选择乐观。我看到这些都是强有力的工具，可以用来做好事，也可以用来做坏事。我认为这就是为什么我们需要设计师和真正关心人类体验的人参与到这些事情中来的原因，这样他们就不会只是为更愤世嫉俗的势力服务。我认为，这是一个我们所有人都必须选择乐观并倾向于这一点的时候，并对事情可能会如何出错带来适当的怀疑和意识，但也给这些真正强大和令人兴奋的新工具带来一种可能性。”

Creative Next 是一个播客，探索人工智能驱动的自动化对创意工作者，如作家、研究人员、艺术家、设计师、工程师和企业家的生活的影响。本文伴随 第三季第二集— AI 作为设计素材 。

AI = “自动灵感”

原文：https://towardsdatascience.com/ai-automated-inspiration-75bff7b9481b?source=collection_archive---------8-----------------------

历史(和未来)的简短游览！)的数据科学

(改编自我的 原福布斯 AI 文章 )。)

下面是文章的音频版本，由作者为你朗读。

在 19 世纪，医生可能会为情绪波动开出水银处方，为哮喘开出砷处方。他们可能不会想到在你手术前洗手。当然，他们不是想杀你——他们只是不知道该怎么做。

这些早期的医生在他们的笔记本上潦草地记下了有价值的数据，但是他们每个人在一个巨大的拼图游戏中只拿了一块。如果没有共享和分析信息的现代工具，以及理解这些数据的科学，就无法阻止迷信取代通过可观察事实的钥匙孔看到的东西。

自那以后，人类在技术方面取得了很大进步，但今天机器学习( ML )和人工智能( AI )的繁荣并没有真正与过去决裂。这是人类理解周围世界的基本本能的延续，这样我们才能做出更明智的决定。我们只是拥有比以往任何时候都好得多的技术。

今天人工智能的繁荣并没有真正与过去决裂。我们只是拥有比以往任何时候都好得多的技术。

一种看待这种模式的方式是把它看作是数据集的革命，而不是数据点。这种差异并不小。数据集帮助塑造了现代世界。

书写的发明

想想苏美尔(今天的伊拉克)的抄写员，他们在 5000 多年前就把手写笔压在泥板上。当他们这样做时，他们不仅发明了第一个书写系统，而且发明了第一个数据存储和共享技术。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界上第一个数据存储和共享技术的例子，泥板。你不能在上面存放太多的数据，而且检索是一件痛苦的事情(你必须全力以赴)。

如果你被 AI 超越人类的能力的承诺所鼓舞，考虑一下文具给了我们超人的记忆。虽然今天很容易把写作视为理所当然，但可靠地存储数据集的能力代表着通往更高智能的道路上开创性的第一步。

如果你被人工智能超越人类能力的承诺所鼓舞，那就认为文具给了我们超人的记忆力。

不幸的是，从泥板及其电子前的同类中检索信息是一件痛苦的事。你不能对着一本书打响指来得到它的字数。相反，你必须将每个单词上传到你的大脑中进行处理。这使得早期的数据分析很费时，所以最初的尝试只停留在本质上。虽然一个王国可能会分析它通过税收筹集了多少黄金，但只有勇敢的灵魂才会在医药等应用上尝试同样的努力推理，因为几千年的传统鼓励即兴发挥。

分析的兴起

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

约翰·斯诺绘制的地图显示了 1854 年伦敦大流行中的霍乱病例。

幸运的是，我们的物种产生了一些不可思议的先驱。例如，约翰·斯诺绘制的 1858 年伦敦霍乱爆发期间的死亡地图启发了医学界重新考虑疾病是由瘴气(有毒空气)引起的迷信，并开始仔细研究饮用水。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分析师弗洛伦斯·南丁格尔(1820-1910)

如果你知道《拿着灯的女士》(The Lady With The Lamp)，弗洛伦斯·南丁格尔(Florence Nightingale)因其作为护士的英雄般的同情心而出名，你可能会惊讶地发现，她也是分析学的先驱。她在克里米亚战争期间发明的信息图表拯救了许多人的生命，她将糟糕的卫生状况确定为医院死亡的主要原因，并激励她的政府认真对待卫生问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

弗洛伦斯·南丁格尔发明的极区图，显示了死于可预防疾病的人数(蓝色)，死于创伤的人数(红色)，以及死于其他原因的人数(黑色)。

随着信息的价值开始在越来越多的领域得到体现，导致了计算机的发明，单数据集时代开始了。不，不是你今天习惯的电子伙伴。“计算机”最初是一种人类职业，其从业者手动执行计算和处理数据以提取其价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所有这些人都是电脑！摄于 20 世纪 50 年代的超音速压力风洞工作人员的照片。

数据的美妙之处在于，它能让你形成一个比凭空想象更好的观点。通过浏览信息，你会受到启发，跟随弗洛伦斯·南丁格尔和约翰·斯诺的脚步，提出新的问题。这就是分析的全部内容:通过探索激发模型和假设。

分析的缺点

不幸的是，没有第二个数据集，你无法知道你的这个数据启发的观点是不是胡说八道。除了你看到的特定数据点之外，它在一般情况下是否有效？你没有合法的途径知道。欢迎来到 20 世纪的分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Paul J 为我的文章创作的关于数据驱动决策中的确认偏差的插图。

你不能相信你的发现，因为你的无意识偏见(如确认偏见)掌控着方向盘——你会立即看到最方便看到的东西，而你会错过所有其他的东西。你可能认为你看到了所有能看到的东西，但实际上你只看到了皮毛。我们人类的注意力广度和记忆力比我们想象的要小，所以探索性数据集对我们来说通常是一种狒狒陷阱。

分析是关于灵感和探索的，但是那些超越所探索的数据的观点不能被认真对待。

为了检验你对数据之外的世界如何运作的看法，你不能使用最初激发你这种看法的数据。我们的物种在薯片中发现了猫王的脸。虽然这个芯片可能看起来像猫王，但我们不能用它来断定大多数芯片都像猫王。为了了解我们的观点是否会被严肃对待，我们必须在我们从未见过的新芯片上测试它们。

从数据集到数据分割

20 世纪初，在不确定性下做出更好决策的愿望导致了一个平行职业的诞生:统计学。统计学家帮助你测试，如果一种现象也适用于你当前的数据集之外，这种行为是否明智。

统计的严谨性要求你在出手之前先发号施令；分析更多的是一种高级后见之明的游戏。

一个著名的例子与世界上第一本统计学教科书有关。它的作者描述了一项假设测试，以回应他朋友的说法，即她可以品尝出牛奶是在水之前还是之后加入茶中的。他希望证明她是错的，但数据迫使他得出结论，她可以。

阿喀琉斯之踵

分析和统计有一个主要的致命弱点:如果你使用相同的数据点进行假设生成和假设检验，你就是在作弊。(看了这个就明白为什么了。)如果你选择用你的数据来获得严谨而不是灵感，你就得从别处获得灵感。经典的来源是苦苦思索。换句话说，你坐在一个扫帚间里沉思，仔细地构建你的统计问题，阐明你所有的假设，然后你有一次机会来测试你的世界心理模型是否真的站得住脚。

不幸的是，要用数学的方式详细说明你的全部直觉并对其进行测试，需要付出大量的努力和训练。你需要集中精神。但至少现在你有了一个合法的方法来检查你的印象是否值得采取行动。欢迎来到 20 世纪后期的统计数据。

数据集革命

统计学的严谨性要求你在采取行动之前先发号施令；分析更像是一场高级后见之明的游戏。这些学科几乎是悲喜剧般的不兼容，直到下一次重大革命——数据分割——改变了一切。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据分割是一个简单的想法，但对于像我这样的数据科学家来说，这是最深刻的想法之一。如果你只有一个数据集，你必须在分析(不可测试的灵感)和统计(严谨的结论)之间做出选择。黑客？把你的数据集分成两部分，然后拥有你的蛋糕并吃掉它！

双数据集时代用两个不同品种的数据专家之间的协调团队合作取代了分析 - 统计紧张。分析师使用一个数据集来帮助你框定你的问题，然后统计学家使用另一个数据集给你带来严谨的答案。

将你的数据集一分为二，然后鱼与熊掌兼得！

这种奢侈伴随着一个沉重的价格标签:数量。如果你甚至难以为一个可观的数据集收集到足够的信息，那么拆分说起来容易做起来难。双数据集时代是一个相当新的发展，伴随着更好的处理硬件、更低的存储成本和通过互联网共享收集的信息的能力。

事实上，导致双数据集时代的技术创新迅速迎来了下一个阶段，一个自动化灵感的三数据集时代。有一个更熟悉的词来形容它:机器学习。

一次性命题的测试

有没有想过，当谈到严谨性和数据时，为什么统计学家往往倾向于焦虑不安？在你计划你的问题之前看一个数据集破坏了它作为统计严谨性来源的纯度。如果你问错了问题或者问得很愚蠢，你就没有机会再问先知第二次了。

即使你在考虑进行多重比较校正，也就是允许每个数据集有多个假设的统计咒语，只有你提前计划好所有的假设，你的程序才是有效的。你不能拿你的测试数据集玩 20 个问题，反复放大一个闪亮的结果，假装你已经洗手不干了。

测试仍然是一个一次性的提议——不允许你向一个解决方案反复爬行。

为了使这种严格的方法有效，你必须提前计划，如果有不止一个问题，使用一些充满歉意的数学方法，然后一次同时执行测试。您不能多次打开该测试数据集。

第三个数据集的奢华

既然你只有一次机会，你怎么知道哪一个来自分析的“洞察力”是最值得测试的呢？好吧，如果你有第三个数据集，你可以用它来激发你的灵感进行一次试驾。这个筛选过程被称为验证；这是让机器学习运转的核心。

验证是机器学习的核心——它允许你自动激发灵感。

一旦你可以自由地将所有东西扔向验证墙，看看有什么东西卡住了，你就可以放心地让每个人都尝试提出一个解决方案:经验丰富的分析师、实习生、茶叶，甚至是与你的业务问题无关的算法。无论哪种解决方案在验证中效果最好，都会成为合适的统计测试的候选方案。你刚刚授权自己自动激发灵感！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:来源。

AI =自动灵感

这就是为什么机器学习是数据集合的革命，而不仅仅是数据。这取决于是否有足够的数据进行三向分割。

人工智能( AI )在图片中的位置？使用深度神经网络的机器学习在技术上被称为深度学习，但它有另一个流传下来的昵称: AI 。虽然 AI 曾经有过不同的含义，但今天你很可能会发现它被用作深度学习的同义词。

深度神经网络凭借在许多复杂任务上超越不太复杂的 ML 算法而赢得了他们的大肆宣传。但是它们需要更多的数据来训练它们，并且处理要求超过了典型的笔记本电脑。这也是为什么现代 AI 的崛起是浮云故事；云允许你租用别人的数据中心，而不是致力于建立你的深度学习平台，使人工智能成为一个先试后买的命题。

现代人工智能的崛起是一个云的故事，因为云让人工智能成为一个先试后买的命题。

有了这个拼图，我们就有了完整的职业补充: ML/AI 、分析和统计。包含所有这些的总括术语叫做数据科学，让数据变得有用的学科。

灵感的未来

现代数据科学是我们三数据集时代的产物，但许多行业通常会产生过多的数据。那么，有四个数据集的情况吗？

好吧，如果你刚刚训练的模型得到一个低的验证分数，你的下一步行动是什么？如果你和大多数人一样，你会立刻要求知道为什么！不幸的是，没有可以询问的数据集。您可能想在您的验证数据集中进行调查，但是不幸的是，调试破坏了它有效筛选您的模型的能力。

通过对你的验证数据集进行分析，你可以有效地将三个数据集变成两个。你没有寻求帮助，而是不知不觉地回到了一个时代！

解决方案在你已经使用的三个数据集之外。要解锁更智能的训练迭代和超参数调整，您需要加入前沿:四个数据集的时代。

尖端是四路数据拆分到燃油加速。

如果你认为其他三个数据集给了你灵感、迭代和严格的测试，那么第四个数据集促进了加速，通过先进的分析技术缩短了你的人工智能开发周期，这些技术旨在提供关于每一轮尝试什么方法的线索。通过采用四路数据分割，您将处于利用数据丰富的最佳位置！欢迎来到未来。

感谢阅读！人工智能课程怎么样？

如果你在这里玩得开心，并且你正在寻找一个为初学者和专家设计的有趣的应用人工智能课程，这里有一个我为你制作的娱乐课程:

在这里欣赏整个课程播放列表:【bit.ly/machinefriend

与凯西·科兹尔科夫联系

让我们做朋友吧！你可以在 Twitter 、 YouTube 和 LinkedIn 上找到我。有兴趣让我在你的活动上发言吗？使用表格取得联系。

人工智能、自动化和音乐

原文：https://towardsdatascience.com/ai-automation-and-music-8b9871dec784?source=collection_archive---------51-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿德里安·科特在 Unsplash 上拍摄的照片

技术对新一代艺术家意味着什么？

下面提到的一切都是我的观点，而且仅仅是我的观点。不认同我或者看到我提到的东西不一样？留下回应，大家来说说吧！

音乐行业是尚未看到全面重组成为人工智能直接原因的领域之一。向流媒体的过渡导致了一场重大的重组——这场重组恰好有利于唱片公司和流媒体服务，而不是将消费者放在首位的艺术家。AI 和 ML 已经帮助流媒体服务提供音乐推荐和有针对性的广告，但这些技术尚未改变我们听/创作音乐的方式。这将会改变，而且很快就会改变。

人工智能 vs 机器学习:

我就不告诉你维恩图了。

人工智能和机器学习有很多的区别。鉴于机器学习是人工智能的一个子集，这两者之间也有许多相似之处。我们将从表面价值上理解和定义机器学习——机器学习并获得关于某个主题的洞察力的能力。至于人工智能，我们将把它定义为机器根据赋予它的某些规则和参数采取行动的能力。在现实世界的用例中，这两种技术经常交织在一起，但是在本文中(为了我自己的理智)，我们将把这两种技术视为独立的工具。

在机器学习的情况下:

我们都很熟悉我们的数据是如何被用来个性化几乎所有东西的，从广告到用户体验。虽然我们可能不知道这些算法如何确定什么是“适合我们”或者什么不是“适合我们”背后的技术细节，但我们知道正在使用的指标会不断与其他指标进行比较，以了解用户有哪些相似的模式/爱好。同样的想法也可以贯彻到艺术家和他们的音乐中。

当在音乐中使用机器学习时，我们可以复制我们如何解剖和研究音乐，无论是从抒情还是声音的角度，在规模上。这意味着“相似”的概念可以超越我们如何看待同一流派的两位艺术家是相似的。相似性的衡量很可能会超越流派和时间段，因为一个艺术家的一切都是另一个艺术家的背景——就像我的背景不仅决定了我看到的广告，也决定了你看到的广告。

然而，如果在错误的人手中，对艺术家身份的深刻理解可能会被用来人为地向出价最高者夸大数字。这反过来又成为一个新的音乐广告市场。支付最高报酬的唱片公司或实体被放在首位，而独立艺术家可能会被落在后面。

我们可以更深入地了解是什么让一个艺术家在音乐上与众不同，是什么让他们独一无二，等等。然而，如果使用不当，这些见解只会有利于那些买得起的人。

就人工智能而言:

我们是希望人工智能成为推动人类能力向前发展的工具，还是希望人工智能自动完成我们觉得没完没了和无聊的任务？在很多情况下，我们可以两者兼得——既有蛋糕，又能吃掉它。然而，在音乐领域，答案并不像我们希望的那样直截了当。

分层音频是一种数学尝试，旨在将歌曲的各个组成部分分开，就像它们是单独录制的一样。Deezer 的 Spleeter 是我迄今为止见过的做得最好的，我甚至正在为我的本科项目制作一个。像这样的工具可以彻底改变制作人从歌曲中取样的方式。就像你不想要的一些其他乐器旁边的一段歌曲中的鼓声一样？把它分离出来，用在你的歌里。就目前的能力而言，它可能并不完美，但它将帮助您起步。在音乐中使用人工智能应该与 VSTs 的工作方式没有什么不同——一个让创作过程更容易的插件。

需要注意的是，音乐的产生是非常真实的事情。将这一点与前 5 大公司的计算资源结合起来，我们现在已经将音乐行业转向为您提供数千小时的生成音乐，而几乎不需要您支付任何费用。现在，我知道你在想什么，谁会想听电脑制作的音乐？当音乐一代融入我们的音乐品味时，你和我都会这样，现在音乐正被不断地创造和调整到我们想要的程度。这离可能性不远了，而且会比我们想象的更快成为现实。解决办法很简单，积极支持人类艺术家。

我们可以建立工具来帮助改善艺术家创作和操作难以想象的歌曲的工作流程。然而，如果使用不当，这些工具可以自动艺术家的生计。

结论:

人工智能可以帮助迎来新一代的创意人员，或者完全取代他们。所有新技术和新兴技术的核心都是相似的；他们对我们运营方式的影响是我们影响他们运营方式的直接产物。

基于人工智能的模糊化(AIF)

原文：https://towardsdatascience.com/ai-based-fuzzing-aif-f09dda4d3804?source=collection_archive---------47-----------------------

模糊化是指使用计算机程序中的半有效输入来验证计算机程序中的行为异常、内存泄漏和其他漏洞的过程。

鉴于威胁的快速发展，更密切地关注人工智能和机器学习(ML)的安全影响已变得势在必行。安全专家开发了“AI-fuzzing”的概念，通过“fuzzing”来磨练 AI/ML。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AI fuzzing 是一种技术，它与机器学习一起帮助识别应用程序和系统中的漏洞。然后，这些信息可以被提供给网络罪犯并出售给他们，以开发一种新型的恶意软件。

给侠影增加人工智能对该公司来说可能是福也可能是祸。机器学习和人工智能现在被应用于这个问题的事实已经改变了这个问题的性质及其对商业系统安全的潜在影响。将人工智能作为一种工具，有望使这种工具更容易使用，更灵活。

AIF 可以以多种不同的方式工作，例如模糊化计算机程序，甚至作为一种分析方法。

除了模糊 AI，它还可以作为识别和利用零日错误的高效工具。AIF 恶意软件可以测试大量的输入，本质上是测试系统的弱点。该恶意软件可以访问多个有效负载，并可以根据系统中的特定漏洞激活最有效的有效负载。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有效的应用程序安全测试的关键是使用输入种子来建立代码路径并导致崩溃和 bug 发现。基于人工智能的工具可以识别潜在的攻击选项，并生成可能的测试用例。一旦一个测试用例提供了一条承诺的探索之路，新工具就会跟进并更深入地研究，看看应用程序一个领域中的问题是否会导致其他地方出现可利用的漏洞。

输入可以是预先确定的，或者可以是随机的或通过训练算法产生基于先前运行的相关变化而变异的。

这种动态的、非确定性的安全测试技术使开发者能够持续地、自动地检查不断发展的网络浏览器，包括供应链依赖性。通过消除人工智能施加的约束，使逻辑与查找故障保持一致，Azure Resource Manager 可以通过使用模糊实验室来增加所需的计算，从而创建一个实验室——一个满足客户需求的熔化环境。基于 azure 的方法使客户能够运行除微软自己的模糊化器之外的多个模糊化器，允许他们从几种不同的模糊化方法中获得价值。

微软利用模糊来寻找漏洞，提高自己产品的健壮性。2019 年，谷歌声称使用其内部模糊工具链自动发现了超过 20，000 个漏洞。 DoD DevSecOps 参考设计需要模糊测试，但它可以通过多种不同的方式完成，如使用模糊器、机器学习和人工智能。

消费者技术协会(Consumer Technology Association)最近发布的数据显示，2018 年部署的所有人工智能应用程序中，超过一半已被用于网络安全目的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着人工智能技术的不断发展，人工智能模糊化(AIF)可能会成为网络安全的一个主要威胁。这是一个不断发展的领域，应该受到信息安全部门的重视。

可以训练安全设备和系统自动执行特定任务，例如基本行为、使用行为分析来识别复杂威胁或修补设备。通过有针对性的机器学习，网络犯罪分子可以训练设备或系统不对特定设备应用补丁或更新，忽略某些类型的应用程序行为，或记录某些流量以绕过检测。

最近宣布的微软风险检测(MSRD)服务只是模糊测试需要发展的一个例子。机器学习和人工智能并不新鲜，但图形处理器(GPU)及其通过在安全测试和其他应用中使用机器学习而使其成为主流的潜力才是新鲜的。

人工智能是一个赋予计算机思考和学习能力的领域，尽管这一概念自 20 世纪 50 年代就已存在，但由于芯片具有更高的计算能力，它正在复兴。人工智能市场预计每年增长近 37%，到 2025 年达到 1910 亿美元。事实上，微软在所谓的约束求解方面的获奖工作历时 10 年，并被用于生产微软的世界上第一个白盒模糊器。

引用来源

超越准确性的人工智能:透明性和可扩展性

原文：https://towardsdatascience.com/ai-beyond-accuracy-transparency-and-scalability-d44b9f70f7d8?source=collection_archive---------64-----------------------

好的人工智能不仅仅是准确的，它是透明的和可扩展的(因此是值得信赖的)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

乔伊特·查特吉的概念。卡通/明星和商务会议元素是来自 Pixabay/Pexels 的免费图片(无需注明出处)。请适当引用这篇中等文章。

我们都非常熟悉人工智能(AI)技术(尤其是深度学习)在全球范围内创造的大肆宣传——主要归因于一个目标，获得更高的准确性，并击败现有的基准。这在深度学习技术继续应用的几乎每个领域都非常突出，例如，尽管模型可以达到很高的准确度(在某些情况下，即使是垃圾数据也可能给你> 90%的准确度！)，它们受到透明性、可伸缩性和可解释性的关键问题的困扰。如果你的人工智能模型仅仅是精确的，但不具备其他任何一个特征，它有什么好的吗？

答案是，不，它在现实生活中没有任何好处(除非您只将它应用于 Iris flower 数据集)。这是大多数可以采用人工智能的企业不愿意这样做的唯一原因——人们不信任人工智能。那么，目前的人工智能方法在哪里缺乏，我们如何才能尽自己的一份力量来构建值得信赖的人工智能？

透明度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 Gerd Altmann 从 Pixabay 拍摄

人工智能模型，尤其是深度学习者，简直就是黑盒。向模型输入一些数据来训练它，它会自动学习数据中的模式，一旦你给它一些新的、看不见的(测试数据)，它就能够对你看不见的数据进行预测/分类(取决于你是否训练了一个回归/分类模型),准确率为 X%。现在，有趣的事实是，一旦你训练了一个神经网络模型几百个时期，在大多数情况下，它们将能够学习各种非线性复杂数据中的模式，并在你看不见的测试数据上给你很大的准确性。但你怎么知道你的人工智能模型在获得如此高的准确性方面做了什么？模型查看了数据中的哪些要素(参数)？哪些特性对获得 X%的准确率贡献最大？透明度的作用来了。

透明的人工智能将允许你判断你的人工智能模型为什么(以及如何)为你的数据做出决定(或不做出决定)。以及如何才能让我们的人工智能模型变得透明？这一领域正在进行一些令人兴奋的研究

利用简单易用的库来解释 AI (例如 https://github.com/slundberg/shapSHAP，莱姆 https://github.com/marcotcr/lime等等。).这些是一些出色的软件包，允许您识别数据集中有助于特定预测的要素！它们为你提供了可解释的特性总结，附加力图等。和直观的可视化，使黑盒决策变得理智。
*深度学习模型中的注意机制:*因此，想象你的数据集由一些复杂的图像/时间序列/文本等组成，你正在执行各种任务，以高精度预测黑盒神经网络之外的事物。但可悲的是，传统的神经网络模型(无论是卷积神经网络(CNN)，递归神经网络(RNNs)等。，甚至不同类型的这些模型，如长期短期记忆(LSTMs)都是黑箱。为了避免这个问题，注意力机制来了。

假设您的数据集中有 N 个要素，关注机制会为您提供要素对特定结果的重要性分数(权重)。虽然这种机制最初在神经机器翻译(NMT)中变得突出，但现在它扩展到了所有类型的数据(文本/音频/时间序列数字数据等)。).https://medium . com/@ dhartidhami/attention-model-797472 AC 819 a是解释在神经模型中如何计算注意力的资源。

3.*利用因果推理:*哦对！相关性计算起来很简单，但是它有必要给你完整的数据和模型吗？一个大大的不！相关性不一定意味着因果关系。如果你需要让你的人工智能模型可信，你需要确定你的特征内部的因果关系(什么特征导致了特定的结果)，以及你的数据集中的多个特征如何共享隐藏的关系(作为人类，我们无法判断，但因果推理可以帮助确定)。https://towards data science . com/inferencing-causality-in-time-series-data-b 8 b 75 Fe 52 c 46是推断时间序列数据因果关系的绝佳起点。

可扩展性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由皮克斯拜的 Gerd Altmann 提供

对，所以你的人工智能模型达到了 95%的准确率！令人兴奋的东西。它还以 1%的精度击败了最先进的基准，但比最先进的多花费了 15 天的额外计算资源和训练时间(在 GPU 上也是如此)。等等！以这种密集的计算资源为代价获得 1%的精度提升？我认为我们在这里走错了路。在复杂的工业系统和商业中，真的有很多人能接触到这样的计算能力/金钱/资源吗？大多数人不会。此外，以计算复杂度为代价获得 1%的精度提升没有太大意义。如果我们从我们的模型中获得了一些额外的好处，故事将会不同(这里的好处意味着可解释性和透明性)。

但可悲的是，人工智能的大肆宣传意味着击败最先进的技术，不幸的是，这在研究界一直很突出。如何改变这种情况，使您的模型具有可伸缩性？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 Pixabay 的图米苏的图片

做正确的事情，如果更简单的模型(例如随机森林)比复杂的深度学习者的高度复杂的堆叠模型工作得更好(没有给你提供额外的好处)，那么请不要在这种情况下使用深度学习模型。如果你真的想，只利用可以提供透明度的深度学习模型(如上所述，通过注意力机制，或通过利用结合传统 ML 学习者和深度学习者的混合方法)。
你的模型适应新数据吗，还是只对特定的数据段有好处？通过使你的人工智能模型通用化，尝试使它们可扩展，利用迁移学习技术，这可以促进从密切相关的领域学习，使你的人工智能模型在新的领域中工作良好。因此，迁移学习使你能够在新的数据集中做出预测，在某些情况下甚至不需要额外的训练数据！(少镜头学习是这种技术的一种变体，只需要少量带标签的训练数据样本)。下面是迁移学习的精彩介绍 https://medium . com/@ alexmoltzau/what-is-Transfer-Learning-6 ebb 03 be 77 ee。
*移除冗余特征:*是的，我们知道深度学习者不需要广泛的特征工程，但如果你有成千上万个特征(并且你清楚地知道其中只有 20 个对你拥有的数据有逻辑意义)，那么为什么不手动移除剩余的无用特征呢？或者利用一些特定的技术来识别该领域的关键特征(https://dzone . com/articles/feature-engineering-for-deep-learning是一个很好的资源)？

最后，

保持简单愚蠢！

不要急于在你的人工智能模型获得高精度后就直接应用于生产。前面已经概述过，在现实生活和业务中，很多时候，在您的个人电脑中使用数据 X 时工作的东西，在实践中可能会在行业中使用非常相似的数据 Y 时吸收性能。AI 不错，但并不总是最好的。我们需要通过超越准确性的思考使它变得更好。作为研究人员、工程师和数据科学家，我们的目标应该是建立透明、可解释和可扩展的人工智能模型。只有这样，我们才能利用人工智能造福社会，让我们周围的世界变得更美好。

精准+透明=值得信赖的 AI！

就是这样！希望这篇文章能让你意识到可解释人工智能在日常生活中的价值。

如果你愿意，你可以通过 LinkedIn 联系我:http://linkedin.com/in/joyjitchatterjee/

人工智能相机发晕，把裁判的光头误认为足球

原文：https://towardsdatascience.com/ai-camera-gets-dizzy-mistakes-refs-bald-head-for-soccer-ball-8bf6d81b3d9f?source=collection_archive---------53-----------------------

当人工智能出错时:从混淆面孔到错误逮捕

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

跟着球走。嗯…头？(来源:推特)

自从神奇宝贝在一次广播中诱发癫痫发作以来，电视还没有引起如此大的轰动。最近，观看因弗内斯喀里多尼亚蓟足球俱乐部直播的球迷也看到了令人眼花缭乱的展示，当时一个自动摄像系统不断将裁判的光头变成焦点，而不是足球。

AI 跟踪解决方案在喀里多尼亚体育场使用 Pixellot 相机系统和球跟踪人工智能来传输直播高清镜头，然后向季票持有者广播。根据这两个团队的网站，在“两次成功的测试活动之后”，这项技术已经准备好进入黄金时间了

但在最近一场对阵艾尔联队的比赛中，人工智能辅助摄像机一直将边裁的头误认为是比赛中的球。人工智能摄像机操作员完全错过了一个目标。

在这种情况下，问题是由于球的颜色和裁判的头部相似，而且摄像头的角度使其看起来好像巡边员在球场上的界限内，这也没有帮助。

相机 AI 在错误的时间被颜色和错误的地点弄糊涂了。这种情况还发生在哪里？

在摄像机能够辨别秃顶男人的圆顶和足球之间的区别，并确保这种技术的道德使用之前，也许我们应该暂停摄像机？

当人工智能出错时

今年早些时候，底特律警方利用一家珠宝商的安全摄像系统的面部识别技术，确定了谁偷了价值 3800 美元的商品。密歇根州立警察犯罪实验室处理了这段视频，这导致了罗伯特·威廉斯在他家前草坪上和他年幼的女儿玩耍时被立即逮捕。

没有不在场证明的要求，警察也没有问威廉姆斯是否有一顶红色的红衣主教帽，就像犯罪分子在监控录像中戴的那样。由于人工智能的高得分准确性，没有必要这样做。为什么不呢？正如我上个月所报道的，同行评议的研究现在表明，机器学习在诊断疾病方面比你的医生更准确。

但是在底特律盗窃案中使用的人工智能推理的问题是什么？监控录像里的人毕竟不是威廉姆斯。他是无辜的。

作为底特律人，威廉姆斯说他永远不会被抓到戴圣路易斯红雀队的帽子。
证据 B: Williams 有一份带有数字签名的不在场证明——一段他在下班回家的路上发布到 Instagram 上的视频，与入店行窃同时发生。
证据 C: 用于对比的 DMV 牌照数据库中 Williams 的图像看起来一点也不像嫌犯。除了两张照片都是黑人以外。

“你认为所有的黑人看起来都一样？”威廉姆斯在被警方审讯和拘留了 30 个小时后说道。

“我猜是电脑弄错了，”侦探回答道。

纽约时报引用的研究称，学术和政府研究表明，面部识别系统引入了偏见，错误识别有色人种的频率高于白人。此外，他们认为这是第一个已知的基于面部识别技术的错误而被错误逮捕的案例。

对威廉姆斯的指控已经撤销，并将从他的记录中删除。该案件的检察官也发表了道歉，但威廉姆斯的律师说这还不够。美国公民自由联盟已经对 DPD 提起诉讼，要求不再使用人工智能软件。

人工智能相机暂停

一些技术领导者似乎同意这一观点。今年夏天，这两家科技巨头在几天之内就宣布打算停止销售基于人工智能的面部识别技术。

6 月，微软总裁布拉德·史密斯表示，在联邦法律规范面部识别人工智能的使用之前，该公司不会向警察部门出售面部识别人工智能。史密斯认为，这些法律必须“以人权为基础”

同样，亚马逊宣布暂停其面部识别人工智能解决方案 Rekognition 一年，以允许国会参与此事。 IBM 表示，出于对隐私的担忧，他们将完全退出面部识别业务。IBM 首席执行官 Arvind Krishna 透露，该公司不会参与将该技术用于“大规模监控、种族定性、侵犯基本人权”或“歧视或种族不公正”的潜在用途。

在摄像机能够辨别秃顶男人的圆顶和足球(足球是给池塘另一边的人们看的)之间的区别，并确保这种技术的道德使用之前，也许我们应该暂停摄像机？

人工智能聊天机器人对虚假信息进行情感分析。

原文：https://towardsdatascience.com/ai-chatbot-for-sentiment-analysis-on-fake-messages-abf96382a92d?source=collection_archive---------73-----------------------

通过社交媒体传播的假新闻已经成为一个严重的问题。在本文中，我们将了解如何通过对转发的消息进行“事实检查”来进行情感分类，并将该解决方案作为聊天机器人集成到 Telegram 中。

我们将浏览我为这个解决方案构建的架构，并尝试解决社交媒体中转发消息的真实性和正确性。

这个语料库很小，而且是从 PIB 官方推特页面上经过核实的事实中提取的。

AI chatbot :顾名思义，它是一种通过文本或语音交互来模仿人类对话的 AI 软件程序。聊天机器人变得越来越突出的原因是因为它们可以全天候工作，节省时间和金钱，将企业与客户、员工、家庭自动化等联系起来。

限制范围，我们集中于情感分析，而不是对话机器人。我将解决这个问题，以检测短信是假的还是事实，而不是意图分类。

聊天机器人方法:选择方法是主动的(例如，对用户请求的建议)还是被动的(仅仅响应用户请求)。对于事实检查用例，我们采用反应式方法，因为我们只需要做出反应，告知消息是否是事实。

以下是架构:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们从模块开始，详细了解每一个模块:

设计模块:该模块控制对话流程，主要关注请求和响应，基于规则，也可用于意图分类。但是，我限制了流量，以解决消息的真实性。

通信模块:由于通信非常轻量级，所以我使用了无服务器架构。我们可以用谷歌云功能(或 AWS Lambda)来托管代码。API 可以通过 REST 调用，这简化了我们的过程。

初始化函数:将训练好的模型和标记器从云存储中复制到临时目录中。
更新功能:更新最新型号。这可以通过 REST API 调用，它将更新的模型从存储桶复制到临时目录。
Webhook:这个函数通过后端系统处理用户的请求和响应。它还记录用户请求并跟踪对话。
匹配功能:本模块的重要组成部分。它清理文本，使用经过训练的标记器和模型来预测消息是真是假。

部署模块:处理模型、数据集、模型训练和云基础设施管理的部署。使用官方 twitter API，我们从官方源页面获取新的 tweets，将数据提取到相关部分，并将数据集存储在 DB 中。为了 CI/CD，组件被集装箱化。我将在以后的文章中详细介绍这个模块。

NLU 街区:建筑的大脑

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

NLU 组件:图片版权@ Sudhir Kakumanu

简而言之，这个模块负责对转发的消息进行情感分析。执行流程如下:

数据集:我们获取数据集进行事实检查。这个数据集是从印度 PIB 的官方 twitter 句柄策划的。
文本处理:对数据集进行处理，即删除特殊字符、调整编码、词条分类、解构缩写、社交信息俚语等。
WordCloud 是从这段文字中准备出来的，并经过分析，看看是否有我们可以去除的异常值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

词云和频率分布

4.迁移学习:我们将使用在谷歌新闻数据集(约 1000 亿字)的一部分上训练的预训练向量。该模型包含 300 维向量，包含 300 万个单词和短语。

5.应用 PCA 并分析主成分，以检查数据集是否有任何协方差，简单来说，我们检查是否有任何公共因子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主成分分析

6.嵌入和矢量化器:从预训练的模型中提取嵌入，并对训练语料进行矢量化，得到嵌入矩阵。这个嵌入层充当我们的神经网络的初始层。这是一个 Word2Vec 表示，用于提取单词的语义信息。

LSTM &神经网络:为了捕捉文本序列化信息，我们将使用 LSTM(基于 RNN 的模型)来理解句子的上下文，即从先前的神经元记住的单词序列，并将其传递给未来以进一步分析数据。

自定义数据集的单词嵌入是在训练神经网络时学习的。

训练过程是这样的，用我们拥有的语料库的大小(单词*维度)创建一个空的嵌入矩阵。
获取谷歌新闻预训练嵌入中存在的词的向量/嵌入，未知词被零初始化。
现在，神经网络被训练，单词的嵌入或同现随着上下文更新(当添加 LSTM 时)。

模型摘要:

模型摘要

训练精度:

模型训练历史

使用下面的混淆矩阵可以达到 98%的准确度:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

演示视频:

对转发消息的模型的进一步测试:

训练消息 : 声明:Whatsapp 上正在流传一份所谓的 3 周 5 阶段“路线图”，据称是由政府制定的，旨在放松#COVID19India 限制。

Whatsapp 转发消息 : 放松新冠肺炎限制的政府路线图将进行为期 3 周的审核流程，当前阶段将于以下日期开始:第 1 阶段–5 月 18 日第 2 阶段–6 月 8 日第 3 阶段–6 月 29 日第 4 阶段–7 月 20 日第 5 阶段–8 月 10 日如果冠状病毒病例开始增加，我们将恢复到前一阶段设定的限制

训练信息 : 声明:一名#WhatsApp 转发者称，从周六开始，孟买将进行为期 10 天的军事封锁

Whatsapp 转发消息 : 从周六起整个孟买军事封锁 10 天，请储备所有物品，只有牛奶和药品可用

结论 :我们能够成功检测出一条用不同语法和短语编写的 Whatsapp 转发消息

感谢阅读，如果你喜欢这篇文章，请鼓掌。

页（page 的缩写）关于程序代码，请参考我的笔记本。

分类数据的聚类分析(上)

原文：https://towardsdatascience.com/ai-cluster-analysis-of-categorical-data-part-i-8e702ca6675b?source=collection_archive---------46-----------------------

CRL 元卡片组的聚类分析

使用 Clash Royale 原始数据提取最新的元卡片组

- *代码在 Clash Royale 介绍之后开始:如果您不感兴趣，请跳过

我的资料库里有完整的代码。笔记本名为:CRL_Clustering。

在本文中，我将创建一个人工智能，给定一个 Clash Royale 匹配的数据集，它将识别哪些是主要的聚类。所有数据都是分类的，因此我不会使用传统的因子分析技术，而是使用 K-Node 算法。

视频游戏中的元卡片组介绍

在解释我将要创建的人工智能背后的代码之前，我需要澄清什么是元甲板，以及它们如何与这个项目相关。专业的电子游戏玩家已经把对竞技电子游戏的研究变成了一门真正的学科。

在视频游戏中，你需要从一堆卡片中准备你的牌组，有大量的可能组合，从这个可能性的海洋中出现了一小批帮助玩家获得竞争优势的组合:所谓的元牌组。

我将创建一个人工智能，可以找到哪些是在名为皇家冲突的竞争游戏中使用的元甲板，从原始数据中提取它们。

皇家冲突，选择 8 张牌

在这个游戏中有 98 张卡(直到 2020 年 5 月，游戏每隔几个月增加一张卡)。每个玩家必须组成一副 8 张牌，与其他玩家对战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 8 张牌组成的一副牌的例子，从:【www.theclashify.com】T4 检索

有多少副牌？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简单组合的公式

可能的套牌数量是 **6345015248033280，**顶级玩家从这些组合中找出元套牌。元牌经常变化，所以职业玩家需要保持更新，继续研究游戏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

皇家竞技对决中著名的元牌示例，图片来自www.statsroyale.com

meta 套牌是怎么诞生的？

不幸的是，没有数学方法来确定哪些是最好的套牌。冠军拥有的唯一可能性是尝试他们中的许多人，看看哪一个比其他球员表现得更好。

从本质上讲，通过不断的迭代，元牌是那些允许顶级玩家持续获胜的牌，因此允许他们在竞争对手的等级中攀升至顶级。因此，这些特定的套牌在社区中数百万场比赛中幸存了下来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如你所看到的，在某件事情上变得优秀，即使是在电子游戏上，也需要很多努力、承诺和学习。

玩家如何知道哪些是元套牌？

最后，玩家社区(不仅仅是前 100 名)如何找出每个赛季的元套牌？由于使用了 Youtube、脸书小组和 www.statsroyale.com 等皇家冲突的统计网站，人们可以看到顶级玩家玩什么以及他们的胜率。然后，这些套牌被社区中的所有玩家复制和使用，无论是普通玩家还是专家，直到职业玩家级别。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

检索自:【https://clashroyale.fandom.com/wiki/2v2

使用聚类从原始数据中提取元数据组

现在让我们假设我们对这款电子游戏一无所知，也不知道这一季的主打牌是什么。我拥有近 700 场顶级球员的比赛(669 场)。

我的人工智能要做的是找出哪些牌组被玩得更一致，并隔离它们。

变异问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原始 meta-deck 的一个常见变体:X-Bow，从 www.statsroyale.com取回的图像

让我们记住，任何人都可以编辑他们的卡片组，所以玩家可以很容易地创建一个元卡片组的独特变体，我们不想在计算中考虑它，所以我们需要一个算法来找出哪些是原始卡片组，而不是变体。我们假设变奏曲会以较低的频率播放，而原始牌组会以最高的频率播放。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

变化的层次

在元牌的层级中，由于数百万玩家可能的变化和实验的频率，变化的程度可以达到数百个深度。

整个程序

使用 API 下载匹配数据集
预处理:对每一行进行个性化排序
预处理:整个数据集的标签编码
预处理:整个数据集的 one_hot 编码
执行聚类分析
训练 K 节点算法
调整聚类数以获得准确的结果
估计最高元牌组

在本文中，我将讨论第 3 步:对整个数据集进行标签编码。在教程的下一部分，我将完成人工智能。

1.匹配数据集

为了方便起见，我已经下载并准备了数据集，我们将使用它对分类数据进行聚类。如果您希望下载您自己的 Clash Royale 比赛数据集，请按照这个完整的指南来创建一个下载数据的 API。

X = pd.read_csv('/content/drive/My Drive/Colab Notebooks/CRL daily collector/CRL (1).csv')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

查看 CRL.csv

目前，数据集包含了太多的信息:我们需要去掉所有不包含关于球员 n. 2 的数据的列。原因是我下载了被选为玩家 n.1 的几个玩家的最近 25 场游戏。一个玩家通常玩一个原型，如果我们的整个数据集重复包含单个用户玩的牌组的比例太高，我们的数据集中元牌组的方差将会大大降低。

X = X[['p2.card_1', 'p2.card_2', 'p2.card_3', 'p2.card_4', 'p2.card_5', 'p2.card_6', 'p2.card_7', 'p2.card_8']]
X

我们将只查看玩家 n. 2 的牌组列表。

- *在我的例子中，我将数据与我的 Google Drive 连接。您应该根据存储您的的位置编辑第一行。csv 文件。

2.预处理:订购套牌

不幸的是，我们收集的数据非常混乱。每一行中的牌的顺序对应于一场比赛中打出的牌的顺序。玩家可以开始使用军队，但也可以开始使用法术。为了看得更清楚，我们需要按照特定的顺序将卡片分类。

- *特征的顺序不影响最终结果。然而，我相信这一步是必要的，以便清楚和全面地看到最终结果。

将每张卡转换成它的类型

在游戏中，基本上有四种类型的卡。它们被概念化，以允许人们创建适当的甲板。

获胜条件
部队
建筑物
拼写

因为我所拥有的数据集没有显示卡片的类型，所以我们需要创建一个能够将每张卡片转换为其相应类型的算法。

例子

这就是我所说的将每张卡映射到其类型的意思:使用下面的模拟列表:

['Zap', 'Knight', 'Giant', 'Earthquake', 'Musketeer', 'Ice Spirit', 'Skeletons']

…相应的类型将是:

['Spell', 'Troop', 'Troop', 'Win Condition', 'Spell', 'Troop',   'Troop', 'Troop']

转换算法

我创建了一个名为 CRL_Cards_Classification.csv 的. csv 文件，该文件将每个现有的卡与其对应的类型进行映射。

#https://docs.google.com/spreadsheets/d/1wIH69gfuCCoPRoWOIyUqQHMKkUfpb4GAxUbBYX8PwRc/edit#gid=1477229539
C = pd.read_csv('/content/drive/My Drive/Colab Notebooks/CRL daily collector/CRL_Cards_Classification.csv')cards_classifier = C.copy()
#getting rid of the first column, useless
cards_classifier.pop('Type_1')
cards_classifier = cards_classifier.values.transpose()
cards_classifierdef order_row(list1):
  #mapping input list made of cards with their type
  card_dictionary = dict(zip(cards_classifier[0],   cards_classifier[1]))
  card_dictionarylist_tot_classification = list()
  for m in list1:
    a = card_dictionary.get(m)
    list_tot_classification.append(a)
  list_tot_classification

个性化排序

对于数据集中的每一副牌，我希望所有的牌都按顺序排列:胜利条件，队伍，建筑，法术。

为此，我们将首先为每种类型分配一个升序值，这样我们就知道哪种类型最先出现:

class_dict = {'Win Condition': 0, 'Troop': 1, 'Building': 2, 'Spell': 3}
  list_tot_num = list()
  for m in list_tot_classification:
    a = class_dict.get(m)
    list_tot_num.append(a)ordered_list = [x for _,x in sorted(zip(list_tot_num, list1))]
  return ordered_list

例子

list1 = ['Arrows', 'Baby Dragon',  'Bomber', 'Golem',  'Lightning',  'Mega Minion',  'Mini P.E.K.K.A', 'Night Witch', 'Cannon']
ordered_list = order_row(list1)

会变成:

ordered_list
['Golem',  'Baby Dragon',  'Bomber',  'Mega Minion',  'Mini P.E.K.K.A',  'Night Witch',  'Cannon',  'Arrows',  'Lightning']

3.预处理:对整个数据集进行排序

#sort each row in the dataset based on type order
for c in range(len(X.values)):
X.values[c] = order_row(X.values[c])
X = pd.DataFrame(e.X.values)

- *如果我们想按字母顺序对列表进行排序，我们将使用下面的代码，而不是 order_now

X.values[c] = sorted(X.values[c])

3.预处理:标注整个数据集

现在，我们已经根据易于理解的层次结构对数据集进行了排序，我们可以开始对其进行预处理。我们现在将标记整个数据集，稍后您会明白为什么，这将比标记单个行更有问题。

通常，工程师使用 scikit-learn 工具来轻松标记分类数据。不幸的是，scikit-learn 和其他工具一次只允许标记一列。这是一个例子，说明为什么它可以代表一个问题:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到，在第一列 b = 1，在第二列 b = 0。原因是该算法将标签应用于每个单独的列，而不考虑其他列中的值。

正确的标签

为了获得准确的标注，我们需要将所有内容平铺到一列中，然后应用标注并重新构建初始数据集:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这将使用下面的代码来执行:

#flat everything in one list
one_row = list()
for k in e.X.values:
for n in k:
one_row.append(n)
one_row = pd.DataFrame(one_row)
one_row#labeled list
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(one_row[0])
one_row_labeled = le.transform(one_row[0])
one_row_labeled#rebuild the original dataset and convert it to DataFrame
import numpy
X_labeled = numpy.array_split(one_row_labeled, (len(one_row)/8))
X_labeled = pd.DataFrame(X_labeled)
X_labeled

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，我们已经成功地正确标记了我们的每个特征，我们可以执行 one_hot 编码来将我们的数据集输入到 AI 中。

在我的下一篇文章中，我将描述整个过程，但是，在我的知识库中的笔记本上，你已经可以找到第二部分了。

-> 转到第二部分

分类数据的聚类分析(第二部分)

原文：https://towardsdatascience.com/ai-cluster-analysis-of-categorical-data-part-ii-47f3a13601a2?source=collection_archive---------37-----------------------

CRL 元卡片组的聚类分析

使用 Clash Royale 原始数据提取最新的元卡片组

整个过程

我的仓库里有完整的代码。笔记本名为:CRL_Clustering。

使用 API 下载匹配数据集
预处理:对每一行进行个性化排序
预处理:整个数据集的标签编码
预处理:整个数据集的 one_hot 编码
执行聚类分析
训练 K 节点算法
调整聚类数以获得准确的结果
估计最高元牌组

到目前为止，第一部分涵盖了第三步:对整个数据集进行标签编码。在本教程的最后一部分，我将介绍接下来的五个步骤。

4.预处理:整个数据集的 one_hot 编码

在步骤 3 中，我们已经标记了数据集中的每个元素，获得了以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了将我们的数据集输入到 AI 中，我们需要使用 one_hot 编码。只有这样，模型才能处理分类数据。我们所有的列都是可互换的:这意味着我们将需要一大块 one_hot 变量。

如果我们必须对每一列都应用 one_hot 编码，我们将会得到每一列一个 one_hot 块:这就是我们现在想要的。对于 8 个现有要素，列之间的数据将被认为是独立的，标签将应用于各个列，而不是单个数据集:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从上图可以看出，如果我们必须对每一列应用 one_hot 编码，就会出现这种情况。在上面的例子中，b 在两列中，但它将被分解为 1_b 和 2_b，b 将被拆分为两个独立的变量。这意味着一张卡片。第一列中的巨人和第二列中的巨人将完全不同。因为事实并非如此(卡片组的顺序不应该影响元卡片组的选择)，所以当数据集中的相同变量位于不同的列中时，我们必须找到一种方法来避免它们的分离。

print(max(one_row_labeled+1), len(X_labeled))
95 664

我们的数据集总共有 94 张牌在任何可能的牌组中被玩家使用。这意味着每一行必须有 94 列，每一列代表一个虚拟变量。

#  one_hot of multiple columns at the same time
#create an empty dataset of equal lenght of max. label (94), but equal width of our X (664)
m = [[0 for x in range(max(one_row_labeled)+1)] for x in range(len(X_labeled))]

我首先创建了这个空数据集作为多维数组:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我现在将遍历 x 的每一行。每一行将包含 8 个不同的数字，我将找到相应的虚拟变量行并将其设置为 1。

#turn each corresponding label to 1
for row in range(len(X_labeled.values)):
for num in range(len(X_labeled.values[1])):
m[row][X_labeled.values[row][num]] = 1
m = pd.DataFrame(m)
m

在正确的位置添加了 1 之后，我将把列表转换成数据帧。这就是我们最终得到的结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们可以把它输入到模型中。

5.执行聚类分析

现在我们已经准备好了数据，我们需要确定最佳的集群数量:

#graph the number of clusters
from sklearn.cluster import KMeans
import matplotlib.pyplot as pltwcss = []
for i in range(1, 100):
km = KMeans(n_clusters = i, init = 'k-means++', max_iter = 300, n_init = 20, random_state = 0)
km.fit(m)
wcss.append(km.inertia_)plt.plot(range(1, 100), wcss)
plt.title('The Elbow Method')
plt.xlabel('No. of Clusters')
plt.ylabel('wcss')
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们正试图通过肘方法来评估最佳集群的数量。通常，我们会寻找图中曲线弯曲最厉害的地方。不幸的是，我们可以立即看到，没有明确的迹象表明有一定数量的集群(也许大约 20 个集群有一个可能的弯曲)。特别是在 K 模式中，由于特征的分类性质，很难估计最佳的聚类数目。我们需要通过多次迭代并比较结果来找到最佳的聚类数。

6.训练 K 节点算法

!pip install kmodes

- *因为我正在使用 Google Colab，所以我将使用上面的代码安装 kmodes 包，但是，根据您是在本地机器上还是远程运行您的算法，它可能会有所不同。

将每一行与其所属的聚类进行映射

现在让我们在数据集上运行一个使用 K-Mode 的实验。我需要指出对数据集进行分组的聚类数。本质上，输出是一个 664 个数字的数组。每个数字映射一行及其对应的分类。

#mapping each row to its correponding cluster
from kmodes.kmodes import KModes
test=KModes(n_clusters=20, init='Cao') #Huang in another possibil
cluster=test.fit_predict(m, categorical=list(m.columns))cluster
array([11,  0, 11,  4,  5,  3,  3, 11, 11,  9, 11, 11, 16,  5,  5,  0,  6,         1, 11,  3, 15,  0,  8,  1,  8,  0, 15,  5,  7, 15,  8, 17,  1, 15,         5,  2, 19, 13,  1,  9,  7, 16,  7,  1, 16,  3,  5,  1,  8,  7,  6,        16, 18,  7,  0,  3,  3,  3, 13, 19, 15, 11,  8,  4, 14,  4,  2, 14,         5,  7,  6,  1,  8,  1,  3,  8,  4,  3,  5, 19,  2,  1,  5,  0,  1,         6, 14,  8,  3,  4,  7,  4,  1, 14,  1,  5, 11, 18,  5,  1,  0,  2,        12,  3,  8,  9,  2,  4,  7,  7, 16, 11,  4, 11, 11,  1, 16,  6,  0,        16, 12,  0,  3,  7, 18,  1, 12,  0, 16, 18, 16,  3,  4,  7,  1,  1,         1,  2,  3, 19,  5, 11,  4, 16,  4,  0,  3, 12,  0, 12,  0, 12,  5,         2, 14, 11, 12, 15,  1, 11,  7,  2, 12,  0,  3,  3, 12,  7,  7, 18,         1, 16,  7, 17,  1, 12, 11, 14, 15,  3,  5,  0,  8, 14,  2,  2,  0,         4,  7, 16,  8, 11,  0,  6,  1,  5, 19,  7,  7, 16,  0,  2, 11,  4,         7,  5,  1,  8, 14,  0,  0, 19, 11,  7, 15,  5,  9,  2, 11,  7, 19,        14,  3, 11, 11,  1,  9,  5, 12, 12,  7, 12, 14, 14, 11,  0,  8,  3,         4, 11,  4,  5,  8, 15, 15, 14,  7,  4,  3,  6,  3,  5,  7,  4,  6,        15,  5, 13, 11,  4, 16,  7,  0, 14, 16,  7,  3,  9, 15,  0,  7,  0,         1,  8, 15,  5, 11,  3,  6,  4, 12, 15,  1,  2,  7,  1,  6,  1,  3,         8,  1,  0, 17,  5,  5, 14, 11,  3,  4,  2,  3,  7,  7, 11,  3,  0,         4,  1,  3,  7,  7,  4,  8,  3,  0,  3,  3,  9, 12,  3,  7,  7,  8,        12,  2,  3,  2, 19,  5,  7,  2, 14,  7,  2,  4,  1,  5, 19,  3,  2,        13,  5,  5,  3, 19,  4,  2, 15, 19,  1,  0, 12, 13,  8, 13,  0, 17,         7, 14,  3,  4,  0, 14, 12,  0,  1,  8, 12,  4,  3, 17, 15,  7,  4,         3, 14,  0, 12,  0,  9,  1, 14,  4, 12,  7,  4,  3,  2,  3, 15, 16,         2,  4,  0,  2, 15, 12,  7, 15,  2,  1,  1,  4,  0, 19,  6,  5, 11,        12,  8,  3, 16,  2,  3, 19,  0,  0,  1,  3, 17, 11, 10,  2, 15,  2,         0,  3,  7,  4, 17,  5,  5,  1,  8,  6,  6, 12,  5, 13, 19,  2,  6,         3,  3,  4,  3, 12, 17,  5, 15,  0, 19,  6,  0,  3,  2,  3,  0, 12,        11,  2, 14,  1,  1,  0,  7,  7, 12,  8,  4,  1, 12, 14, 17, 17,  8,         0,  2,  3,  2,  0, 16,  2,  6,  2,  0,  6,  3,  1,  0,  8,  3,  7,        11, 15,  0, 11, 11,  7,  2,  6,  5, 11,  4,  3,  5, 17, 15,  2,  0,        11, 11,  4,  3, 16, 19,  8, 15, 14,  0,  5, 13,  2,  0,  2, 14, 19,         8,  0,  1,  1, 14,  6, 15, 19, 19,  2,  0,  1,  1, 11,  5,  3,  3,         6,  8,  8,  1,  0, 19,  7,  2,  8,  4,  0, 12, 12, 12, 14,  4,  2,        16,  9,  0,  0,  4,  0,  2,  8,  4,  0,  2, 15,  4, 13, 15,  3,  0,         0,  4,  5,  6,  9,  0,  4, 14, 19,  1, 15, 15, 14,  2, 17,  4,  0,        15,  2, 12,  8, 14,  2,  1, 15,  2,  2,  2, 11, 12,  6,  0,  0, 12,         3, 17, 14, 11,  4,  0,  2,  4, 17,  0,  3,  5, 16,  0, 12,  0, 17,        17,  6,  4,  0, 16, 16,  0, 14,  3, 12, 11, 19,  6,  8,  2,  0,  4,         0,  7, 17,  1,  0, 15, 16, 13,  1,  7, 16,  0, 14,  6,  0,  0, 16,         5], dtype=uint16)

了解 20 个集群

现在，我们如何隔离集群并了解它们需要具备哪些特征？

test.cluster_centroids_
array([
[0, 0, 0, …, 0, 0, 0], 
[0, 1, 0, …, 0, 0, 0], 
[0, 0, 0, …, 0, 0, 0], 
…, 
[0, 0, 0, …, 0, 0, 0], 
[0, 0, 0, …, 0, 0, 1], 
[0, 0, 0, …, 0, 0, 1]
])

这 20 个 one_hot 数字列表描述了每个单个集群的特征。每一个都由 94 个元素组成，其中一些是 1，大多数是 0。如果对于每个列表，我们将把这 94 个二进制值转换成数字，然后把数字转换成卡片名称，我们将得到 20 副元牌。

将数字转换为卡片名称

目前，结果对我们来说是不可理解的。我们需要把它们翻译成我们能理解的语言。下面的算法采用 K 模式算法的输出，并将其转换为原始字符串:

#convert one_hot numbers to final decks
def archetypes(knode_list):
  archetypes_list = list()#for each 1 inside the one_hot cluster form return its number
  #not all clusters have the same lenght
  #store all number is arrays
  cc = list()
  for n_centroids in range(len(km.cluster_centroids_)):
    for k in range(len(km.cluster_centroids_[n_centroids])):
      if km.cluster_centroids_[n_centroids][k] == 1:
      cc.append(k)
  len(cc)#determines number of chunks per cluster
  n_chunks = list()
  for am in range(len(km.cluster_centroids_)):
    n_chunks.append((list(km.cluster_centroids_[am]).count(1)))
  n_chunks#creates the meta-decks
  from itertools import islice
  it = iter(cc)
  sliced =[list(islice(it, 0, i)) for i in n_chunks]
  slicedsliced_list = list()
  #convertion numbers to card names
  for o in sliced:
    sliced_list.append(order_row(list(le.inverse_transform(o))))#we only conserve the win conditions
  card_dictionary = dict(zip(cards_classifier[0],
  cards_classifier[1]))
  card_dictionary#an absurd way of making a copy of our dataset, .copy() does not work
  list_tot_classification = [x[:] for x in sliced_list] #un modo     assurdo per fare copia, altrimenti non funzionafor o1 in range(len(list_tot_classification)):
    for o2 in range(len(list_tot_classification[o1])):
      a = card_dictionary.get(list_tot_classification[o1][o2])
      list_tot_classification[o1][o2] = aonly_win_conditions = list()
  #only conserve lists with win conditions
  for o3 in range(len(list_tot_classification)):
    if 'Win Condition' in list_tot_classification[o3]:
    only_win_conditions.append(sliced_list[o3])#we store all the lists with a lenght of 8: full decks
  for _ in sorted(only_win_conditions):
    if len(_) == 8:
      archetypes_list.append(_)return archetypes_list

7.调整聚类数以获得准确的结果

现在，让我们尝试我们刚刚编写的算法的不同配置，并比较结果。我将运行总共 60 个集群，存储每次迭代的结果和元组数:

import numpy as np
from kmodes.kmodes import KModesarchetypes_len = list()
for clus in range (8, 60): ###FUNZIONA IN UN FOR CYCLE, MA NON IN UNA FUNZIONE
  km = KModes(n_clusters=clus, init='Cao', n_init=100, verbose=0)
  clusters = km.fit_predict(m)#one_hot results to archetypes sorted by win condition
  archetypes_list = archetypes(km.cluster_centroids_)
  archetypes_len.append(len(archetypes_list))
  for _ in archetypes_list:
    print(clus, _)
#25 is the optimal number of meta-decks

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有最小数量分类的初始输出的屏幕截图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有更多分类的输出屏幕截图

正如我们从上一张图中看到的，簇的数量越多，相似元牌的数量就越多。本质上，在某一点上，甲板变化也包括在计算中。

n 簇和 n 元牌

我现在已经将集群的数量存储在了 archetypes_len 中。我将创建一个包含集群范围的列表，这样我们就可以绘制出集群数量和元组数量之间的关系。

import seaborn as sns
archetypes_iteration = [x for x in range(8, 60)]
archetypes_iteration
sns.set(rc={‘figure.figsize’:(11.7,8.27)})
sns.scatterplot(archetypes_iteration, archetypes_len)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这如何转化为我们的元卡片组的层次结构？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

集群的正确数量是多少？

如果集群的数量太少，我们最终只有几个元甲板。它们将是正确的，可能是列表顶部的那些，但它们仅代表元组池中的一小部分。
如果集群的数量太大，我们不仅会列出顶层，还会列出它们的所有变体，最后会列出一个模糊了元层概念的层。

只有在数量合适的情况下，我们才能对当前赛季中使用最多的元套牌有一个概念。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一副元牌示例:从:www.reddit.com检索

8.估计顶级元牌

最后，在查看了数据之后，我选择了一些簇，这些簇显示了变化最小的顶层元素。我们可以得出结论，这些是第 11 季的元套牌，即当前的皇家冲突季:

#questo funziona
n_clusters = 25
km = KModes(n_clusters=n_clusters, init='Cao', n_init=100, verbose=0)
clusters = km.fit_predict(m)#one_hot results to archetypes sorted by win condition
archetypes_list = archetypes(km.cluster_centroids_)
for _ in archetypes_list:
  print(_)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输出

人工智能分散自治组织和零售业的未来

原文：https://towardsdatascience.com/ai-decentralized-autonomous-organizations-and-future-of-retail-5e0f096a5bc9?source=collection_archive---------30-----------------------

爱道如何帮助创造完全自主的商店和新的商业模式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

西蒙·贝克在 Unsplash 上的照片

由于最近的卫生危机，零售商店自动化的需求已经成为优先事项。事实上，如果零售商想要生存，调整他们的商业模式已经变得至关重要。在这种背景下，我从事了一个与 AI 去中心化自治组织(AI DAO)和零售店相关的项目。

商店可以独立吗？你能投资一个不需要人工的商店吗？用分布式人工智能能让一个店更智能吗？

在这篇文章中，我将解释为什么现有的零售商面临风险，必须紧急投资新的商业模式，解释 AI DAOs 的关键作用，以及零售商如何从中受益。

我们所知的零售店将会消失

由于一系列的封锁和来自在线竞争对手的不断上升的威胁，零售商别无选择，只能接受自动化。总的来说，我们的购物方式正在发生变化。

简而言之，零售业的未来是自动化、更小的商店、数字化体验和更灵活的劳动力。

一些零售商已经决定将他们的商店转变成仓库和配送站，为完全转移到网上的企业服务。其他人已经开始从事半自主商店的工作。

**就我所见，自动化的道路往往需要几个计算机视觉算法。**利用计算机视觉帮助零售商收集足够的数据，以更好地了解他们的客户。

**主要战略要点是尽可能打造最佳客户体验。**实现这一目标的唯一方法是收集尽可能多的客户数据，以及他们如何与所有产品互动。

自主店爱道

这种自动化可以更进一步: AI 去中心化自治组织。

A DAO 是一种去中心化的商业模式。它是由管理企业如何运作的智能合同组成的。“道的一切经营决策和财务行动都记录在一个公开的、不可更改的上”( 2 )。

一个 DAO 的每个参与者/投资者都可以就公司的运营方式投上一票。该区块链对所有投资者/代币持有者开放，便于与每个投资者分享所有信息。

一个人工智能 DAO 将是一个使用多个人工智能代理(群体智能)的 DAO。还有其他方法可以创建 AI DAO ( [3](http://Artificial Intelligence (AI) DAOs (decentralized autonomous organizations) - BigchainDB & IPDB Meetup #4 - April 05, 2017) )，但是我们决定专注于这一个。

根据 S. Ponomarev ， A. E .沃隆科夫的说法，“多智能体系统通信是一种技术，它为多个交互的智能体提供了一种相互通信以及与环境通信的方式。多智能体系统用于解决单个智能体难以解决的问题。多智能体通信技术可用于管理和组织计算雾，并作为一个全球性的分布式操作系统”( 4 )。

多智能体系统只是 M2M(机器对机器)通信的一种形式。换句话说，它是各种通信人工智能的松散生态系统。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种形式的 M2M 通信允许学习人工智能实际交换信息，并更快地解决复杂的问题。未来，自主店将与其他组织(供应商等)互动。)在全球 M2M 生态系统中使用人工智能代理。

机器对机器( M2M ) 是设备之间使用任何通信信道的直接通信，包括有线和无线。

对 AI DAOs 的这种需求也来自于 AI 只存在于筒仓中。当前的解决方案通常只能在特定的公司、基础设施或部门内运行。互操作性的缺乏严重限制了全自主商店的发展。

通过协调的人工智能代理，零售商可以外包大量的网络决策，包括治理、投票、安全等具体问题。

**想象一个由 AI 去中心化自治组织经营的商店。**世界各地的承包商可以负责 AI DAO 拥有的自主商店的维护/物流，并可以直接由 AI DAO 支付费用。

同样的爱道商店可以用钱自主地重新进货，雇佣它需要的服务(清洁、安全、物流等等)并自己支付。

此外，随着越来越多的人投资这家商店，所有的用户都将拥有发言权和投票权，这将影响到艾道的决策。

这样的商店将利用几个人工智能子领域(NLP，计算机视觉等)来适应客户的需求，跟踪支出和偏好。我相信这个实体是基于进化论的。艾道斯永远不会被看做“完了”。服务、产品和价格永远在变化。

除了大多数任务的自动化，决策过程将是非常独特的。这些决定可以使用智能合约来做出。

一个智能契约是一段计算程序，当满足某些条件时自动执行( 5 )。

根据 Joe Liebkind 的说法，AI DAO“通过智能合同可以自动跟踪库存，创建和支付账单，扫描收到的货物等”( 6 )。

通过增加人工智能，DAOs 将创造新的商业模式。很快，我希望看到越来越多的完全独立的企业，每个人都可以投资。或许零售商将不再把他们的顾客仅仅视为消费者，而是让他们拥有一部分自主商店。

我们可能会进入一个新时代，在这个时代，普通客户也可以很容易地成为投资者。这种新的商业模式将适用于许多其他组织。这可能包括分散的对冲基金、分散的公共事业提供商等。

自动化—是的，但是什么和如何自动化？

AI DAOs 必须基于几个 AI 子领域，以覆盖尽可能多的领域。以下是人工智能已经覆盖的一些领域:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能分散自治组织商业模式

通过利用生殖对抗网络(GANs)和 3D 打印，我们可以想象一家商店实时分析市场趋势，并决定制造市场上最流行的商品。自主商店将收集销售数据，并根据访问商店的普通顾客来确定给定产品是否合适。

这家自主商店还可以利用基于机器学习的算法进行动态定价。

我预测 GANs 和艾道斯结合会大量使用。事实上，一些行业可以从这种结合中受益。可以创建自主市场来销售 GANs 制造的商品。

最近，一个网络平台( 7 )设法让一个生成性的对抗性网络(甘)生成艺术。这幅画后来被卖掉了，收入被用来支付所使用的资源。

一个生成对抗网络 ( GAN )是 Ian Goodfellow 和他的同事在 2014 年设计的一类机器学习框架。( 8 )

我还预测有些自主店只会做互动屏。我们可以想象，当顾客走过时，或者根据网上发生的事情，交互式墙会动态地改变它们的内容。这将使新品牌能够进入“实体”商店。位于街道上的随机图腾屏幕将成为一个独立的商店。

问题

根据我的经验，围绕现有技术的有效性/安全性，以及它们能否从小商店扩大到大商店，仍存在大量问题。

一个主要的挑战是精确地看到需要多少次人类店员来解决问题。此外，客户隐私也是需要考虑的因素。可以收集哪些数据？我们如何在多个国家调整我们的数据策略？

另一个问题是缺乏数据。事实上，训练人工智能和开发机器学习算法需要获取大规模的数据，这是极其昂贵的。除了数据扩充，解决这个问题的一种方法是使用合成生成的数据。

合成数据是人工制造的信息，而不是由真实世界事件生成的**。**

平稳过渡

我相信自动驾驶商店的发展将遵循与自动驾驶汽车相同的道路。今天的挑战是将现有商店转变为半自主商店。

利益攸关方需要找到切实可行的解决方案来实现这一转变，并降低转换成本。再过几年，AI DAOs 可能是一个解决方案。

数据对零售商店的重要性

大多数主要零售商现在已经开始使用计算机视觉进行一些概念验证，以更好地了解他们的客户。他们面临的主要挑战是更好地了解新的购物习惯，同时降低与销售点相关的所有成本。

显然，随着网上购物的出现，风险是以许多不相关的实体销售点告终。**我们如何创造新的收入模式和客户体验？**我们如何结合线上和线下商店的最佳实践来提高顾客满意度。

AI DAOs 可以帮助你与客户建立新的关系。从简单的顾客到你“自己的”自主商店的投资者…

如果您希望了解更多关于这个主题的信息，我推荐以下链接:

人工智能又一次打败了人类

原文：https://towardsdatascience.com/ai-defeats-human-again-fe17ab9ed87c?source=collection_archive---------48-----------------------

情报的

这一次没有比赛，艾是远远优于

让我们沿着记忆的小路漫步，看看人工智能在面对人类对手的人类挑战中脱颖而出的时刻。

1997 年，世界目睹了国际象棋世界冠军加里·卡斯帕罗夫的失败。人工智能在棋盘游戏中的统治地位在 2015 年和 2016 年再次出现，DeepMind 的人工智能系统 alpha GO击败了职业围棋选手范辉和世界冠军围棋选手 Lee Sedol 。

人工智能对人类的统治不仅限于棋盘游戏，2011 年，IBM Watson，一个能够回答琐碎问题的计算机系统在一场危险游戏中击败了布拉德·鲁特和肯·詹宁斯。

我们可以在人工智能战胜人类的不断增长的清单上再增加一个日期。

2020 年 8 月 20 日，人工智能在模拟空战中击败人类 F-16 喷气式战斗机

DARPA alpha dog fight是一系列测试 AI 算法执行格斗机动、战斗和策略的能力的试验。

决赛于 2020 年 8 月 18 日至 20 日在八个团队之间举行，获胜团队 Heron Systems AI 与一名人类战斗机飞行员对决。

Banger(人类)vs Heron(AI)模拟缠斗。

DARPA 的 AlphaDogFight 的目的是找到开发人工智能系统的方法，可以将空战和机动的责任从人类飞行员转移到人工智能系统。不可避免地在飞行系统中建立对人工智能的信任。

人类飞行员被命名为“Banger ”, Herons 系统的人工智能被命名为“Heron”。Heron 和 Banger 之间的对峙发生在模拟环境中，两名飞行员都控制着一架 F-16 战斗机。

这最后的挑战旨在测试苍鹭的机动能力、战斗系统和对人类对手的决策能力。挑战持续了五轮，人工智能飞行员 Heron 以无可争议的方式击败了 Banger。

该赛事的评论员预测，邦格和海伦之间的对决将是“一场势均力敌的战斗”。

在所有回合之后，Heron 在所有五轮挑战中都取得了完美的胜利。

据解说员称，Heron 表现出超人的能力，能够非常准确地射击和瞄准，同时表现出高度动态的机动性。

“显示出超人的能力”

在一些回合中，Banger 改变了战术和策略，以便在与 Heron 的比赛中占据上风。在上一轮比赛中，Banger 的战术变化导致了一轮比赛，突出了 Heron 能力的一些限制。这一轮仍以海伦获胜而告终。

在所有五轮中，Heron 没有损失任何生命，这意味着 Banger 没有一发子弹击中 Heron 的战斗机。

把它带回地球

尽管 Heron 取得了压倒性的胜利，但人们注意到人工智能系统具有“完美的状态信息”，这意味着人工智能系统具有模拟环境的不间断的定量和视觉数据。

在现实世界中，拥有关于环境和其他变量的完整信息并不常见。

现实的不可预测性会影响军事力量如何从模拟环境中获取信息和看似“良好”的性能。

简单地说，我们不会很快在模拟之外看到任何驾驶 F-16 战斗机的人工智能系统。

战斗中的 F-16 喷气式战斗机

DARPA AlphaDogFight 试验的进步和经验教训将为未来的发展开创先例，这些发展可以带来更可靠的人工智能系统，可以在模拟环境之外与战斗机飞行员携手合作。

获胜队

决赛于 2020 年 8 月 18 日至 20 日举行，有八支队伍参加。在三天的时间里，团队的人工智能系统分别面对其他人工智能算法，然后在循环赛中相互面对。

最后一天，前四名的队伍在淘汰赛中对决，获胜的队伍面对人类对手。

参与最终 AlphaDogTrial 活动的团队:

苍鹭系统

Heron Systems AI agent 是一种基于深度强化学习的人工智能，它通过在模拟环境中不断训练，获得了超过 30 年飞行时间经验的专业知识。

Heron 团队将他们的成功归因于两个主要因素:规模和多样性。

他们归因成功的比例成分指的是获胜的人工智能代理能够积累的飞行时间的数量。多样性部分说明了 Heron Systems 开发的相互对抗的人工智能代理的数量；每个代理都有自己独特的神经网络架构、奖励系统和构建。

Heron System 的一位发言人表示，该团队的下一步是将人工智能系统整合到可以在现实生活环境中载人的无人机中。

AlphaDogfight 选拔赛决赛完整视频

我希望这篇文章对你有用。

要联系我或找到更多类似本文的内容，请执行以下操作:

订阅我的 邮件列表 获取每周简讯
跟我上中
通过 LinkedIn 联系我

**** [## AI 里有黑人吗？

我们仍然是人工智能中代表最少的种族之一，然而我们可能会因为它的利用和滥用而遭受最大的痛苦。

towardsdatascience.com](/are-there-black-people-in-ai-fb6928166d73) [## 根据吴恩达(斯坦福深度学习讲座)，你应该如何阅读研究论文

关于如何通过知名人士发表的研究论文获取知识的指导。

towardsdatascience.com](/how-you-should-read-research-papers-according-to-andrew-ng-stanford-deep-learning-lectures-98ecbd3ccfb3)****