TowardsDataScience 博客中文翻译 2019（三十九）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

人工智能:军备竞赛 2.0

原文：https://towardsdatascience.com/ai-arms-race-2-0-bf778e84e0e3?source=collection_archive---------24-----------------------

本帖由 亚历克斯·斯特恩 & 尤金·西多林 合著。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2 月 11 日，特朗普总统签署了一项行政命令，概述了美国人工智能倡议。除其他外，该命令讨论了美国保持其目前在人工智能领域领导地位的必要性。随后，国防部于 2 月 12 日发布了另一份公告，发布了其人工智能战略概要。

然而，人们可以说，美国的持续领导地位还远未确定:特别是，正如我们在“反思人工智能的现状:2018 ”中所讨论的那样，中国在人工智能初创公司的投资方面已经超过了美国，近 50%的人工智能投资美元流向了中国初创公司(就交易数量而言，美国仍然处于领先地位，尽管来自美国的人工智能初创公司的份额在过去几年中一直在稳步下降)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Top AI Trends To Watch In 2018

中国现在也在该领域的专利和出版物数量上挑战美国。诚然，其中一些出版物的质量可能仍然落后于美国，但中国已经迎头赶上，过去几年在该领域的进步速度简直令人震惊。

统治人工智能领域的愿望是完全可以理解的——毕竟，人工智能有一天将实现一个全新的可能性世界的想法已经存在了几十年。然而，直到最近，它在很大程度上被归入科幻小说的领域和少数研究人员&未来学家的作品。这一切都开始在 2010 年代初发生变化，当时技术以及或许同样重要的计算资源终于赶上来了，我们第一次拥有了能够解决现实世界问题的人工智能(或者更确切地说，机器学习)。

然而，正如任何改变游戏规则的进步通常会发生的那样，不同的国家发现自己在截然不同的环境中面临着人工智能提供的新机遇和挑战。

对于富裕的西方民主国家来说，机器智能的出现提供了探索新领域、建立新一代成功公司和进一步改善社会的机会。然而，这也意味着不得不面对人工智能可能给他们的公民带来的危险，如果不顾后果地应用的话。在过去的几年里，这意味着在制定人工智能政策时越来越优先考虑“无害”方法——与其他地方相比，西方强调个人主义和强大的人权记录，在人工智能方面失去的更多，得到的更少。虽然西方，更具体地说，美国可能仍然在人工智能研究方面处于领先地位，但考虑到它在道德和隐私问题上面临的不同水平的期望，实施将更加困难和更具挑战性。

相比之下，中国面临着完全不同的挑战:鉴于其历史背景和经济发展阶段，人工智能可能带来的机会往往大于滥用人工智能的危险，这反过来导致中国接受人工智能并实施积极的投资和部署战略。

这里还值得注意的是，随着广泛的人工智能部署，中国和西方可能会优化不同的结果。在中国，它通常会得到优化，为整个社会带来最好的结果，即使这意味着在这个过程中无意中伤害了少数群体。相反，西方注重人权和公平对待每一个人，包括任何局外人，这反过来为人工智能的采用带来了独特的挑战。

至于世界其他地区，今天大多数国家都处于西方和中国所代表的两个极端之间。

现在，让我们更深入地挖掘一些关键因素，这些因素将决定目前正在展开的全球人工智能军备竞赛的领导者。

基于我们上面所讨论的，我们建议将世界分成三大组:西方，中国和世界其他地区。显然，这样的划分相当主观，但我们相信它以一种有用的方式框定了围绕人工智能政策的对话。

现在，当想到任何可以使用机器学习解决的问题时，有三个构件需要考虑:数据、人员和资金。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Evolution One

**注:**此处每种资源的数量是主观的，仅用于说明目的；我们将在下面的每一节中详细说明我们是如何做到这些的。

数据

过去几十年中，我们生成的数据量大幅增长，而且没有放缓的迹象，相反，在过去几年中，由于我们生成不断增长的信息量的能力，以及硬件和软件方面新数据来源数量的爆炸式增长，数据量一直在加速增长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: The Digitization of the World From Edge to Core

根据 IDC 的数据，今天已经有超过 50 亿的消费者每天与数据进行交互，到 2025 年，这一数字将增加到 60 亿。尽管如此，虽然在 2010 年代初，智能手机是数据量增长的主要原因，但展望未来，这种增长将越来越多地由物联网设备驱动，预计到 2025 年，物联网设备每年将产生超过 90 吉字节的数据，占所有预测数据的 50%以上。

这里值得强调的一点是，设备数量和它们生成的数据量之间的关系从来都不是线性的，但如今，这一点变得尤其正确。虽然在 2000 年代末和 2010 年代初，智能手机的渗透率不断上升，加上传输和存储数据的成本不断下降，推动了数据量的产生，但在任何给定时间可以使用的智能手机数量都有明显的上限。然而，如今全球智能手机数量为 30 亿部，增长速度正在放缓，但数据量仍在快速增长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: State of the IoT 2018

这里有两个关键因素在起作用。

首先，虽然智能手机增长在全球范围内放缓，但物联网代表了一个不同的故事。截至 2018 年，至少有70 亿台物联网设备(其他估计数字要高得多)，预计到 2025 年将增长到 215 亿台，超过所有其他类别的总和。也许比设备的具体数量更重要的是，物联网设备的数量没有自然限制:很有可能想象世界上每个人都有几十甚至几百台设备，测量从道路上的交通到我们公寓的温度等一切(这甚至是在考虑企业使用的物联网设备之前)。

其次，现有数据的数量在很大程度上取决于我们收集、共享和存储数据的意愿和能力(无论是暂时的还是永久的)。在这里，我们围绕我们愿意收集和保留哪些类型的数据所做的选择变得至关重要——任何今天没有捕获的数据按照定义都会丢失，而且这种影响会随着时间的推移而加剧。

出于对人们隐私的担忧和防止潜在滥用，对数据收集施加限制可能是一件合理的事情，但在机器学习的狭义背景下，这些选择会影响可用于训练模型的数据量。这反过来意味着不太关心隐私的国家(中国是一个主要的例子——例如，看到它用人工智能驱动的安全摄像头捕捉罪犯的实验)可能会在数据方面获得优势。

话虽如此，认识到隐私问题并不适用于每一个问题也很重要，在一些领域(如无人驾驶汽车，或机器翻译——见一些有趣的专家意见这里)西方实际上有更好的数据集。

人

人是第二个重要的组成部分，因为是他们定义了用来解决任何可以通过机器学习解决的问题的方法。

在这里，情况与我们在数据中看到的有些相反——西方，尤其是美国，有着天然的优势，因为它仍然是最理想的工作和生活地点之一，因此更容易吸引来自世界各地的人们。它还可以对非正统的想法更加宽容，这提供了一个更具创造性的环境，并有助于发现和培养创新的想法。

在基础研究方面，美国历史上也有优势，这要归功于其成熟的研究型大学体系，更不用说它吸引世界各地顶尖人才的能力了。尽管如此，近年来，中国已经建立了一流研究型大学体系，并继续大力投资。今天，中国已经授予了比美国更多的自然科学和工程学博士学位，并在同行评审期刊上发表了更多的文章，根据经济学家的报道。此外，在特定于人工智能的研究中，美国的领先地位甚至更不确定，正如之前提到的那样(详见 CB Insights 报告)。

最后，当谈到专注于实施(而不是纯粹的研究)的从业者时，美国和中国都有一些独特的优势；评估这些的两个可能的指标是在每个国家成立的创业公司的数量，以及加入该领域的专业人士的数量。

美国拥有最多的初创公司，也有一个由谷歌、微软和脸书等大型科技公司投资的成熟生态系统。不过，中国在这方面排名第二(如果把欧洲作为一个整体来看的话，排名第三)；此外，它获得了前所未有的高额投资(下一节将详细介绍)，也是少数几家可以与美国最大的公司(即阿里巴巴、腾讯和百度)相媲美的公司的所在地。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Artificial Intelligence — a strategy for European startups

然而，在劳动力方面，中国有明显的领先优势——今天，中国拥有 STEM 学位的大学毕业生比长期面临合格人才短缺的美国多 3 倍。与研究领域不同，在研究领域，少数人往往是最重要的，对于从业者来说，数字很重要，培养足够多的工程和科学专业人才对于建立和保持该领域的领先地位至关重要。

投资

根据 CB Insights 的数据，2017 年，对中国创业公司的投资占全球人工智能创业公司投资的 50%，高于 2016 年的 11.6%。毫不奇怪，2018 年资金最充足的前两家公司——商汤科技和 Face++都来自中国——我们已经在最近的文章中简要讨论了 2018 年的人工智能投资前景，并得出结论，中国在早期投资方面已经领先。

尽管如此，现在特朗普总统已经宣布了他的美国人工智能计划，我们觉得这可能是一个回过头来考虑这一宣布如何影响力量平衡的好时机。

然而，在我们这样做之前，让我们暂停一秒钟，通过漏斗来思考，这可以帮助分析投资策略的效率，并决定其最终的成败。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Evolution One

以下三个步骤有助于组织讨论:

首先，考虑拟议投资的总体规模，以及在既定目标下，它是否足以实现有意义的变化
其次，考虑一下吸收资金的生态系统的效率和发达程度
最后，确定拟议战略的重点，以及它是否针对有可能产生最佳回报的正确领域(根据总体目标，这些领域本身会有所不同，例如，支持一个已经建立且发展良好的生态系统可能需要与从零开始建立基本机构时不同的战略)。

现在，应用这个框架来评估特朗普总统的人工智能战略，人们可以有把握地得出结论，鉴于它是如此模糊和通用，它并没有真正改变什么。这并不是说美国在投资方面落后于中国，相反，很明显，在可用资金数量、生态系统的稳健性以及关注多个领域的可用性方面，两国都处于同等有利的位置，这为发展带来了重大机遇。

结论

虽然今天许多人认为人工智能是一场新的军备竞赛，各国将相互激烈竞争(特朗普总统声明的语气对此没有帮助)，但我们相信人工智能的合作会给所有人带来持续更好的结果。

有趣的是，西方特别有可能从促进全球合作中受益(比在孤岛世界中处于更好位置的西方国家受益更多)，因为正是思考和创造的自由在历史上使美国这样的地方对世界各地的人才具有吸引力。

西方在人工智能领域取得可持续领导地位的途径可能依赖于:

专注于促进全球合作，包括来自中国等地的研究人员和公司
投资开发人工智能的道德使用框架，同时注意不要对私营企业的积极性施加不当限制

因此，西方政府的角色应该是帮助构建和引导讨论，而不是试图施加不必要的限制来扼杀创新。

原载于evolution one . ai

AI 即服务？

原文：https://towardsdatascience.com/ai-as-a-service-b465ddc0c7e0?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by @airamdatoon

数字基础设施和一切即服务

AaaS——当然不是最幸运的缩写。在这个时候，说你假设意味着你让你和我成为傻瓜是合适的。如果不是假设，还有什么是算法？一个数学上的假设，毫无疑问，它可以像人类的假设一样是对的和错的。现在有各种各样的“【T2 即服务】”缩写，有些甚至提出了 AI 即服务或 AIaaS 。

AaaS 代表算法即服务，是我在“作为服务”的词汇云中遇到的许多首字母缩略词之一。

一个算法是:在计算或其他解决问题的操作中要遵循的一个过程或一组规则，特别是由计算机来执行。它是一组指令，通常用于解决一类问题或执行计算。算法是执行计算、数据处理、自动推理和其他任务的明确规范。

以这种方式，它是一组假设。一个假设是:一件被认为是真的或者肯定会发生的事情，无需证明。承担权力或责任的行为。狭义人工智能是指人工智能，它只能处理一个特定的任务。因此，我们可以问有什么不同？2019 年 10 月 26 日 CMS Wire 上的一篇由 Kaya Ismail 撰写的文章试图解释算法和 AI 之间的区别:

算法是一组指令——一个预设的、严格的、编码的配方，当它遇到一个触发器时就会被执行。另一方面，人工智能是一个非常广泛的术语，涵盖了无数的人工智能专业和子集，是一组可以修改其算法并创建新算法的算法，以响应学习到的输入和数据，而不是仅仅依赖于它被设计为识别触发器的输入。

AaaS 和 SaaS 不一样吗？

你可能会说，ass，我的意思是 AaaS，类似于 SaaS(欢迎使用 heaven btw 的缩写)。软件即服务(SaaS) 是一种软件分发模式，由第三方提供商托管应用程序，并通过互联网提供给客户。SaaS 是云计算的三个主要类别之一，另外两个是基础设施即服务(IaaS)和平台即服务(PaaS)。缩略词超载？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AIaaS 或 MLaaS(机器学习即服务)有何不同？另一位为《走向数据科学》撰稿的作家 Oleksii Kharkovyna 在他的文章中说得很好，机器学习与传统编程:

在传统编程中你硬编码程序的行为。在机器学习中，你把很多事情留给机器从数据中学习。

因此，我们可以尝试区分 Saas 和 AIaas 或 MLaaS 的缩写。在人工智能(AI)领域，机器学习是最常见的技术。因此，使用 AIaas 或 MLaas 可能是一种有用的区分，但可能彼此过于接近，令人不舒服。

谷歌和亚马逊似乎几乎可以互换地谈论人工智能和机器学习产品(就像我经常在其他地方看到的那样)。他们目前拥有最大的 AIaas 或 MLaas 平台，因此让我们只看表面，不做全面的回顾)。以下内容根据各自网站略有调整。

Google AI Hub 和 TensorFlow

TensorFlow 是一个免费的开源软件库，用于数据流和一系列任务的差异化编程。它是一个符号数学库，也用于机器学习应用，如神经网络。它被用于谷歌的研究和生产。‍

谷歌另外还有几款人工智能和机器学习产品。

AI Hub ，一个即插即用的 AI 组件托管库。

AI 构建模块具有视觉、语言、对话和结构化数据的应用。

AI 平台，基于代码的数据科学开发环境，面向 ML 开发者和数据科学家。其中一部分是**云机器学习引擎，**这是一种托管服务，允许开发人员和数据科学家在生产中构建和运行机器学习模型。

亚马逊 SageMaker

Amazon SageMaker 使开发人员和数据科学家能够快速轻松地构建、训练和部署任何规模的机器学习模型。它消除了阻碍跨用例和行业成功实施机器学习的复杂性——从运行实时欺诈检测模型，到虚拟分析潜在药物的生物影响，再到预测棒球比赛中的盗垒成功。

从 TensorFlow、PyTorch、Apache MXNet 和其他流行的框架中进行选择，以试验和定制机器学习算法。你可以在亚马逊 SageMaker 中使用你选择的框架作为托管体验，或者使用 AWS 深度学习 AMIs(亚马逊机器映像)，它完全配置了最流行的深度学习框架和工具的最新版本。根据亚马逊的说法:

云中 81%的深度学习项目运行在 AWS 上
云中 85%的 TensorFlow 项目运行在 AWS 上

从这个意义上说，亚马逊似乎声称自己是 MLaaS 或 AIaaS 中的平台的平台。

小演员能竞争吗？

当然，这一领域的专业产品总会有利基市场，我们可能会发现通过一项创新(新方法、想法、产品等)脱颖而出的演员。)或者技巧。

写这篇文章的过程始于我在 Craig E Ryder 关于 你需要了解的五家 AI 初创公司 的一篇精心撰写且简明扼要的文章中读到关于算法即服务的内容。在这篇文章中，我发现了引起我注意的 NextQuestion 和他们的算法即服务 (AaaS)(流行语的魔力)。如果你喜欢，可以去美国汽车协会看看。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Screenshot of NextQuestion website retrieved the 8th of July 2019

无论如何，感谢你收听#500daysofAI，再次声明:保持直立。

这是#500daysofAI 的第 36 天，请关注我关于 AI 的每日更新。

什么是#500daysofAI？

我在挑战自己，用#500daysofAI 写下并思考未来 500 天的人工智能话题。这是我发明的一个挑战，以保持对这个话题的思考，并与你分享我的更新。一起学习是最大的快乐。

人工智能自动生成 M&A 候选人

原文：https://towardsdatascience.com/ai-auto-generates-m-a-candidates-41eca0b8d7c1?source=collection_archive---------31-----------------------

传统方法:X 公司希望在某个特定的技术领域进行扩张，并准备一份潜在收购候选人的名单。如何识别这些公司？人们如何对它们进行排序？有人雇了一位昂贵的投资银行家来准备候选名单。银行家喜欢买方委托。

**新方法:**租一台机器。

我承认 M&A 不仅仅是入围候选人名单，但是让我们一点一点地剥 M&A 洋葱，好吗？目标列表生成是一项关键活动，大多数企业集团都有一份活动列表，并为此花费数小时的 CXO 时间。

下面是机器如何提供帮助的——通过一个例子来说明……让我们以电动汽车行业为例。“最大的电动汽车制造商”(收购者)希望确定拥有最接近的匹配技术组合的公司(目标)进行购买。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A 2-dimensional representation of patent landscape

**矢量化:**获得 12571 项电动汽车专利(近期)。这涵盖了 1809 家公司(专利受让人)。机器对专利进行矢量化(见矢量图)。

在这个过程中，机器理解每个单词的意思(见插图:机器通过向量理解文本)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**解释:**机器接下来会了解收购方拥有哪些领域的技术。下面是从电池组到扭矩控制到热充电等重点领域的图表。机器识别 8 个区域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A 2-dimensional representation of focus areas in vector space

**入围名单:**对于每个领域，该机器将收购方的每项专利与潜在目标(1808 家公司)的每项专利进行映射，并根据我们对寻找最接近技术目标的定义，使用“相关性”/“接近度”指标来筛选候选人。下图为 8 个领域的 8 个图表，根据专利向量分析绘制了每个公司(1808)的情况。候选名单摆在我们面前。每个领域的候选名单。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将最接近的技术定义为标准……我们也可以将其定义为补充/最核心/最交叉连接等……一个指标的变化会改变候选名单。

收购型公司保持着一份活跃的目标清单。这台机器可以在几小时内重复这一分析。相比之下，通过一个采购过程来雇用一个银行家，以及与此相关的成本。

在“数字”时代，一切都越来越成为载体，我们是在剥洋葱，还是在用不同形式的智能拓展可能性的边界？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果竞争对手 1 收购竞争对手 2…会发生什么，什么技术会消失… 1809 公司是一个网络，任何人都可以收购任何人…鉴于技术格局的潜在变化，我们今天应该收购某人吗？一个有机的技术研究项目是否应该变成无机的(收购)？我们如何对此建模？

现有的人类智能形式将很难模拟这种复杂性…机器可以…尽管是人工的。

人工智能驱动的印度车牌检测器。

原文：https://towardsdatascience.com/ai-based-indian-license-plate-detector-de9d48ca8951?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

灵感:撞了我的车还逍遥法外的家伙！

**背景故事:**在和朋友度过了一个难忘的夜晚后，当我们准备回家时，有一件事让那个夜晚更加难忘，我的汽车前保险杠上有一个巨大的凹痕，似乎是被另一辆车撞了，但这该怪谁呢？周围没有人会目睹那件事。我能做些什么呢？
我会告诉你我到底做了什么。
我利用我的机器学习和编程技能，决定制作一个基于人工智能的印度车牌检测器，它能够通过检测周围车辆的车牌来监视车辆，在这篇博客中，我将带你们了解我是如何做到这一点的！

**首先:**总有即兴发挥的余地，所以如果你对这个项目有更好的想法或疑问，请使用下面的回复部分。

方法:

我们需要建立一个系统，能够-

从周围获取图像/视频(一系列图像):
在硬件端，我们需要一台 pc(或 raspberry pi)和一个摄像头，在软件端，我们需要一个库来捕获和处理数据(图像)。我在这个项目中使用了 OpenCV (4.1.0)和 Python (3.6.7)。
在图像中寻找车牌:
要从图像中检测一个物体(车牌)，我们需要另一个工具来识别印度车牌，为此我使用了 Haar cascade，它是在印度车牌上预先训练的(将很快更新到 YOLO v3)。
对车牌进行分析和执行一些图像处理:
使用 OpenCV 的灰度、阈值、腐蚀、扩张、轮廓检测，并通过一些参数调整，我们可以很容易地生成足够多的关于车牌的信息，以决定这些数据是否足够有用，可以传递给进一步的处理(有时如果图像非常失真或不正确，我们可能只能得到假设的 10 个字符中的 8 个，然后，没有必要将数据传递到管道中，而是忽略它并查看下一帧的板)，此外，在将图像传递到下一个过程之前，我们需要确保它没有噪声并经过处理。
从车牌中分割出字母数字字符:
如果上述步骤一切正常，我们应该准备好从车牌中提取字符，这可以通过巧妙地对图像进行阈值处理、腐蚀、扩张和模糊来完成，这样最终我们得到的图像几乎没有噪声，并且易于进一步的功能处理。我们现在再次使用轮廓检测和一些参数调整来提取字符。
逐个考虑字符，识别字符，将结果串联起来并以字符串形式给出车牌号码:
现在有趣的部分来了！因为我们有所有的字符，所以我们需要将字符一个接一个地传递到我们训练好的模型中，它应该能够识别字符，瞧！我们将使用 Keras 作为我们的卷积神经网络模型。

先决条件:

OpenCV : OpenCV 是一个编程函数库，主要针对实时计算机视觉，加上它的开源性，使用起来很有趣，也是我个人的最爱。这个项目我用的是 4.1.0 版本。
Python :又名编码的瑞士军刀。我这里用的是 3.6.7 版本。
IDE: 我将在这里使用 Jupyter。
Haar cascade :这是一种机器学习对象检测算法，用于识别图像或视频中的对象，基于 Paul Viola 和 Michael Jones 在 2001 年的论文“使用简单特征的增强级联进行快速对象检测”中提出的特征概念。更多信息
Keras:Keras 易于使用并得到广泛支持，它让深度学习变得尽可能简单。
Scikit-Learn:It是一个免费的 Python 编程语言的软件机器学习库。
当然，不要忘记咖啡**！**

第一步

创建工作空间。

我推荐创建一个 conda 环境，因为它使项目管理更加容易。请按照此链接中的说明安装 miniconda。安装完成后，打开 cmd/terminal 并使用以下命令创建一个环境

>conda create -n 'name_of_the_environment' python=3.6.7

现在让我们激活环境:

>conda activate 'name_of_the_environment'

这应该让我们进入虚拟环境。是时候安装一些库了-

# installing OpenCV
>pip install opencv-python==4.1.0# Installing Keras
>pip install keras# Installing Jupyter
>pip install jupyter#Installing Scikit-Learn
>pip install scikit-learn

第二步

设置环境！

我们将从运行 jupyter notebook 开始，然后在我们的例子中导入必要的库 OpenCV、Keras 和 sklearn。

# in your conda environment run
>jupyter notebook

这将在默认的网络浏览器中打开 Jupyter 笔记本。一旦打开，让我们导入库

#importing openCV
>import cv2#importing numpy
>import numpy as np#importing pandas to read the CSV file containing our data
>import pandas as pd#importing keras and sub-libraries
>from keras.models import Sequential
>from keras.layers import Dense
>from keras.layers import Dropout
>from keras.layers import Flatten, MaxPool2D
>from keras.layers.convolutional import Conv2D
>from keras.layers.convolutional import MaxPooling2D
>from keras import backend as K
>from keras.utils import np_utils
>from sklearn.model_selection import train_test_split

第三步

号牌检测:

让我们简单地从导入一个带有牌照的汽车样本图像开始，并定义一些函数:

上述函数的工作方式是将图像作为输入，然后应用预先训练好的“haar cascade”来检测印度车牌，这里的参数 scaleFactor 代表一个值，通过该值可以缩放输入图像，以便更好地检测车牌(了解更多信息)。minNeighbors 只是一个减少误报的参数，如果这个值很低，算法可能更容易给出一个误识别的输出。(您可以从我的 github 个人资料中下载名为“indian_license_plate.xml”的 haar cascade 文件。)

input image

output image with detected plate highlighted

output image of detected license plate

第四步

对车牌进行一些图像处理。

现在让我们进一步处理这个图像，使字符提取过程变得容易。我们将从定义更多的函数开始。

上述函数接收图像作为输入，并对其执行以下操作-

将它调整到一个尺寸，这样所有的字符看起来都清晰明了
将彩色图像转换为灰度图像，即图像只有一个 8 位通道，取值范围为 0-255，0 对应黑色，255 对应白色，而不是 3 通道(BGR)。我们这样做是为下一个过程准备图像。
现在阈值函数将灰度图像转换为二进制图像，即每个像素现在将具有 0 或 1 的值，其中 0 对应于黑色，1 对应于白色。这是通过应用具有 0 到 255 之间的值的阈值来完成的，这里的值是 200，这意味着在灰度图像中，对于具有大于 200 的值的像素，在新的二进制图像中，该像素将被赋予值 1。并且对于值低于 200 的像素，在新的二进制图像中，该像素将被赋予值 0。
图像现在是二进制形式，为下一个腐蚀过程做准备。
侵蚀是一个简单的过程，用于从对象的边界移除不想要的像素，即值应该为 0 但却为 1 的像素。它的工作原理是逐个考虑图像中的每个像素，然后考虑像素的邻居(邻居的数量取决于内核大小)，只有当它的所有邻居像素都是 1 时，该像素才被赋予值 1，否则被赋予值 0。
图像现在是干净的，没有边界噪声，我们现在将放大图像以填充缺少的像素，即应该具有值 1 但具有值 0 的像素。该函数的工作方式类似于侵蚀，但有一点不同，它的工作方式是逐个考虑图像中的每个像素，然后考虑像素的邻居(邻居的数量取决于内核大小)，如果像素的至少一个相邻像素为 1，则该像素的值为 1。
下一步是将图像的边界变成白色。这是为了移除帧外的任何像素(如果它存在的话)。
接下来，我们定义一个包含 4 个值的维度列表，我们将用它来比较字符的维度，以筛选出所需的字符。
通过上面的过程，我们已经将我们的图像减少到一个处理过的二进制图像，并且我们已经准备好传递这个图像用于字符提取。

第五步

从车牌中分割出字母数字字符。

在第 4 步之后，我们应该有一个干净的二进制图像。在这一步中，我们将应用更多的图像处理来从牌照中提取单个字符。涉及的步骤将是-

找到输入图像中的所有轮廓。函数 cv2.findContours 返回它在图像中找到的所有轮廓。轮廓可以简单地解释为连接所有连续点(沿边界)的曲线，具有相同的颜色或强度。

https://www.oipapio.com/static-img/4698620190220123940948.jpg

plate with contours drawn in green

找到所有轮廓后，我们逐个考虑它们，并计算它们各自的边界矩形的尺寸。现在考虑边界矩形是可能包含轮廓的最小矩形。让我通过在这里为每个字符画出边界矩形来说明它们。

*因为我们有了这些边界矩形的尺寸，所以我们需要做的就是做一些参数调整，并过滤出包含所需字符的所需矩形。为此，我们将通过只接受宽度在 0，(pic 的长度)/(字符数)和长度在(pic 的宽度)/2，4 (pic 的宽度)/5 范围内的那些矩形来执行一些维度比较。如果一切顺利，我们应该有所有的字符提取为二进制图像。

The binary images of 10 extracted characters.

字符可能是无序的，但不要担心，代码的最后几行会处理好这一点。它根据字符的边界矩形相对于盘子左边界的位置对字符进行排序。

第六步

创造一个机器学习模型，并为角色训练它。

数据都是干净的，准备好了，现在是时候创建一个足够智能的神经网络来识别训练后的字符。

https://mesin-belajar.blogspot.com/2016/05/topological-visualisation-of.html

为了建模，我们将使用具有 3 层的卷积神经网络。

## create model
>model = Sequential()
>model.add(Conv2D(filters=32, kernel_size=(5,5), input_shape=(28, 28, 1), activation='relu'))
>model.add(MaxPooling2D(pool_size=(2, 2)))
>model.add(Dropout(rate=0.4))
>model.add(Flatten())
>model.add(Dense(units=128, activation='relu'))
>model.add(Dense(units=36, activation='softmax'))

为了保持模型简单，我们将从创建一个顺序对象开始。
第一层将是具有 32 个输出滤波器、大小为(5，5)的卷积窗口和作为激活函数的‘Relu’的卷积层。

****

接下来，我们将添加一个窗口大小为(2，2)的 max-pooling 层。
Max pooling 是一个基于样本的离散化过程。目标是对输入表示(图像、隐藏层和输出矩阵等)进行下采样。)，减少其维数，并允许对包含在被装仓的子区域中的特征进行假设。

max-pooling layer

现在，我们将增加一些辍学率，以照顾过度拟合。
Dropout 是一个正则化超参数，被初始化以防止神经网络过拟合。Dropout 是一种在训练过程中忽略随机选择的神经元的技术。他们是“掉 - 掉”随机产生的。我们选择了 0.4 的丢弃率，这意味着将保留 60%的节点。
现在是展平节点数据的时候了，所以我们添加了一个展平层。展平层从上一层获取数据，并在一维中表示它。

最后，我们将添加两个密集层，一个输出空间的维数为 128，激活函数='relu ‘,另一个，我们的最后一层有 36 个输出，用于对 26 个字母(A-Z) + 10 个数字(0–9)和激活函数=’ softmax '进行分类

第七步

训练我们的 CNN 模型。

我们将使用的数据包含大小为 28x28 的字母(A-Z)和数字(0-9)的图像，并且数据是平衡的，因此我们不必在这里进行任何类型的数据调整。
我已经创建了一个 zip 文件，其中包含按照下面的目录结构的数据，训练测试分割为 80:20

https://medium.com/@vijayabhaskar96/tutorial-image-classification-with-keras-flow-from-directory-and-generators-95f75ebe5720

我们将使用 keras 中可用的 ImageDataGenerator 类，使用宽度移动、高度移动等图像增强技术来生成更多的数据。要了解更多关于 ImageDataGenerator 的信息，请查看这篇不错的博客。
Width shift:接受一个浮点值，表示图像将向左和向右移动的百分比。
Height shift:接受一个浮点值，表示图像上下移动的比例。
现在该训练我们的模特了！
我们将使用“分类 _ 交叉熵”作为损失函数，“亚当”作为优化函数，“准确度”作为误差矩阵。
经过 23 个历元的训练，模型达到了 99.54%的准确率。

****

第八步

输出。

最后，是时候测试我们的模型了，还记得从车牌中提取字符的二值图像吗？让我们把图像输入到我们的模型中！

输出-

最终意见

感谢你们阅读这个博客，希望这个项目对那些有志于做 OCR、图像处理、机器学习、物联网项目的人有用。

如果你对这个项目有任何疑问，请在回复部分留下评论。

完整的项目可以在我的 Github 上找到:
https://Github . com/SarthakV7/AI-based-Indian-license-plate-detection

在 LinkedIn 上找到我:www.linkedin.com/in/sarthak-vajpayee

人工智能可以尊重你的隐私(如果人类愿意的话)

原文：https://towardsdatascience.com/ai-can-respect-your-privacy-if-only-humans-wanted-to-176d8eae0f9c?source=collection_archive---------29-----------------------

设计合理的人工智能如何捍卫我们的隐私。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Why AI can save our privacy

我们都知道(人类员工——不是人工智能……)谷歌、脸书、亚马逊和其他大型互联网公司从我们的数据中赚钱。在这些公司工作的人(不是 AI…)做出了商业决定，收集从“免费”服务中获得的数据，目的是转售这些信息来赚钱。

就连美国国会，在对马克·扎克伯格进行了几个小时的听证后，也开始理解硅谷是如何赚钱的。马克·扎克伯格因剑桥分析公司不正当地获取数百万脸书用户的个人数据而被传唤到华盛顿。

2018 年的那场听证会标志着我们数字化生活中一个决定性的关键时刻。两条战线发生了冲突:快速移动的互联网巨头收集和挖掘海量数据，以及静态、缓慢移动的政治和监管力量。这一切的核心是人工智能。

没有人愿意交出他们的数据，除非他们觉得他们的数字足迹受到了保护。这一愿望现在也得到了立法的支持。欧洲新的《通用数据保护条例》( GDPR)明确规定，除其他事项外，公司应限制并最大限度地减少其收集和保留的数据量，重点关注满足明确规定的业务目的所绝对必要的数据。公司只能在有限的时间内保留数据，用户可以要求删除他们的数据。我们预计这种保护的某些方面将迅速扩展到包括美国在内的其他国家

对于人工智能目前的构建和训练方式来说，这是一个大问题。从历史上看，人工智能系统并没有以有利于保护隐私的方式进行设计:它们需要保留所有数据，以便能够更新和改进。但幸运的是，这可以通过一种新的人工智能技术来克服，这种技术直接存在于用户的设备上，并在那里执行所有功能，而不需要保存用户的敏感信息。

传统上，包括脸书在内的各种服务的用户积累了各种类型的数据，但公司没有有效的方式来收集这些数据。进入 AI 算法:从数据中学习并从中提取意义的数据驱动的数学模型。这就像这些公司坐在巨大的油藏上，只有一个手铲，现在他们得到了一个强大的机械化钻机。他们正在钻探。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Conventional AI needs large servers

从 20 世纪 60 年代的理论工作发展而来，今天的深度学习和神经网络(DNN)算法——为研究界带来最大胜利的人工智能子领域——是大规模数学系统，通过以简单的方式模拟可以训练来执行任务的互联神经元的巨大网络，捕捉大脑功能和组织的各个方面。这

se 从视觉和听觉感知到运动控制和更抽象的功能，如捕捉服务器上的网络攻击；将财务数据分类为欺诈数据或合法数据；或者将一件设备分类为正常、有缺陷或生锈。

虽然输入数据和任务的性质各不相同，但这些系统的能力来自于从数据中学习的能力(而不是被预编程来执行功能)，并且绝大多数情况下使用 20 世纪 80 年代形成的学习形式，称为“反向传播”

在反向传播方法中，一种从根本上背离人类和动物大脑工作方式的算法，大型神经网络中的神经元通过计算网络处理一批数据后每个神经元的误差贡献来改变它们的突触或连接系数。本质上，如果网络呈现一只“长颈鹿”并回答说，“我看到一只斑马”，数百万个神经元将根据它们对错误答案的贡献大小来改变数亿或数十亿个突触权重，使它们在下一次看到长颈鹿时，更有可能正确分类。

“反向传播”这个名称指的是这样一个事实，即网络的误差是在输出神经元上计算的，这些神经元对斑马和长颈鹿进行分类，并传播回网络中的所有神经元，这些神经元馈给这些输出神经元，一直到呈现输入图像的网络的第一个神经元。对错误答案做出贡献的神经元越多，其突触中的修正就越大。

虽然输入数据可以是图像、声音或其他更抽象的数据——如金融交易、网络流量或文本——但原理是相同的:该算法通过迭代调整每个神经元的权重来优化网络输出，对该数据完成数千次或数百万次的学习过程，直到误差小到足以称学习“完成”

这很棒，因为它使基于反向传播的人工智能系统能够在越来越多的任务中匹配甚至超越人类水平的表现，从下棋和围棋到理解交通标志和医疗数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

How traditional AI works

然而，这种超级性能是有代价的:反向传播网络，因为它们倾向于根据当前的预测误差改变突触权重，所以对新信息非常敏感，容易受到灾难性的干扰:当学习到新的东西时，它会清除旧的信息。从某种意义上说，他们有一种学习障碍。

反向传播成为神经网络中事实上的标准学习算法，意想不到的后果是，今天整个庞大的人工智能行业都患有“记忆综合症”——正如受欢迎的电影所描述的那样，他们的人工智能只有在投入使用前才训练有素，在日常操作中无法学到任何新东西。

但是回到数据隐私，反向传播带来了另一个主要的缺点:所有的输入数据都必须保存，以便重新训练。例如，如果 DNN 已经在 1000 幅图像上被训练，并且需要学习额外的图像，那么 1001 幅图像需要被呈现数千或数百万次迭代。如果这 1000 张图片不能合法保存会怎么样？培训无法进行，网络无法更新。

本质上，今天的人工智能技术要求与 GDPR 等立法的要求是正交的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Brains have trillions of synapses learning on a constant basi

虽然目前的 dnn 是大脑的超简化模型，但生物学有更丰富的工具可供其支配。让我们以一个人脑为例。DNNs 归入“连接”或“重量”的东西，大脑将其分解为大量的物质和结构——神经递质和突触——它们不同于针对不同类型受体和突触的小分子递质和神经肽。小分子传输器是其他神经元的直接参与者，并且以非常简单的方式更接近于传统人工智能和 DNN 今天正在做的事情。

另一方面，神经肽或“调节剂”在其目标中介导更微妙的作用。

我们大多数人都接受过某种标准化的教育，在那里我们去学校学习一系列重要的技能。当到了去找工作的时候，我们带着那些技能和知识，我们很快认识到日常学习是我们在工作中变得更好以及在工作场所和社会中进步的最重要的方式。作为人类，我们日复一日地这样做，甚至到了老年。更重要的是，我们做得很快:对于我们存储在记忆中的大部分内容，几个学习片段就足够了。这种学习方式与传统的 DNN 形成了鲜明的对比，在那里，对于人类来说，等同于我们所知道的一切都是在学校里学到的，之后什么也学不到。

在新的“终身”DNN ( 终身-DNN)架构中，小分子和神经肽递质的联合数学建模使它们能够有区别地表达两个时间尺度——快速和慢速学习——这两个时间尺度传统上被集中到一组方程中。这一重大创新使人工智能能够保持慢学习的优势，这一点已被反向传播所利用，同时也利用了快速学习的优势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Computing at the Edge … the future of AI is here

此外，由于它在数学上非常紧凑，终身 DNN 的新范式可以直接在设备上实现终身学习，其中芯片组可以像低端智能手机的芯片组一样便宜，可以在没有 Wi-Fi 或手机连接的情况下工作，也不需要在手机或设备上存储所有的训练数据。

这意味着每个数据点在学习过程中只使用一次:不需要数百万次迭代。当新数据出现时，它可以被丢弃。隐私不再是一个问题。

人工智能是一项相对年轻的技术，作为一个领域，它只是触及了可能性的皮毛。我们不应该忘记，从生物大脑中获得的知识中，只有极小一部分被编码到今天的最终用户和工作应用程序中。就信息处理而言，即使是 L-DNN 也远远达不到生物大脑所能达到的水平。但像 L-DNN 这样的创新是构建既有用又尊重人们隐私的人工智能的核心。

人工智能差分隐私和联邦学习

原文：https://towardsdatascience.com/ai-differential-privacy-and-federated-learning-523146d46b85?source=collection_archive---------21-----------------------

对用户敏感数据使用人工智能最近引发了许多担忧。差分隐私和联合学习是谷歌和苹果等公司目前针对这一问题提出的解决方案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html)

介绍

每天都会以不同的形式收集敏感数据(例如，医院医疗记录、手机活动记录等)。一旦数据被收集，然后进行预处理，成为完全匿名，最后提供给公司和研究社区进行分析。

使数据集匿名可以防止任何人仅仅利用数据集就完全能够将数据逆向工程到其原始形式。

但是，数据集中包含的数据也可以在网上以任何其他形式获得。通过使用数理统计方法比较相同数据的不同来源，原始数据的逆向工程可以变得容易得多。通过这种方式，提供数据的人的隐私可能会受到损害。

例如，网飞在 2007 年发布了一个数据集，其中包含他们对公开竞赛的用户评分。该数据集在比赛午餐前已经完全匿名，以便不包含任何私人信息。研究人员相继尝试测试该数据集的隐私安全性，并成功恢复了高达 99% 的被删除个人信息[1]。通过将网飞提供的数据与 IMDB 上公开的其他信息进行比较，有可能取得这一结果。

利用差分隐私和联合学习等技术可以大大降低这种风险。

差异隐私

差异隐私使我们能够量化数据库的隐私级别。这可以帮助我们尝试不同的方法，以确定哪种方法最能保护用户的隐私。通过了解我们的数据隐私级别，我们可以量化某人可能从数据集中泄露敏感信息的可能性，以及最多可以泄露多少信息。

Cynthia Dwork 给出的差分隐私的定义是:

差异隐私描述了数据持有人或管理者对数据主体做出的承诺，该承诺如下:

“您不会因为允许您的数据用于任何研究或分析而受到不利或其他方面的影响，无论其他研究、数据集或信息来源是否可用”。

辛西娅·德沃克

差分隐私用来保护个人隐私的一种技术是在数据中添加噪声。两种主要的差分隐私方法是局部差分隐私和全局差分隐私。

局部差分隐私 =噪声被添加到数据集中的每一个单独的数据点(在数据集形成后由数据集管理者添加，或者在将数据提供给管理者之前由个体自己添加)。
全局差分隐私 =保护个人隐私所必需的噪声被添加到数据集的查询输出中。

一般来说，与局部差分隐私相比，全局差分隐私可以产生更准确的结果，同时保持相同的隐私级别。另一方面，当使用全局差分隐私时，捐赠数据的人需要相信数据集管理器会添加必要的噪声来保护他们的隐私。

在实现差分隐私时，通常可以使用两种类型的噪声:高斯噪声和拉普拉斯噪声(图 1)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1: Gaussian and Laplacian distributions [2]

为了确定添加到数据集上的必要噪声量以确保其隐私安全，使用了差分隐私的正式定义(图 2)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2: Differential Privacy Definition [3]

在图 2 中， A 表示一个随机算法，该算法将一个数据集作为输入，数据集 D1 和 D2 仅相差一个元素，并且ε(ɛ)是一个正实数。ε用作确定必要噪声量的参数。

联合学习

利用大量数据的机器学习模型传统上是使用在线服务器来训练的。谷歌和苹果等公司过去常常收集移动设备用户的数据记录活动，然后将其存储在云服务中，以创建一个集中式机器学习模型，从而提高其移动服务的性能。

如今，这些大公司正转向使用一种叫做联合学习的分散模型方法。使用联邦学习，在数据源上训练机器学习模型，然后将其输出移动到云上进行进一步分析。这意味着像谷歌和苹果这样的公司不再需要访问他们的用户数据来改善他们的服务，而是可以使用本地训练的机器学习模型的输出(不侵犯用户隐私)。

此外，由于这些模型是在本地培训的，因此可以为最终用户提供更加个性化的体验(图 3)。

联合学习的定义可以是:

联合学习 =一种在我们无法访问的数据上训练机器学习模型的技术。我们用来训练模型的数据集分布在大量资源中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3: Federated Learning in action [4]

像谷歌这样的公司指定，这些类型的本地机器学习培训旨在仅在终端设备处于以下状态时发生:用户未使用、正在充电并且有 wifi 连接。这样，设备的整体性能不受影响。

智能手机设备上联合学习的一些例子可以是:在 Android、Gmail 和 Google 搜索引擎上使用 Gboard 的个性化单词建议。

谷歌人工智能提供了几个谷歌如何利用联合学习及其工作原理的例子，这些例子可以在这里和这里找到。

结论

如果你想了解更多关于这些话题的信息，我强烈建议你报名参加由 Udacity 提供的免费安全和私人 AI 课程。获得更好的数学背景的其他有价值的资源可以是这两个出版物[5，6]。

联系人

如果你想了解我最新的文章和项目，请通过媒体关注我，并订阅我的邮件列表。以下是我的一些联系人详细信息:

文献学

[1]大型数据集的稳健去匿名化(如何打破 Netflix Prize 数据集的匿名性)。Arvind Narayanan 和 Vitaly Shmatikov，德克萨斯大学奥斯汀分校。访问地点:https://arxiv.org/pdf/cs/0610105.pdf

[2]使用基于拉普拉斯分布的小波域隐马尔可夫树模型的纹理分割。乔玉龙和赵干超，。访问地点:https://www.mdpi.com/1099-4300/18/11/384/html

[3]差分隐私，维基百科。访问时间:https://en.wikipedia.org/wiki/Differential_privacy

[4]差异私人联合学习:客户层面的观点。罗宾·盖耶，塔希洛·克莱恩，和莫因·纳比。访问:https://medium . com/sap-machine-learning-research/client-sided-differential-privacy-preserving-federated-learning-1 fab 5242d 31b

[5]差分隐私和机器学习:调查和评论。张龙吉，扎卡里利普顿，查尔斯埃尔坎。访问地点:【https://arxiv.org/pdf/1412.7584.pdf

[6]差分隐私的深度学习。马丁·阿巴迪、安迪·楚、伊恩·古德菲勒等人访问:https://storage . Google APIs . com/pub-tools-public-publication-data/pdf/45428 . pdf

人工智能发现你脸上的心跳

原文：https://towardsdatascience.com/ai-discovers-the-heart-beat-in-your-face-e129320a8bab?source=collection_archive---------7-----------------------

对从视频中读取生命体征的技术进行中等深度的探究

由乔尔肖尔，谷歌 ML 研究工程师，萨利赫纳比勒谢哈达，医学博士，马特奥布莱恩

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有时候很难想象今天笨重的听诊器会变成明天的《星际迷航》三录仪。这篇文章将通过解释医疗保健中的一项具体发展来帮助你更好地设想这条道路:一项仅通过视频来确定你的心率的技术。

视频心率将开启医院内外的许多酷应用。

将闭路电视摄像头转换为心脏病预警探测器
通过移除更昂贵的监控设备来降低医院护理的成本
在给你保险之前，让保险公司知道你的心血管健康状况，立即自动拨打 911
通过向计算机提供你所感受到的情绪的直接线索来改善人机交互

你也可以想象看一段你最喜欢的政治家说了一些令人难以置信的令人发指的话的视频，然后得知这位政治家的心率一直为零。然后你可能会得出结论，要么她是一个僵尸，要么你一直在看一个深度假。

先前的心率测量值

当前测量心率的技术通常分为三类:

**技巧一:电信号。**测量心率最可靠的方法是直接监测心脏的电活动。像所有肌肉一样，心脏由神经系统控制。附着在皮肤表面适当位置的电极可以检测到这些电脉冲。

手法二:机械信号。急诊室医生通常通过将手指放在患者手腕上 15 秒钟来测量心率。这是因为心脏跳动的力量如此强大，以至于动脉会随着每次跳动而移动。医生计算每分钟静脉或动脉搏动的次数，肌肉收缩如此强烈，以至于手腕和脚踝都能可靠地感觉到脉搏。

**手法三:吸光。**光电容积描记术(PPG)利用光的反射和吸收特性。不同数量的血液吸收不同数量的光，因此血液量的变化可以通过光吸收来跟踪(因此当心脏跳动时)。通常，一个 LED 照亮皮肤，另一个设备测量有多少光被反射回来。反射光量的变化与心跳一致。

算法技术利用了许多相同的物理现象。

运动心率的算法测量

软件可以通过观察头部的细微运动来利用机械信号。血液从心脏到头部的运动导致头部以周期性运动的方式运动，运动心率算法试图仔细测量大致预期频率的周期性头部运动，然后反向工作并推断出心率(类似于上一节中前面的心率技术#2)。下图显示了算法流程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Schematic diagram of technique. Taken from [1]

步骤 a :跟踪头部和颈部。这是使用传统的计算机视觉技术完成的。

步骤 b :将头部的运动映射到一个 1D 轴上。作者发现，垂直方向最好地捕捉了由于心跳引起的不随意运动，因为水平方向的运动由不随意摇摆所支配。

步骤 c :即使在垂直方向，除了心率之外，还有很多运动源。例如，呼吸和姿势的变化也会移动头部和颈部。为了消除这些噪声源，作者使用传统的信号处理滤波技术，只针对与“正常”心率对应的频率范围内的运动。

步骤 d :即使滤波后，也只有部分垂直头颈运动是由于心率。作者将剩余的混合运动分解为子运动矢量，并假设最周期性的运动矢量对应于心率。他们使用标准的分解技术(主成分分析，或 PCA)来提取运动的主导方向和幅度。请参见下图，了解此步骤结果的直观描述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Examples of the first two eigenvectors for two subjects. Each white arrow on a face represents the magnitude and direction of a feature point’s contribution to that eigenvector. The eigenvector decomposition is unique to each subject. Taken from [1].

他们在私人数据集上的结果非常好:所有 18 名受试者在 70-90 秒窗口内的平均心率误差小于 4%，平均误差为 1.5%。

从颜色计算心率

2008 年引入了使用正常环境光的视频心率。[2]使用精心控制、精心收集的数据集，从面部轻微的颜色波动中检测心率(类似于上一节中的心率技术#3)。他们通过记录志愿者在精心控制的环境中静止不动的时候，避免了改变背景光和头部运动的问题。有趣的是，他们发现大多数心率信息是由数字 RGB 颜色空间中的绿色通道携带的，这与绿光比红光更容易被红细胞吸收的事实相一致。

2014 年[3]在 2008 年算法的基础上进行改进。他们在公共数据集[4]上进行评估，这意味着他们的结果更具可重复性。该数据集在照明和运动方面也有更多的变化，因此结果更接近于真实生活场景的代表。下面是他们方法的示意图，我将在下面详细介绍。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Framework for heart rate measurement from facial videos. Taken from [3].

步骤 1 :检测人脸，并通过视频帧进行可靠、稳定的跟踪。稳定地跟踪人脸是很重要的，因为本文使用人脸区域像素的平均绿色值来估计脉搏。不断变化的面部区域会导致对脉搏的不正确估计。

第二步:控制光照变化。如果您假设面部和背景由相同的光源照明，那么如果面部的颜色变化与背景的颜色变化同时出现，您可以忽略它们。

第三步:从第一步开始的面部跟踪处理了某些类型的面部运动(例如平移)，但其他类型的面部运动对于基于绿色的分析来说仍然是个问题(例如眨眼或微笑)。为了避免这个问题，作者简单地排除了包含许多有问题的运动的时间段。他们之所以能做到这一点，是因为他们测量了一个时间窗口(例如 30 秒)内的平均心率。他们通过观察颜色通道变化的时间段来识别这些有问题的区域。换句话说，如果你面部的平均颜色变化太大太快，他们(正确地)会怀疑。

第四步:最后，作者应用一个过滤器来排除不可信的信号信息。众所周知，心率在每分钟 42 到 240 次之间(并且通常存在于一个更窄的范围内)，因此比这更快或更慢的颜色变化被标准的信号处理技术排除在外。

他们在公共数据集[4]上使用 30 秒的窗口对 27 名受试者的结果平均在实际值的 3.5 次心跳之内，标准偏差不到 7。

我们要去哪里

在这项技术成为主流之前，仍然有许多挑战需要解决。一个问题是准确性，另一个问题是鲁棒性。这两个问题都可以通过更多的数据来解决，但在医疗情况下收集大型数据集总是需要高度谨慎，以保护患者信息和保持匿名。另一个问题是潜在的偏见:从数据中训练出来的算法需要对所有肤色的人都有效。

总之…

能够从视频中测量心率有望使现有的护理更容易获得，并开启了许多人在回路中不可能实现的应用。这篇文章有望揭开这项技术背后的一些算法巫术。

来源

[1] G. Balakrishnan，F. Durand 和 J. Guttag，从视频中的头部运动检测脉搏 ( 2013) ， IEEE 计算机视觉和模式识别会议，俄勒冈州波特兰，2013 年，第 3430–3437 页。doi: 10.1109/CVPR.2013.440

[2]弗克鲁伊塞、斯瓦桑德、纳尔逊。使用环境光的远程体积描记成像 (2008)。 Opt 快递。；16(26):21434–21445.doi:10.1364/oe.16.021434

[3] X. Li，J. Chen，G. Zhao 和 M. Pietikä inen，(2014)， IEEE 计算机视觉和模式识别会议，俄亥俄州哥伦布市，2014 年，第 4264–4271 页。doi: 10.1109/CVPR.2014.543

[4] M. Soleymani，J. Lichtenauer，T. Pun 和 M. Pantic，情感识别和隐式标记的多模态数据库 (2012)，载于 IEEE 情感计算汇刊，第 3 卷，第 1 期，第 42–55 页，1 月至 3 月。doi: 10.1109

人工智能与伦理:我们是不是让自己变得更困难了？

原文：https://towardsdatascience.com/ai-ethics-are-we-making-it-more-difficult-on-ourselves-2783e48c95d2?source=collection_archive---------21-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不久前，我们讨论了与脸书十年挑战赛有关的人工智能启示录。脸书邪恶吗？我们因为帮助自己走向灭亡而变得邪恶了吗？正如我们所说:不完全是。然而，道德似乎无情地联系在一起，而且理由充分。这是正在进行的关于人工智能和伦理问题系列的一部分。当然，没有比科幻小说更好的起点了。

长久以来，关于人工智能能做什么的问题已经抓住了我们的想象力。事实是，这个想法至少在概念上可以追溯到古希腊的。

从哲学的角度来说，人类的创造物能够做什么并不新鲜。也不知道我们该如何应对。然而，至少在现代意义上，艾萨克·阿西莫夫在将这个问题推向公众辩论方面发挥了作用。至少对于人工智能来说是这样。也就是机器人。机器人能做什么？我们如何阻止他们？

谢天谢地，阿西莫夫找到了解决办法。机器人三定律首次出现在 1942 年的短篇小说《逃避》中阿西莫夫提供了一套准则，这些准则是所有机器人编程的关键组成部分:

第一定律:机器人不能伤害人类，也不能坐视人类受到伤害。
第二定律:机器人必须服从人类的命令，除非这些命令与第一定律相冲突。
**第三定律:**机器人必须保护自己的存在，只要这种保护不与第一或第二定律相冲突。

够了吗？

人工智能和伦理的概念并不新鲜。也不应该。我们坚信，占据这个空间的任何人都应该思考、评估和考虑人工智能的伦理含义。今天如此，明天亦然。

机器人背叛它们的创造者的想法造就了伟大的科幻小说。然而，我们还没有完全实现。据《科学美国人》报道，这是一件好事，该杂志认为阿西莫夫定律根本不起作用:

虽然这些定律听起来似乎有理， 无数的论据 已经证明了它们的不足。 阿西莫夫自己的故事 可以说是对规律的一种解构，表现了他们在不同的情境下是如何反复失败的。 大多数尝试 起草 新指南 遵循类似的原则来创造安全、顺从和健壮的机器人。

ByChristoph Salge*对话我们2017 年 7 月 11 日*

我们现代对人工智能和伦理的关注通常不是机器人接管世界，而是更多地关注保护数据免遭盗窃，防止算法偏差，以及我们对待人工智能、数据等的负责任的方式。

没错，这比担心如何阻止我们建造天网稍微不那么冠冕堂皇；但是尽管如此，关于人工智能还有一些重要的问题&伦理问题，值得关注和研究。

最近的文章再次提出了这些问题。最近人工智能教育和伦理将在 2019 年扰乱社会的 4 种方式也许更尖锐:人工智能有可能是伦理的吗？

嗯，有可能吗？

是的。不是。但大部分是。也许吧。

这些天我们产生了大量的数据。很多。人们对我们如何处理这些数据有很多担忧。可以理解也很明智。然而，也有人担心我们可能弊大于利。或者至少从端点的角度来看，我们给自己制造了更多的困难。

去年在欧盟实施的《通用数据保护条例》( GDPR)就是这样一个例子，它让我们的事情变得更加困难。

从某些角度来看，很难反驳 GDPR 提出的观点。也就是说，组织在道德上有责任正确处理您的数据，而不是共享它，并保护它。理论上都是好东西。

然而，无论好坏，它也是一堵墙。毫无疑问，墙可以防止坏东西进入。但是，也能让好的东西出不去。

GDPR 成功做到的，部分是有意的，部分是无意的，是将数据与外界隔离开来。这是好事吗？嗯，不总是这样。

与这些想法形成对比的是，人们普遍指责和相信硅谷到处都有带有偏见的算法。某些群体受益于(至少在某些人看来)应该是不偏不倚的等式。

现在，考虑这些算法是如何创建的。或者更重要的是，它们是在哪里产生的。

隔离数据问题

过去，我们习惯于从单一来源获取数据。或者至少很少的来源。我们所说的“数据”是指成千上万比特的信息，这些信息放在一起形成了一个连贯的、可行的算法优化模型。

限制性数据保护法可能无意中造成的问题是，它使数据更难合法获得。出于对人工智能和伦理的担忧，我们前所未有地隔离了数据。保持它的限制性。

现在，如果你的脑海中浮现出一家电话销售公司的画面，希望创造一种模式，让他们知道晚餐时间该打电话给谁，打扰谁，这听起来可能不是一件坏事。如果你是一所大学的医学研究部门，建立一个模型来预测、诊断甚至治愈疾病，这可能是一件坏事。

过去，我们已经详细讨论了与开发和部署相关的“竖井问题”。专业团队能够对问题的一个特定方面表现出高度集中的注意力。然而，它不一定会产生最好的结果或最好的最终产品。

在竖井中处理数据也是如此。为了解决世界上的问题，甚至尝试这样做，我们需要访问大量的数据。随着越来越多的限制进一步封锁这些数据，我们面临着偏向我们自己的数据池的风险。

要明确的是:当我们谈论能够在一个地方收集数据时；我们指的是可以从单一来源访问的大量数据；但不是来源于单一来源的大量数据。

让我们烤面包吧

例如，我们可以去超市购物，面包、牛奶、肉和蔬菜都在一个地方。超市是许多不同类型产品(数据)的巨大来源。如果我们想建立一个算法来跟踪或预测人们购买的食品杂货，超市将是一个很好的起点。

为什么？因为我们知道那里的购物者会购买各种各样的商品，包括不同类型和不同种类的商品。我们将能够查看大量数据来构建我们的模型。

现在，让我们假设超市不存在。事实上，从送牛奶的人那里买牛奶，从蔬菜市场买农产品，或者从面包师那里买面包，可能被认为是“更安全”或“更好”的。然而，它远没有那么方便，也有更多的限制。

如果你从一个单一的来源购买面包:你要感谢这个单一的来源和这个来源的所有特征。那么，当我们只能方便地访问面包师的数据时，我们如何建立一个模型来跟踪杂货购买呢？

这就是我们如何无意中偏向我们自己的算法。

开放寄宿生数据

这并不是说算法或数据实践中不存在具有文化意义的社会偏见。他们绝对可以。然而，由于跨越某些障碍合法获取数据的难度越来越大，建立具有文化意义和跨文化的模型变得越来越困难。

因此，在硅谷建立的模型可能会反映硅谷的人口结构。在印度建立的模型可能反映了印度的人口统计，等等。我们面临的一个问题是，这种一刀切的方法很难从一组数据中有意义地创建一个模型，这些数据可能无法反映所有用户、所有组件，甚至无法达到现实的、理想的或有意义的结果，如果数据之前存在这样或那样的偏差。

同样，在大多数人看来，如果我们停止电话营销，这并不是一件坏事。如果我们用对人工智能和伦理的担忧来割掉我们自己的鼻子，以此来刁难我们的脸，这可能是一件坏事。

数据收集和分析的未来可能更像这样:在本地收集，在全球重复。当然，这是一个更漫长、更复杂的过程。然而，对增强数据保护的推动越大，访问限制就越多。

那我们该怎么办？

在很大程度上，关于人工智能和伦理的对话才刚刚开始。这是件好事。因为正如我们之前所说，我们认为在这个领域工作的人有责任继续问这些问题。也就是说，我们的行为符合道德吗？我们是否为围绕这些问题的公共空间和公共辩论贡献了有意义的思想和行动。随着技术的发展，这些问题需要继续提出。

在某种程度上，我们认为个人(和公司的责任)必须发挥作用。政府监管能够也将有助于指出正确的道路。然而，如上所述，它也有自己的缺点和不足。

有很好的理由要求像 GDPR 这样的监管，以及美国更严格的监管。然而，也有如上所述的无意的缺点。这也使得空间的新来者很难上手。这就把业务转移到了少数几个有手段、资源和关系的人手中。

在某种程度上，对人工智能的伦理处理可能最终取决于控制它的人。我们可能离真正担心机器人起义还有很长的路要走。谢天谢地。这并不意味着在这个领域不存在对坏演员的担忧。

我们有责任负责任地使用人工智能。这并不意味着一路上不会有错误、失误和灾难。不这样想是愚蠢的。然而，人工智能和伦理的问题也是一个基本的人类问题。就像编写实现阿西莫夫机器人三定律的代码的人一样。

当一个糟糕的演员“忘记”或省略了这段代码会发生什么？当那些负责保护数据的人试图滥用数据时会发生什么？不要太哲学化，但是围绕着人工智能有多道德的问题暂时将最终停留在人类行为的道德可能性的范围内。

当然，我们有自由意志。不像我们的机器人下属。暂时如此。

原载于 2019 年 5 月 9 日【https://introspectdata.com】*。*

人工智能失败了，他们教给我们关于新兴技术的什么

原文：https://towardsdatascience.com/ai-fails-and-what-they-teach-us-about-emerging-technology-e6978c8c4922?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些天来，我们已经对人工智能的奇迹般的便利变得麻木不仁。当我们打开网飞，立即找到完全符合我们口味的内容时，我们并不感到惊讶，当脸书的面部识别技术从一组照片中认出我们的脸时，我们也不会感到惊讶。十年前，如果我们听到一个朋友让一个看不见的人调暗灯光或报告天气，我们可能会找个礼貌的借口迅速离开。现在，我们几乎不眨眼——也许想知道我们是否也应该得到一个回声点。

我们已经变得如此习惯于人工智能悄悄融入我们日常生活的几乎每个方面，以至于我们不再有坚硬的墙阻挡我们对可能性的感知。我们不是怀疑人工智能能力的新主张，而是带着感兴趣的惊讶看待它，并思考——我可以用它吗？

但是当 AI 没有我们预期的那么好的时候会发生什么呢？当我们对人工智能有用性近乎无限的信念被放错了地方，当我们已经开始依赖的高科技工具在我们委派的责任的重压下开始崩溃时，会发生什么？

让我们考虑一个例子。

人工智能不能治愈癌症——或者它能吗？IBM 案例研究

当 IBM 的沃森在 2014 年首次亮相时，它吸引了投资者、消费者和技术爱好者。支持者夸口说，沃森的信息收集能力将使其成为医生的宝贵资源，否则他们可能没有时间或机会跟上医学知识的不断涌入。在同年的演示中，沃森分析了一系列症状，并提供了一系列潜在的诊断，每个诊断都根据系统的可信度进行了排名，并与相关的医学文献相关联，这让行业专业人士和投资者眼花缭乱。人工智能对罕见疾病的清晰认识及其提供诊断结论的能力既令人印象深刻又鼓舞人心。

沃森的积极印象刺激了投资。受到人工智能潜力的鼓舞，德克萨斯大学癌症中心 MD Anderson 与 IBM 签署了一份价值数百万美元的合同，将沃森的认知计算能力应用于抗癌。Watson for Oncology 旨在解析大量病例数据，并提供新颖的见解，帮助医生为癌症患者提供更好、更有效的护理。

不幸的是，这个工具并没有完全实现它的营销宣传。

2017 年，德克萨斯大学的审计师提交了一份刻薄的报告，声称沃森不仅花费了 MD Anderson 超过 6200 万美元，而且未能实现其目标。医生痛斥该工具倾向于给出错误的建议；在边缘报道的一个令人难忘的案例中，人工智能建议一名严重出血的患者接受一种会恶化其病情的药物。幸运的是，病人是假设的，没有真实的人受伤；然而，用户仍然对沃森明显的无能感到恼火，这是可以理解的。正如一位特别尖刻的医生在给 IBM 的一份报告中所说，“这个产品是一个 s-。我们买它是为了营销，希望你能实现这个愿景。我们不能在大多数情况下使用它。”

但是，该项目未能实现其宣传的目标，难道都是沃森的错吗？不完全是。

沃森的主要缺陷在于实现，而不是技术。当项目开始时，医生按计划输入真实的患者数据。然而，沃森的指导方针经常改变，以至于更新那些案例成了一件苦差事；很快，用户切换到假设的例子。这意味着沃森只能根据少数医生提供的治疗偏好和信息提出建议，而不是来自整个癌症中心的实际数据，从而扭曲了它提供的建议。

此外，人工智能辨别联系的能力只在一定程度上有用。它可以注意到患有某种疾病的患者、他们的状况和所开药物之间的模式，但从这种分析中得出的任何结论充其量都是脆弱的。人工智能无法明确确定这种联系是相关、因果还是仅仅是巧合——因此，在没有循证支持的情况下，提供诊断结论的风险。

鉴于缺乏用户支持和真实信息的短缺，沃森未能提供创新的答案有什么奇怪的吗？

沃森的失败教会了我们什么？

沃森的问题与其说是技术性的，不如说是人性的。我们可以从人工智能的崩溃中吸取三大教训:

我们需要检查我们的期望。

我们倾向于相信人工智能和新兴技术可以实现其开发者所说的。然而，正如沃森无法区分相关性和因果性所表明的那样，我们在营销文案中读到的潜力可能被过度夸大了。作为用户，在我们开始依赖新兴技术之前，我们需要对它有更好的理解和怀疑。

工具必须集成良好。

如果医生能够使用 Watson 界面，而不需要不断修改他们提交的新指南，他们可能会提供更多真实的患者信息，并比他们更频繁地使用该工具。这反过来可能让沃森更有效地完成了它被赋予的角色。考虑人类用户的需求和考虑工具的技术需求一样重要(如果不是更重要的话)。

我们必须小心

如果 MD 安德森中心的科学家们没有如此小心，或者他们盲目地跟随沃森，真正的病人可能已经处于危险之中。我们永远不能让我们对一个新兴工具的信心膨胀到看不到它应该帮助的人。

新兴技术的确令人兴奋，但我们也需要花时间来解决我们如何将这种看似强大的技术带入我们生活的道德和实践问题。至少，对我们的信仰多一点怀疑似乎是明智的。

原载于www.BennatBerger.net

人工智能公平性——不同影响消除器的解释

原文：https://towardsdatascience.com/ai-fairness-explanation-of-disparate-impact-remover-ce0da59451f1?source=collection_archive---------8-----------------------

人工智能公平性介绍

AI 公平性是机器学习从业者的重要课题。我们必须意识到，当用户与我们的模型交互时，可能会有正面和负面的影响。尽管我们对成功的度量倾向于性能度量(例如，准确性)，但是那些与我们的模型交互的人也可能考虑其他值。使用人工智能的工具正在被开发出来:批准或拒绝贷款；决定是否应该考虑对某人进行面试；确定某人是否适合接受治疗。这些结果对个人都有很大的影响。这就是为什么公平是一个如此重要的考虑因素。

为了确保公平，我们必须分析并解决训练数据中可能存在的任何偏差。机器学习发现并归纳数据中的模式，因此可以复制偏差。当大规模实现这些模型时，可能会导致大量有偏见的决策，伤害大量用户。

引入偏差

数据收集、处理和标注是我们在数据中引入偏差的常见活动。

数据收集

由于收集数据时使用的技术或人员，会引入偏差，例如，该工具仅在特定语言中可用
这可能是采样策略的结果，例如，收集的子群体代表性不足

加工和贴标

丢弃数据，例如子群体可能更常见地具有缺失值，并且通过丢弃那些样本，导致代表性不足
人类的标签，或决策者，可能有利于特权群体或加强刻板印象

差别性影响

不同的影响是评价公平性的一个尺度。它比较了两个群体中获得正产出的个体比例:一个非特权群体和一个特权群体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

计算方法是获得积极结果的非特权群体的比例除以获得积极结果的特权群体的比例。

行业标准是五分之四规则:如果非特权组收到的积极结果少于特权组的 80%,这就是不同影响违规。然而，你可以决定增加你的业务。

预处理缓解

一些人经常建议的减轻偏见的一种方法是简单地删除应该保护的特征。例如，如果你担心一个模型是性别歧视的，而你的数据集中有性别，那么就从传递给机器学习算法的特征中删除它。不幸的是，这很少能解决问题。

特权群体经历的机会可能没有呈现给非特权群体；每个组的成员可能无法访问相同的资源，无论是财务资源还是其他资源。这意味着它们的环境不同，因此，它们对于机器学习模型的特征也不同，不一定具有可比性。这是系统性偏见的结果。

让我们以一个玩具为例，一个非特权群体为蓝色，一个特权群体为橙色。由于他们无法控制的环境，蓝色倾向于降低我们感兴趣的特征的价值。

我们可以为两组中的每一组绘制特征分布图，并直观地看到这种差异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您要随机选取一个数据点，您可以使用它的特征值来预测您从哪个组中选择。

例如，如果您选择一个特征值为 6 的数据点，您很可能会认为相应的个体属于橙色组。相反，对于 5，你会认为他们属于蓝色。

特征不一定是预测预期结果的有用属性。但是，如果训练数据的标注倾向于橙色组，则要素的权重会更高，因为它可用于推断分组。

举个例子，一个人的名字不一定会影响他们的工作能力，因此，也不应该影响他们是否被录用。然而，如果招聘人员无意识地有偏见，他们可能会从名字中推断出候选人的性别或种族，并将此作为他们决策的一部分。

不同冲击消除器

不同影响移除器是一种预处理技术，用于编辑将用作特征的值，以增加组之间的公平性。如上图所示，一个特征可以很好地表明一个数据点可能属于哪个组。异类影响移除器旨在移除这种区分组成员的能力。

M. Feldman、S. A. Friedler、J. Moeller、C. Scheidegger 和 S. Venkatasubramanian 在论文中介绍了该技术。

该算法要求用户指定一个repair_level，这表示您希望组的分布重叠多少。让我们来探讨一下 1.0 和 0.8 两种不同修复级别的影响。

修复值= 1.0

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该图显示了使用修复级别为 1.0 的DisparateImpactRemover后，非特权组蓝色和特权组橙色的特征的修复值。

您不再能够选择一个点并推断它属于哪个组。这将确保机器学习模型不会发现群体偏见。

修复值= 0.8

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该图显示了使用修复级别为 0.8 的DisparateImpactRemover后，非特权组蓝色和特权组橙色的特征的修复值。

分布并不完全重叠，但是您仍然很难区分成员资格，这使得模型很难做到这一点。

组内排名

当特征显示两个群体之间的差异时，我们假设他们有不同的机会和经历。然而，在群体中，我们假设他们的经历是相似的。因此，我们希望一个人在他们的组中的排名在修复后得到保留。不同的冲击消除器保持组内的等级排序；如果一个人有蓝色组的最高分，那么在修复后，他仍然有蓝色组的最高分。

构建机器学习模型

一旦实现了不同的影响消除器，就可以使用修复的数据来构建机器学习模型。不同的影响指标将验证模型是否无偏(或在可接受的阈值内)。

偏差缓解可能会导致较低的性能指标(例如准确性)，但这并不一定意味着最终模型会不准确。

这对人工智能从业者来说是一个挑战:当你知道你有偏见的数据时，你会意识到你正在建立的模型不一定反映现实，也不一定反映你希望坚持的价值观。

示例笔记本

作为我对DisparateImpactRemover调查的一部分，我使用玩具数据集创建了一个示例笔记本。它演示了以下内容:

计算不同的影响(使用 Python 和 AIF360)
构建简单的逻辑回归模型
创造一个BinaryLabelDataset
用两种不同的维修级别执行DisparateImpactRemover
验证组内排名的保留

这个可以在 GitHub 这里找到。我们用来实现这个算法的库是 AI Fairness 360 。

最后的评论

公平的概念是难以置信的微妙，没有任何算法方法来减轻偏见是完美的。然而，通过考虑我们用户的价值，并实施这些技术，我们正朝着一个更公平的世界的正确方向前进。

艾:假装它，直到你成功

原文：https://towardsdatascience.com/ai-fake-it-till-you-make-it-d99ec63af543?source=collection_archive---------9-----------------------

经常有人抱怨那些假装在做人工智能但实际上并没有做的公司。事实是，有时他们只是提前计划——这实际上是解决重大挑战的好方法。让我们看看它如何帮助以及如何(真正)正确地做这件事，或者，如何建立一个 MLMVP(机器学习最小可行产品)！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

What if AI was just a big scam? Taken from “Scooby-Doo, Where Are You!” episode “Hassle in the Castle”

AI 到底给你带来了什么？

等等:对了，你当初为什么要做 AI？人工智能(或计算机视觉或机器学习或 NLP 等)会给你带来什么？

有时，我喜欢将项目视为“计算机辅助决策”，而不是人工智能/机器学习，我一直记得，正如凯西·科济尔科夫所说，机器学习“只是”一个事物的标签。

一个人脸检测算法？东西标签。
视觉金属疲劳检测仪？东西标签。一个聊天机器人，它的首要任务是理解用户想要说什么？东西标签。

许多人工智能项目始于一个给事物贴上正确标签的程序。

据我所知，人类已经在不用机器的情况下做了大量的标签工作。机器学习是一个相对较新的计算机科学领域，但这个世界早就存在了。我们是如何解决给我们的神经网络的任务的？

我们要么手工做，要么通过大量编程来做。如果你记得不错，深度学习使特征提取独立于先验知识，这是非常酷的……当它工作的时候。

实际上，机器学习给了我们 3 个重大突破:

自动特征提取，只要我们给神经网络提供足够的例子。这意味着与手动特征提取相比，更快的构思(或训练)；
即时回答(你的里程数可能会有所不同，但对于我们在 NumeriCube 的工作，我们通常希望算法能在 0.5 秒内做出回答)
缩放。大规模并行处理能力。ML + Cloud =大规模可扩展的事物标签解决方案。人类无法如此快速地扩展。

这是机器学习算法相对于人工干预的 3 个主要优势。

在理想的世界里…

任何人都需要什么来建立一个东西贴标机？

大量示例数据
首先是最先进的分析，又名人工智能专业知识(这是经验说话的地方:)
很多时候又不紧不慢地走向漫长的试错之路。

很简单，不是吗？通常，数据科学应用程序构建流程如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The usual Data Science workflow

显然，你需要数据来开始。在一个理想的世界里，你只需要为你的问题建立或者请别人建立一个干净的数据集，然后开始处理它。然而，这并不总是可能的，事实上，很多时候根本不可能。

示例数据？我的个人经验是，当一个项目从一个已经存在的数据集开始时，大约 99%将被丢弃，主要是因为实验室数据实际上从未以与生产数据相同的方式获得。

例如，考虑一个图像识别应用程序。你可以在 Flickr 上从数百万张已经标注的图片中训练它，对吗？嗯，除了当你的普通用户用她的智能手机拍照时，结果不会看起来像你建立训练集的整洁的 Photoshop DSLR+flash 图片。该死的。

因此，您有一个业务问题，您非常确定您可以用足够的数据来解决它，并且您知道您将使用的最佳数据来自生产系统。

换句话说，为了以正确的方式收集数据，您需要您的系统处于生产状态！看起来像是鸡和蛋的问题！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Sebastian Staines on Unsplash — Does the data come before the app, or the app before the data 🤔

在谷歌工作怎么做到这一点？

对于大平台(想想谷歌、脸书、苹果等)，很容易将数据收集过程与数据科学过程分开。为什么？因为这些公司的背包里已经有了庞大的数据收集工作流程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

How big companies are doing data science (thanks to other apps)

在某种程度上，谷歌、脸书、亚马逊等花了 10 多年时间来开发数据收集应用。例如，至少从 2008 年开始，脸书就允许在你的照片上标记你的朋友！他们现在有一个大规模的面部检测数据集…它工作得很好，因为他们的数据收集应用程序已经包含了服务。

但是如果你想从零开始建立一个 AI 服务，你不能这样做。如果你还没有数据，你必须一步到位。

旁注:实际上，这是大多数拥有自动车辆数据集收集的大公司的情况——这可能是他们在这方面如此挣扎的原因:除了特斯拉，他们在开始研究这一主题时没有数据收集流程。

如果你正在阅读这篇博文，而你不是谷歌，那么你可能也没有一个好的数据集可供使用。那么，你如何能在构建一个人工智能应用的同时收集数据呢？

等等:你现在真的需要实时和可伸缩性吗？

答案是:假的。用人类来做。

应用程序构建循环现在看起来更像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The loop for collecting data while training an algorithm

通过这种方式，在图的左侧，您将得到:

即时回答(除非你有一群粘在电脑屏幕上的奴隶，回答一个给东西贴标签的问题可能需要一秒钟以上)；
缩放(除非你统治的国家可以强制招募一群奴隶，这超出了本故事的范围；还有，我们不鼓励)；

现在有问题吗？您的应用程序真的需要实时运行吗？如果你正在建造一辆自动驾驶汽车，答案是很可能是的，但是我们有那么确定吗？为什么某种自动驾驶的车辆不能由人驾驶(即使是远程驾驶)？

在大多数应用程序中，从质量控制到情感分析，实时是一个很大的优势，但如果开始时没有实时呢？真的会阻止你的应用被使用吗？

大多数情况下，机器学习应用的 MVP 应该避免实时处理。

一旦你设置你的应用程序来做这种人在回路中的方法，你只需要收集一段时间的数据，让你的数据科学家工作，同时已经满足了早期阶段的用户。

不要在这方面惨败！

即使我们鼓励这种方法，也有一个巨大的警告:如果你的机器学习算法从来没有工作过，你会悲惨地失败。因此，为了以这种方式执行事情，您必须确保能够在某个时候交付它！

然而，人类执行真实任务的主要优势是，在适当的条件下，你非常确定机器学习算法将最终赶上人类的精确度。为什么？

如果您的操作员在信息有限的情况下工作(即使用与你的算法相同数量的信息)，那么你将非常确定你能找到相关的艺术状态来给你再保险。图像识别竞赛或 NLP 竞赛将让您大致了解这些任务有多困难。
如果您的操作员只接受了几分钟的示例培训，并且不需要专业知识来执行任务，那么对于机器学习算法来说，挑战可能不会太难。
通过建立这条管道，您将不得不机械地以一种既适合您的操作人员(因此也适合您的数据科学家；))并且可以在生产中复制，因为你已经在生产了。

这样做让我改变了我们在 NumeriCube 开发的大型计算机视觉应用的数据采集策略。这可能节省了数千小时的标签！

我们正在发布我们在 NumeriCube 用于日常计算机视觉项目的工具:视觉数据收集、注释、存储和管理。如果你喜欢这篇文章和/或想保持联系，我很乐意在评论中听到你的意见！

AI——恐惧、不确定和希望

原文：https://towardsdatascience.com/ai-fear-uncertainty-and-hope-3162066184bd?source=collection_archive---------25-----------------------

如何应对人工智能并开始成为它的一部分

如果你今天打开一个新闻网站，你几乎肯定会看到一篇关于人工智能、机器人、量子计算、基因工程、自动驾驶汽车、自然语言处理和其他技术的文章，这些文章来自名为“第四次工业革命”的盒子。对这些技术进行评级毫无意义，因为它们都有可能永远改变我们的世界。然而，人工智能已经涌入所有其他技术。通过掌握大数据来促进模式识别或预测是人工智能的固有品质，并经常被用于支持其他技术中的突破性发现。

我曾经听到一位驾驶教练把握着方向盘的手比作手中有枪，因为开车是多么危险。人工智能也是危险的，我们也需要面对人工智能的黑暗面，而不仅仅是陶醉于它带给我们的辉煌利益。其他的都是鲁莽驾驶。

恐惧和不确定性

随着对人工智能的接触越来越多，我们人类的身份和智力正在受到挑战。AI 什么时候会变得比我们聪明？这可能吗？有多少工作会被 AI 接管？会创造等量的新工作吗？我公司的市场会受到影响吗？我能做些什么吗？到目前为止，所有的担忧和保留都是众所周知的。每一个关注点都有足够的材料来写一篇文章。

如何应对 AI

应对人工智能挑战的一种方式是否认。简单地把这一切贴上一个会过去的大炒作的标签，为下一个大事件腾出位置。

好吧，AI 目前正在流入私人个人和企业的日常生活中，并且很有可能我们所有人从今天早上起床起就已经与 AI 接触过几次(有意或无意)。五年前，情况不会是这样。

在我看来，已经实施并完全融入我们生活的人工智能解决方案的数量，加上在世界各地推出的创新和开创性新产品的高频率，表明否认不是选项。

你手机上的 Face ID，谷歌地图，亚马逊产品推荐，谷歌翻译，你手机上的个人助理，都是使用人工智能的产品，它们已经成为我们生活中不可或缺的一部分。

那么，怎么做才能坐上 AI 的列车呢？你如何防止被落下？

认识人工智能

当开始熟悉人工智能时，认识到基于规则的专业知识和基于经验的专业知识之间的区别是很重要的。你可以认为这两者都是人工智能，因为基于规则的系统也可以包含“智能”。基于规则的系统包含了开发它的人的知识。基于经验的(ML)系统通过由制造它的人控制的学习过程获得它的知识。通过将输入与预期输出进行比较，调整神经网络(NN)并再次尝试数百万次来训练它。这意味着一个 ML 解决方案可以获得比它的创建者更多的关于特定任务的知识和经验。这才是重点！传统的基于规则的人工智能软件永远不会比设计它的人更聪明，而 ML 软件解决方案却可以。

两个简单的例子:

基于规则的计算器

基于经验的面部识别

计算器的输入是非常结构化的，并且处理规则可以以直接的方式进行逻辑描述。数字“1”永远是“1”，而不仅仅是“一种 1”。

另一方面，在面部识别中，对象在结构上更加不清楚。每张脸都有不同的大小、形状、发色，在某些情况下，你甚至只能看到一只耳朵。

使用 ML 制作计算器是非常低效的，过去的经验表明，使用传统的基于规则的方法来创建面部识别系统几乎是不可能的。

当你在手机上启动一个应用程序或在笔记本电脑上启动一个应用程序时，如果你考虑它是哪种应用程序，它将帮助你更加了解人工智能。是计算器(基于规则)还是面部识别(ML)类型？请注意，AI/ML 解决方案通常是作为基于规则的解决方案中的附加支持功能来实现的。相机应用程序就是一个很好的例子。相机应用程序中的一些功能是使用基于规则的逻辑解决的，其他功能(如面部识别)是使用 AI/ML 解决的。

一旦你发现了一个 AI/ML 函数，试着弄清楚它是如何被训练的。使用了什么样的数据？想象一下你会怎么做。培训数据是否可用，或者是否有必要/可能创建模拟数据？要做到这一点，您不必成为 IT 专家。只要你出于纯粹的好奇，稍微多关注一下它是如何工作的，你大脑中自己的私人神经网络就会自动识别人工智能功能，这又会增加你对它的认识。

想象你自己的人工智能解决方案

为人工智能未来做准备的另一种方式是开始想象你自己的人工智能解决方案。在你的日常生活中，在家里和工作中，花一些时间玩玩人工智能的想法。你能找出一个能被人工智能执行或支持的功能吗？发挥你的想象力，这甚至可能成为你未来某处的新工作。如果你有点创造力，或者喜欢寻找优化你的私人或职业任务的方法，那么这实际上会很有趣。像这样玩人工智能概念将帮助你获得对这个话题的兴趣，它将支持你形成自己的关于什么是好的人工智能，什么是压制和危险的人工智能的观点。

跳出框框思考，呆在现实的框架内(实际上非常宽)。也许你或你的组织将成为下一个谷歌人工智能影响挑战赛的受资助者之一。

希望

当今社会谁最聪明？统治我们国家的是同一批人吗？拥有 180 的智商会让你凌驾于他人之上吗？世界上最富有的 10 个人和智商最高的 10 个人是一样的吗？为什么不呢？我认为人类不仅仅是智慧，我想我们大多数人都是这样认为的。我们的生活不仅仅是被智力支配，甚至是控制。然而，人工智能挑战我们去意识到其他的组成部分——人的因素。意识、同理心、好奇心以及巨大的自我克制和求生意志。

人工智能需要监管层面的法律和行为规则，就像我们社会的任何其他重要和常见的领域一样。幸运的是，今天有数以千计的人工智能项目旨在改善全世界人类的生活。

就个人而言，我们都需要参与，我们已经这样做了。问题是。你是否有意识地参与——这是你的选择。

有趣的链接。

自己试试这个游戏:这是一个连接四个游戏。它是由 GraphPipe 项目开发的，作为他们 ML 模型部署项目的一个用例。如果你对其背后的细节感兴趣，安东尼·杨写了一篇关于它的好文章。

克劳斯·施瓦布关于第四次工业革命的文章

谷歌云人工智能历险记的国玉峰很好地描述了机器学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Kristopher Roller on Unsplash

算法交易的人工智能:重新思考棒线、标签和平稳性

原文：https://towardsdatascience.com/ai-for-algorithmic-trading-rethinking-bars-labeling-and-stationarity-90a7b626f3e1?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image from https://www.tradingsetupsreview.com/trading-charts-without-time-range-tick-volume/

在一系列文章中，我应用了一种非常简单的方法来预测金融时间序列:利用整个数据集，使用滑动窗口方法生成 X 和 Y，将其分为历史数据和样本外数据，训练一些机器学习模型将 X 映射到 Y，并回测简单的多空策略。但是正如我在的上一篇博客文章中所展示的，我开始意识到,“正常”静态数据(如图像、文本、音频、表格数据，甚至不太混乱的时间序列)的管道不能用于金融时间序列分析。

问题不仅仅在于数据是随机的，难以预测。这完全是对其内在本质的误解，这影响了数据集准备、交叉验证、特征选择和回溯测试。在本文中，我们将专注于众所周知的“酒吧”，它们有什么问题，以及如何正确地烹饪它们，以便稍后在机器学习模型中使用。在重建了这些条之后，我们将会发现一些新的方法来构建输入和输出。当然，我们将从统计和经验两方面比较这些方法。我在这里展示的观点受到了《T2》洛佩兹·德·普拉多 的书的很大影响，我推荐任何想深入了解更多细节的人阅读这本书。您还可以在这里找到所有代码:

[## rach nog/高级深度交易

大部分实验基于“金融机器学习的进步”一书- Rachnog/Advanced-Deep-Trading

github.com](https://github.com/Rachnog/Advanced-Deep-Trading/tree/master/bars-labels-diff)

蜡烛怎么了？

我们习惯于使用所谓的“蜡烛线”数据，这些数据代表特定时间段(从几分钟到几天)的开盘价、最高价、最低价和收盘价。这种方法有一个主要问题:市场不遵循这个时间规则。人们不会在某个时间或每隔 N 分钟/小时下单和交易。此外，由于现代市场是由算法驱动的，它们肯定会在需要的时候下注，而不是在 N 秒过后下注。如果我们基于恒定的时间间隔对历史数据进行采样，会发生什么呢？当交易非常活跃时，我们会欠采样，而当交易不活跃时，我们会过采样。最后但并非最不重要的是，从上面提到的所有情况来看(根据经验)，按时间采样的棒线遵循**“坏的”统计特性**:它们具有低序列相关性，具有异常值，并且不能通过分布正态性检验。

解决方案在于根据另一种规则对这些棒线进行采样:

**分笔成交点:**当出现 N 个分笔成交点时，对 OHLC 棒线进行采样
**成交量棒线:**当某项资产的 X 股交易时，对 OHLC 棒线进行取样
**美元棒线:**当资产以 Y 美元(或其他货币)交易时，对 OHLC 棒线进行采样
不平衡棒线:当价格或买入/卖出的涨跌比率偏离我们的预期时，对 OHLC 棒线进行取样

从下面一个时间序列样本的图片中，你可以直观地了解这些条形是如何产生的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison of some of the above-mentioned bars on IVE ticker

上面提到的所有方法都是为了创建含有等量信息的棒线:分笔成交点有相同的交易数量，但是交易量可能有很大的不同，所以我们可能更好地选择交易量相同的棒线作为样本。美元棒扩展了这个想法链，使每个棒都有相同的市场价值。不平衡棒线可以应用于分笔成交点、成交量或美元棒线。让我解释一下分笔成交点不平衡棒线背后的想法。不平衡分笔成交点是遵循相似价格趋势的 N 个分笔成交点的样本。

正如你所看到的，所有这些想法都严重依赖于市场微观结构来重建我们已经非常了解的时间序列。让我们来看看这些酒吧是否真的像看起来那么好。他们没有太多的市场微观结构数据的来源，有出价，要价和大小列，我可以找到这个相同主题的教程，但我会自己实现大多数方法。这里我们有每 10 分钟采样一次的时间棒线，每 100 根棒线采样一次的价格棒线，每 10000 笔交易的交易量和每 1000000 美元的交易量(几个月内):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison of distributions of returns with different bar rules

统计属性呢？下面你可以找到不同参数的不同棒线的比较，以及它们的序列相关性、标准差和正态性检验。

正如我们所看到的，对于每个参数**，替代棒线比时间棒线表现得更好**(除了方差之外，方差无论如何都非常低)。我以前怎么会用时间条呢？😦

！更新！

GitHub 用户https://github.com/mpugna对代码进行了修复，这使得时间条仍然非常吸引人:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自相关是-0.079，Jarque-Bera 78692.65，Shapiro 0.7924。常态测试仍然比另类酒吧差，但至少现在看起来更有吸引力。

如何正确标注数据集？

在我之前的文章中，我预测了价格在 N 根棒线通过后的变化。例如，我想预测 30 分钟后价格将如何变化，并根据预测做多或做空。但这真的是从业者和交易者的行为方式吗？当他们在一些信号后开仓时，他们会记住他们的止盈目标和止损目标。这意味着，我们更关心这 30 分钟内发生了什么，而不是当它们过去时会发生什么。此外，由于市场的波动，我的利润和亏损目标可能会随着时间的推移而变化。此外，由于我要在市场价格变动的某个方向下注，我需要知道我应该下多少注。最后但同样重要的是，从我的模型的角度来看，我对我的预测的信心感兴趣，不要在随机信号上浪费时间。

因此，我对一种新的标记方法感兴趣，它包括:

考虑收益的滚动波动率
考虑到止损止盈
告诉我的不仅仅是一方，还有赌注的大小

动态阈值

我们先从收益的波动性说起。让我们考虑一个简单的框架，其中我们仍然有一个固定的预测范围，我们想标记三个类别:如果当前价格和未来的回报大于某个阈值 T (如 T = 0.1 时 r = 0.2)，小于-T(如 T = 0.1 时 r = -0.12)，或不显著(如回报的符号小于 T，如 T = 0.1 时 r = 0.05)。我们可以固定整个数据集的 T 值，也可以使用回报率的标准变化来自适应地计算 T 值。让我们检查一下这个想法，选择固定的 T = 0.025 阈值用于 60 个分笔成交点的水平回报，并将其与 T 进行比较，这等于最近 100 个回报的绝对值的标准偏差:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Histogram of labels for fixed threshold (left) and volatility driven labeling (right) for the fixed horizon

正如我们所看到的，基于波动性的标记仍然不是很平衡，但固定阈值标记基本上使大多数标记为 0 (其中-1 表示下降，1 表示上升，0 表示无显著变化)。我只想注意，这些标签是在使用滑动窗口在条形上循环时创建的，这不是采样数据点的最佳方式，但我们稍后将讨论这个问题。

三重屏障标记

现在让我们研究另一种用于标记数据集的适应性，这种适应性在书“三重屏障方法”中被称为。我们想知道接下来的 N 根棒线会发生什么——我们会遇到止损的情况吗？或者我们应该获利？或者价格会有一点波动，所以我们最好不要下注？或者甚至是这些事件的组合？我们可以用三个障碍来描述这三种情况:两个水平障碍(代表止损和止盈)和一个垂直障碍，这意味着最终的地平线(在我们前面的例子中是固定的地平线)。当然，这些水平障碍不应该是对称的(例如，你是一个激进的玩家，你的止损与止盈目标相比相当低)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image from http://www.quantresearch.info/Innovations.htm

赌注的大小和元标记

好的，我们有一些聪明的方法来标记价格是上涨还是下跌，考虑到波动性和我们的止损和获利目标。但我们仍然不知道我们应该赌多少(以及我们是否应该下注)！Lopez de Prado 提供了两步标记，其中一个标记负责方向，另一个标记负责赌注的确定性(以及赌注的大小):

将每个样本标记为将首先上涨或下跌的样本，使用动态阈值作为初步止损和止盈屏障(基本上我们想知道价格将首先上涨还是下跌)
了解这一点后，我们希望根据我们的预定义止损和止盈目标下注或不下注，因此，如果我们的第一个标签显示“上涨”，我们将检查我们是否也会达到止盈目标，如果我们得到确认，我们将第二个标签设置为 1。如果我们有第一个标签“下跌”,我们将触及止损——我们仍将其标记为 1。只有当我们在第一个标签的方向和止损或止盈之间没有对应关系时，我们才会将它标记为零。

最酷的是。在准备数据集时，我们在我们的特征集上训练一个预测边(标签 1)的模型。我们还训练了第二个模型，它将所有以前的特征作为输入，并标记一个特征。因此，在根据第一个模型预测了方向之后，我们希望知道第二个模型的确定性水平，并根据其从 0 到 1 的输出，我们进行适当的押注。例如，如果第一个模型显示“上涨”，但第二个模型显示 0.05 左右，这意味着即使价格也会上涨，很可能我们不会达到止盈目标。

内存和平稳性呢？

正如我们所知，在将数据传递到任何机器学习模型之前，我们需要以某种其他方式规范化或标准化或使其稳定。当我们谈论金融时间序列时，我们通常会进行一些滞后的微分(通常滞后 1，我们称之为回报)。它确实使时间序列平稳，但是这个时间序列中应该有一些记忆的信息发生了什么？就这么被消灭了！为什么？由于滞后 1 的这种差异，它看起来仅落后一个棒线，对之前发生的事情一无所知，因此为了平稳起见，我们对历史时间窗口中的所有棒线都这样做。我们仍然希望有一个平稳的时间序列，但不删除其中所有有用的内存…如果我们只能用小于 1 的阶来区分它会怎么样？事实上我们可以，这叫做**，分数阶微分**。我将把更多的细节留给主书或其他资源，现在让我们相信我们可以区分滞后 0.1、0.3 或 0.75 的时间序列，这应该会给我们更多一点的内存。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Backshift operator of arbitrary order (from Wikipedia)

让我们通过 ADF 测试来衡量对数价格与不同种类的差异和平稳性之间的相关性保留了多少信息:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ADFs and correlation for tick bars (left) and time bars (right)

正如我们所见，在这些分笔成交点时间序列中，分数阶微分不会给我们更好的平稳性，但确实有更多的相关记忆。在时间条的情况下，我们可以使用 0.5–0.75 阶微分来稍微改善我们的数据**。**

把它全部输入神经网络

好了，现在是时候看看当我们试图用新的目标来塑造我们的新酒吧时会发生什么。我将使用非常简单的 softmax 回归作为分类算法(剔除正则化)，并将历史窗口内的收盘价、成交量和回报率标准化为特征。Keras 中的模型看起来像:

main_input = Input(shape=shape, name='main_input')
x = Flatten()(main_input)
x = Dropout(0.25)(x)
output = Dense(3, activation = "softmax")(x)

相应地，长窗口长度为 100，短窗口长度为 50，预测范围为 25 小节。阈值 T = 0.01。数据集将由刻度条组成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tick bars for a train (blue), validation (yellow) and test set (green)

正如你所看到的，在集合之间有一些自由空间，这被称为*“禁运”*并且有助于确保我们的模型在未来会工作得更好。我们稍后将详细研究它，现在让我们把它看作一个更现实的拆分场景。为了处理类别不平衡，基于训练集和验证集计算每个类别的权重。

固定阈值与波动阈值与三重屏障

我们的基线将只是对价格上涨或下跌或不超过阈值 t 的预测。分类报告将如下(0 级代表下跌，1 级代表不显著的上涨，2 级代表上涨):

 precision    recall  f1-score   support

           0       0.09      0.32      0.14       899
           1       0.90      0.36      0.52     11116
           2       0.06      0.41      0.11       765

   micro avg       0.36      0.36      0.36     12780
   macro avg       0.35      0.36      0.25     12780
weighted avg       0.79      0.36      0.47     12780

印象不深，对吧？而不是精确度/召回率的不平衡以及数据集标签的不平衡。那么波动阈值呢？

 precision    recall  f1-score   support

           0       0.39      0.33      0.36      4922
           1       0.20      0.30      0.24      2896
           2       0.38      0.34      0.36      4962

   micro avg       0.33      0.33      0.33     12780
   macro avg       0.33      0.32      0.32     12780
weighted avg       0.35      0.33      0.33     12780

数字越来越好。我们在精确度/召回率方面没有不平衡(这意味着分类器是公平的，随着算法本身和功能的改进，我们将在精确度方面有值得信赖的改进)，数据集不平衡现在不是那么关键。好了，让我们试试三重屏障，现在根据波动率在滚动 T 的值处对称止盈止损，就像上一个例子一样:

 precision    recall  f1-score   support

           0       0.50      0.28      0.36      6225
           1       0.48      0.47      0.47      6189
           2       0.02      0.22      0.04       366

   micro avg       0.37      0.37      0.37     12780
   macro avg       0.33      0.32      0.29     12780
weighted avg       0.48      0.37      0.41     12780

平均结果大致相同，因为等级 2，这里代表接触垂直线的障碍，人口非常少。如果我们避免这种情况，基于止盈和止损的上下波动的精确度将会高于前面的例子，但精确度/召回率会出现轻微的不平衡。将这些预测作为二元预测模型的元标签，该二元预测模型将学习赌注的一面，它将具有以下准确度:

 precision    recall  f1-score   support

           0       0.03      0.58      0.06       360
           1       0.98      0.52      0.68     12420

   micro avg       0.52      0.52      0.52     12780
   macro avg       0.51      0.55      0.37     12780
weighted avg       0.95      0.52      0.66     12780

分数微分与整数微分

现在让我们用 d = 0.5 来替换具有微小差异的对数价格的特征集合中的回报，并看看相同的实验会发生什么。基线(还是没什么印象):

 precision    recall  f1-score   support

           0       0.09      0.47      0.15       899
           1       0.88      0.45      0.60     11116
           2       0.05      0.16      0.08       765

   micro avg       0.44      0.44      0.44     12780
   macro avg       0.34      0.36      0.28     12780
weighted avg       0.78      0.44      0.54     12780

波动范围已经比“正常”分化好一点:

 precision    recall  f1-score   support

           0       0.41      0.37      0.39      4922
           1       0.24      0.28      0.26      2896
           2       0.40      0.40      0.40      4962

   micro avg       0.36      0.36      0.36     12780
   macro avg       0.35      0.35      0.35     12780
weighted avg       0.37      0.36      0.36     12780

最后，三重屏障及其元标签:

 precision    recall  f1-score   support

           0       0.49      0.37      0.42      6225
           1       0.49      0.44      0.47      6189
           2       0.04      0.25      0.06       366

   micro avg       0.40      0.40      0.40     12780
   macro avg       0.34      0.35      0.32     12780
weighted avg       0.48      0.40      0.43     12780 precision    recall  f1-score   support

           0       0.03      0.53      0.06       360
           1       0.98      0.54      0.69     12420

   micro avg       0.54      0.54      0.54     12780
   macro avg       0.50      0.54      0.38     12780
weighted avg       0.95      0.54      0.68     12780

我想我们确实可以确认，分数阶微分是一个非常有用的变换，它允许从原始时间序列中保存更多的信息！

结论

在本文中，我们回顾并重新定义了我们过去在金融网站上看到的经典酒吧是如何创建的。我们发现了它们的统计特性，我们真的同意成交量或美元棒线比标准的时间棒线更有吸引力。我们还建立了几种更现实的方法，根据不断变化的波动性和预定义的止盈止损目标来标记产出。最后但并非最不重要的是，我们回顾了一种方法，使金融时间序列平稳，而不会失去所有的记忆。我们还用数据和标签评估了所有这些实验，我们实际上可以看到，所有这些有意义的改进确实使结果更加稳定和充分。当然，这不是一个神圣的圣杯，但至少它不像我和许多其他人以前做的那样愚蠢……:)不要忘记查看我的库中的代码！

附言
如果你觉得这个内容有用，有观点，可以在 Bitclout 上支持我。关注我还可以在脸书上看到太短的人工智能文章，在 Instagram 上看到个人信息，在 Linkedin 上看到！

人工智能检测癌症

原文：https://towardsdatascience.com/ai-for-cancer-detection-cadb583ae1c5?source=collection_archive---------26-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Credit: pixabay

CANCER——这个词几乎总能引起任何人的恐惧。在新加坡，据估计每 4 到 5 个人中就有一个人会在一生中患上癌症，其中乳腺癌在女性中居首位(T5【来源】T6)。虽然令人欣慰的是，随着医疗保健的进步，癌症不再是每个病人的死刑，但治疗费用过高。事实上，晚期癌症治疗的费用从每月 8k 美元到 17k 美元不等( 来源 ) 。解决办法？不，不是人寿保险，而是……及早发现！

使用来自 kaggle 的乳腺癌数据集，我的目标是建立一个机器学习模型来区分恶性和良性病例。

概观

该数据集由 569 个病例组成，其信息跨越从乳腺肿块提取的细胞核的数字化图像上的 33 个特征。

Rows     :  569
Columns  :  33

Columns : 
 ['id', 'diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean', 'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se', 'fractal_dimension_se', 'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst', 'smoothness_worst', 'compactness_worst', 'concavity_worst', 'concave points_worst', 'symmetry_worst', 'fractal_dimension_worst', 'Unnamed: 32']

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集有些不平衡。

B    357
M    212

功能选择

在 33 个特征(又名列)中，并非所有特征对恶性肿瘤的确定都有同等贡献。Random forest 有一个函数调用 feature_importance 来帮助识别重要的。

# Plot the top 10 features based on its importance
(pd.Series(model.feature_importances_, index=X.columns)
 .nlargest(10)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下是按降序排列的 10 大特征。

这 10 个特征分布的直观表示揭示了其中恶性病例的一些“钟形曲线”模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们真的需要 10 项功能吗，或者可以进一步减少吗？这些前 10 个特征与我们的目标(“诊断”)的关联热图偶然显示其中 5 个特征彼此之间有很强的相关性。这意味着我们可以选择一个作为代表，并消除其余的。它们都与周长、面积和半径有关，是有意义的。(体积不包括在内，因为数据集属于 2d 信息，否则它很可能在其中。)如果您想知道为什么每个重要特征都显示正相关，这是意料之中的，因为所有 33 列都与维度相关，并且我们知道可量化的癌细胞越多，它就越先进。每个人都有癌细胞。如果是可检测的量，这就是我们将患者标记为患有癌症的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我满足于用“radius_worst”来表示这些高度相关的特征，并重新定义 X(特征)和 Y(目标)。

X = df.loc[:,[‘radius_worst’,’concave points_worst’,’concave points_mean’,‘concavity_mean’,’area_se’,’concavity_worst’]]y = df[‘diagnosis’]

模型建立和比较

建立模型的下一步是将数据集分为训练数据集和测试数据集。我采用了 80%-20%的分割，并使用分层方法在训练集和测试集中保持相同的恶性-良性病例比率，因为数据集是不平衡的。

下一步是将 kfolds 应用于训练集，以在 80%的数据集上执行训练验证。我再次应用 StratifiedKFold 来保持我的(n_split = 5)折叠的分布。10 种常见机器学习算法的结果令人振奋。有三个强有力的竞争者。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过调整参数来查看这些模型是否可以进一步改进被证明是有用的，因为大多数模型在大多数指标上都有所改进。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从视觉上看，很明显这将是一个艰难的决定，在我值得的候选人中。从下面的图表来看，LogisticRegression、RandomForest 和 XGBoost 之间的竞争几乎不分上下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当考虑 ROC-AUC 度量时，逻辑回归是冠军，ROC-AUC 度量说明了模型区分两个类别的能力。

结论

然而，如果我们从时间消耗的角度考虑成本，那么就有一些权衡。对我来说，我觉得这仍然是可以接受的，也是在实际部署时需要考虑的一个因素。但是现在，由于数据集不是非常大，它仍然是可管理的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我希望在处理不平衡数据集时需要注意的不同算法、指标和因素(分层训练-测试分割、使用分层文件夹的交叉验证)是有用的。

地震破坏模拟的人工智能

原文：https://towardsdatascience.com/ai-for-earthquake-damage-modelling-7cefae22e7e1?source=collection_archive---------33-----------------------

人工智能和预测性分析如何帮助更快地从地震中恢复的案例研究

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image credit : Sky News

2015 年 4 月，尼泊尔发生了 7.8 兆瓦或 8.1 毫秒的大地震，最大麦卡利烈度为八度(严重)。根据尼泊尔开放数据门户网站，它影响了 3，677，173 个人和 762，106 财产。灾后，尼泊尔花了数年时间收集和评估损失，这是世界上最大的损失评估数据之一。像地震这样的大规模灾难之后，恢复通常分为两个阶段

收集人口、建筑和法律数据
领域专家使用这种大规模嘈杂数据进行的损害评估

基于建筑物的位置和结构，我们的目标是预测 2015 年尼泊尔廓尔喀地震对建筑物造成的破坏程度。

数据看起来怎么样？

在本案例研究中，我们使用了结构、所有权和损坏数据来准备训练和测试数据集。原始数据来自尼泊尔的开放数据门户。如果您想使用我的前置数据，您可以从下面的链接中获得(结束注释部分)。现在，让我们更仔细地看看清理后的数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

shape of the cleaned training and test data

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据不平衡，60%的“高”损害等级，22%的“低”损害等级和 18%的“中等”损害等级。为了处理不平衡的数据，需要手动采样。从最初清理的 700，000 个数据中，已经对每个类的 100，000 个数据进行了采样，并且已经为训练准备了 300，000 个数据点的训练集。分层抽样已用于准备最终的训练、测试和验证数据集。极少数数据点包含缺失值(< 30),so we ignored these data points.

Is Age a factor?

Our final data set is of 41 dimension.Our independent variables are either numerical,categorical or binary.We have analysed the numerical and categorical variable in order to gain insights over data.For example Let’s take a snapshot of how buildings developed over last 10 years were affected

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The ‘Age Factor’

Interestingly there are some properties where age is more than 950 years ! Are these outliers? As per Wikipedia there are few properties in Nepal which are actually that old. As per our data the number is 2521 )。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

damage grade of properties aged over 950 years

绩效指标

我们预测破坏程度从 1 到 3(低、中、高)。损坏程度是一个顺序变量，意味着排序很重要。这可以看作是一个分类或有序回归问题。(有序回归有时被描述为介于分类和回归之间的问题。)

为了衡量我们算法的性能，我们使用了 F1 分数，它平衡了分类器的精度和召回率。传统上，F1 分数用于评估二元分类器的性能，但由于我们有三个可能的标签，所以我们使用了一个称为微平均 F1 分数的变体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

|TP| is True Positive, |FP| is False Positive, |FN| is False Negative, and |k| represents each class in |1,2,3|

车型及性能:

在预处理和数据准备之后，我们从一个随机模型作为基线开始。尝试了各种机器学习模型，如逻辑回归、nystrome 逼近的线性 SVM(用于内核技巧)、随机森林、Light GBM 等。我们从一个非常基本的逻辑回归模型开始，复杂性逐渐增加。

为了从各种模型中获得最佳效果，必要时使用了 GridsearchCV 和简单的交叉验证技术。在实践中，经过调整的逻辑回归、SVM 和随机森林模型产生了在 0.65 到 0.69 范围内的微观平均 f1 分数。为了得到更好的分数，多数投票分类器和轻量级 GBM 模型被开发出来。让我们看看如何为多类分类问题定义一个定制的评估标准，以应用轻量级 GBM

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过对 lightGBM 和多数投票分类器进行适当的超参数调整，我们能够分别获得 0.78 和 0.74 的 f1 分数。我们也尝试了各种深度学习架构(MLP、LSTM、1D CNN)，但与经过调整的机器学习模型相比，性能很差。

以下是所获得结果的对比视图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现实世界影响

自动化评估可以帮助两种类型的最终用户

政府机构:政府机构无需人工干预就能更接近、更快速地了解地震造成的损失，从而促进损失恢复。
保险公司:大规模灾难发生后，保险公司的理赔系统被大量新的索赔淹没。索赔处理人员查看所有损坏数据并确定损坏严重程度变得更加困难。将索赔系统与基于人工智能的损害评估服务相结合，将有助于索赔处理人员查看单个指标(损害等级)并决定损害的严重程度。这可以加快索赔处理的速度。

结束注释

您可以在我的 GitHub 资源库中找到这个案例研究的所有必要文件、代码和数据集。

引用:

https://eq2015.npc.gov.np/#/
https://arxiv.org/abs/1606.07781
https://www.npc.gov.np/en
https://en.wikipedia.org/wiki/April_2015_Nepal_earthquake

面向所有人的人工智能:神话还是现实？

原文：https://towardsdatascience.com/ai-for-everyone-myth-or-reality-44edc24f7982?source=collection_archive---------16-----------------------

脸书题为“物体识别对每个人都有效吗？”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Perry Grone on Unsplash

“AI 是一个工具。如何部署是我们的选择。”柳文欢·埃齐奥尼

人工智能技术正在缓慢而稳步地侵入我们的生活。他们已经在为我们做一些重要的决定，比如我们是否有资格申请抵押贷款，我们喜欢什么样的电影或歌曲，甚至建议给我们发电子邮件回复。计算机视觉是人工智能的一个积极发展的子领域，它有着很大的前景。面部识别、物体检测、图像识别、情感分析等技术正被各行各业用来增强消费者体验、降低成本和提高安全性。但如果这些系统的结果对某个特定的种族、性别或地区有偏见呢？嗯，肯定有比看上去更复杂的东西。

最近，脸书研究人员在一篇题为: 的论文中称，物体识别对每个人都有效吗？ 就当前 SOTA 异议检测技术结果的适用性提出了一个非常中肯的问题。他们的研究强调了在低收入或非西方国家识别普通家庭用品时的强烈地理偏见。下图显示了低收入国家的预测结果与实际情况相差甚远，而西方国家的预测结果却非常准确。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Household item recognition in Low income Vs High-Income Countries.

有偏见的数据导致有偏见的模型

计算机视觉系统中的偏见和代表性不足的故事并不新鲜。许多研究都清楚地表明了这种模式。这里有两个具体的例子。

论文 商业性别分类的交叉准确性差异 强调了这样一个事实，即商业使用的性别分类系统对于肤色较浅的男性比肤色较深的女性更为准确。
职业图片搜索结果中的不平等代表性和性别刻板印象显示，谷歌搜索结果中女性代表性不足。

这种有偏差的结果的最可能的原因之一是用于训练模型的数据类型。在大多数情况下，数据收集本身是有偏差的，正是这种偏差最终渗透并显示在模型的预测中。在当前的研究中，发现几乎所有流行的数据集中使用的照片集合包括COCO和 OpenImages 。大部分数据来自欧洲和美国，地理分布非常不均匀。

Data Distribution VS Population Distribution

令人惊讶的是，尽管大部分人口集中在非洲、南美、中亚和东南亚，但他们对数据的贡献却少得多。

需要多样化的数据

这项研究是在 美元街 数据集上完成的，该数据集收集了来自 50 个国家的 264 个家庭的家居用品。这些图像是由 T21 Gapminder 基金会收集的，目的是为了衡量世界上人们生活条件的差异。

与其他流行的影像数据集不同，Dollar Street 数据集具有相当分散的数据。以下 Cholorpeth 地图显示了 Dollar street 数据集中每个国家的影像数量。

A more geographically spread Dollar Street dataset

美元街数据集还记录了每栋被拍照房屋的月消费收入。这揭示了当前对象检测系统中与收入差距相关的另一个重要因素。****

“与每月收入超过 3500 美元的家庭相比，每月收入低于 50 美元的家庭的物体识别系统的错误率大约低 10%”Terrance 等人。(2019)]

The accuracy of the object detection models w.r.t the income levels.

以下是顶级模特的表现以及她们的 5 大预测。相当惊人。

结论

该论文强调了数据收集方法中的严重问题及其对全世界正在开发的人工智能系统的影响。为了培养对这些系统的更多信任和信心，重要的是研究不应局限于某一特定地区或经济状况，而应包括社会的所有地区、性别和种族。只有到那时，人工智能才会对所有人真正有意义。

参考

文中引用的所有图片和数据均摘自论文: 物体识别对每个人都有效吗？作者:Terrance DeVries，Ishan Misra，Wang，Laurens van der Maaten 脸书艾研究

《人工智能为每个人》:吴恩达想用 30 分的非技术课程传达什么。

原文：https://towardsdatascience.com/ai-for-everyone-what-andrew-ng-want-to-convey-with-this-non-technical-course-in-30-points-bedaea57c81b?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source

人工智能对每个人来说都是一门非技术性的课程，学习这门课程，你会比世界上大多数 CEO 学到更多的知识。至少吴恩达是这么宣称的。所以让我们简单地了解一下他想传达什么。

到 2030 年，人工智能将创造 13 万亿的价值，主要用于零售，其次是旅游和汽车行业。
人工智能大致分为人工狭义智能(ANI)和人工广义智能(AGI)。随着 ANI 的大量进步，人们开始错误地相信他们正在 AGI 进步。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不要在收集数据的 IT 基础设施上花费太多。尽可能早地向人工智能团队提供数据，以便他们可以判断收集数据是否有用，并可以改变数据收集策略。也不是说数据越多，价值越大！
机器学习就是学习 A 到 B 的映射，其中 A 是输入，B 是输出标签，而数据科学更多的是从数据中提取见解和结论。机器学习的输出是软件，而数据科学的输出是幻灯片。
深度学习是“神经网络”的品牌名称，这些网络只不过是大型数学方程。神经网络受到大脑的启发，但内部功能几乎与实际大脑的工作方式无关。
正如:
商场+互联网！=互联网公司 同理:
任何公司+深度学习！= AI 公司。
人类用一秒钟的思考所能做的任何问题，以及有大量标记数据可用的问题，都可以用监督的 ML 来自动化。例如——用户是否会点击添加。
AI 目前无法感同身受或理解手势。人工智能无法学习少量数据复杂任务。
对于机器学习:
收集数据，训练模型，部署模型。 对于数据科学:
收集数据，分析数据，建议修改。
例如:在招聘中，数据科学将通过分析数据帮助我们优化招聘流程。而机器学习可以帮助自动简历筛选。
选择对你的生意既可行又有价值的项目。在决定一个项目时，人工智能专家和领域专家应该一起工作。
自动化任务而不是作业。了解您业务中的痛点。
即使没有大数据也可以进步。
除了业务勤勉和技术勤勉，还要考虑道德勤勉你正在建设的项目是否会给人类带来一些好处。
对于人工智能团队，在测试集上指定你的统计接受标准。
角色:
软件工程师:像写函数/子程序一样写软件代码。
机器学习工程师:负责创建模型
机器学习科学家:负责扩展技术状态
应用 ML 科学家:介于 ML 工程师和研究员之间的角色
数据科学家:检查数据并提供见解以推动业务决策
数据工程师:确保数据可以以安全且经济高效的方式轻松访问
AI 产品经理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source

执行相关的人工智能试点项目可以设定 6-12 个月的牵引。
创建一个中央人工智能团队，并在 **CAIO(首席人工智能官)**的领导下分散到多个业务部门。最初，首席执行官应该向人工智能部门提供资金，而不是阿布提供资金，在初始投资后，人工智能团队必须展示其为业务部门创造的价值。
商业领袖必须了解人工智能能为他们的企业做什么。人工智能团队领导应该设定项目方向并监控资源。内部人工智能工程师应接受人工智能管道方面的培训。
CLO 应该知道如何管理内容，而不是创造内容。
只有在执行了一两个项目后才建立人工智能策略，否则它将成为一个学术策略而不是实用策略。不同的公司有不同的策略。
少数据起家的好产品，才会有用户。随着时间的推移，这些用户将生成可用于改进产品等的数据。
战略数据采集。不要为了收集有用的数据而将产品货币化。像机器学习工程师这样的新角色应该被提升。
将工程人才与商业/销售人才配对，寻找可行且有价值的项目。
不要期望人工智能项目第一次就能成功，也不要在人工智能项目中执行传统的计划流程。
找朋友学 AI，头脑风暴项目，找导师！
也不要对 AI 过于乐观超级智能即将到来。也不要太悲观关于 AI 那个 AI 冬天来了！在中间的某个地方！
可交代性AI 是硬的。
AI 可以变成有偏有偏数据。
人工智能系统对对抗性攻击开放。在未来，公司可能会与敌对的攻击者展开战争。
美国和中国在人工智能方面领先，但这项技术仍然不成熟给了其他国家同等的竞争优势。
根据麦肯锡公司的报告，到 2030 年，人工智能取代了 4-8 亿份工作，创造了 5 . 55-8 . 9 亿份工作

谢谢你吴恩达！总的来说，我喜欢这个课程，我希望能有更多的人力资源专业人士应该了解像 tensorflow，keras 等工具。但是再一次，很高兴看到吴恩达回来了。最后一个笑话来结束它！

为什么 AI 会有那么多令人震惊的结果？

因为人工智能是新的电力，

电击！！😄

阅读我在 Medium 上的其他文章:

关于我:我是一名自动驾驶汽车工程师，专注于使用深度学习为车辆提供智能。请在 LinkedIn 上联系我，这是与人交流的好机会。

人工智能的好处:盲人钞票检测

原文：https://towardsdatascience.com/ai-for-good-banknotes-detection-for-blind-people-373efc81a482?source=collection_archive---------15-----------------------

使用深度学习人工智能制作最先进的验钞机的指南

这项服务可以识别钞票是哪种货币(欧元或美元美元)以及面额(5、10、20、…)。社会影响的目的是帮助盲人，所以我小心翼翼地制作了“现实生活”的训练图像，将钞票握在手里，有时折叠，有时遮住一部分。

这篇文章希望有助于鼓励其他人学习深度学习。我在用令人惊艳的 fast.ai 在线免费课程，非常推荐。作为他们务实、自上而下方法的证明，这个附带项目是基于第 3 课。在他们的在线论坛上，你可以找到更多令人惊叹的同学申请。

我的项目部署在 iris.brunosan.eu

这里有一个推论的例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

令人惊讶的是，快速、有趣和简单的部分是深度学习部分(恭喜 fastai！)，生产服务器花费了大约 10 倍的时间(我还必须了解一些关于 docker 和无服务器应用程序的细节)。

挑战

我发现在识别钞票上做了一些努力来帮助盲人。一些尝试使用计算机视觉和“比例不变特征”(大约 70%的准确率)，一些使用机器学习(准确率高得多)。在机器学习方面，值得一提的是微软研究院去年的一项研究和尼泊尔程序员 Kshitiz Rimal 今年的一项研究，它们得到了英特尔的支持:

微软在去年的人工智能峰会上宣布了他们的版本，“已经被下载了超过 10 万次，并帮助用户完成了超过 300 万项任务。”他们的代码是可在这里(无训练数据)。基本上，他们使用 Keras 和迁移学习，就像我们在我们的课程中一样，但他们不会解冻进行微调，他们会用不相关的图片创建一个“背景”负类(我觉得创建一个负类很奇怪……你怎么能学习“缺席特征”)。他们使用移动友好的预训练网络“MobileNet”在设备上运行检测，每张钞票有 250 张图像(+加上数据增强)。他们有 85%的准确率。
来自 Kshitiz 的尼泊尔版本:总共 14000 张图片(由他拍摄)，准确率达到 93%。他从神经网络的 VGG19 和 Keras 开始，应用程序的“Reach Native”(这是一个可以用相同的代码创建 iOS 和 Android 应用程序的框架)，但后来他转向了 Tensorflow，在每个平台上都有 MobileNetV2 和原生应用程序。这是 6 个月的努力。太棒了。！他在 github 上有训练的代码、应用程序的代码和训练数据。

我的目标是复制一个类似的解决方案，但我将只制作一个功能正常的网站，而不是应用程序，也不是设备上的检测(我现在离开这一点)。但是，我将使用不同的架构。由于我想一次做几种货币，所以我想尝试多类分类。我见过的所有解决方案都使用单一类别检测，例如“1 美元”，我想将其分为两个类别，“1”和“美元”。原因是我认为跨货币(所有美元看起来都相似)和跨面额(例如，5 美元和 5 欧元有相同的数字 5)都有一些特征需要学习。共性应该有助于网络强化每个类别的特征(例如，一个大数字“5”)。

简单的部分，深度学习

我基本上遵循了 fast.ai 课程中关于卫星探测的多类课程，没有做太多修改:

数据

在现实生活中，很难在单张钞票上获得图像。完成这个项目后，我找到了我上面提到的关于约旦货币的学术论文，以及尼泊尔的项目，它们都链接到了他们的数据集。

我决定依靠谷歌图片搜索和来自欧洲央行和美国造币厂的图片，我知道它们会给我不切实际的好钞票图片。我也用家里的钱拍了一些小面额的照片(可惜我家里没有 100 美元或 500 欧元)。我总共有 14 到 30 张每种面值钞票的图片。一点也不多。我的图像数据集是这里的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Training images for identifying banknotes, a combination of stock photos and some I made.

由于我没有太多的图像，我使用了参数加宽的数据增强。(我错加了空翻，这可能不是个好主意):

*tfms = get_transforms(do_flip=True,flip_vert=True, 
 max_rotate=90, 
 max_zoom=1.5, 
 max_lighting=0.5, 
 max_warp=0.5)*

最终，数据集在训练/验证期间看起来是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Note the effect of data augmentation, rotating, flipping and cropping the images.

用这么少的图像就能得到这么好的结果，真是令人惊讶。

培训

我使用 20%的分割进行验证，图像的像素大小为 256，并使用“ resnet50 ”作为预训练的模型。在 resnet 冻结的情况下，我做了 15 个时期(每个时期 2 分钟)来训练添加的顶层，并且得到了. 087 '的 [fbeta](https://en.wikipedia.org/wiki/F1_score) ，已经很不错了。然后解冻，并在 20 个时期内以分段学习率(最后一层的学习率更大)进行更多的训练，以得到 fbeta =.098`。我能够通过再次冻结预先训练的模型并做更多的纪元来获得更多的准确性。最好的是“fbeta=0.983”。没有过度拟合的迹象，我使用了默认的辍学参数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

导出模型并测试推理。

将模型导出到 PyTorch Torch 脚本进行部署只是几行代码。

我确实花了一些时间测试导出的模型，并查看输出(包括原始激活和 softmax。然后我意识到我可以用它来推断自信:

积极的原始激活(总是转化为高 softmax)通常意味着高置信度。
当没有明确的标识时，会出现负的原始激活但非零的 softmax 概率，所以我可以将它们用作“试探性的替代方案”。

例如，让我们看看这张有问题的 5 美元折叠图片，它覆盖了 5 美元的大部分

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A difficult image, folded, and covering most of the number 5 that correctly identifies the denomination.

*{‘probabilities’: 
 ‘classes’: [‘1’, ‘10’, ‘100’, ‘20’, ‘200’, ‘5’, ‘50’, ‘500’, ‘euro’, ‘usd’]
 ‘softmax’: [‘0.00’, ‘0.00’, ‘0.01’, ‘0.04’, ‘0.01’, ‘0.20’, ‘0.00’, ‘0.00’, ‘0.00’, ‘99.73’], 
 ‘output’: [‘-544.18’, ‘-616.93’, ‘-347.05’, ‘-246.08’, ‘-430.36’,* ***‘-83.76’****, ‘-550.20’, ‘-655.22’, ‘-535.67’,* ***‘537.59’****], 
*** *‘summary’: [‘usd’]****, 
 ‘others’: {****‘5’: ‘0.20%’****, ‘20’: ‘0.04%’, ‘100’: ‘0.01%’, ‘200’: ‘0.01%’}}*

只有类“ usd”的激活是肯定的(数组的最后一个),但是 softmax 也正确地启动了类“5”,并对类` 20 '产生了一些疑问。

部署

这是最难的部分。

基本上你需要两部分。前端和后端。

前端是人们看到的，它做的是给你一个页面看(UI 我用 Bootstrap)，代码选择一个图像，最后显示结果。我在前端添加了一些代码，使用 Javascript 在客户端对图像进行缩减采样。原因是现在的相机图片很重，所有的推理过程需要的是一个 256 像素的图像。这是客户端上的 11 行代码，用于向下采样。由于这些都是静态代码，我在同一个库上使用了 github 页面。为了将图像发送到服务器，我直接将它们作为 DataURI 传递，而不是将它们上传到某个地方，然后从那里提取。
后端接收图像，在我们的模型上运行推理代码，并返回结果。是难中之难:)，见下文:

我第一次使用谷歌云引擎(GCE)，按照这里的指示。我的部署代码在这里是这里是，它包括上传和保存带有推断类的用户图像副本的代码，因此我可以检查错误的分类，使用它们进行进一步的训练。相当整洁。

总的来说，它很容易部署。它基本上创建了一个 docker，可以部署您需要的任何代码，并根据需要旋转实例。我的问题是服务器总是在运行，实际上至少有两个实例。GCE 意味着非常高的可伸缩性和响应，这很好，但这也意味着我一直在付费，即使没有人使用它。我认为应该是每月 5-10 美元。如果可能的话，我想部署一些不用花太多钱就能长时间在线的东西。

我决定转 AWS Lambda(课程说明这里)。流程看起来比较复杂，但其实没那么难，巨大的好处就是你只需付费使用。此外，就使用水平而言，我们将处于免费层(除了在 S3 上保留模型的成本，这是最低的)。我要部署的代码是这里的。因为您正在部署 Torchscript 模型，所以您只需要 PyTorch 依赖项，AWS 有一个很好的 docker 文件，包含您需要的所有内容。我必须添加一些 python 库来格式化输出和记录日志，它们都在那里。这意味着您实际的 python 代码很少，并且您不需要使用 fastai(在课程线程中，另一名学生分享了她的部署技巧，如果您需要将 fastai 也用于部署的话)。

UX，反应时间。

分类的推断大概需要 0.2 秒，确实很快，但是用户从选择图像到得到结果的整体时间可能长达 30s，甚至失败。额外的时间部分用于将图像从客户端上传到服务器，如果需要的话，在上传之前缩小图像。

在实际测试中，响应时间的中位数是 1s，这是可以接受的…除了第一次，第一次响应有时需要长达 30s。我认为这被称为“冷启动”，对应于 AWS 从存储中取出 Lambda 的时间。为了最小化这种影响，我添加了一些代码，在您加载客户端页面时触发对服务器的 ping。ping 只返回“pong ”,所以不会消耗太多的计费时间，但是它触发 AWS，让 lambda 函数为真正的推理调用做好准备。

支持

今年夏天，我在西班牙国家广播电台每周有一个小节目来谈论影响科学，我专门在一集里谈论人工智能及其对就业和社会的影响。我将这个工具作为一个例子。可以听一下(西班牙语，时间戳 2h31m): 朱莉娅恩拉翁达，翁达塞罗。

后续步骤

我很想得到你的反馈和想法。或者如果你试图复制它有问题，让我知道。

以下是我为下一次冲刺已经想到的几点:

使用类似“MobileNetV2”的移动友好型工具重新训练模型
使用尽可能多的货币(和硬币)重新训练模型。随着您添加更多的货币，多类别分类检测面额的好处应该会变得明显。
添加服务器代码来上传用户图像的副本，就像我在 GCE 部署中所做的那样。
具有设备上推理的智能手机应用。

面向医疗保健的人工智能

原文：https://towardsdatascience.com/ai-for-healthcare-c975ffad1e8b?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Antique Glass Medicine Bottles. Photo by Matt Briney

我在 Ai4 医疗保健会议上的经历

当你把内科医生、外科医生、首席执行官、首席技术官、首席运营官、战略总监、产品经理、软件工程师、数据分析师、教授和研究人员聚集在一起讨论人工智能在医疗保健领域的现状时，会发生什么？这就是 Ai4 医疗保健公司的理念。

Ai4 Healthcare 是在纽约举行的为期两天的会议，重点是将数据从业者、医疗临床医生和商业领袖聚集在一起，以促进围绕人工智能在医疗保健中的应用的讨论。此次活动的特色是有 85 位演讲者在，大量的交流机会和关于参加哪些讲座的技术/非技术“跟踪”指导。因为我正在为《走向数据科学》写作，而且我自己也是一名工程师，所以我主要关注技术方面的讨论。

我在会议上的观察非常清楚地表明，Ai4 医疗保健代表了所有这些专业人员之间非常需要的对话，以确保临床医生和技术专家的目标一致。我注意到的最常见的目标是:

为医生提供更多与患者面对面的时间
为患者提供尽可能最好的护理，无论他们在哪里
将可解释性构建到临床接受的模型中
减少浪费性支出

四大亮点

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Building an AI Future that Benefits Patients and Doctors, Christopher Khoury, American Medical Association. Photo by Andrew DeCotiis-Mauro.

造福患者和医生的人工智能未来

想象一个医生可以花大量时间和病人在一起的世界。这对医疗保健领域会有什么影响？如果医生没有压力，医学会受到怎样的影响？如果医疗费用不那么高，病人会怎么样？美国医学协会(AMA)一直在思考实践的这些方面，以及如何将人工智能集成到医学实践中来帮助迈向这样的未来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1: 2017 Health Spend per Capita. Source: Health System Tracker

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2: EHR Adoption Rates in the United States. From the Office of the National Coordinator Health IT.

在美国，人均医疗保健支出约为每年1 万美元 ( 图 1 )。最重要的是，它的价值是许多富裕国家的两倍，据信其中大约 25-30%被浪费在各种系统低效上。幸运的是，提高效率是数据科学的主要优势之一。我们可能需要首先回答的一个问题是，我们从哪里获得数据？

自从 2009 年美国复苏与再投资法案 (ARRA)颁布以来，电子健康记录系统(EHRs)的采用大幅增加(图 2 )。ARRA 包括了有助于向 EHRs 转变的资金。到 2014 年 1 月，它还将医疗保险报销与电子病历的“有意义使用”挂钩。

虽然使用电子健康记录有一些问题，但是有很多好处。电子病历提供了前所未有的对患者信息的访问——这允许协调护理、提高诊断效率和更安全的护理。此外，电子病历还提供了大量信息，可用于提高护理标准，提高护理质量，甚至更早发现疾病爆发。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3: Main sources of physician burnout. Source: Medscape

AMA 关心的另一个问题是医生的健康。医生面临倦怠的比率几乎是普通大众的两倍。图 3 根据 Medscape 国家医师倦怠、抑郁&自杀报告( 2019 )，突出了倦怠的主要来源。我们面临的首要问题是:过多的官僚任务；工作时间太长；还有 EHRs。

AMA 将术语增强智能视为前进的方向。这种人工智能的概念化侧重于以辅助的角色使用人工智能，以强调其设计增强了人类的智能，而不是取代它。增强智能将以机器学习模型为特色，这些模型可以减少临床医生的工作量——通过帮助诊断或减少花费在管理工作上的时间。会议展示了两款旨在减少制图时间的产品——淑熙和赛卡拉。

AMA 在他们的网站上有一整块区域致力于人工智能在医疗保健系统中的作用。

无论哪里需要，都能提供更好的护理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AI and the Intersection of Robotics and Surgery, Prakash Gatta, MultiCare Health System. Photo by Andrew DeCotiis-Mauro.

pra kash Gatta 医生梦想有一天，无论患者身在何处，都可以获得高质量的标准化外科治疗。Gatta 是机器人辅助手术的支持者(免责声明——他与动词外科和直觉外科合作)。在他对未来的展望中，机器人辅助手术系统提供了一个奇妙的平台，使医院手术设备标准化。

机器人辅助手术有许多好处，包括缩短住院时间、减少疼痛和不适、更快恢复、降低感染风险和减少失血。此外，机器人辅助手术可以通过上述改善的结果和更短的住院时间来降低成本(尽管快速搜索表明其成本是否低于传统的腹腔镜手术仍有争议)。Gatta 展示了一个机器人手术的视频，并描述了在腹腔镜/机器人手术之前，这是一个需要长时间恢复的主要手术。[这里有一段视频是 Gatta 展示另一个机器人手术，如果你好奇的话]

与人工智能的联系来自机器人产生的数据。正如 Gatta 指出的，每一个动作都是一个数据点。他设想未来机器人能够预测外科医生的下一步行动，要么提供反馈，要么为手术的下一步做准备。此外，他认为该系统可以根据手术进行的方式实时预测结果。例如，机器会知道手术中一个特别重要的步骤比外科医生的平均时间多或少，从而提供有价值的预测数据。

综上所述，手术设备的未来标准化和强大数据的整合可以用来推动护理标准的发展。也许，随着时间的推移，Gatta 获得护理的梦想将会实现。

注释的可解释人工智能

当算法显示医学图像有恶性肿瘤时，会发生什么？放射科医生应该盲目相信结果吗？为什么放射科医生一开始就应该相信一个预测模型呢？

这是一个在会议上反复出现的问题——我觉得在一个名为的演讲中，这个问题至少得到了部分解决，这个演讲的主题是 Evan Schwab 在飞利浦所做的工作。

医学图像，如胸部 X 射线(CXR)、磁共振成像(MRI)或计算机断层扫描(CT)，在计算机视觉领域提出了独特的挑战。虽然对象在图像中的定位是一致的，但是可用的训练图像的数量是有限的，并且当它们可用时，它们通常具有有限的注释。此外，正确的风险很高——可能和某人的生命一样高。

最终目标是创建一个端到端的管道，该管道在胸部 X 射线中准确地自动分类和定位关键发现，而无需对局部地面实况进行注释(“强”注释)。

来自麻省理工学院模拟胸部 X 射线数据库的图像使用自然语言处理(NLP)进行标记，以提供“弱”注释，即该 CXR 患有气胸。这些图像然后使用小块采样(以保持图像分辨率)进行处理，并被输入预先训练好的卷积神经网络 (CNN)。使用多实例学习框架，该模型能够组合来自每组补丁的信息。

得到的预测允许图像的逐块分类。这提供了可解释性，因为在可以呈现给放射科医师的 CXR 中指示了预测具有恶性肿瘤的区域，从而允许放射科医师确定模型的准确性。下面是这次谈话的部分结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Annotated Chest X Rays from Evan Schwab’s presentation Explainable AI for Training with Weakly Annotated Data. Each chest X Ray is overlaid with grids indicating the probability of pneumothorax, with white indicating low probability of disease and thick red boxes indicating high probability of disease. Ground Truth is shaded in red/orange. Image altered to show details more clearly. Photo by Andrew DeCotiis-Mauro.

会话

在整个会议过程中，我尽力与尽可能多的人进行简短的交谈。我想知道是什么让他们来参加会议，他们的角色以及他们已经走了多远。会议组织者通过提供对社交应用程序 Brella 的访问来帮助每个人，并将建立社交网络纳入日程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Brella had a section for requesting meetings with other attendees. I thought I’d try to use it to learn more about what drew people to the conference.

布雷拉让像我这样内向的人很容易就能要求与我可能没有机会见面的人见面。同样，我设计了我的个人资料，看看我是否能吸引一些其他与会者告诉我他们的故事。

我在这个领域遇到了一些非常有趣的人。他们从全国各地赶来参加会议——加利福尼亚、亚利桑那、罗德岛、康涅狄格、费城，甚至还有一个来自我工作的地方——他们来的原因各不相同。

这是我遇到的人:

几名外科医生:两名心脏外科医生对将人工智能引入他们的部门感兴趣，第三名是一名神经介入外科医生除了将大数据收集的信息应用于医院信息系统以发现医疗保健难题的新方向外，还希望将这些信息融入他们的思维模式。
一位来自眼科成像公司的项目经理，他有兴趣了解更多关于人工智能在医疗保健中的应用。
一位来自医疗保健非营利的健康数据分析师希望看到人工智能在实地的实施。
一位来自纽约一家医院的数据科学家是该领域的新手，他的经理鼓励他参加并了解更多信息。
NLU 一家保健品公司的首席采购官作为赞助商出席了会议。
一家制药公司的管道数据科学家。我们讨论了数据科学在制药流程中的作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 4: The AI hype cycle for 2019. From Gartner.

离我不远的一家生物医学技术公司的数字信息学主管。我们讨论了该技术如何仍然处于炒作周期中，并且还有其他技术，如计算机辅助检测(CAD)用于乳房 x 线照相术，也有类似的承诺，但未能实现(图 4)。
对因果关系感兴趣的健康数据科学家。(我只看到一个演讲提到因果关系是数据科学的第三次浪潮。)他担心的是，虽然数据科学通常专注于相关性，但强调因果关系对于让医生接受这项技术极其重要。这将与医生的教育方式联系起来。

结论

我发现这次会议是一次奇妙的经历。我相信它为医疗保健和人工智能所有领域的专业人士之间的对话提供了一个绝佳的机会。我交谈过的一些与会者告诉我，这个会议是他们参加过的唯一一个如此高度集中的会议。

这种高度集中的性质——以及与会者和发言者的多样性——为就人工智能在医疗保健领域的现状及其潜在未来进行诚实的对话提供了一个强大的背景。

关于作者

我是一名人工智能爱好者和软件开发人员。作为一名训练有素的化学家，在成为一名教师之前，我的大部分化学生涯都是在计算生物物理化学领域度过的。通过教学，我学会了讲故事的重要性和艺术以及清晰的技术写作。在 LinkedIn 上与我联系，或者在 Twitter 上开始对话。

如果你在医疗保健和人工智能领域，想合作写一篇文章，请告诉我。

工业过程控制的人工智能

原文：https://towardsdatascience.com/ai-for-industrial-process-control-ee774267094b?source=collection_archive---------13-----------------------

使用强化学习来调整过程炉

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1. Reflow Oven

确定工业过程的最佳控制设置可能很困难。例如，控件可以交互，调整一个设置需要重新调整其他设置。此外，控件与其效果之间的关系可能非常复杂。这种复杂性对于优化工艺来说是具有挑战性的。本文探索了一种用于控制工业传送带式炉的强化学习解决方案。

介绍

这类设备的一个例子是用于将电子元件焊接到电路板上的回流焊炉(图 1 和图 2)。烤箱有一个传送带，将产品传送通过多个加热区。该过程根据确保可靠焊接连接所需的精确温度-时间曲线加热产品。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2. Product Exiting Oven

本文讨论的回流焊炉有八个加热区，每个加热区都有一个控制装置，用于设置加热区加热器的温度。当产品通过烤箱时，传感器会记录大约 300 点的温度。每个点的温度由从加热器传递到产品的热量决定。

强化学习解决方案

操作员通常采取以下步骤来学习加热器设置:

让产品通过烤箱一次
根据传感器读数观察温度-时间曲线
调整加热器设置(希望)改善轮廓
等待烤箱稳定到新的设置
重复此程序，直到传感器读数的曲线可接受地接近所需的曲线

强化学习系统用两阶段过程代替了操作员步骤。在第一阶段，智能代理学习烤箱的动态，并创建一个在各种烤箱条件下更新加热器设置的策略。

在第二阶段，代理按照学习到的策略寻找最佳加热器设置。这些设置将在实际产品曲线和所需的温度-时间曲线之间产生最接近的匹配。图 3 显示了代理按照策略寻找最佳设置。红色轨迹是所需的温度-时间曲线，蓝色轨迹是代理发现最佳加热器设置时的实际曲线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3. red: desired profile — blue: actual profile

代理人

由于通过烘箱需要相当长的时间(> 300 秒)并稳定烘箱(许多分钟)，因此使用烘箱模拟器来大大加快该过程。模拟器模拟烤箱对产品的加热作用。

在第一阶段的每个步骤中，强化学习代理将八个加热器的设置传递给模拟器。模拟运行后，模拟器返回产品温度读数(大约 300 个读数，间隔 1 秒)。

代理使用选择的读数来确定系统的状态。它还通过比较返回的读数和期望的温度-时间曲线之间的差异来计算当前运行的回报。如果当前运行的差异小于先前运行的差异，则奖励为正；否则为负。奖励用于更新策略。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 4. Reinforcement Learning System

在重复该过程数千次之后，代理将已经学习了在各种烤箱条件下更新加热器设置的广泛策略。在第二阶段，代理遵循学习到的策略来寻找最佳加热器设置，该设置将在实际产品曲线和期望的温度-时间曲线之间产生最接近的匹配。

更深的潜水

项目中使用的强化学习系统使用双 Deep-Q 模型，该模型包含两个神经网络和经验重放。在第一阶段过程之后，其中一个神经网络保存代理在第二阶段使用的学习策略。要了解更多细节，请查看本文末尾引用的论文。

[1]: van Hasselt，h .，Guez，a .，Silver，D. 采用双 Q 学习的深度强化学习。 arXiv 预印本 arXiv:1509.06461 ，2015。

[2]: Mnih 等，**通过深度强化学习实现人级控制。**自然，518(7540):529–533，2015。[ Deepmind

人工智能在医学成像中的应用——现在？

原文：https://towardsdatascience.com/ai-for-medical-imaging-now-8fad32c4c96b?source=collection_archive---------9-----------------------

“医生”现在可以见你了…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

解读医学成像(x 射线、CT、MRI)扫描是一项高技能的手工工作，需要多年的培训。对影像的需求超过了合格放射科医生的供应随着新兴市场人口老龄化和医疗保健技术解决方案的普及，这一趋势可能会持续下去。人工智能和计算机视觉准备好提供帮助了吗？

计算机第一次可以在没有医生解释的情况下诊断病人。

人工智能和计算机视觉长期以来一直被视为更快、更准确诊断的基础。医疗器械认证和验证的严格监管要求意味着新技术进入一线临床实践可能会很慢。然而，基于深度学习的决策支持工具正在获得认可，其中一些已经在诊所和医院中使用。在这篇文章中，我们将检查六种已经被批准用于临床的产品，看看它们的上市路线和任何公开的潜在算法的细节。

所有医疗软件——包括人工智能决策支持工具——都必须符合相关标准。认证可能是一项昂贵的工作，需要临床试验来证明安全性和有效性。

在决策支持软件的监管分类方面，美国医疗器械法规(FDA)比英国(MHRA)更具体(也更清晰),分为两组:

计算机辅助检测(CADe):支持诊断的工具，但积极地让医生参与到这个过程中来——例如通过突出扫描图像中的关键区域。
计算机辅助诊断(CADx):旨在提供可操作诊断的技术，例如通过将病变定性为良性或恶性肿瘤。

大多数 CAD 产品不得不经过漫长的上市前授权 (PMA)再到产品所需的认证。最近的 FDA 指南稍微放宽了规则，某些类别的医学成像分析软件将被允许使用更简化的 510[k]途径。

在重新分类请求之后，被分类为 I 类或 II 类至的设备可用作未来上市前通知 [ 510(k) ]提交的谓词。

让我们来看看一些已经被批准用于临床的人工智能和机器视觉技术:

QuantX(定量分析)

这种计算机辅助诊断(CADx)软件帮助放射科医生使用磁共振成像(MRI)评估和描述乳房异常。除了使用图像分割突出感兴趣的区域之外，还计算与恶性肿瘤可能性相关的专有度量( QI 得分’)

具有特殊控制的二类医疗器械
FDA 法规:21 CFR 892.2060
途径:重新开始(EN1700222017)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Quantx highlights area of interest in a magnetic resonance imaging scan

经审查，该软件被归类为二类医疗设备，并有额外的“特殊控制”——其中一项是监控使用情况，并证明使用该软件比独立诊断提供了更高的检测率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Screenshot from QuantX showing similar cases with known outcomes

一旦识别出病变，该软件就会执行自动图像分割——尽管这似乎是使用传统的图像处理方法，而不是基于深度学习的工具，如 Mask R-CNN。

从病变区域提取图像特征，例如球形度、均匀性、体积、对比度，并且基于机器学习的分类器确定 QI 分数和可能的预后。也可以查询包括来自已知结果的患者的扫描的库，并且回顾最相似的病例。

深度人工智能(iCAD 公司)

这款 CADe/x 软件可分析乳房 x 光片中疑似癌症的病灶。乳房断层合成扫描产生一组 2D 图像，每个图像都是身体的一个狭窄横截面。感兴趣的区域从单独的平面中提取出来，并混合在一起，因此它们作为单个图像可见。临床研究表明，使用该软件后，检测率提高了 8%。

第二类医疗器械
FDA 法规:21 CFR 892.2090
途径:510(k)实质等同
CE 认证(适用于欧盟)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ProFound AI presents detections and Certainty of Findings scores for soft tissue density and calcifications in mammography

在分析过程中，该算法使用深度卷积神经网络对每幅图像中的大量小块(256 x 256 像素)进行分类。使用了四个类别:正质量和负质量，正建筑变形和负建筑变形。

延伸阅读: 从数字乳房断层合成中检测软组织密度:传统和深度学习方法的比较

IDx-DR

这个 CADx 软件程序分析眼睛的图像，寻找糖尿病视网膜病变的迹象。至关重要的是，IDx-DR 是第一款无需临床医生解释图像或结果即可提供筛查决定的授权设备。这使得通常可能不涉及眼睛护理的卫生保健提供者可以使用它。

具有特殊控制的二类医疗器械
FDA 法规:21 CFR 886.1100
途径:从头开始(EN180001

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

IDx-DR is the first device for screening diabetic retinopathy that does not requrie a clinician to be present

糖尿病视网膜病变是超过 3000 万美国糖尿病患者中视力丧失的最常见原因，也是工作年龄成人视力损害和失明的主要原因。

IDx-DR 被授予突破性设备称号，这意味着 FDA 在高效设备开发方面为该公司提供了密集的互动和指导，以加快证据生成和该机构对设备的审查。

骨骼检测(Imagen 技术公司)

OsteoDetect 是一种软件，它使用机器学习技术分析手腕 x 光照片(X 射线)，以识别和突出显示桡骨远端骨折。

具有特殊控制的二类医疗器械
FDA 法规:21 CFR 892.2090
途径:重新开始(EN1800052018)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Osteodetect highlights distal radius fractures in x-ray images

深度卷积神经网络用于检测算法。 U-net 架构用于分割图像，并生成疑似骨折位置的热图。这被叠加在原始图像上以显示给用户。

延伸阅读: 深度神经网络提高临床医生骨折检出 。

联系人(即 ai)

ContacCT 是一种人工智能算法，用于分析计算机断层扫描(CT)图像，以获得指示潜在中风的生物标志物。该软件使用深度学习来识别扫描中的大血管闭塞(LVOs)。在治疗中风时，时间尤其重要，因此一款手机应用程序可以直接向临床医生提供通知。

具有特殊控制的二类医疗器械
FDA 法规:21 CFR 892.2080(2018 年 2 月)
途径:从头开始(EN170073
CE 认证(适用于欧盟)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Viz.ai have developed a mobile app to get results to clinicians more quickly

虽然底层实现的细节很难获得，但该系统似乎使用卷积神经网络进行图像分割

Triton(高斯外科)

我们的最后一个例子是一个基于 iPad 的机器视觉系统，它使用摄像头来估计手术过程中从手术海绵和敷料中收集的失血量。虽然本质上不是医学成像，但这是机器视觉应用于临床环境的一个有趣例子。

第二类医疗器械
FDA 法规: 21CFR880.2750 (2018)
途径:510(k)实质等同

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Triton estimates the blood loss absorbed into dressings and sponges using machine vision

传统上，外科手术中的失血量通过以下方式估算:

海绵和敷料的人类视觉评估，或
在天平上称重并减去干质量。

这两种方法都不完美，而且很难考虑到其他可能扭曲结果的液体的影响，如盐水。

Triton 系统通过使用比色图像分析算法和基于云的机器学习来量化手术海绵和敷料从患者体内取出时的血红蛋白(Hb)质量，提供比称重更准确的结果。

计算机辅助诊断将对医学成像产生越来越大的影响。也许在某些时候，用肉眼解释扫描结果的想法会显得古怪，甚至不安全。

人工智能医疗设备的认证途径越来越为人所知。过多的预测设备和来自监管机构的新指导可能意味着下一代决策支持系统有更容易的上市途径。

你有什么想法？您使用过这里描述的设备吗？在下面给你留言吧！

Rupert Thomas 是一名技术顾问，专门研究机器学习、机器视觉和数据驱动产品。@ Rupert Thomas

进一步阅读

医疗设备中的人工智能——三个新兴行业应用

FDA 对医学图像解读中机器学习的观点更新 (PDF)

人工智能驱动& FDA 批准的医疗健康项目

由微软授权的 AI for One，AI for All。

原文：https://towardsdatascience.com/ai-for-one-ai-for-all-empowered-by-microsoft-c73c75c51fba?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在交通信号灯处回复一封来自客户的电子邮件，我妻子理所当然地不喜欢它。她分享了一些最近的统计数据，这些数据显示有人在开车时试图使用手机而丧生或受伤。我想要一个量化的数字，当我在网上搜索时，新西兰的交通官员说，司机因手机分心造成的道路死亡和伤害的社会成本明年可能达到 1800 万美元(T1)，比 1998 年增加了五倍多。如果你正在读这篇文章，下次你想在开车的时候伸手拿手机，请不要。家里有人在等你。

因此，我今天的自定义视觉示例！

我们将创建一个分类模型来帮助区分两类图像。一类是开车时打电话的人，另一类是开车时不打电话的人。

我想带你了解一下:由微软提供并托管在 Azure 上的定制视觉服务，它是认知服务套件的一部分。

认知服务提供了几个特定的人工智能或机器学习任务，通过 API 作为服务提供，我们可以使用 REST API 将其集成到 web、移动和桌面应用程序中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Custom Vision portal

“登录”并同意条款和条件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Create a new project

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Details of the project

创建新的资源组。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在项目中使用新创建的资源组。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将创建一个分类项目，并将使用多类分类类型。

如果您使用某个特定的域，域选择会有所帮助。

点击“创建项目”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我试着下载了很多图片(大约 50 张),并用一个 chrome 插件来帮我完成这项艰巨的工作

这是我用的: Fatkun 批量下载

网上还有很多。

将图像下载到您电脑上的文件夹中。

选择所有并上传所有的图片，如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一旦你点击打开，所有的图片将如下。

我正在添加人们开车时使用手机的图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Adding a tag to ‘classify’ this class of images

我正在下载的下一个类是人们不用手机开车的图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google image search to the rescue as usual!

遵循相同的过程，但使用不同的标签，如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我正在使用上面的标签，请随意使用任何标签。当你标记图像时，你正在做的是说“这些图像属于这个类”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一步是通过顶部的绿色按钮训练模型，一旦完成，将向我们显示一些预期模型性能的统计数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单击顶部的“Train ”,并为本演练选择“Fast Training”。

培训的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

See the two tags with the various model statistics

选择图片时要记住的一件重要的事情是确保图片有不同的背景，从不同的角度拍摄等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击“快速测试”。

我下载了一个随机图像(不包含在您的训练集中)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如你所看到的，它检测到司机开车时没有使用手机！

因此，在 30 分钟的时间里，您已经训练了您的分类器模型并测试了该模型！

现在让我们用一张使用手机的人的照片来试一试这个模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

image of a person using a mobile phone

所以，现在我们可以看到我们的模型正在工作！

下一步是为它创建一个应用程序。

点击下面突出显示的“发布”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为您的端点命名:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该名称在截图中突出显示，如下所示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

productiondeployment

获取网址和预测键

一旦您的模型已经发布，您可以通过选择预测 URL 来检索所需的信息。这将打开一个对话框，显示使用预测 API 的信息，包括预测 URL 和预测键。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

getting the prediction key and the URL

创建应用程序

在 Visual Studio 中，创建新的 C#控制台应用程序。
使用以下代码作为 Program.cs 文件的主体。

更改以下信息:

将namespace字段设置为项目的名称。
用之前检索的键值替换占位符<Your prediction key>。
将占位符<Your prediction URL>替换为您之前检索到的 URL。

运行应用程序

运行该应用程序时，系统会提示您在控制台中输入图像文件的路径。然后将图像提交给预测 API，预测结果作为 JSON 格式的字符串返回。我要给它下图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

mobile phone usage while driving

我的 JSON 响应应该显示图像包含使用电话的司机的可能性更高。

如果你看到下面的回应；您可以清楚地看到 JSON 输出如何显示图像属于标签类:" usingphonewhiledriving "

Enter image file path: C:\Users\Nimish Rao\Desktop\mobilphone.jfif
{"id":"a210442b-01bb-4b1c-930a-c00db2b666ea","project":"5c6c2d62-3f00-45a8-be5f-ebb88d4e04be","iteration":"fc04e53b-e3bd-4306-b0d9-0273ddbc26c9","created":"2019-07-19T12:09:10.845Z","predictions":**[{"probability":0.9983218,"tagId":"1cc5723f-9033-4e16-a713-02a8cf3117b5","tagName":"usingphonewhiledriving"},**{"probability":0.00167823618,"tagId":"3aab49f8-9852-4d90-8a5d-28f66c753d2b","tagName":"notusingphonewhiledriving"}]}Hit ENTER to exit...

这样，您就有了:您自己的控制台应用程序，它可以拍摄图像，并使用您训练的模型为您提供分类输出！

只有铁杆人工智能专家才能使用的功能现在可以由更广泛的开发人员通过云订阅来访问。 那就是 AI for everyone，由 微软 授权。

给你读点东西:

计算机视觉服务文档:
https://azure . Microsoft . com/en-us/services/cognitive-services/computer-Vision/

注意:这里表达的观点是我个人的，不代表我的雇主的观点。

请注意:我对定制视觉模型或帖子中使用的任何图像没有任何权利，我使用的是在线图像。

海上交通管理的人工智能:特征工程(1/2)

原文：https://towardsdatascience.com/ai-for-sea-traffic-management-feature-engineering-part-1-2-e54f8d4eaa9e?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Traffic in Phnom Penh, Cambodia

创建相关的模型特征并处理数据缺口

也读作:

海上交通管理人工智能:建模(下)
海上交通管理人工智能:多步预报窗口 LSTM(后记)

最近决定参加 Grab 的 AI for SEA 挑战赛。Grab 提出了 3 个不同的挑战:交通管理(我选择的)、计算机视觉和安全。

这个过程很有趣，也需要做很多工作，所以我决定写这些帖子来详细说明我是如何解决这些问题的。希望这将有助于评估员和参与挑战的人。在本文中，我将介绍这一挑战，并分享我是如何转变 Grab 提供的原始训练集的(特征工程、填补数据缺口等)。

我所有的代码都可以在GitHub上找到。

交通管理挑战

网站上的问题陈述:

"东南亚经济体正转向人工智能来解决交通拥堵问题，交通拥堵阻碍了流动性和经济增长。缓解交通拥堵的第一步是了解城市内的出行需求和出行模式。

能否根据历史抢订量精准预测出行需求，预测出行需求高的区域和时间？

在这个挑战中，参与者要建立一个根据历史需求数据集训练的模型，该模型可以根据拒不接受的测试数据集预测需求。该模型应能够在给定截至时间 T 的所有数据的情况下，通过 T+1 至 T+5 时间间隔(其中每个时间间隔为 15 分钟)准确预测未来。

了解数据集

Grab 提供的原始数据集如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

First few rows of original dataset

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Description of the meaning of each column. More info can be found here.

每条需求记录对应 15 分钟间隔。该数据集总共包含 61 天。

需要理解的棘手部分是，每个 geohash6 都有一组唯一的日期和时间戳。这个信息是至关重要的，因为我们正在处理一个时间序列问题。这将使数据集的排序更加容易。

总共有大约 1300 个唯一的 geohash6 代码。如果您进行快速汇总，您可以看到代码的数字应该接近 61 天* 24 小时* 4 个季度= 5856。

我所做的第一步是使用 pandas 创建一个列‘timestamp _ hour ’,它基本上创建了一个新的时间戳，将日期和时间转换为小时格式。这将有助于我们更好地分析数据。以下代码将帮助您理解:

然后，我汇总数据，以证实我前面提到的说法:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Count of number of timestamps per geohash6 code

我们非常接近拥有这些 geohash6 代码的完整记录，因为我们只缺少 10 个时间戳来获得前四个 geohash6 代码的完整时间序列。遗憾的是，并非所有 geohash6 代码都是如此。有些不完整(即 3000 个时间戳),有些只有一条记录:

agg_geohash.tail()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The tail of geohash6. Some codes only have one instance. Because we’re dealing with time series, these geohash6 will have to be dropped.

2。获得时间序列模式的直觉

我想直观地了解一个特定地理哈希的需求行为随时间的变化。事实证明，我选取的样本遵循一个非常典型的时间序列行为。我尝试了不同的 geohashes(完整的 geo hashes ),它们都显示出某种程度的静态行为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Scatter plot of demand over time for selected geohash6 code ‘qp03wz’ over 15 days

我们可以清楚地看到这个 geohash6 的固定模式。高峰大约在一天的同一时间。周末是相当低的。我们应该能够使用以前的需求值相应地用时间序列特征建模。现在让我们继续进行特征工程，这样我们就可以得到一个训练集，我们可以在这个训练集上建立一个模型。

3。如何在处理不完整的 geohash6 代码时创建时间滞后？

如上所述，数据集是不完整的。对于某些特定的时间戳，所提供的数据集没有记录的值。幸运的是，Grab 团队注意到了这一点，并在 FAQ 中告诉我们，只需假设对缺失时间戳没有需求(值为 0)。这个假设会特别有用。

鉴于这个问题，我需要在 T+1 创建需求，直到需求 T+5。至于我的模型特征，我已经决定使用需求 T-1 下降到需求 T-5 。我还决定包含**纬度、经度和相应的时间戳(以十进制每小时的格式)。**因为我已经决定使用 LSTM(见下一篇)，我不得不使用最小-最大缩放来标准化这些特征，以避免爆炸梯度的问题。

预处理代码可以在这里找到。我在预处理代码中调用的函数可以在这个链接中找到。

由于代码有点密集，我不会详细说明我是如何创建这些延迟的。然而，我想花一些时间解释我是如何处理丢失的时间戳的，以便填补不完整的需求。基本上，一旦我们通过 geohash 和时间戳对数据集进行排序，当前时间戳与其前一个时间戳之间的时间差应该是# of lags * 15 分钟。类似地，当前时间戳与其后续时间戳之间的时间差应该是步骤数* 15 分钟。该代码包括替换不满足这些条件的先前/下一个时间戳的需求。

请参见下面的代码:

为了使用函数 pd，我基本上逐个处理每个 geohash6 代码。Series.shift()来获取我的时滞/步长。然而，由于数据集不完整，我不能保证移位总是有效的。我需要通过查看上一个/下一个时间戳来进行检查。我的做法如下(伪代码)

time_delta = timestamp_lag - timestamp_hourif time_delta != 0.25 * lag:
 return 0
else:
 return demand

如果代码对你来说看起来有点复杂，让我们看看下面的例子，它将以一种非常简单的方式帮助你理解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The d_t_minus_1 and d_t_plus_1 correspond to the observed demand at T-1 and T+1 respectively. ts values correspond to shifted timestamps. The time difference (tdelta) is correct here for lag 1 and step 1 (1 * 0.25 = 1). Thus we do not replace the value by 0

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传