TowardsDataScience 博客中文翻译 2019（四百八十四）_teaching explanations for decisions (ted) framewor-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

可解释人工智能的方法:可解释的建模

原文：https://towardsdatascience.com/the-how-of-explainable-ai-explainable-modelling-55c8c43d7bed?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们如何解释人工智能概述的第一部分，我们看了一个预建模可解释性。然而，可解释性的真正范围要广泛得多。可解释性可以在人工智能开发的所有阶段考虑，即建模前、模型开发和建模后。

大多数人工智能可解释性文献旨在解释已经开发的黑盒模型，即后建模可解释性。我们将在下一部分的中回顾后建模可解释性方法论。然而，理想情况下，我们可以通过开发一个通过设计可以解释的模型，从一开始就避免黑箱问题。这种可解释的建模方法是本系列文章的重点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The three stages of AI explainability: Pre-modelling explainability, Explainable modelling and post-modelling explainability.

可解释的建模

实现可解释的建模有时被认为等同于将人工智能模型的选择限制在被认为是内在可解释的特定模型家族。我们将回顾这一系列人工智能模型。然而，我们的讨论远远超出了传统的可解释的模型家族，并包括更多的最新和新颖的方法，如联合预测和解释，混合模型，等等。

理想情况下，我们可以通过开发一个通过设计可以解释的模型，从一开始就避免黑箱问题。

采用一个内在可解释的模型族

实现可解释建模的传统方法是采用被认为是可解释的特定模型族。这个模型家族通常提供 Zack Lipton 提出的三个层次的模型透明性中的一个(或多个),即可模拟性、可分解性和算法透明性。这些族的例子包括线性模型、决策树、规则集、决策集、广义可加模型和基于案例的推理方法。

然而，在实践中，简单地采用一个来自可解释家族的模型并不能自动保证可解释性。例如，对高维输入进行操作的线性回归模型可能无法模拟，因此无法解释。为了避免这一问题，我们可以在模型训练期间使用某种正则化来限制重要输入特征的数量，例如 Lasso 回归中的 L1 范数。此外，在要素多重共线性的情况下，也就是说，由于观察到的或未观察到的混杂要素而相关的要素，为线性回归模型估计的系数可能不稳定。进一步的规范化，，例如 L2 规范，可以用来缓解这个问题。

简单地采用一个来自可解释家族的模型并不能自动保证可解释性。

虽然一些缓解措施可用于特定的方法，但可解释的模型族通常相对简单，因此不足以捕捉一些现实世界问题的复杂性。这种观察导致了所谓的可解释性与性能的权衡，也就是说，一个模型的性能越高，它就越不可解释，反之亦然。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The alleged explainability vs performance tradeoff: the higher the model performance, the lower its explainability, and vice versa.

然而，许多研究人员已经表明，通过开发既可解释又可执行的模型，所谓的可解释性与性能的权衡并不总是成立的。开发这样一个模型的主要挑战是设计一个足够简单的模型，让它的受众能够理解，同时又足够复杂，能够恰当地适应底层数据。这一类别中有相对较多的相关方法。因此，我们根据它们关键的潜在的、可能重叠的想法对它们进行分组，以使我们的演示更容易理解。

许多研究人员已经表明，通过开发既可解释又可执行的模型，所谓的可解释性与性能的权衡并不总是成立的。

混合可解释模型

有可能将一种内在可解释的建模方法与一种复杂的黑盒方法混合起来，设计出一种高性能且可解释的模型。这是混合可解释模型的潜在直觉。

深度 K 近邻(DkNN) 方法提出对通过深度网络的层学习的训练数据集的隐藏表示使用 K 近邻(kNN)推断。然后，保形预测框架用于以数学上严格的方式组合所有层的 kNN 预测。DkNN 被证明是有效和稳健的，同时根据每层中使用的最近训练样本为其预测提供基于示例的解释。然而，DkNN 需要存储整个训练数据集的隐藏表示，这对于大型数据集来说是不可行的。

深度加权平均分类器(DWAC) 方法在进行预测方面类似于 DkNN，在保形预测框架内，依靠类似于给定输入实例的训练样本的标签。然而，仅使用最终层的低维表示来计算相似性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Deep k-Nearest Neighbors (DkNN) hybrid explainable modelling method: applying K-nearest neighbor (kNN) inference on the hidden representation of training dataset learnt through layers of a deep network.

再比如自解释神经网络(SENN) 。SENN 背后的关键思想是通过允许使用三个神经网络来学习线性分类器的特征、它们相应的系数以及它们聚集成预测的方式，来概括线性分类器。这些神经网络分别被称为概念编码器、相关性参数化器和聚集器。所得到的混合分类器被认为具有线性模型的可解释结构，以及神经网络的表达能力和灵活性。SENN 为学习混合可解释模型提供了一个灵活而有吸引力的框架。然而，作者提出的初步工作没有充分解决使用概念编码器网络学习高级特征的挑战。特别是，作者承认，这些概念应该有一个直接的人类可以理解的解释，这使得学习它们成为一项主观任务，难以量化。

作为另一个例子，考虑上下文解释网络(CEN) 框架，它与森有一些相似之处。CEN 假设了一个学习问题，其中要对给定上下文中的输入进行预测。其思想是首先使用一个复杂的模型，以概率的方式将上下文编码到一个固有的可解释模型的参数空间中。然后，输入被馈送到这个内在可解释的模型以做出预测。

BagNets 架构是另一个非常有趣的混合解释模型的例子。BagNets 基本上是一个特征包模型，其中的特征是使用深度网络学习的。对于图像分类任务，提出将每幅图像视为一个特征包。这种特征包表示是通过将图像分成小块来获得的，这些小块通过深层网络来获得每个小块的局部类别证据。然后，将每个类别的这些局部证据加在一起，并通过 softmax 函数来获得每个类别的总体概率。有趣的是，当应用于 ImageNet 数据集时，BagNet 产生的性能可与最新的黑盒深度网络架构(如 VGG-16)相媲美，同时仍然可以通过设计来解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An overview of the deep bag of features model (BagNets) architecture: an input image is divided into small patches, which are passed through a deep network to obtain class evidences (logits) for each patch. These evidences are then fed into a linear classifier yielding one logit heatmap per class. Finally, these heatmaps are averaged spatially and fed to a softmax layer to produce the final class probabilities.

联合预测和解释

人工智能模型可以被训练来共同提供预测和相应的解释。换句话说，一个复杂的模型可以被明确地训练来为它的预测提供一个解释。然而，这些方法有几个局限性，我们将在下面讨论。

例如，决策的教学解释(TED)框架提出增加训练数据集，其中每个样本包括一组特征、一个决策和用户对该决策的基本原理，一个解释。给定的决策及其解释在训练时被编码到单个标签中。在测试时，由模型提供的输出被解码以产生一个决策及其相应的解释。TED 框架据称有几个优点，包括产生与最终用户的心智模型相匹配的解释，以及广泛适用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The TED (Teaching Explanations for Decisions) framework for explainable modelling through joint prediction and explanation.

Park 等人提出了一种生成多模态解释的建模方法。他们的解决方案类似于 TED，因为它需要一个增加了视觉和文本解释的训练数据集。为了评估他们的方法，作者收集了两个新的数据集，增加了对活动识别和视觉问答任务的多模态解释。他们的实验表明，整合多模态解释可以提高预测性能。

上述方法有两个主要缺点。首先，他们假设训练数据集中有解释，但事实往往并非如此。第二，这些方法产生的解释不一定反映模型预测是如何做出的，而是人类希望看到的解释。

此类别中的一些方法不需要对训练数据集中的每个预测进行解释。例如，Hendricks 等人提出了一种视觉解释生成方法，用于使用深度网络的图像中的对象识别任务。他们的方法只需要在训练时对图像及其类别标签进行文本描述，以便在测试时生成图像预测的特定类别视觉解释。

雷等人的合理化神经预测是另一个例子。他们提出的 NLP 模型由两部分组成，即生成器和编码器，它们被一起训练。前者将输入文本片段的分布指定为候选解释(作者称之为推理)，然后将候选解释传递给后者以映射到预测中。重要的是，这些基本原理是在培训中发现的，而不是提供的。这只能通过实施两个要求来实现，即，它们必须是短且连贯的文本片段，并且它们必须足以作为给定预测任务的原始文本的替代。由于编码器依赖于生成器生成的推理来进行预测，因此他们的方法不会遭受前面提到的两个缺点中的任何一个。然而，仅提供理由不足以让最终用户模拟预测。

通过架构调整的可解释性

这类方法通过调整模型架构来增强模型的可解释性。此外，他们专注于深层网络架构。

例如，张等人开发了一个可解释的卷积神经网络架构，它可以自动将更高层过滤器的表示推送到对象部分，而不是模式的混合。这是通过添加特定的损失函数来实现的，该损失函数被应用于传统卷积网络中的滤波器的特征图。这种损失函数偏爱某一类别的特定对象部分，而对其他类别的图像保持沉默。重要的是，这种方法不需要对象零件注释数据。使用这种方法训练的可解释卷积网络比传统卷积网络在其高层过滤器中编码更多语义上有意义的知识。此外，就预测性能而言，可解释的卷积网络在单类别分类问题上优于其不可解释的对应模型，甚至在多类别分类问题上优于它们。

另一个例子是陈等人提出的 【这个】看起来像【那个】**可解释的深度架构，这个架构的灵感来源于人类如何通过将图像部分与一组已学习的图像部分原型进行比较来描述自己的分类推理。作者建议在传统的卷积网络中增加一个原型层，位于卷积层和全连接层之间。原型层包含每个类的预设数量的图像部件原型。每个特定于类的 protype 旨在捕获最相关的部分或语义概念，以识别给定类的图像。使用特殊的损失函数一起学习原型层参数和传统卷积层的参数。接下来，使用稀疏凸优化方法学习全连接层的权重。两个图像分类任务的实验结果表明，所提出的可解释深度网络产生了与不可解释深度模型相当的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An overview of the This Looks Like That explainable deep network architecture: The key idea is to add a prototype layer to conventional convolutional networks. The prototype layer contains a preset number of image part prototypes for each class. Each class-specific protype is meant to capture the most relevant parts or semantic concepts for identifying images of a given class.

注意机制旨在识别输入中与给定任务最相关的部分。通常，这种相关性由分配给输入部分的一组权重/分数来表征，即注意力图。存在多种多样的注意力机制。基于注意力的模型通常用在各种 NLP 、视觉和时间序列建模任务中，并声称提供了某种程度的可解释性。包含某种形式注意力的深层网络架构，通常是为了提高模型性能，有时被认为是可解释的模型。

然而，最近一项关于注意力作为一种可解释机制的正式研究发现，几乎没有证据支持这一长期持有的信念。换句话说，注意力可能不构成解释。跨各种 NLPs 任务的一组广泛的实验表明，注意力地图与基于梯度的特征重要性的度量仅弱相关。此外，通常有可能识别出导致相同预测的非常不同的注意力地图集合。

正则化的可解释性

经常使用各种正则化方法来提高人工智能模型的预测性能。然而，正则化也可以用来提高模型的可解释性。

例如，Wu 等人提出了树正则化来增强深度网络的可解释性。关键的想法是鼓励学习一个模型，它的决策边界可以用一个小决策树来很好地近似，从而使它的预测可以被人类模拟。这是通过向用于训练模型的损失函数添加新的正则化项来实现的。他们对几个现实世界任务的实验结果表明，使用这种方法开发的模型更易于解释，而不会牺牲预测性能。

此外，越来越多的工作使用正则化来明确约束模型预测的解释，以确保它们有更好的理由是正确的。

Ross 等人提出了一个框架来约束模型预测的局部解释以匹配训练期间的领域知识。他们认为输入梯度是局部模型行为的一阶线性近似，即对于给定模型输入的一阶解释。假设领域知识被编码为二进制注释矩阵，该矩阵指定是否应该使用每个特征来对每个输入进行预测。然后，用于训练模型的损失函数被增加一个新的项，以惩罚与该注释矩阵不匹配的输入梯度。他们的实验结果显示，当在显著不同的数据集上训练和测试时，用他们的方法训练的模型概括得更好。

越来越多的工作使用正则化来明确地约束模型预测的解释，以确保它们有更好的理由是正确的。

Ghaeini 等人提出了一种与 Ross 等人的方法具有类似特征的方法，称为显著性学习。显著性学习包括专注于输入的相关部分而非不相关部分的专家注释，以及与输入维度级别相对的单词嵌入级别的注释。使用模拟解释在几个任务上执行的实验显示，使用显著性学习训练的模型提供了更准确和可靠的预测。

其他方法

还有许多其他值得注意的可解释的建模方法。Angelino 等人提出的可认证最优规则列表(CORELS) 方法是一个有吸引力的选择，因为它提供了一个发现最优规则列表的解决方案，以最小化给定训练数据的经验风险。此外，CORELS 被证明是快速的，并带有一个易于使用的软件实现。然而，它的主要限制是只能处理分类数据。

下一步是什么？

模型可解释性经常被作为事后的想法来处理。换句话说，一些后建模可解释性方法被用来为一个预先开发的模型提取解释。这部分是由于所谓的可解释性与性能的权衡。然而，我们提出了一套不断增长和多样化的方法，证明了开发既可解释又可执行的模型的可能性。对可解释模型的进一步研究将在未来提供更坚实的证据来支持这种可能性。

目前，XAI 的大部分研究集中在后建模可解释性方法学上，本系列的下一个也是最后一个部分将基于一个新的分类法探索该领域的相关文献。

特别感谢 泽维尔·斯内尔格罗夫埃尔纳兹·巴尔尚林赛·布林圣地亚哥·萨尔西多 ，以及 情妇玛侬·格鲁阿兹 彼得亨德森 编辑。**

可解释人工智能的方法:后建模可解释性

原文：https://towardsdatascience.com/the-how-of-explainable-ai-post-modelling-explainability-8b4cbc7adf5f?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 XAI 方法概述的前两部分中，我们研究了预建模可解释性和可解释建模方法，这两种方法侧重于数据集阶段和模型开发期间的可解释性。然而，与事后可解释性相比，这些都是相对次要的领域，后建模可解释性是大多数 XAI 科学家关注和研究的重点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The three stages of AI explainability: Pre-modelling explainability, Explainable modelling and post-modelling explainability.

建模后可解释性

目前，人工智能模型的开发通常只考虑预测性能。因此，大多数 XAI 文献致力于解释预先开发的模型。这种关注的偏向以及最近 XAI 研究的流行导致了众多不同的事后解释方法的发展。

由于研究 XAI 的方法多种多样，要理解这些大量的文学作品很有挑战性。为了理解事后可解释性方法，我们提出了一个分类法或一种分解这些方法的方法，显示了它们的公共结构，围绕四个关键方面组织:目标，关于模型要解释什么；司机，是什么导致了你想要解释的事情；解释族，关于引起目标的驾驶员的解释信息如何传达给用户；而估算者，实际获得解释的计算过程。

例如，流行的局部可解释模型不可知解释(LIME) 方法使用重要性分数、通过模型输入的局部扰动计算的解释族、估计量，为模型的实例预测、目标、输入特征方面的驱动因素提供解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The proposed taxonomy of the post-hoc explainability methods including the four aspects of target, drivers, explanation family, and estimator.

在下面的章节中，我们将详细讨论事后可解释性的四个方面的分类。此外，我们提供了相关方法的例子，以审查文献工作。

解释目标

目标指定了可解释性方法的对象，这使得它成为命运分类法中最重要的方面。目标在类型、范围和复杂性方面可能有所不同。我们将对目标变化的这三个来源分别进行概述。

人工智能生态系统包括各种角色的用户。解释目标的类型通常根据最终用户的角色特定目标来确定。一般来说，有两种类型的目标:内对外，也可以理解为机械对功能。

人工智能专家通常需要对模型内部的某些组件进行机械解释。例如，模型创建者可能需要理解深层网络的各层如何响应输入数据，以便调试或验证模型。相反，非专家通常需要一个功能性的解释来理解模型之外的一些输出是如何产生的。例如，模型审查员可能需要了解模型如何使用输入数据进行预测，以确保模型是可信的、没有偏见的或符合规定的。

解释目标的类型通常是根据最终用户的角色特定的目标来确定的。

此外，目标的范围可以有所不同。外部类型目标通常是某种形式的模型预测。它们的范围可以是实例预测(也称为局部解释)，例如解释类实例的预测，或者所有模型预测(也称为全局解释)，例如解释类所有实例的预测。内部类型的目标也因基础模型的架构而异。XAI 文献中感兴趣的模型架构通常是一些神经网络架构。相应地，内部目标的范围可以是神经网络中的单个神经元或层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Explaining function of a given neuron, as target, by synthesizing an image that maximizes its activation, aka Activativation Maximization (AM): the hidden code input (red bar) of a deep image generator network is optimized to produce an image that highly activates the candle class output neuron. This optimization relies on gradient information (dashed blue line) flowing from the layer containing the target neuron al the way back to the input code layer.

最后，目标的复杂程度会有所不同。它们可以是单个数字或分类输出，例如解释分类器的预测，或者是单词序列，例如解释序列到序列模型的预测。目标的复杂性对解释族的选择有很大的影响，这将在本节稍后讨论。

解释驱动因素

解释目标可能由多种因素引起。命运分类法将驱动因素定义为一组特定的因果因素，这些因素对目标的影响通过解释来描述。最常见的驱动因素是人工智能模型的输入特征。例如，指定每个输入像素对图像分类器预测的相对贡献的解释通常在 XAI 社区进行研究。

人工智能模型的原始特征并不总是解释驱动因素的最佳选择。例如，根据单个输入像素来解释图像分类器预测会导致解释过于嘈杂、计算成本过高，更重要的是难以解释。或者，我们可以依赖于输入特征的更可解释的表示，例如，在图像分类器预测的情况下，相似像素的连续片(又名超像素)。识别合适的解释驱动因素与前面在建模前可解释性章节中提出的可解释特征工程讨论相关。

输入特征不是解释驱动的唯一选择。所有对人工智能模型的发展有影响的因素都可能是解释驱动因素。这些因素包括(但不限于)训练样本，超参数设置，优化算法的选择，甚至模型架构的选择。

特别是，Koh 和梁提出了一种方法来根据有害或伤害性的训练样本解释人工智能模型的实例预测。他们的解决方案基于稳健统计学的经典技术，称为影响函数。对于给定的实例预测，影响函数提供了一种有效的方法来估计上加权每个训练样本对模型损失函数的影响。因此，向上加权导致损失函数恶化(增加)的训练样本被认为是有害的，反之亦然。

所有对人工智能模型的发展有影响的因素都可能是解释驱动因素。

一些研究工作探索允许司机成为一个任意的概念，只要它能被一组例子定义。例如，这允许检查“条纹纹理”的概念是否有助于图像分类器预测斑马。首先计算给定概念的概念激活向量(CAV)。CAV 是通过训练线性分类器来获得的，该线性分类器使用由神经网络的隐藏层产生的表示来分离给定概念的正例和负例。最后一步是估计给定类别预测损失(例如斑马类别)在给定 CAV(例如“条纹纹理”)方向上的导数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Explaining predictions of the zebra class instances in terms of the “striped textures” concept as drivers using the Testing with Concept Activation Vectors (TCAV) method. The CAV is the vector orthogonal to the boundary of a linear classifier that separates given network layer activations for concept and non-concept examples. The TCAV then uses directional derivative of given class logit to measure model prediction sensitivity to changes in input towards the direction of the given concept.

解释系列

事后解释旨在传达一些信息，说明对于给定的人工智能模型，目标是如何由驱动程序引起的。命运分类的解释族方面决定了该信息的形式。至关重要的是，必须选择一个解释族，使得它的信息内容容易被用户(通常是人类)理解(也就是可解释的)。此外，应该选择它来生成尽可能忠实于模型复杂性的解释(也就是完整的解释)。通常在选择一个解释族以确保可解释性和完整性时会有一个折衷。

重要性分数(又名显著性热图)可能是最常见的解释家族类型。个人重要性分数旨在传达每个解释驱动因素对给定目标的相对贡献；换句话说，分数越高，对司机的影响越大。例如，Lundberg 和 Lee 提出了SHAP(SHapley Additive exPlanations)，这是一个以附加特征属性的形式生成事后局部解释的统一框架。该框架使用 Shapley 值来估计每个输入特征对于给定实例预测的重要性。Shapley 值是合作博弈理论中估计联盟成员边际贡献的经典方法。边际贡献是通过对玩家可能被添加到游戏中的每个可能序列进行平均而获得的。

通常在选择一个解释族时会有一个权衡，以确保可解释性和完整性。

决策规则是另一个常见的解释族。每个决策规则通常是“ if condition then outcome ”的形式，其中 outcome 表示 AI 模型的预测，而 condition 是在输入特征上定义的简单函数。决策规则可以是有序列表，又名决策列表，也可以是无序集合，又名决策集合 。例如， KT 方法提取一组规则来完整地描述神经网络模型。然而，这种基于全局规则的解释通常计算成本太高，并且无法完全捕捉现代深度网络的复杂性。为了缓解这些缺点，Ribeiro 等人提出了 Anchors 方法来提取解释任何黑盒模型的实例预测的局部规则。

决策树是一个类似于决策规则的解释族，甚至可以线性化为一组决策规则。与决策规则不同，它们以图表的形式构建，其中内部节点表示对输入要素的条件测试，叶节点表示模型结果。此外，与决策规则相反，在决策树中，每个输入示例只能满足从根节点到叶节点的一条路径。 DeepRED 方法提供了提取决策树来逼近给定深度神经网络模型的解决方案。使用 DeepRED 方法生成的决策树显示出高质量。然而，它们可能相当大，因此很难解释，而且获取成本也很高。

依赖图是另一种解释。它们旨在传达目标价值如何随着给定解释驱动因素价值的变化而变化，换句话说，目标价值如何取决于驱动因素的价值。部分相关图(PDP) 就是这种解释的一个例子。PDP 将预期模型预测显示为给定特征值的函数。个体条件期望(ICE) 是这类解释的另一个例子。对于给定的实例，ICE 将预期的模型预测显示为给定特征值的函数。

上面讨论的常见解释族通常假设目标是一个简单的数字或分类变量。当目标更复杂且具有某种形式的结构时，它们可能是不够的。例如，重要性分数解释不能正确地描述语言翻译模型的预测，其中输入单词序列被翻译成输出单词序列。Alvarez-Melis 和 Jaakkola 提出了结构化输出因果合理化器(SOCRAT) 方法，用于提取这种模型的二部图形式的解释。第一组节点表示模型的输入单词，而第二组节点表示模型输出单词。边缘表示每个输入单词对每个输出单词的估计影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Explaining complex predictions of a sequence-to-sequence model, e.g. language translator, using a bi-partite graph as explanation family and the SOCRAT approach: first a perturbation model is used to obtain perturbed versions of the input sequence. Next, associations between input and predicted sequence are inferred using a causal inference model. Finally, the obtained associations are partitioned and the most relevant sets are selected.

当解释一个模型的内部工作时，解释族通常是某种类型的定制可视化以适应目标模型的架构。例如，Strobelt 等人开发了 LSTMViz ，这是一种工具，用于理解被称为长短期记忆(LSTM)的特殊神经网络家族的内部工作方式，旨在从序列数据中学习。其核心是，LSTMViz 提供了一个解决方案，在处理一系列输入数据时，可视化 LSTM 网络的所谓隐藏状态的进展。另一个例子是 GAN Lab 交互式可视化工具。它通过可视化在此过程中产生的中间结果，使非专家能够更好地理解训练生成性对抗网络(GAN)模型的复杂性。

口头解释也许是最用户友好的解释家族，因为它们通常以类似于人类解释的自然语言形式提供。这一领域的早期工作主要是基于模板的，因此相当有限。基于深度学习的更近期的方法能够生成自然语言文本作为调整，或者甚至是多模态的，即用视觉调整增强的文本。尽管一开始很吸引人，但这种解释有两个主要的局限性。首先，它们(充其量)是对模型内部逻辑的间接解释。其次，在理解模型预测误差时，它们几乎没有用处。

反事实解释描述了将目标变为预定义结果所需的解释驱动因素的最小变化。它们是一个越来越重要的解释家族。通常，解释驱动因素是输入要素，目标是模型预测。考虑一个用于拒绝申请的贷款和客户借贷的模型。对这一拒绝决定的反事实解释可能是，“如果申请人有 10，000 美元的年收入，申请就会被接受。”对于一个给定目标，通常会有多种反事实解释。这个问题可以通过根据必须更改的功能的数量以及这些功能更改是否确实可行来选择最佳解释来缓解。为了产生反事实的解释，我们可以定义一个损失函数，该函数倾向于对尽可能少的输入特征进行最小的改变，以使模型预测尽可能接近期望的结果。这个损失函数可以直接优化或者使用所谓的生长球算法。

反事实解释描述了将目标变为预定结果所需的解释驱动因素的最小变化。

解释评估方法

命运分类学是指用于获得解释的计算过程，作为估计者方面。解释估计方法相当广泛，但它们主要在模型适用性和潜在机制方面有所不同。我们将根据这两种变异的来源，给出解释估计方法的概述。

一些评估方法是模型不可知的，可以应用于任何黑盒模型，而另一些评估方法只为特定的模型架构开发。例如，前面讨论的 LIME 方法在理论上可以应用于任何模型，只要我们可以构造有意义的输入扰动并观察相应的模型输出。这并不意味着用 LIME 或任何模型不可知的估计器生成的解释总是信息丰富的。例如，LIME 使用的局部扰动机制必须扩展到能够解释具有复杂输出的模型。

解释估计方法相当广泛，但它们主要在模型适用性和潜在机制方面有所不同。

特定于模型的方法通常针对深度神经网络，因为它们既流行又难以理解。例如，梯度加权类激活映射(Grad-CAM) 方法被开发用于产生专门针对卷积神经网络的视觉解释。它获取最终卷积层的特征图，然后基于目标类相对于信道的梯度对该特征图中的每个信道进行加权。接下来，应用跨类别梯度的两个维度的全局平均池，然后应用 RELU 激活来获得视觉解释。

解释评估方法可以根据其潜在的机制进行检查**。**我们已经确定了评估解释的四种主要机制，即扰动、反向传播、代理和激活优化。

一些事后解释方法是基于扰动机制。其思想是产生对期望的解释驱动因素的扰动，分析它们对给定目标的影响，并使用解释的重要性分数族对其进行总结。例如，前面讨论过的 LIME 方法，通过生成输入特征的局部扰动并使用线性模型捕捉它们的影响，根据输入特征提取实例预测的局部解释。类似地，对于给定的实例预测，影响函数方法通过扰动训练样本的权重并估计其对模型参数的影响以及最终的模型损失，根据训练样本生成实例预测的解释。

扰动机制方法有两个主要优点:它们通常容易实现，并且它们不局限于特定的模型架构。它们也有缺点:它们的计算成本相对较高，因为它们需要通过模型运行大量扰动输入来生成解释。对于具有高维输入的模型来说，这尤其是一个挑战，因为所需扰动的数量随着特征的数量快速增长。此外，扰动机制可能低估了那些贡献已经饱和的特性的重要性，因为扰动它们将不再产生影响。最后，构建有意义的驱动扰动可能是一个挑战。例如，每个特性通常会被影响最大的无信息值所取代。对无信息参考值依赖于试探法或特别选择可能导致不可靠的解释。特别是，为了确保解释与训练数据分布的一致性，参考值必须从似是而非的替代值中选择。

Shapley 值框架可以被认为是扰动机制的一个特例。这个框架背后的关键直觉是，由于解释驱动因素之间的相互作用，每个驱动因素对给定目标的贡献可以根据已经输入给定模型的其他驱动因素而变化。因此，通过检查输入其他驱动因素的所有可能的扰动，计算每个驱动因素的边际贡献，即 Shapley 值。前面讨论过的著名的 SHAP 方法，依靠这个框架来提取模型实例预测的局部解释。计算精确的 Shapley 值可能会很昂贵。因此，针对特定的模型架构，如树系综和深度网络，已经提出了许多有效的 Shapley 值估计方法。

量化输入影响(QII) 度量是一系列度量，用于捕捉模型输入对其输出的影响程度。他们通过干预构建一个假设的输入分布，然后量化一个感兴趣的量的结果差异，它可以是一个实例或一组模型输出。原则上，它们可以被归类为一种特定类型的扰动机制，可以估计单个或一组输入特征对一个实例或一组模型输出的影响。重要的是，在估计输入要素相关性的影响时，QII 测量会仔细考虑输入要素相关性。

Shapley 值框架可以被认为是扰动机制的一个特例。

反向传播机制通常用于生成深度网络模型的事后解释。得到的解释往往是模型的输入特征方面的重要性分数。为了获得这些分数，反向传播机制从产生给定目标的层开始，例如某个类 logit，并且估计在该目标之前的层中神经元的贡献。这一过程逐层重复，直到获得输入图层要素的贡献。有几种基于反向传播的可解释性方法。一些最著名的例子包括逐层相关性传播(LRP) 、深度提升、引导反向投影(GB) 、平滑梯度和集成梯度(IG) 。

这些方法的主要区别在于它们如何估计前一层的贡献。特别地，如在 GB 和 SmoothGrad 方法中，可以基于目标神经元激活相对于前一层神经元的部分梯度来估计贡献(又名灵敏度分析)。或者，可以通过将目标神经元激活值分解为来自前一层的组成值(也称为分解方法)来估计它们，如在 LRP 和深度提升方法中。使用灵敏度分析估计的贡献主要涉及目标神经元激活的局部变化，而不是其值。与 IG 方法一样，将基于灵敏度的贡献乘以前一层神经元的激活可以缓解这个问题。事实上，已经证明基于分解的贡献方法和那些类似于 IG 方法的方法是密切相关的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Explaining predictions of a neural network in term of input features using the Layer-wise Relevance Propagation (LRP) method: first, a standard forward pass is applied to the network and each layer’s activations are collected. Next, the score obtained at the network output is propagated backwards through the network, using a set of propagation rules.

基于反向传播机制的方法只需要一次或几次推理通过模型来生成解释。与基于扰动机制的方法相比，这使得它们的计算效率更高。另一方面，反向传播机制仅适用于深层网络。此外，使用这种机制产生的解释可能不可靠。一些最近的方法，如 DeepLIFT 和 LRP，有望提供更有力的解释。然而，DeepLIFT 的性能很大程度上取决于其参考点的选择，这必须由用户决定。同样，LRP 已经被证明有数值不稳定问题。

获得复杂模型的事后解释的另一种方法是用一个具有可比性能的更简单、更容易解释的模型来模仿它，即**代理机制。**这种机制通常用于用更具解释力的模型(如决策树或决策规则)来取代复杂的深度神经网络。这方面的早期工作是只适用于浅层神经网络。然而，最近的方法是针对深度神经网络模型的。例如，前面讨论过的 DeepRED 方法，能够构建忠实代表深度网络模型的决策树。然而，生成的决策树可能非常大，因此不太容易解释。

缓解这一挑战的一种方法是学习不全局模仿复杂模型行为的代理模型。例如，锚方法旨在提取仅模仿给定模型的实例预测的局部决策规则。类似地， BETA 方法学习少量决策集，每个决策集在其输入特征空间的明确定义的区域内模拟给定复杂模型的行为。

激活优化 机制通常用于生成深层网络模型内部工作原理的解释。它的解释是通过搜索一个输入模式获得的，该输入模式对作为目标的模型的内部组件产生最大(或最小)响应，例如一个特定的神经元。这个搜索问题又可以被公式化为优化问题，并使用基于梯度的方法来解决。该过程类似于用于训练模型的过程，其中优化目标是输入特征而不是模型参数。

不幸的是，在没有添加任何正则化的情况下，使用激活优化机制获得的输入模式通常类似于高频噪声。各种各样的正则化约束已经被提出来缓解这个挑战。例如，我们可以尝试通过明确惩罚相邻输入特征之间的差异来直接降低高频噪声。然而，这种正则化约束也可能抑制合法的高频特征，例如输入图像中的边缘。

激活优化机制通常用于生成深层网络模型内部工作的解释。

下一步是什么？

已经提出了许多方法来解释预先开发的人工智能模型。它们的解释对象、驱动程序、家族和提取机制各不相同。XAI 是一个活跃的研究领域，新的和改进的方法不断发展。如此多样的选择使得 XAI 从业者很难针对特定应用采用最合适的方法。

为了帮助缓解这一挑战，本系列的附录展示了一些最著名的后建模可解释方法的快照。每种方法的特点是根据四个方面介绍的命运分类系统地定位在 XAI 文学的身体。此外，还概述了一些现成的 XAI 软件包。

特别感谢 泽维尔·斯内尔格罗夫埃尔纳兹·巴尔尚林赛·布林圣地亚哥·萨尔西多 ，以及 情妇玛侬·格鲁阿兹 彼得亨德森 编辑。**

可解释人工智能的方法:预建模可解释性

原文：https://towardsdatascience.com/the-how-of-explainable-ai-pre-modelling-explainability-699150495fe4?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能可解释性是一个广泛的多学科领域，正在多个领域进行研究，包括机器学习、知识表示和推理、人机交互和社会科学。相应地，XAI 文献包括大量且不断增加的方法论。

有许多因素可以影响人工智能模型如何运行和做出预测，因此有许多方法来解释它们。这也部分是由于缺乏对 XAI 的一致认可的定义。一般来说，可解释性可以应用于整个人工智能开发流程。具体来说，可以在建模阶段之前(前建模可解释性)、期间(可解释建模)和之后(后建模可解释性)应用。

以下是一些最重要的 XAI 方法和途径的非穷尽性概述，分为这三个阶段:建模前的可解释性、可解释的建模和建模后的可解释性。

有许多因素可以影响人工智能模型如何运行并做出预测，因此有许多方法来解释它们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The three stages of AI explainability: Pre-modelling explainability, Explainable modelling and post-modelling explainability.

建模前可解释性是不同方法的集合，其共同目标是更好地理解用于模型开发的数据集。这种方法的动机是，人工智能模型的行为在很大程度上是由用于训练它的数据集驱动的。

建模前可解释性

建模前可解释性文献可以分为四大类:探索性数据分析、数据集描述标准化、可解释特征工程和数据集总结方法。

建模前可解释性是不同方法的集合，其共同目标是更好地理解用于模型开发的数据集。

探索性数据分析

探索性数据分析的目标是提取数据集主要特征的摘要。该摘要通常包括数据集的各种统计属性，如其维度、均值、标准差、范围、缺失样本等。Google Facets 是一个强大的工具包的例子，可以从给定的数据集中快速提取这些属性。

作为一个例子，考虑一个简单的监督二进制分类问题，其中开发了一个模型来检测有缺陷和无缺陷的产品。假设所提供的数据集包含装配线的高架摄像机提供的大量图像，每个图像都被标记为有缺陷或无缺陷。让我们进一步假设为该模型开发的初步分类器模型表现不佳。检查缺陷和非缺陷图像的相对频率的探索性数据分析任务可以揭示类别不平衡问题，即缺陷图像比非缺陷图像少得多。在训练数据集中发现这一挑战后，可以利用各种解决方案来缓解这一挑战并提高分类器的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An example of datasets with identical mean and standard deviation, and different graphs to demonstrate the importance of visualization in exploratory data analysis.

然而，在分析数据集时，仅仅依靠统计属性通常是不够的。例如，已经表明数据集可以有相同的统计属性，但在图表上显示时却有不同的外观。因此，数据可视化方法构成了探索性数据分析机制的一大部分。数据可视化提供了多种方法来使用各种类型的图表绘制数据集。选择适当类型的图表取决于给定的数据集、给定的应用程序以及我们想要传达的特定统计属性。

现实世界的数据集通常是复杂的和高维的，也就是说，具有大量的要素。可视化这样的高维数据可能是一个挑战，因为人类只能轻松地想象最多三个维度。

在分析数据集时，仅仅依靠统计属性通常是不够的。

应对这一挑战的一种方法是使用专门类型的图表，例如平行坐标图，以允许人类感知大于三的维度。或者，可以将高维数据集投影到低维表示中，同时尽可能保留其底层结构。这就是降维方法的目标。这一类别中的一些流行方法包括主成分分析(PCA)和 t-SNE。嵌入式投影仪工具包提供了这两种方法的简单易用的实现。如果已知数据集的基础结构是相对线性的，那么主成分分析是首选方法，否则，t-SNE 通常是正确的选择。不幸的是，t-SNE 在应用于大型数据集时速度太慢。在这种情况下，可以使用最近的替代方法，如 UMAP 降维技术。事实上，UMAP 被认为比 t-SNE 更具扩展性，也更准确。

数据集描述标准化

数据集通常是在文档不足的情况下发布的。标准化可以确保数据集的创建者和用户之间的适当沟通，并有助于缓解人工智能模型中的系统偏差或数据滥用等问题。在这一观察的推动下，已经提出了许多关于标准化数据集描述的建议。

其中一些建议包括数据集的数据表、数据表和数据集营养标签。它们本质上都为伴随数据集的特定信息提出了各种模式，以记录数据集的创建、组成、数据收集过程、法律/伦理考虑等。例如，数据集营养标签框架建议在数据集文档中包含几个类似于包装食品营养事实标签的信息模块。与消费者可以根据营养事实选择他们想要的食物的方式类似，人工智能专家可以使用数据集营养标签来有效地选择最佳数据集以用于建模目的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The information modules proposed by the Dataset Nutrition Label framework as a standard for providing a distilled yet comprehensive overview of datasets.

可解释的特征工程

除了对提高人工智能模型的性能非常有用之外，数据集可解释性还可以有助于开发可解释的模型，并使事后模型解释更具可解释性。

特征属性是一种流行的事后解释类型，它涉及确定输入特征对于给定模型预测的相对重要性。为了让特性属性解释对最终用户更有用，相关的特性本身也应该是可解释的，换句话说，用户应该能够赋予它们直观的含义。换句话说，的解释和他们用来解释模型预测的特性一样好。可解释的特征工程旨在解决这一挑战。

实现可解释特征工程有两种主要途径，即特定领域和基于模型的特征工程。特定于领域的方法依赖于领域专家的知识和从探索性数据分析中获得的洞察力来提取和/或识别特征。例如，由于冰/雪与云的定性相似性，检测北极卫星图像中的多云像素是一项具有挑战性的任务。遵循特定领域的特征工程方法，Shi 等人开发了三个可解释的有效特征，由二元分类器使用来解决这个问题。

解释的好坏取决于它们用来解释模型预测的特征。

另一方面，基于模型的特征工程方法应用各种数学模型来揭示数据集的底层结构。一些相关的方法包括聚类和字典学习。另一个有趣且相关的研究领域是解开表征学习，其目的是学习给定数据集的表征，其中其生成潜在因素是孤立的。这些潜在因素可以被认为是描述数据集的可解释特征。例如，上图显示了一个名为VAE的解开表征学习模型，该模型使用从不同角度拍摄的椅子图像数据集(也称为 3D 椅子数据集)进行训练。如图所示，该模型似乎已经成功地隔离了该数据集的三个潜在因素，即方位角、椅子宽度和椅子腿风格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Manipulating three latent factors of the 3D chairs dataset, namely, azimuth angle, width, and leg style, using the ß-VAE distentagled representation learning approach.

数据集汇总

基于案例的推理是一种可解释的建模方法，它根据某种距离度量，基于与之相似的训练样本(案例)对给定样本进行预测。这些相似的训练样本可以与模型预测一起呈现给最终用户，作为解释。然而，基于案例的推理方法的一个重要限制是需要存储整个训练数据集，这对于非常大的数据集来说成本太高或者根本不可能。缓解这个问题的一种方法是存储仍然代表数据集本质的训练数据集的子集。数据集摘要旨在应对这一挑战。

总结一个数据集通常意味着寻找一个代表样本(也称为原型)的最小子集，以提供它的浓缩视图。这个领域的早期工作可以追溯到 20 世纪 80 年代，使用的方法有 K-medoid 聚类。最近，主要由于大数据集可用性的增加，人们对数据摘要的兴趣重新燃起。例如，已经为场景摘要、文档摘要和分类任务提出了许多方法。第一种方法依赖于专门的聚类算法，而后两种方法都被公式化为优化问题。此外，所有这些方法都提取目标应用程序的数据集摘要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A random subset of prototype and criticism examples extracted for the USPS dataset using the MMD-critic data summarization method.

最近有人认为原型例子不足以理解大型复杂的数据集，我们也需要批评。一个批评是一组原型不能很好描述的通常(相对)罕见的数据点。Kim 等人提出了一种无监督学习方法来提取给定数据集的原型和批评，并进行人体研究来验证他们方法的结果。首先，给人类受试者展示一些动物种类的原型和批评图像。然后，他们被要求预测给定测试图像的类别标签。研究显示，同时看到原型和批评图像的人比只看到原型的人表现更好。

所谓的数据压缩与数据汇总有关。数据压缩的目标是构建一个更小的数据集替代物，以获得大致相同的分析结果。与数据汇总相比，替代数据集中的样本通常具有与之相关的权重。最近关于所谓的贝叶斯核心集的工作就属于这一类。换句话说，它可以被认为是一个在贝叶斯学习设置中公式化的数据挤压问题。

原型例子不足以理解大而复杂的数据集，我们也需要批评。

下一步是什么？

建模前可解释性是一组不同的方法，它们有一个共同的目标，那就是更好地理解可用于建模的给定数据集。通过预建模可解释性提取的数据相关的见解能够开发更有效、可解释和健壮的人工智能解决方案。

本系列的下一部分将关注人工智能开发的建模阶段。特别是，它探索了开发既可解释又可执行的人工智能模型的各种方法。

特别感谢 泽维尔·斯内尔格罗夫埃尔纳兹·巴尔尚林赛·布林圣地亚哥·萨尔西多 ，以及 情妇玛侬·格鲁阿兹 的宝贵意见由 彼得亨德森 编辑。**

精确与回忆中人的一面

原文：https://towardsdatascience.com/the-human-side-of-precision-vs-recall-36391f9d25e4?source=collection_archive---------23-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Charles DeLoye on Unsplash

作为数据科学家，我们花费大量时间思考各种数据转换、模型和评估标准的数学含义。但是，可悲的是，要了解我们的选择对真正的潜在人类的影响要难得多。

我认为这在很大程度上要归咎于最近关于定向广告如何可能操纵某人的精神状态或者善意的算法如何可能最终对整个种族群体产生偏见的担忧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Con Karampelas on Unsplash

但是，我不想在这篇文章中谈论任何如此宽泛的东西；相反，我想把它带回家，谈谈我从事的一个数据科学项目，以及它如何让我思考我的选择对实际人类的影响。

一个学生会退学吗？

几年前我从事的一个项目主要是预测一个本科生是否会放弃他或她当前的学术专业。

想象一下，你是一个学术部门的首席顾问，你有一个*【非常准确】*的系统供你使用。你将能够生成一份最有可能从你的系里退学的学生的名单，然后通过延长辅导支持、帮助选课或者仅仅是给这些学生一个表达他们的挣扎的机会来采取行动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Helloquence on Unsplash

如何知道自己的模型是否“好”？

因此，我和我的团队一起工作，根据 15 年的学生数据建立了预测学生辍学的模型。最终，我们需要弄清楚任何给定的模型有多“好”，这样我们才能交付“最好的”模型。

通常在谈论数据科学中判断一个模型时，第一个出现的术语是**【precision】****【recall】**。

在学生辍学问题的背景下，

精度是实际上最终辍学的预测辍学比例
回忆是实际辍学者中被预测辍学者的比例

应该用精确还是回忆？

那么…我们应该用哪一个来评估我们的模型呢？为了回答这个问题，我们需要找出使用其中一种方法的缺陷。

这是设置。我们有 100 个经济学专业和 20 个会继续从专业退学，而另外的 80 个会继续从专业毕业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外，我们只有足够 20 名学生的咨询会议，所以我们最好让我们的预测算数！

使用精度

假设我们的模型预测 100 个学生中有 10 个会辍学:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这种情况下，预测的 10 个退出者中，所有 10 个最终都将退出，因此我们的精度是 10/10 = 100% 。所以根据 precision，我们做得很好！对吗？

嗯，不是真的……

我们只抓到了 20 个学生中的 10 个会继续退学，完全忽略了其中的 50% 。

当我们看到之外的仅仅是高精度带来的数字和兴奋，并思考我们的结果对基础学生的实际意义时*，我们会更好地认识到精度本身可能不是我们的正确指标。*

使用召回

那么，回忆当然是正确的标准了？

假设我们的模型碰巧预测到所有 100 名学生都会辍学！

那么，在这种情况下，20 个实际上可能会辍学的学生中，我们正确地识别出了所有 20 个学生，因此我们的召回率是 20/20 = 100% ，看起来这个模型表现得非常好。

但是，显然这里有一个突出的问题。如果所有 100 名学生都被预测要辍学，那如何帮助我们分配那 20 次咨询会议？！

以人为本的模式评估方法

似乎我们都输了。单独使用精度有可能抓不到可能辍学的学生。而且，单独使用回忆有预测太多学生会辍学的风险。

让我们翻转心态。我们首先考虑数据科学，然后观察它对学生和部门的影响。

相反，让我们站在系的立场上，想想每个结果对学生的影响。

对于任何给定的学生，有四种可能的情况:

这个学生将毕业，我们预测他们也将毕业

这是个好结局！我们正确地认识到一个学生不需要稀缺的咨询资源。让我们以此为基线，在这些情况下 奖励 1 点 。

2.这个学生会退学，我们预测他们也会退学:

这样更好！因为我们的项目都是关于抓住辍学的学生，我们应该给这些案例更多的分数。让我们把这些情况下的 奖励 2 分 。

3.这个学生将会毕业，但是我们预测他们会退学

这很糟糕，因为我们可能会把稀缺的咨询资源给这个学生，尽管他们并不需要。在这个过程中，我们潜在地从一个真正需要他们的学生那里拿走了咨询资源。让我们在这些情况下 扣除 4 分 。

4.这个学生将会辍学，但我们预测他们会毕业:

这可能是最糟糕的情况。我们不会给这个学生咨询资源，因为他们被标记为毕业，但实际上我们只是让他们无助，没有做任何事情来阻止他们辍学。让我们在这些情况下 扣除 8 分 。

我们可以在下面的成本矩阵中对此进行总结:

最高分 我们能拿到多少？嗯，如果我们正确识别所有 80 名最终毕业生 (+1 乘以 80 = 80)和 正确识别所有 20 名最终辍学者 (+2 乘以 20 = 40)，则总分为120。**

最低分我们能得到什么？嗯，如果我们将所有 80 名最终的毕业生* 错误分类为 (-4 乘以 80 = -320)，将所有 20 名最终的辍学者 (-8 乘以 20 = -160)，总分数为 -480***

既然我们的分数范围是从 -480 到 120 ，我们就把 加 480 到所有分数 把这个范围映射到 0 到 600 这样我们就可以取百分比了。

本质上，我们已经抛弃了固定的性能指标，如精确度和召回率，并创建了我们自己的上下文感知成本函数，在我们想要的确切位置奖励和惩罚模型。**

当然，调整成本矩阵中的精确数字是一门艺术，应该与所有相关方合作完成。

新指标的表现如何？

让我们来测试一下新的性能指标！

如果我们预测只有 10 名学生将会辍学，那么它会给出多少分呢？

嗯，我们正确地识别了所有 80 名最终毕业生(+1 乘以 80 = 80)，我们正确地识别了 10 名最终辍学者(+2 乘以 10 = 20)，我们错误地分类了 10 名最终辍学者(-8 乘以 10 = -80)，总得分为 20，加上 480，最终得分为 600 分中的 500 分或 83%。很好，但这种模式绝对有改进的空间。

再考一次！在我们预测每个人都会退出的情况下，新的指标会给出多少分？

我们正确地识别了所有 20 名最终辍学者(+2 乘以 20 = 40)，并且我们错误地将所有 80 名最终毕业者(-4 乘以 80 = -320)归类为总分-280，再加上 480，得到的最终分数为 600 分中的 200 分或 33%* 。这…真的很糟糕，这是有道理的，因为从部门的角度来看，预测每个人都将退出是一个可怕的策略！***

希望这一探索有助于展示为什么我们作为数据科学家，有时需要超越数字和统计数据。最终，我们正在解决的大多数问题都会影响到真实的人的生活。**

难道这些人的经历不应该成为我们工作的一部分吗？

感谢阅读~

百页机器学习书籍书评

原文：https://towardsdatascience.com/the-hundred-page-machine-learning-book-book-review-72b51c5ad083?source=collection_archive---------4-----------------------

机器学习的起点和终点。10 分钟 100 页。准备好了吗？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by the author. Taken from the video version of this article on YouTube.

百页机器学习书是我开始学习机器学习时就希望拥有的书。你可以在一天内看完。这花了我不止一天的时间，但我还是熬过来了。我慢慢来。在突出的地方划线，在封面做笔记，我想重温的页面。完成它并不是重点。这本 100 页的机器学习书是一个参考，你可以不断回头去看。这也是我打算做的。

根据这本书和作者安德烈·布尔科夫的风格，我们将保持这篇文章简短扼要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The pages I wanted to remember for later (most of them). And a typical page of notes.

你应该买这本书吗？

是的。但是你不需要。你可以先看一下。但是你应该买一本，拿着它，读它，把它放在你的咖啡桌上。然后当你的朋友问‘什么是机器学习？’，你就能告诉他们。

这本书是给谁的？

也许你正在学习数据科学。或者你听说过机器学习无处不在，你想了解它能做什么。或者你熟悉应用机器学习的工具，但你想确保你没有遗漏任何东西。

在过去的两年里，我一直在研究和实践机器学习。我建立了自己的人工智能硕士学位，这导致我成为了一名机器学习工程师。这本书现在是我课程的一部分，但如果我刚开始的时候它就在外面，那它从一开始就应该在那里。

百页机器学习书我需要哪些前期知识？

了解一点数学、概率和统计知识将会有所帮助，但是这本 100 页的机器学习书籍已经写成了一种方式，你可以在学习过程中获得其中的大部分知识。

所以这个问题的答案仍然是开放的。我从一个机器学习工程师的角度来看，我知道一些事情，但学到了更多。

如果你没有机器学习的背景，这并不意味着你应该回避它。

我把它看作是机器学习的开始和继续。看一遍。如果没有意义，再读一遍。

为什么要读？

你看过标题，看过广告。机器学习，人工智能，数据，它们无处不在。通过阅读这篇文章，你已经与这些工具互动了几十次。机器学习用于向你在线推荐内容，它有助于维护你的手机电池，它为你上次航班使用的预订系统提供动力。

你不知道的事情看起来很可怕。媒体在将机器学习放入那些太难的桶中的一个方面做得很好。但是这本上百页的机器学习书改变了这一点。

现在，在一天的时间内，或者更长的时间，如果你像我一样，你将能够破译哪些标题你应该注意，哪些不应该。或者用机器学习的术语来说，从局部最小值到全局最小值——不要担心，这本书会涉及到这一点。

这本书会教你关于机器学习的一切吗？

号码

那它教什么呢？

什么管用。

这是最简单的描述方式。机器学习的领域非常广阔，因此传统书籍远远超过 100 页。

但是上百页的机器学习书涵盖了你应该知道的内容。

介绍了不同种类的机器学习。

监督学习，那种你有数据和数据标签的学习。例如，您的数据可能是一系列文章，标签可能是这些文章所属的类别。这是最常见的机器学习类型。

无监督学习或当你有数据但没有标签时。想想同样的文章，但是现在你不知道它们属于哪一类。

半监督学习就是你的一些文章有标签，而另一些没有。

强化学习包括教代理(计算机程序的另一种说法)根据规则和空间定义的反馈导航空间。一个计算机程序(代理)在棋盘(空间)中移动棋子(导航)并因获胜而获得奖励(反馈)就是一个很好的例子。

第 2 章——让数学再次变得伟大(一直如此)

第二章，深入探究你从高中起就没见过的希腊符号。任何机器学习资源附带的那些。一旦你知道它们的意思，阅读机器学习论文就不会那么可怕了。

你会发现这样的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This sentence explains the notation of set, element of and intersection all with an example. Screenshot from the book, annotations mine.

这种语言贯穿全书。许多技术术语用一两行文字来描述，毫不含糊。

什么是分类问题？

分类是自动给一个未标记的例子分配一个标签的问题。垃圾邮件检测是分类的一个著名例子。

什么是回归问题？

回归是在给定一个未标记的例子的情况下，预测一个实值标记(通常称为目标)的问题。根据房屋特征(如面积、卧室数量、位置等)估计房价估值是回归的一个著名例子。

我从书上拿了这些。

第 3 章和第 4 章——最好的机器学习算法是什么？为什么？

第 3 章和第 4 章展示了一些最强大的机器学习算法，以及是什么让它们成为学习算法。

您会发现线性回归、逻辑回归、决策树学习、支持向量机和 k 近邻的工作示例。

有大量的数学符号，但没有什么是你在第二章之后不具备的。

布尔科夫在建立理论，解释问题，然后为每种算法提出解决方案方面做得非常出色。

有了这个，你会开始明白为什么发明一个新的算法是一种罕见的做法。是因为现有的都很擅长自己做的事情。作为一名初露头角的机器学习工程师，你的任务是找出如何将它们应用于你的问题。

第 5 章—基本实践(1 级机器学习)

现在你已经看到了最有用的机器学习算法的例子，你如何应用它们呢？你如何衡量他们的有效性？如果他们工作得太好(过度合身)，你该怎么办？或者不够好(不合身)？

您将看到数据科学家或机器学习工程师花费了多少时间来确保数据准备好用于学习算法。

这是什么意思？

这意味着将数据转化为数字(计算机在其他方面做得不好)，处理缺失的数据(你不能在任何东西上学习)，确保所有数据都是相同的格式，合并不同的数据片段或删除它们以从你所拥有的东西中获得更多(特征工程)等等。

然后呢？

一旦你的数据准备好了，你就要选择正确的学习算法。不同的算法在不同的问题上效果更好。

这本书涵盖了这一点。

下一步是什么？

你评估你的学习算法学到了什么。这是你必须向他人传达的最重要的事情。

这通常意味着将数周的工作浓缩成一个指标。所以你要确保你做对了。

99.99%的准确率看起来不错。但是精度和召回率呢？或者 ROC 曲线下面积(AUC)？有时候这些更重要。第 5 章的后端解释了原因。

第 6 章—风靡全球的机器学习范式、神经网络和深度学习

你看过照片了。旁边有深度学习神经网络的大脑图像。一些人说他们试图模仿大脑，另一些人则认为没有关系。

重要的是你如何使用它们，它们实际上是由什么组成的，而不是它们是由什么组成的。

神经网络是线性和非线性函数的组合。直线和非直线。使用这种组合，你可以绘制(建模)任何东西。

这本一百页的机器学习书籍讲述了神经网络和深度学习最有用的例子，如前馈神经网络、卷积神经网络(通常用于图像)和递归神经网络(通常用于序列，如文章中的单词或歌曲中的音符)。

深度学习就是你通常会听到的人工智能。但是读完这本书，你会意识到它是人工智能，也是你在前几章学到的不同数学函数的组合。

第 7 章和第 8 章——运用你所学到的知识

现在你已经得到了所有这些工具，你应该如何以及何时使用它们呢？

如果你有文章，你需要一个算法来为你标记，你应该使用哪一个？

如果你只有两类文章，体育和新闻，你就遇到了二元问题。如果你有更多，体育，新闻，政治，科学，你有一个多类分类问题。

如果一篇文章可以有多个标签会怎样？一个关于科学和经济。那是一个多标签的问题。

把你的文章从英语翻译成西班牙语怎么样？这是一个序列对序列的问题，一个英语单词序列对一个西班牙语单词序列。

第 7 章涵盖了这些以及集成学习(使用一个以上的模型来预测同一件事)，回归问题，一次性学习，半监督学习等等。

好吧。

所以你已经对什么时候可以使用什么算法有了一点了解。接下来会发生什么？

第八章深入探讨了你将会遇到的一些挑战和技巧。

不平衡类是一个标签有更多数据而另一个标签没有足够数据的挑战。想想我们的文章问题但是这次我们有 1000 篇体育文章，只有 10 篇科学文章。你在这里应该做什么？

人多力量大吗？将试图预测同一事物的模型结合起来可以得到更好的结果。做这件事的最好方法是什么？

如果你的一个模型已经知道了一些东西，你如何在另一个模型中使用它？这种做法被称为迁移学习。你可能会一直这样做。把你在一个领域所知道的东西用在另一个领域。迁移学习做同样的事情，但是使用神经网络。如果你的神经网络知道维基百科文章中的单词出现的顺序，是否可以用来帮助对你的文章进行分类？

如果一个模型有多个输入，比如文本和图像，会怎么样？或者多个输出，比如你的目标是否出现在图像中(二进制分类)，如果出现，在哪里(坐标)？

这本书涵盖了这些。

第 9 和 10 章——无标签学习和其他形式的学习

无监督学习就是你的数据没有标签。这是一个困难的问题，因为你没有一个基本事实来判断你的模型。

这本书着眼于处理未标记数据的两种方法，密度估计和聚类。

密度估计试图指定一个样本落在一个数值范围内的概率，而不是取一个单一的值。

聚类的目的是将相似的样本分组在一起。例如，如果你有未标记的文章，你会期望体育文章比科学文章更紧密地聚集在一起(一旦它们被转换成数字)。

即使你有标签，你将面临的另一个问题是有太多的变量供模型学习，而没有足够的样本。解决这个问题的实践被称为降维。换句话说，减少模型需要学习的东西的数量，但仍然保持数据的质量。

要做到这一点，你将看到使用主成分分析(PCA)，统一流形近似和投影(UMAP)或自动编码器。

这些听起来很吓人，但是你已经在前几章中为理解它们打下了基础。

倒数第二章通过其他形式的学习，如学习排名。比如谷歌用来返回搜索结果的东西。

学会推荐，就像媒体用什么来推荐你读的文章。

和自我监督学习，在单词嵌入的情况下，通过算法读取文本并记住哪些单词出现在其他单词面前来创建单词嵌入。它是自我监督的，因为相邻单词的出现就是标签。例如， dog 比 car 更有可能出现在带有宠物的句子中。

不断给予的书:伴随的维基

上百页的机器学习书上贴满了二维码。对于那些课外活动，二维码链接到每章的附带文件。额外的材料包括代码示例、论文和参考资料，您可以在其中更深入地研究。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An example of a QR code in the book and what it leads to.

最好的事？

布尔科夫自己用新材料更新维基。进一步复合从这里开始并在这里继续进行机器学习标签。

它不包括什么？

机器学习的一切。那些书有 1000 多页。但是上面的主题足以让你开始并坚持下去。

第 11 章——什么没有被覆盖

书中没有深入讨论的主题是那些尚未在实际环境中证明有效的主题(并不意味着它们不能有效)，没有上述技术那样广泛，或者仍在大量研究中。

这些方法包括强化学习、主题建模、生成对抗网络(GANs)和其他一些方法。

结论

这篇文章开头太长了。我回去把多余的部分删掉了。布尔科夫启发了我。

如果你想开始机器学习，或者如果你像我一样是一名机器学习实践者，你想确保你正在实践的东西与有效的东西一致。获得百页机器学习书。

看完，买了，重读。

你可以在 YouTube 上找到这篇文章的视频版本。否则，如果你有任何其他问题，随时联系或注册更新我的作品。

魔力象限、酷供应商和困惑客户的炒作循环

原文：https://towardsdatascience.com/the-hype-cycle-of-magic-quadrants-cool-vendors-and-confused-clients-b8773d64538c?source=collection_archive---------16-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Tom Roberts on Unsplash

对 Gartner 及其最近的分析峰会的综述

这几天都在下 AI 大会。如果你不知道该去参加哪一个，不知道该如何看待这些宣传，你并不孤单。它需要认真努力来识别有实质内容的事件，然后将营销言论与行业情报分开，最后将学到的东西付诸行动。

本月早些时候，我参加了在奥兰多举行的高德纳数据与分析峰会。超过 3000 人聚集在一起，在 5 天内进行了 150 多次会议，能量水平是显而易见的。从 111 家供应商、研讨会和 100 多名研究分析师的一对一展示中，这听起来更疯狂。

在这篇文章中，我将尝试解开 Gartner 精心构建的这个神秘的生态系统。我们将会看到为什么买家高度重视它们，以及是什么让卖家不择手段地在其中占有一席之地。我将概括介绍他们的分析会议和讨论的主要行业趋势。

Gartner，对于外行来说

Gartner 涉足研究和咨询领域，广泛涉足技术&行业垂直领域。15，000 多名员工为 12，000 多名客户提供服务，没有多少人意识到这家发布“炒作周期”和“幻方图”的公司是一家 40 亿美元的巨头，在收入方面与纳斯达克或法拉利相当。

根据 Gartner 的年度报告和，Gartner 的三大关键业务线是:

研究 : 占收入约 75%的主要产品，包括 Gartner 的所有优秀产品——幻方图、炒作周期、优秀供应商、市场指南和研究报告。
咨询 : 这包括他们为客户提供的定制解决方案，包括战略、基准和购买决策。
事件 : 在世界各地举办的 70+会议，包括 Gartner Symposium/ITxpo 和 Gartner Analytics Summit 等热门会议。

虽然这本身听起来可能不寻常，但 Gartner 将所有这些产品编织在一起并与市场建立强有力的相互依赖关系的方式是非凡的。接下来我们将深入了解他们的超能力是什么。

Gartner 对生态系统的神奇掌控

研究和内容是推动 Gartner 引擎的战略资产。分析师显然是这个系统的核心，他们得到大量分析和市场研究的帮助。咨询和活动的其他两个产品依赖于此，并兼作销售研究产品的渠道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Gartner Engine

将上述标准商业模式转变为高效飞轮的是买方(购买软件和服务的企业)和卖方(产品、平台和咨询公司)的加入。

鉴于 Gartner 已经建立的品牌，客户纷纷向他们寻求战略技术决策方面的建议。他们邀请分析师来讨论困扰他们业务的问题。他们购买研究报告，并参与他们的活动，学习如何实施转型计划。

这种战略层面的建议让 Gartner 对资金的流向产生了巨大的影响。Gartner 积极推荐供应商供客户考虑，并分享如何评估他们的指导方针。对于供应商来说，这使得 Gartner 成为一股不可忽视的力量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gartner and the Clients (such as Organizations buying analytics or other technology)

Gartner 积极拉拢供应商，承诺他们可以先睹为快，了解企业真正想要的是什么。供应商很乐意排队等待 Gartner 的服务，以吸引分析师并向他们简要介绍自己的产品。他们花钱学习如何更好地销售，他们购买研究报告，参加活动会见客户。

获得分析师的关注增加了供应商出现在报告中的机会。大多数营销团队都渴望在魔力象限中被提及。因此，供应商通过分享他们的案例研究和客户参考来争夺这个位置。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gartner, Clients and Vendors (such as Organizations selling tech products, platforms or services)

虽然客户和供应商付费与 Gartner 交谈，但每一次这样的交谈也丰富了分析师独特的行业情报。这被吸收并作为思想领导流回到研究报告和陈述中，并由相同的团体支付费用。信息就是财富，我们可以看到智能递归循环是如何构建到系统中的。

所有这些都协同工作，因为 Gartner 获得了最有价值的资产，网络效应。随着市场的增长，Gartner 的地位只会上升。这种网络效应是新玩家的进入壁垒，赢家通吃，就像脸书、Instagram 或 LinkedIn 的社交网络一样。

由于各方都在为获得 Gartner 的关注而付费，公平与利益冲突之间只有一线之隔。虽然有一些反对的声音，但是到目前为止，Gartner 似乎把 T2、T4 管理得很好。任何盈利性企业的激进增长目标都会分散注意力。Gartner 的可信度很高，事情的结果如何还有待观察。

奥兰多 Gartner 峰会的真知灼见

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

People assembled for the Gartner Opening Keynote at Orlando

现在谈谈最近在奥兰多举行的分析峰会。8 个赛道跨越数据的所有方面——治理、工程、可视化、机器学习、领导力和战略，每个人都有自己的东西。

与所有其他活动的最大不同是，除了供应商赞助的讲座和嘉宾主题演讲之外，这里的每场会议都由 Gartner 分析师主持。这些会议很像 Gartner 研究报告，精心包装的市场总结提供了 2-5 年内 30，000 英尺的前景和趋势。

有着最高的供应商参与度，100 多个展品展示了行业提供的各种数据科学产品和平台，所有选项都在一个屋檐下。然而，参观者冒着听到人工智能、数字化转型和见解等流行词汇反复出现的风险！

在此次活动的几个要点中，我为本文挑选了 3 个:

1.蓄意破坏:你可能看不到的 7 种数字破坏

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The 7 Digital Disruptions to watch out for (trends shown on the line, to the left; examples are on the right)

Daryl Plummer主持的这个会议很有见地，令人愉快。业务一直在被打乱，今天的许多巨头很快就会被赶下台。这次会议为领导者们提供了一个框架，让他们拥抱故意的破坏，抢先控制市场力量。他涵盖了 7 大趋势(见图片)，预计将在中长期内实现。

2.数字乌托邦 2035——未来一瞥

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Digitopia 2035 Trends: Will we soon rejoice in the ‘Joy Of Missing Out’, and splurge on privacy vacations?

Gartner 去年启动了“ Digitopia ”项目，来自 25 个国家的志愿者贡献了他们对 2035 年生活的看法的短篇故事。结合这些关于希望和渴望的故事以及对数字趋势的推断， Frank Buytendijk 对世界的发展方向进行了尝试。查看这个，获得一些真知灼见，以及我们如何扮演务实的未来主义者的角色。

3.用设计冲刺创造创新文化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sketchnote of the session by Jake Knapp

杰克·纳普是设计冲刺的创造者，也是 NYT 畅销书《冲刺T11》的作者。从他在 Encarta Encyclopaedia 担任产品设计师和在谷歌设计一系列产品的日子里，他展示了创新和快速实验的新方法是如何有所帮助的。听他充满活力、令人捧腹的讲话很有趣。下面是他的网站和类似的演讲视频。

摘要

最后，Gartner 峰会提供了数据科学领域的鸟瞰图。这些会议通过对未来的长期展望，揭开了最新流行语的神秘面纱。这是一个与全国各地的数据从业者以及几乎所有参与竞争的供应商建立联系的好机会。

我参加这个活动已经有几年了，我倾向于同意一个参加者的观点，他已经习惯了每隔一年跳过这个活动的完美节奏。他的推理是，最大的收获是大趋势，它们不会每年都变！

启动和部署人工智能解决方案的理想场所

原文：https://towardsdatascience.com/the-ideal-place-to-launch-and-deploy-ai-solutions-4a34da2ee95e?source=collection_archive---------25-----------------------

Alexiei Dingli 教授是马耳他大学人工智能系的人工智能教授。在过去的二十年里，他一直在人工智能领域进行研究和工作，并成为马耳他的一部分。大赦国际工作队，主持教育和劳动力工作组。在这次采访中，他谈到了他对未来几年人工智能拥抱马耳他的愿景

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Clark Tibbs on Unsplash

马耳他最近推出了国家人工智能战略。这个国家的愿景是什么？政府在实现这一目标方面有什么作用吗？

总理设定的愿景是使马耳他成为世界上人工智能进步最快的 10 个国家之一。这是我们起草《马耳他宣言》时的指导方针。AI 国家战略。该战略的各个组成部分分为两部分；促成因素和战略支柱。促成因素是构成战略的基本组成部分。没有它们，我们就无法构建人工智能系统。这些包括底层基础设施、法律和道德框架以及教育和劳动力促进因素。

战略支柱依赖于基本组成部分。这些包括私营部门、公共部门和投资(包括初创企业和创新)。这些不同的元素共同构成了人工智能启动平台战略。总的想法是使马耳他成为在全球范围内测试和部署人工智能解决方案的理想场所。政府在这一战略中发挥着重要作用，因为它提供了必要的推动力，而我们的国家需要这种推动力来获得必要的动力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Franck V. on Unsplash

人工智能、机器学习、预测分析、神经网络……这些只是用来描述自 20 世纪 50 年代以来一直在研究的一些事物的一些名称。那么，现在为什么要大肆宣传人工智能呢？有什么变化？

人工智能已经存在了 70 年，但它的大部分一直被研究机构的实验室所封闭。然而，在过去的几十年里，两件事情发生了变化。我们已经在人工智能系统的软件和硬件方面经历了一些令人印象深刻的进步。

已经存在了 50 年并达到其能力极限的算法得到了改进，出现了一种称为深度学习的新算法。这些算法更接近地模拟了大脑的内部工作。这些算法的改进如此深远，以至于人工智能正在设法在大多数测试中超过人类的表现。

但这些算法极其耗电，需要巨大的处理能力。在开发这些算法的同时，一种新的处理器开始流行。这种处理器被称为图形处理单元(GPU)，正如其名称所示，它旨在处理游戏中的图形。然而，人工智能研究人员意识到，GPU 也可能是人工智能的理想选择，事实上，它正大量用于高端处理。在某些情况下，GPU 可以提供比传统处理器高达 100%的速度提升。如果这还不够，我们还有云技术；它实际上是一个位于远处的处理器群。云处理的好处是可以根据需要添加或删除处理器。更好的算法和强大的硬件的结合目前正在推动我们今天正在经历的这场人工智能革命。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Dan Dimmock on Unsplash

在马耳他有限的研发预算下，马耳他有可能创造出什么样的人工智能？

真的，我们可以创造任何种类的人工智能。考虑到大多数处理都是在云上执行的，我们不会受到处理能力不足的限制，因为我们使用远程机器。人工智能所需的高级算法都是可用的，事实上，它们已经在大学里教授了。这意味着我们已经处于非常先进的阶段。我们与跨国公司在制造业有合作项目。其他人在健康方面，与 Mater Dei 的不同部门一起。很多项目涉及大数据的处理和未来趋势的预测。我们一直在培训人工智能专家，以满足目前存在的需求。

因此，作为一个国家，我们的定位非常好。然而，我们总是可以做得更多。R&D 的预算非常有限，需要进一步增加。政府意识到我们永远无法与像中国这样的大玩家竞争，中国在人工智能上投资了大约 1000 亿美元，但在一些利基领域，我们的规模对我们有利。这就是为什么国家人工智能战略关注人工智能发射台的概念——因为解决方案是在一个受控的沙盒中，在整个国家的背景下进行测试，然后向全世界推出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Arseny Togulev on Unsplash

特斯拉首席执行官埃隆·马斯克(Elon Musk)表示:“人工智能的进步速度快得令人难以置信……你不知道它的发展速度有多快；以接近指数的速度。一些非常危险的事情发生的风险是在五年的时间框架内。最多 10 年。”…人工智能会有危险吗？

AI 本质上是一个工具。准确地说，它是人类发明的最强大的工具。像其他工具一样，它可以用来做好事，也可以用来做坏事。然而，即使人工智能正在以非常快的速度发展，我们也意识到了它的局限性。事实上，我们迄今为止所拥有的人工智能通常被称为狭义人工智能。这意味着人工智能非常擅长解决一个特定的问题，但却不擅长解决一个普通的问题。想象一下，你在和人工智能下棋。国际象棋程序可能处于国际象棋大师的水平，甚至更好。

但是，如果你问象棋程序关于天气的信息，它不会给你答案。原因是它只会下棋，别的什么都不会。事实上，人工智能的圣杯是所谓的人工通用智能(AGI)，人工智能能够以类似于人类的方式处理不同的情况。然而，AGI 仍然非常遥远，我们在不久的将来也不太可能看到它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Adeolu Eletu on Unsplash

市场领导者坚持认为，人工智能需要在商业中得到更广泛的应用。今天，将人工智能解决方案引入企业有什么好处？

人工智能给企业带来的好处是多方面的。首先，我们必须记住，当我们谈论人工智能时，它不仅仅是一个程序，而是不同算法的集合。人工智能也由不同的子领域组成，每个领域都有自己的一套算法。它们让计算机看到、说话、学习并理解物理世界是如何工作的。正因为如此，企业可以从人工智能中获得很多优势。这可能是一个简单的问题，当他们发布广告时锁定特定的客户，直到优化数百台机器以提高产量。人工智能还将带来更好的效率，对问题更快的反应，并对未来做出预测，否则这是不可能的。AI 也将为客户提供新的服务。聊天机器人将随时待命，随时准备回答任何问题。他们还将指导用户在网上购买，并几乎立即发货。人工智能将首次帮助企业提供以客户为中心的独特个性化体验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alexandre Godreau on Unsplash

人工智能是大型跨国公司的乐园吗？或者，即使是小企业也可以——也应该——考虑如何将人工智能集成到他们的服务解决方案中？

不，人工智能不仅仅适用于大型跨国公司。许多小企业可以从人工智能中受益，其中大多数已经在这样做了。想想脸书或者谷歌的广告。企业可以在几秒钟内设置好它们，并让人工智能决定何时播放广告。今天，脸书的许多公司都使用聊天机器人。聊天机器人是一种人工智能，当没有人能够回答时，例如当商店关门时，它可以处理客户的查询。许多小公司，如理发店，都有一个在线预约系统，在某些情况下，可以节省他们一个月 24 小时的电话预约时间。人工智能是这些系统的核心，通过自动化简单重复耗时的任务来改善人们的生活。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Blaz Erzetic on Unsplash

在未来的劳动力中，马耳他肯定需要培养人工智能技能。但是，潜在的技术性就业机会转移也是政策制定者的一个主要担忧。马耳他的工作会自动化吗，人会被落下吗？

在任何国家，最重要的资源是人力资本。熟练的劳动力和运转良好的教育体系是高附加值服务的基础。随着人工智能的扩散，我们预计现有的工作实践将被打破，从而不仅创造新的机会，也带来新的挑战。

在过去的一年里，我们看到了很多预测。一些专家预测，在未来几年，大约 40%的工作岗位将会消失。还有人说，人工智能革命将创造数百万个新职位，其中一些甚至还没有被发明出来。这没有什么新鲜的。如果我们看一看银行推出自动柜员机时的情况，我们可以看到类似的模式。随着自动取款机的使用，许多人预测银行出纳员的时代将会结束。然而，统计数据显示并非如此。1985 年，美国有 6 万台自动取款机和 48.5 万名银行出纳员。2002 年，自动取款机的数量增加到 352，000 台，银行出纳员的数量增加到 527，000 名。我们对此的解释是，许多人发现使用新机器很方便；因此，银行交易的数量开始激增。

另一方面，银行开始关注更好的客户服务；从而为他们的分支机构增加更多的员工来处理更复杂的任务。我们也可以在今天的网上银行中看到这种模式。尽管一些银行关闭了几家分支机构，90%的交易都在网上进行，但美国银行员工的数量实际上是一样的。这证明了这不仅仅是自动化接管人类工作的问题。

将会发生什么的真相很可能介于两者之间。让我们明确一点，在大多数情况下，AI 不会接管工作，但它会自动执行该工作内的特定任务。实质上，就业市场将发生如下变化:有些工作将会过时，比如开车。

无人驾驶汽车将能够在不需要人类司机的情况下运送人员和货物。有些工作受 AI 影响不会太大，比如护理。在护理行业中，人的因素仍然是至关重要的。一些新的工作将会被创造出来，比如器官创造者，他们的角色将会是从有机材料中开发器官和身体部分。许多现有的工作将永远改变。

这些工作从低收入的工作如店员到高收入的工作如律师。人工智能将增加他们的任务，以使他们更安全，更快，更精确。为了准备这场革命，我们需要帮助今天和明天的工人适应和获得新技能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Elena Koycheva on Unsplash

你认为 10 年后的马耳他在这个人工智能世界里会是什么样子？

未来十年对马耳他来说将是一个迷人的时期，因为我们将看到新的人工智能战略的实施。还有很长的路要走。这将有助于我们缩小教育差距，确保每个人都实现自己的全部潜力，支持处于危险中的儿童，重新培训我们的劳动力，塑造未来所有使用人工智能的专业人士。

这并不容易，前方的路将带我们探索未知的领域。可以肯定的是，我们正朝着把马耳他变成人工智能发射台的正确方向前进。我们不仅致力于利用人工智能来塑造我们的岛屿，而且我相信，如果我们继续朝着这个方向发展，我们也将在未来几年成为其他国家技术进步的榜样。

Alexei DingliProf 是马耳他大学的 AI 教授。二十多年来，他一直在人工智能领域进行研究和工作，协助不同的公司实施人工智能解决方案。他的工作被国际专家评为世界级，并赢得了几个当地和国际奖项(如欧洲航天局、世界知识产权组织和联合国等)。他出版了几本同行评审的出版物，并且是马耳他的成员。由马耳他政府成立的人工智能工作组，旨在使马耳他成为世界上人工智能水平最高的国家之一。

采访原载于 2019 年 10 月 31 日https://www.businesstoday.com.mt。**

人工智能对不平等、工作自动化和未来技能的影响。

原文：https://towardsdatascience.com/the-impact-of-ai-on-inequality-job-automation-and-skills-of-the-future-fe89c21e34bc?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

未来学家和纽约时报畅销书作家马丁·福特对工作自动化，一般基本收入，以及获得哪些技能为急剧变化的未来做准备。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Amazon.com

马丁·福特，《纽约时报》畅销书作者《机器人的崛起:技术和失业未来的威胁》 是一个长期主张一般基本收入的人。他 2017 年的 Ted 演讲点击量超过了 200 万次。在接下来的采访中，他分享了他对未来几年的担忧和预测。

我认为这是绝对正确的，任何人都可以为我们面临的未来学习的最重要的技能是如何保持学习，如何适应，以及如何非常有效地和愉快地做到这一点。

你能简单介绍一下你的背景吗？

我是一名未来学家和作家，至少到目前为止，我关注的是人工智能对社会和经济的影响。

我写了一本书，名为“机器人的崛起:技术和失业未来的威胁”，这本书关注的是这样一个事实，我确实认为很多工作自动化和简单消失有巨大的潜力。

此外，不平等可能会大大增加，因为人工智能的本质是资本正在取代劳动力，当然资本由极少数人拥有；富人倾向于拥有大量资本，而大多数其他人并不拥有太多。随着时间的推移，它使我们整个社会更加不平等。我认为这将是我们未来几十年的真正挑战。

能否详细说明一下连接自动化和不等式？

基本的现实是，地球上绝大多数人实际上只有一样东西是有价值的，那就是他们劳动的价值。即使在像美国这样显然非常富裕的国家，绝大多数人也没有多少财产。拥有足够的资本来维持生活的人很少，因此他们不必工作，如果你放眼整个世界，这个数字就更少了。

大多数人依赖于他们劳动力的价值，而随着人工智能和机器人技术的进步，将会发生的事情是，许多劳动力将被贬值，这些劳动力根本不会有那么多价值，因为技术将能够做许多日常的、重复的、可预测类型的工作和任务，而这些工作和任务现在是有偿的。

也许在 10 年或 15 年内，将会很明显会发生什么，这将是我们社会的一个巨大挑战，就如何构建我们的经济和改变周围的事情来说，这样我们才能在那个世界上继续繁荣。

10 到 15 年对未来来说并不遥远。是什么让你确定进步正以如此快的速度发生？

10 到 15 年只是一个猜测，事实证明可能需要更长的时间。主要的一点是，我认为这是不可避免的，不管是 10 年、20 年还是 30 年，都没有太大关系。最终，这是我们不得不面对的问题。

我确实相信，我们正处于一个转折点，或者说是一个事情将以不同方式运作的时刻。

在过去，许多工作已经实现了自动化，但它们往往是更多的手工工作和体力劳动类型的工作，或者是那种你站在装配线上反复做同样事情的工作，或者是非常狭窄的计算工作，例如计算数字。但是我们现在看到的是这项技术更加广泛，它开始取代认知能力甚至智力能力。

我们已经有了做出决策和解决问题的学习机器，这将最终影响许多白领工作，当然还有更多日常工作，例如反复创建同一种报告或同一种定量分析的办公室工作人员。所有这些肯定会越来越容易受到自动化的影响，蓝领工作也是如此，需要更多的灵活性或更多的视觉感知。这些工作也越来越受到影响。

关键是越来越多的工作会受到影响。当然，会有新的工作岗位产生。这是人们总是会指出的一件事。

这是真的，但问题是会有多少新的工作，这些新的工作真的会很好地匹配那些需要工作的人吗？因为如果你创造的所有新工作都是给机器人工程师、人工智能研究人员和数据科学家的，那么在大多数情况下，这些工作不是现在卖汉堡包或开出租车的人能做的。这确实产生了一个问题。

你是一般基本收入的倡导者。为什么这是一个解决方案？

我提倡基本收入的原因是，我已经看到了解决这个问题的各种方法，但是没有多少。我的意思是，你实际上在谈论一个没有足够工作可做的世界，或者至少某些特定技能水平的人群将很难在经济中立足。机会根本不存在。

在这种情况下，你真的想不出多少解决办法。我认为基本收入是最简单和最直接的方法。

这个想法是保证每个人至少有最低限度的无条件收入。我见过的大多数提议最多是每月 1000 美元或 1000 欧元，大约在这个范围内。芬兰曾有过一个实验，后来被终止了，但我想只有 600 欧元。这是一个相当低的数额，这真的不是一个会让人呆在家里玩电子游戏的数额。

这个想法是给人们最低的收入，但你不能破坏他们做更多的激励。所以这个想法是，人们会得到那份收入，但如果他们能找到的话，他们仍然可能做兼职，或者如果他们足够幸运找到全职工作，他们甚至可能做全职工作，或者他们可能出去做一些创业，也许创办一个小企业来增加他们的收入。

我们的想法是创造一个世界，在这个世界里，你可以保持激励，让每个人都尽可能地多产。

我认为这有很多值得推荐的地方，因为如果你看看我们现在存在的安全网，特别是在一些欧洲国家，比如斯堪的纳维亚，对不工作的人来说有相当多的福利。但是一旦你开始工作，你就失去了这些好处。这就产生了去做任何事情的抑制因素，真正采取主动去做任何事情，这是一个问题。基本收入的优势在于，你给人们最低的收入，他们仍有希望尽可能多地外出工作。你没有人只是坐在家里，不工作，这造成了许多社会问题。

我们为人们创造东西非常重要，这样人们才能继续保持参与感。他们继续觉得自己在为某件事做贡献。这些都是重要的问题。仅仅给人们钱并不是一个充分的解决办法。我们从过去人们对这些项目的反应中了解到这一点。

计算机已经在某些复杂的游戏中表现得更好，比如国际象棋和围棋，而从业者现在正在使用人工智能来进一步提高它们在这些游戏中的表现。换句话说，他们使用人工智能来增强他们的技能和爱好。

我想那是对的。艺术是另一个领域。你可能会看到很多人成为艺术家，这在当今世界很难。有很多挨饿的艺术家。以这种方式谋生很难，但如果你有一个普遍的基本收入，许多人可以做他们热爱的事情和他们真正强烈感受到的事情，即使这些可能不是市场真正重视的事情。

你将为人们提供一种可能性，让他们把兴趣爱好变成他们想专注的事情，或者成为小企业，这些小企业本身不会产生足够的收入供人们生存，但也许与基本收入相结合，将提供各种可能性。

我还建议，我们甚至可以更进一步，将直接激励纳入基本收入，也许不是付给每个人完全相同的金额，但如果你真的做了一些有成效的事情；例如，成为一名艺术家，在社区工作，帮助人们，或者创办一家小企业，做一些有成效的事情，相比于你真的只是呆在家里，坐在椅子上玩视频游戏，什么都不做，你会得到更多一点的报酬。

人们可以利用这一机会来扩大他们的视野，而不仅仅是退出社会，有一个非常不健康的观点。

一个人如何为这样的未来做准备？

有几个层面，在宏观层面上，意识到这一点，并与其他人交谈，参与对话。确保你考虑到这一点，以及最终这将成为我们政治的一部分的事实。我们将制定公共政策来解决这个问题。

我认为，对于人们来说，有一个开放的思维，并帮助进行关于这些技术对我们的社会意味着什么的讨论，这真的很重要。从更个人的角度来看，比如确保我的工作不会消失，或者我的孩子应该在学校学些什么…

我认为最好的建议是，总的来说，我们可以说，技术真的会对工作产生重大影响，这些工作是可预测的事情，例行公事和重复的任务，你来工作，一次又一次地做同样的事情。

你想远离这些事情，相反，你想做更有创造性的事情，可能涉及许多复杂的交互和与其他人建立关系的事情，因为这些事情现在机器不擅长。很可能，在我们能够制造机器来做这些事情之前，还有很长一段时间，另一个领域将是技术贸易类型的工作，如电工、水管工，这些工作需要大量的灵活性和机动性以及不可预测的环境。我们不能制造一个机器人来做电工、水管工或护士做的事情，因为这些工作确实需要跑来跑去，处理各种不可预知的事情。这类工作是目前人们最安全的工作。就你未来的职业或你正在做的事情而言，你想让自己适应那种工作。

你的孩子在学校关注的也是同样的事情；你不希望他们被训练去做一些常规的可预测的工作，因为那可能会受到威胁。这是在更直接的个人基础上给人们的最好的建议。

那意味着教育系统必须彻底重组。这并没有真正发生，旧的教学方式仍然盛行。

教育很难解决。我认为，这些技术中有很多 prom，在线教育将融入人工智能，例如，真正个性化和定制化的结构化学习计划。你可以很便宜地上网，利用这些技术接受教育。这是非常积极的一件事。

我认为这是绝对正确的，任何人都可以为我们面临的未来学习的最重要的技能是如何保持学习，如何适应，如何在你的一生中继续学习，并且非常有效地学习，如何真正享受学习的乐趣；去热爱学习。

我想对我的孩子来说，我会说这是我想灌输给他们的未来的最重要的技能。当然，如果你现在有小孩，没有人能真正想象到他们成年或进入职业生涯时这个世界会是什么样子。

我们能做的最好的事情就是确保他们有工具来适应一个变化越来越快的未来。

如果你现在可以做一件事，结构调整，比如从经济角度来看，你可以在很短的时间内重组经济体系或者改变教育体系，你会怎么做？你会从哪里开始？

如果我有权力，我会让我们至少从某种最低基本收入开始，它可能很低，每月可能只有 200 欧元，但这只是一个开始，将该计划付诸实施，以便在未来它可以扩展，支付的金额可以随着这一进程的发展而增加，因为有许多关于基本收入的论点，甚至抛开所有这些关于技术影响的猜测。多年来，一直有人主张基本收入只是解决贫困和某种程度上的不平等的一种方式，并真正使我们的系统更具功能性。

我认为这是有充分理由的。我真的很想把这个想法说出来。我再次认为，如果这就是我们能够在政治上处理的所有事情，那么最初在一个非常低的水平上这样做是很好的，但最终我认为这对于未来是一个非常重要的想法。尽管这在政治上极具挑战性，但重要的是开始讨论，如果可能的话尽快实施。

你如何定义人工智能？许多人认为人工智能是一种即将超越世界的终结者技术，包括意识和自我意识的概念。你认为这是你正在画的未来的先决条件吗？

人们担心的那种科幻小说的东西肯定不是我担心的工作自动化的先决条件。我是说人工智能是一个连续体。今天存在的所有人工智能都是我们所谓的狭义或专门的人工智能，所以它没有接近人类思考的方式，也不会以任何方式通过拥有自己的意志或类似的东西来威胁我们。我认为我们还没有接近那个目标。

尽管如此，能够以超人的能力做特定事情的人工智能将威胁到许多工作，因为人也做特定的事情。

这就是亚当·斯密关于分工的全部观点。许多工作都是专业化的，它们将受到这种专业化人工智能的影响。

尽管如此，这是一个值得思考的迷人话题，如果在未来的某个时候，我们真的可以建造一个真正的思考机器，可以在人类的水平上思考，而且绝对有人在研究这个问题，人们已经提出了对机器的担忧，这些机器最终可能会比我们更聪明，等等。

这些并不是我们应该一笑置之的愚蠢担忧，但我们应该明白，那是遥远的未来，可能是因为这个原因，而不是我们应该关注的事情。现在还有其他更实际的事情，将在未来 10 年或 20 年内发生。

你目前在做什么，有什么新项目即将推出吗？

在进行这次采访的同时，马丁出版了一本新书，就人工智能的现在和未来采访了世界领先的人工智能专家。这本书叫做《智能建筑师:来自建造它的人们的关于人工智能的真相》。

喜欢这篇文章吗？在这里，我们分享我们在 Omdena 通过社区协作构建人工智能解决方案的经验。

[## 成功构建人工智能解决方案的三点经验

我们从与来自 56 个国家和领先组织的 400 多名人工智能工程师在一些…

medium.com](https://medium.com/omdena/three-learnings-to-build-your-ai-for-good-solutions-successfully-374dea7b6cb)

人工智能对酒店业的影响

原文：https://towardsdatascience.com/the-impact-of-ai-on-the-hospitality-industry-8ba7adb66be?source=collection_archive---------10-----------------------

万豪、希尔顿和凯撒娱乐如何拥抱人工智能技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alex Knight on Unsplash

随着技术变得越来越复杂，它已经颠覆了世界上几乎所有的行业。酒店业就是这样一个行业，它见证了技术的发展对当今酒店运营和表现方式的重大影响。无数酒店行业的领导者越来越多地在他们的酒店中利用一种特定的工具来增加个性化并超越客户的期望:人工智能或更普遍的说法是 AI。《牛津英语词典》将 AI 定义为“能够执行通常需要人类智能的任务的计算机系统的理论和开发，如视觉感知、语音识别、决策和语言之间的翻译”(牛津)。越来越多的酒店，特别是大型全球连锁酒店，如万豪国际、希尔顿酒店及度假村和凯撒娱乐，已经开始在酒店中以聊天机器人消息、人工智能驱动的客户服务和数据分析的形式实施人工智能，希望重新定义个性化客户体验的当前行业标准。

人工智能以无数种方式颠覆了酒店业。人工智能改变游客体验的最基本方式是通过使用聊天机器人信息服务。例如，万豪国际拥有多个聊天机器人，包括在 Facebook Messenger、Slack、微信和谷歌助手(Bethesda)等各种平台上提供的万豪奖励聊天机器人。“由数据驱动的逻辑和专门的算法驱动，”这些聊天机器人不仅增加了客人的便利性，还降低了万豪酒店(Marriott)的劳动力成本。通过让聊天机器人在一天中的任何时间回答问题并解决客人可能关心的问题，万豪能够大幅削减酒店运营商的费用。此外，聊天机器人以多种语言提供，因此为不会说英语的酒店客人提供了额外的便利(Bethesda)。通过允许客人用他们的母语交流，聊天机器人无缝地消除了与来自世界各地的客人的语言障碍(Bethesda)。此外，在自然语言处理或 NLP 的帮助下，聊天机器人能够检测客人的行为和偏好，以便及时提供“超个性化的建议”，满足客人可能有的每一个需求(Agarwal)。万豪的雅乐轩酒店品牌甚至更进一步，引入了机器人管家 ChatBotlr 来帮助客人(Bethesda)。雅乐轩于 2014 年推出的 ChatBotlr 利用自然语言处理和机器学习，允许客人通过短信(Bethesda)直接从智能手机上请求酒店服务。此外，ChatBotlr 随着每一次额外的访客交互变得更加智能，因此系统在不断地自我完善(Bethesda)。通过“让客人能够提出基本问题，提出简单请求，并获得即时响应”，人工智能聊天机器人通过立即简化他们从预订前阶段到离开后阶段(Bethesda)的整个酒店住宿，为客人创造了无缝和个性化的体验。

除了聊天机器人之外，人工智能人工客服也显著改变了客人的体验。2016 年 3 月，希尔顿在弗吉尼亚州麦克林酒店(Davis)推出了世界上第一个人工智能酒店礼宾机器人，以其创始人康拉德·希尔顿的名字命名为康妮。Connie 是与 IBM 合作开发的，有三个主要目标:减少排队等待时间，提高酒店运营效率，用一种创新的、完全独特的工具(Trejos)给客人带来惊喜。机器人礼宾由从一个名为沃森(Trejos)的“认知计算技术平台”获得的领域知识提供支持。沃森使计算机系统能够像人类一样“通过感官、学习和经验”(Trejos)理解环境。Connie 能够像任何前台代理、礼宾或酒店电话接线员(Davis)一样，告知客人酒店特色、当地景点和餐饮建议。IBM Watson 的首席技术官 Rob High 强调，Watson“帮助 Connie 理解并自然地响应希尔顿客人的需求和兴趣——这是一种在酒店环境中特别强大的体验，在那里它可以导致更深的客人参与”(Davis)。希尔顿的 Connie AI 机器人以一种非凡的方式颠覆了酒店业，建立了速度和便利，进一步提高了客人的满意度。

除了通过聊天机器人和礼宾机器人改善客户服务，人工智能还通过使用数据分析影响了酒店业。凯撒娱乐公司(Caesars Entertainment Corporation)是一家美国博彩酒店和赌场公司，管理着拉斯维加斯著名的凯撒宫(Caesars Palace)，是一家酒店管理公司，该公司使用数据分析来进一步提高其酒店内的客人个性化和满意度(Marr)。Caesars Entertainment 的 Total Rewards 忠诚度计划确立了该公司在将“大数据驱动的营销和客户服务”融入其业务和营销战略(Marr)方面的行业领先地位。凯撒娱乐公司收集所有客人的交易数据，包括他们在全国 50 家酒店的每家餐厅、赌场、水疗中心和高尔夫球场的消费(Rosenbaum)。在美国消费者新闻与商业频道的文章中，凯撒娱乐首席执行官兼董事长加里·洛强调“我们试图根据人口统计数据和客人透露的行为来预测他们感兴趣的事情”(罗森鲍姆)。利用数据分析工具，凯撒娱乐公司考虑了他们业务的方方面面，从酒店定价到游戏设施的安排(Rosenbaum)。通过 Total Rewards 忠诚度计划，客人可以根据在凯撒酒店(Marr)增加的消费提升不同的奖励等级。从客人消费中收集的数据然后用于分析每个客人的个人特征和行为，以进一步根据他们的兴趣定制细节(Marr)。凭借“收集数据、将数据转化为客户洞察，并利用这些洞察提供前所未有的客户体验的能力”，凯撒娱乐的全面回报忠诚度计划不仅提高了客户满意度和忠诚度，还确立了自己在大数据和人工智能领域的酒店业领导者地位。

人工智能技术通过塑造当今酒店的运营方式，彻底颠覆了酒店业。通过万豪的聊天机器人消息、希尔顿的机器人礼宾 Connie 和凯撒娱乐的全面回报忠诚度计划，AI 展示了在增加便利性、增强个性化以及提高酒店客人满意度和忠诚度方面的真正承诺。然而，随着像阿里巴巴的 FlyZoo 酒店这样的酒店完全由人工智能机器人和面部识别技术提供支持，酒店经营者必须开始在人类和人工智能(Biron)之间找到平衡。从目前大型连锁酒店采用的人工智能技术可以明显看出，人工智能的未来只会变得越来越先进，越来越以客人为中心；因此，酒店经营者必须继续拥抱新的机会，以跟上消费者的偏好和行业趋势(科尔迈尔)。

作品引用

[1] Agarwal，Neelam，聊天机器人变革酒店业的五大方式 (2018)，Medium

[2] Bethesda，万豪国际在 Facebook Messenger 和 Slack 上的人工智能聊天机器人，以及雅乐轩的 ChatBotlr，在客人的整个旅程中简化他们的旅行 (2017)，万豪国际新闻中心

[3]比伦，贝瑟尼，中国电子商务巨头阿里巴巴有一家几乎完全由机器人经营的酒店，可以提供食物和取化妆品——看看里面的 (2019)，商业内幕

[4]戴维斯、丽莎、希尔顿和 IBM 飞行员“康妮”，世界上第一个沃森启用的酒店礼宾机器人 (2016)，IBM

[5]科尔迈尔，克劳斯，艾与酒店业的必然未来 (2019)，旅游日报媒体

[6]菲利普·科特勒，《酒店和旅游营销》(2017)，培生教育

[7] Marr，Bernard，凯撒娱乐公司的大数据——价值十亿美元的资产？ (2015)，福布斯

[8] Mest，Elliott，[万豪推出脸书聊天机器人，协助职业发展](https://www.hotelmanagement.net/human-resources/marriott-launches-facebook-chatbot-to-assist-career-development#:~:targetText=Marriott International launched a new,International with a personalized experience) (2017)，酒店管理

[9]作者不详，发现英语 60 多万字，一千多年的故事(日期不详)，牛津英语词典

[10]埃里克·罗森鲍姆，在拉斯维加斯发生的事，就留在拉斯维加斯吧…作为数据 (2013)，美国消费者新闻与商业频道

[11]特雷霍斯，南希，介绍希尔顿的新机器人礼宾员康妮 (2016)，《今日美国》

大麻合法化对交通死亡的影响:一种综合控制方法

原文：https://towardsdatascience.com/the-impact-of-marijuana-legalization-on-traffic-deaths-a-synthetic-control-approach-420a36c5e8eb?source=collection_archive---------24-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by Jess Liotta on flickr

随着大麻合法化的兴起，关于交通死亡和碰撞的潜在影响的问题也越来越多。在这里，我们将使用综合控制方法(SCM)进行分析，以确定大麻合法化对驾驶死亡率的影响。

选定样本

迄今为止，已有 11 个州投票赞成娱乐性大麻合法化。一些州仍在等待全面立法的实施或合法化，时间太短，无法收集足够的数据。考虑到这一点，我们有几个可以分析的状态:

阿拉斯加
科罗拉多州
俄勒冈州
华盛顿

在此分析中，我们将使用 NHTSA 使用的死亡率:每 1 亿英里行驶的死亡率。首先，我们可以看到自大麻合法化以来，所有 4 个州每 1 亿英里的死亡率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四个州中有三个州的死亡率增加了——除了阿拉斯加。但是，要确定这些变量之间是否存在因果关系就比较困难了。要确定这一点需要更严格的分析。为简单起见，我只分析科罗拉多州和华盛顿州(最早将娱乐用大麻合法化的两个州)。这两个州都在 2014 年初将大麻合法化，为我们提供了最长的分析周期。

构建合成控件

这里建立因果关系的方法是综合控制法。在我们继续下一步之前，我们应该弄清楚将要使用的一些术语。“干预”或“治疗”是我们正在研究的事件的影响(在这种情况下，娱乐性大麻合法化)。“治疗组”是指接受干预的组。对于这种分析，它是科罗拉多州和华盛顿州。预测变量是能够影响因变量的变量。

从这里，我们能够解释什么是综合控制。综合控制可用于分析干预对因变量(本例中为交通死亡率)的影响。由于我们不太可能找到一个与科罗拉多州或华盛顿州具有非常相似特征(预测因素)的州，该州也经历了相似的干预前死亡率趋势，因此我们可以取许多不同州的权重来形成一个人工构建的相似州。这是一个合成控制。

为了构建这个，我们将遵循麦克莱兰&高尔特(2017) 中描述的流程的简化版本。这种方法的一个例子来自 Abadie、Diamond 和 Hainmueller (2010) ，他们制作了以下用于分析加州烟草销售的合成对照。

使用这种方法，他们能够估计出加州的新法律减少了多少烟草销售。在这个过程中，他们推广了单片机，用于未来的研究。我们将采用同样的方法来评估大麻合法化对我们所选各州交通死亡率的影响。

为了进行这个分析，我将对 R 使用 gsynth 包。

识别因变量的预测值

为了使这一分析易于理解，我将尝试把科罗拉多州和华盛顿州与在几个方面人口统计相似的州进行比较。第一个有趣的人口统计是年龄。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: B.C. Teft, AAA Foundation for Traffic Safety

研究表明在 30-70 岁之间，致命车祸的风险相当低且稳定。30 岁以下和 70 岁以上的司机风险增加。因此，我们的变量必须考虑我们对年龄分布尾部感兴趣的事实——使用中位数或平均值可能不合适，因为他们更关心中心。

因此，我们的两个年龄变量预测值将是:

18-34 岁之间的人口比例

由于我的数据源中使用的箱，0-18 岁的人被分组在一起。所以，我选择忽略这个年龄段。

65 岁以上人口的比例

这个区间也是不完美的，但希望足够接近 70+的范围，因为我们有证据表明致命车祸的风险增加了。

我们感兴趣的第二个人口统计学是人口的男女比例。性别已被证明在交通死亡方面有显著差异。我们的变量很简单:

男性占人口的百分比

这些变量的数据是从 2008 年至 2017 年的美国人口普查局收集的。虽然有许多其他相关的人口统计方面可以包括在内，我们将离开我们的模型在这里。

识别可能的施主状态以合成控制状态

在这个阶段，我们必须筛选潜在捐助国。我排除了几个州，因为在我们有数据的时期，他们也将大麻合法化。阿拉斯加、俄勒冈、马萨诸塞州和内华达州被排除为可能的捐赠州，因为它们至少在相关时期的一部分也经历了大麻合法化。波多黎各也不包括在内。

选择预测权重

在选择预测权重时，有几种可能的选择。首先是主观选择权重。第二种(也是传统的)方法是选择最小化均方预测误差(MSPE)的权重。第三种选择是使用交叉验证。在此分析中，我们将使用交叉验证方法(将数据分为训练集和验证集)。然而，结果与使用传统方法非常相似。

gsynth 包的一个优点是它能够处理多个处理过的单元。因此，在输入这个函数时，我将科罗拉多州和华盛顿州都设置为 2014 年至 2017 年(我们最近数据的日期)的治疗单位。另一个优势是，利用自举标准差，我们能够获得结果的 p 值(许多 SCM 研究不包括这一点)。

结果

我们可以在下面的示例中看到所有州的原始死亡率:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

黑色区域代表治疗后时期，红线突出显示科罗拉多州和华盛顿州的干预后时期。

该函数自动选择最佳模型，在我们的例子中，该模型的 MSPE 为 0.19。我们的结果图如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在预干预期间，我们能够看到我们的合成状态通常跟踪我们的治疗状态(尽管理想情况下，我们希望看到更长时间的预干预，以更好地验证我们的合成控制)。黑色区域代表干预(大麻合法化)后的时期。该图显示了相对于我们的合成对照，处理区域的增加，这暗示了影响。

我们还可以查看该图，以显示合成区域和处理区域之间的差距。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

x 轴上标记零的年份是干预年。y 轴上的零表示我们的处理组和合成对照精确对齐的时间。阴影区域代表 95%的置信区域。该图显示了我们的治疗组相对于我们的合成对照组的死亡率的增加。然而，该模型得出的估计 p 值为 0.274，无法通过学术研究中使用的统计学显著性检验(通常为 0.05 或更低)。

解释

这一分析提供了微弱的证据，表明早期娱乐性大麻合法化的州出现了交通死亡率的增加，这可能归因于大麻。然而，这些结果不足以得出大麻对死亡率有任何影响的结论。此外，该分析中的重大局限性也会限制结论的可靠性(参见下面的“局限性”一节)。

事实上，过去关于这一主题的文献褒贬不一。两篇论文(此处和此处)分别使用了控制状态和综合控制方法，但得出了有些不同的结论(大麻不是增加的原因)。一项 IIHS 的研究估计大麻合法化增加了 6%的车祸(虽然这项研究只是简单地比较了合法化的州和邻近的州，并且它测量了车祸而不是死亡)。

考虑到相互矛盾的结果，在收集到更多的证据之前，最好不要下结论。虽然一些证据表明死亡人数增加，但证明因果关系更加困难。

方法论的局限性

这里使用的方法在许多方面有局限性。进一步的分析可能包括其他已经颁布大麻合法化的州，以增加样本量。此外，你可以通过进行安慰剂测试来进一步验证这些结果(尽管这种方法的有效性近年来受到了一些论文的质疑)。我选择放弃这一步，因为我们的模型返回的是 p 值。

另一个限制是我构建合成控制的方法。我使用了基本的人口统计变量。然而，更严格的论文使用了道路特征、酒精或药物使用、各种经济指标以及其他变量。至少有一篇论文将死亡人数缩小到了那些与大麻有明确联系的人。这可能意味着这种分析——更为简单——的结论不太可靠。

最后，还可以进行敏感性分析，以确保结果的稳健性。

机器学习中分析模型假设的重要性

原文：https://towardsdatascience.com/the-importance-of-analyzing-model-assumptions-in-machine-learning-a1ab09fb5e76?source=collection_archive---------21-----------------------

如何检查你的假设&为什么你应该总是这样做

作者雷利·梅因尔特，阿德·帕特尔，&西蒙·李

在构建用于预测的模型之前，检查模型假设非常重要。如果不满足假设，模型可能会不准确地反映数据，并可能导致不准确的预测。每个模型都有必须满足的不同假设，因此检查假设在选择模型和验证它是否是要使用的合适模型时都很重要。

诊断

诊断用于评估模型假设，并确定是否存在对分析有巨大、不适当影响的观察结果。它们可用于优化模型，确保您使用的模型确实适合您正在分析的数据。有许多方法可以使用诊断来评估模型的有效性。诊断是一个总括名称，涵盖了模型假设下的其他主题。它可能包括探索模型的基本统计假设，通过考虑更多、更少或不同的解释变量来检查模型的结构，或者查找模型很难表示的数据(如异常值)或对回归模型的预测有很大不平衡影响的数据。

诊断可以采取多种形式。您可以检查一些数字诊断。 statsmodels 包通过摘要功能提供了许多诊断的摘要:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有了这个总结，我们可以看到重要的值，如 R2，F 统计，以及其他许多。您还可以使用图形诊断来分析模型，例如绘制拟合/预测值的残差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面是我们的体重-身高数据集的拟合与残差图，使用身高作为预测因子。在很大程度上，这个情节是随机的。但是，随着拟合值的增加，残差的范围也会增加。这意味着随着身体质量指数的增加，我们的模型和实际数据之间的差异会更大。在较高的 BMI 时，它也往往是一个更负的残差。这并不意味着线性模型是不正确的，但这是一个值得研究的问题，可能有助于改变或改进模型。

您可以做的另一个残差图是比例-位置图。该图显示了我们的残差是否沿预测值的范围均匀分布。如果所有的随机变量都有相同的有限方差，则认为它们是同方差的。具有随机分布点的图表明该模型是合适的。根据拟合值绘制平方根归一化残差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这个图中，我们想要一个水平带状的随机分布。这表明数据是同质的，自变量和因变量之间的随机化关系在自变量之间是相对平等的。我们的线在开始时大多是水平带状的，但在接近结束时似乎向上倾斜，这意味着可能不是到处都有相等的方差。这可能是我们在残差拟合图中发现的问题没有得到解决的结果，也是我们的模型可能需要改变的另一个指标。

在建立回归模型时，您希望确保残差相对随机。如果不是，那可能意味着你选择的回归是不正确的。例如，如果您选择使用线性回归，并且残差图明显不是随机的，则表明数据不是线性的。

诊断也适用于我们正在讨论的许多其他主题，如多重共线性、数据集分布和异常值，这些将在本文的其余部分讨论。

多重共线性

在统计学中，当数据集的要素或 X 变量彼此不独立时，会出现多重共线性。例如，身高、体重和身高 2 不是独立的，因为身高 2 的计算取决于身高，反之亦然。多重共线性还意味着数据集中存在冗余要素。

多重共线性是回归分析中的一个主要问题。这是因为回归模型的关键目标是预测当 X 变量之一发生变化时(所有其他 X 变量保持不变)，独立的 Y 变量如何变化。假设两个变量 X1 和 X2 彼此高度相关(例如，X2 = X1 + 1)。改变 X1 而不改变 X2 是不可能的，反之亦然。

在这种情况下，模型很难预测 Y 变量和每个 X 变量之间的关系(所有其他 X 变量保持不变)，因为 X 变量是一起变化的。因此，该模型将无法正确计算系数(估计值)，从而不足以识别数据集中哪些 X 变量对 Y 变量的统计影响最大。

幸运的是，多重共线性并不总是需要修复。例如，假设你有 3 个变量(X1，X2，X3)。如果 X1 与 X2 有很强的相关性，但是你只使用 X2 和 X3 来构建你的模型，那么模型将能够毫无问题地解释 X2 和 X3 对 Y 的影响。此外，如果您的唯一目标是预测 Y，并且不需要了解每个 X 变量对 Y 的影响，那么减少多重共线性就没有必要。

在需要解决多重共线性问题的情况下，使用的最佳方法是要素选择。事实上，特征选择不仅处理多重共线性！它还提高了训练模型的计算效率(训练模型所需的时间随着特征数量的增加而呈指数增加)。此外，它降低了过度拟合的风险(冗余特征意味着模型更可能拟合噪声而不是数据中的实际模式)

有各种各样的技术来执行特征选择，但是它们都依赖于相同的基本原理。最终，目标是消除对 Y 变量几乎没有影响的要素，保留最重要的要素。例如，可以使用的一个属性是“互信息”，它是一个从 0 到 1 的数字，表示两个特征有多少共同点。如果 X1 和 X2 是独立变量，这意味着这两个变量都不能用来获得关于另一个变量的信息，因此它们的互信息是 0。如果一个变量是对应变量的函数，则意味着两个变量之间存在显式的数学映射(如果一个变量的值已知，则另一个变量的值可以计算出来)，因而它们的互信息为 1。如果一个变量是对应变量和其他变量的函数，它们的互信息在 0 和 1 之间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Multiple Linear Regression for Height and Weight versus BMI

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Another view, rotated to show linearity and fit of the relationship

数据集分布

数据集的分布显示了总体特征的不同可能值，以及每种结果出现的频率。正态分布可能是最广为人知的分布，并且经常出现在现实世界中。在多元线性回归中，假设我们有多元正态性。简单来说，每个变量都应该是正态分布的。我们可以通过在直方图中绘制变量来直观地检查这一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然身高和体重并不是完美的正态分布，但因为我们有足够大的样本量，总共有 10，000 次观察，我们可以安全地假设中心极限定理成立。如果不确定这个数据是否足够正态分布，可以用 Q-Q 图来检验。

Q–Q(分位数-分位数)图是确定分布是否正态分布的另一种诊断工具。它沿着理论分位数和 y = x 线绘制数据的分位数。如果点沿着这条线排列，则分布相对相似。在我们下面的图中，因为不同自变量的大多数点都非常接近直线，因此是“理想的”正态条件，我们可以假设我们的数据是正态分布的。然而，因为在低端，一些点在线下，而在高端，一些点在线上，我们知道我们的数据可能有重尾，然后我们调整我们的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

样本量

在信息爆炸之前，统计人员习惯于手动收集数据，这需要宝贵的时间和资源。需要提前确定最小样本量，以确保收集到足够的数据，从而进行有效和准确的分析。今天，情况往往相反。我们可以访问从几千到几百万个观察值的数据集。乍一看，能够对超过一百万的观察数据进行分析似乎很棒。然而，在对数据进行分析和建模时，使用大量数据通常是不合适的。

从数据集中提取样本有几个原因。太大的样本会导致我们过度拟合我们的模型。样本太多会导致实际上无关紧要的变量在分析中具有统计意义。然而，从我们的数据集中提取太小的样本也可能会导致问题。在太小的样本上进行的分析将缺乏统计能力，而统计能力对于能够基于模型做出准确的预测是至关重要的。我们不想要太大或太小的样本，那么我们如何确定合适的样本量呢？

通常，人们认为 30 的样本量已经足够大了。然而，当我们从数据集中随机抽取 30 个样本时，结果是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

很容易看出这个样本不是正态分布的，打破了多元正态的假设。因此，我们需要选择更大的样本量。在模型构建中，很容易改变您正在选择的随机样本的大小，并直观地验证它是一个足够大的样本，以满足多元正态性的假设。

离群值

在模型创建中没有关于异常值的特定假设，但是需要注意的是异常值会极大地影响您的模型并改变其有效性。直观检查异常值的简单方法是使用箱线图，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为我们可以直观地看到存在异常值，所以我们应该检查它们对模型的影响有多大。 statsmodel.api 包计算诊断，如杠杆和库克的每个点的距离，非常有帮助。杠杆是衡量一个点的独立变量值与不同观察值之间的距离。具有高杠杆作用的点是变量的极值点，在这些点上缺少附近的观测值导致拟合的回归模型接近该特定点。下面是库克对每个点的距离图。库克距离是删除一个点对回归的影响的度量，因此给定该信息，调查具有极端/更高库克距离的那些点将是有益的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有几种方法可以处理异常值，您选择如何处理它们可能取决于您的特定模型。当您创建模型时，它们可以从您的数据中完全删除，或者它们可能表明另一个模型可能更适合您的数据，这取决于它们如何影响其他假设。

结论

正如你所看到的，检查模型假设是一个相对简单，但在优化模型性能和增加机器学习中模型可靠性方面非常重要的一步。在构建模型之前，请检查您的数据是否符合您选择的模型的特定假设。从目视检查开始。如果您的可视化甚至有点不清楚您的数据是否符合您正在检查的特定假设，请使用更具体的诊断工具来确认或否认您的怀疑。这样，您可以确保对数据使用最合适的模型，从而提高预测能力。

**关键词:**多重共线性、同异方差、异常值、残差、诊断、标度-位置图、Q-Q 图、库克距离

消息来源

https://statisticsbyjim . com/regression/多重共线性-回归-分析/

[## 为什么、如何以及何时应用特征选择

现代数据集的信息非常丰富，数据是从数百万个物联网设备和传感器收集的。这个…

towardsdatascience.com](/why-how-and-when-to-apply-feature-selection-e9c69adfabf2)

https://data.library.virginia.edu/diagnostic-plots/

数据集中上下文的重要性:一个简短的实验

原文：https://towardsdatascience.com/the-importance-of-context-in-data-sets-a-short-experiment-29c45a01a7fd?source=collection_archive---------36-----------------------

在同一时间序列中使用四种预测方法以显示绩效差异

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如今，数据科学家在选择他们将在数据库上使用哪种方法时被宠坏了。学术文献已经超越了众所周知的、曾经广泛使用的普通最小二乘法。与大多数其他研究领域相反，新的理论和方法通常会相对较快地应用到商业应用中，就目前而言，时间序列预测领域可以说是研究得最好和使用最多的领域。

本文并不深入探讨在特定环境下最有效的单一方法。相反，我想告诉您，没有一种方法在每种情况下都是明确首选的。事实上，我已经建立了一个简短的实验，向你们展示数据集背景的重要性，以及全面再培训的重要性。

我的演示使用了四种不同的方法和一个公开的数据集:由英国政府提供的约克市中心每小时的客流量。数据范围为 2009 年 3 月 30 日至 2018 年 12 月 17 日。

方法概述

首先是一个简短的免责声明:为了充分证明我的观点，我需要对几个模型和预处理方法进行彻底的研究，这超出了本文的范围。但即使将研究限制在以下四种方法，也可以得出初步结论:平均法、指数平滑法、随机森林法和梯度推进机法。

平均

一种简单的复合平均法。首先，一周中每天的平均值是在每天汇总数据后获得的。接下来，计算一天内小时数的百分比，使我们能够将数据从每日预测重新分配到每小时预测。

指数平滑

指数平滑需要分配随时间呈指数递减的权重，这意味着该模型明确考虑了过去的事件。为了训练模型，平滑参数β (0 < β < 1) needs to be estimated.

随机森林

训练随机森林意味着重复选择数据子集和随机选择特征来训练回归树。随后，通过对使用每个单独的回归树做出的预测进行平均来构建预测。

梯度推进机

梯度推进机器通过迭代地将所谓的弱学习器组合成一个单一的强学习器来训练。每次迭代旨在通过估计回归树来进一步最小化早期训练的学习者的误差项。

注意，为了将机器学习技术应用于诸如该数据集的时间序列，不能忽略特征工程。根据机器学习的本质，不会考虑时间因素，因此数据科学家应该通过特征来指示时间依赖性。特别是当数据显示趋势时，自回归(包括滞后值)可能是有价值的，因为机器学习技术通常不能很好地进行外推。在这个练习中，对于随机森林和梯度推进机器方法，我选择包含这些时间指示器:年、月和星期几。

结果

我首先使用截至 2017 年 12 月 9 日的数据来训练我们的各种模型。我让模型提前一周预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于这些结果，随机森林模型似乎具有最高的预测能力，因此将构成首选模型。

接下来，我对所有的模型进行了一年同期的训练，就在一年之后(直到 2018 年 12 月 9 日)，让他们再次提前一周进行预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管预测的目标是今年的同一时期，仅仅是未来一年，但现在的结果和随后的结论却截然不同。这是我的主要观点。即使在一个相对简单的数据集内，改变上下文也可能导致实质上不同的结果和结论。

从这个实验中得出的一个结论是全面再培训的重要性。通常，再训练归结为将完全相同的方法、预处理和特征工程应用于稍微不同的数据集。然而，如上所示，持续使用曾经选择的方法会导致错误的结论。

可能更重要的是，它证明了数据集的背景对结果的影响远远超过任何单一模型的预测能力。这意味着每个建模任务都需要考虑一系列方法。每种方法的性能(以及方法的选择)将在很大程度上取决于手头问题的背景。

伦理在人工智能中的重要性

原文：https://towardsdatascience.com/the-importance-of-ethics-in-artificial-intelligence-16af073dedf8?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by ThisIsEngineering on Pexels

(或任何其他形式的技术)

“仅仅因为我们可以，并不意味着我们应该”可能是在谈到技术创新时要记住的事情。互联网的到来将创新的速度提高了 10 倍，让我们几乎可以创造任何我们能想到的东西。人工智能是一个很好的例子，在这个空间里，我们可以建造任何我们喜欢的东西，但我们应该这样做吗？

和它的开发者一样道德

伦理(名词 ): 管理一个人的行为或进行一项活动的道德原则。(“许多科学家质疑残酷实验的伦理” )

我们人类有一种叫做“道德指南针”的东西。它是一种存在于我们大脑中的代理，基本上能辨别是非。当你看到不公正时，你的大脑会告诉你有些事情不对劲。由此而来的行动由你决定，但你可以分辨对错。你的道德标准很大程度上取决于你的教养和环境，但大多数人都有这样的标准。这也是公司建立道德和合规的基础，什么是对的，什么是错的，以及我们如何在此基础上制定规则。

人工智能缺乏这样的指南针。事实上，它没有任何指南针。人工智能只能根据贴有“正确”和“错误”标签的数据来区分对错。人工智能没有自我意识，也没有所谓的“同理心”，这是伦理学的基础。当谈论人工智能时，唯一的道德指南针是它的开发者，他们为什么是对什么是错设置了标准。如果开发者的道德罗盘很低，他/她可能会怀着不良意图开发 AI，反之亦然。这并不意味着人工智能实际上会一直遵循这些标准，因为人工智能不是被编码的，而是被训练的。这意味着它可能是善意的，但仍然像人们希望的那样，起草成道德上不那么认可或“为好”的东西。

那么，为什么技术中的伦理如此重要呢？

嗯，如果我们不基于道德来构建技术，并确保我们了解我们实现的每个算法的结果，我们就有可能不道德。因此，我不是说“吃饭时使用刀叉”是道德的。我的意思是——不是种族主义或牵连无辜的人——道德。听起来很重？我们已经有有偏见的数据导致潜在的种族主义决策的例子。

或者更糟，那次脸书开发了两个会说话的人工智能机器人。他们用英语交谈了一会儿，然后构建了他们自己的语言，开发者无法理解。这是不道德的吗？从人类无法监控正在发生的事情的意义上来说，这些对话的结果(或内容)很可能是不道德的。

人工智能没有自我意识，也没有所谓的“同理心”，这是伦理学的基础。

控制行为

让我们再一次抓住伦理的定义:“伦理是支配一个人行为的道德原则”。如果我们不能控制我们建造的东西的行为，我们怎么能检查它的伦理呢？我们需要永远(永远永远)成为决定人工智能行为的人。当然，对于像“自我学习”这样的选项，我们不想减慢它的发展过程，因为那样会违背它的整个目的。这最终意味着两件事:

我们需要将伦理道德融入为什么开发某种配备人工智能的技术的想法中
我们需要监控/检查/监管特定技术的结果，以便充分理解它的行为，并确保它不违反我们(人类)的道德准则。

因此，伦理不仅在技术领域(尤其是人工智能领域)很重要，而且应该是任何创新的基础。我们不能冒构建不道德工具的风险。因此，如果某件事为了创新或经济利益而冒不道德的风险，我们应该想到:

“仅仅因为我们可以，并不意味着我们应该”

以上是技术应该如何帮助我们，而不是与我们作对的基础。如果你想更多地了解这种不可避免的未来方式或工作方式，请查看以下网站的研究:https://brand humanizing . com/research/brand-humanizing-an-accessible-and-humanized-on-business-in-a-incremented-robotic-world/

语言在人类认知和人工智能中的重要性

原文：https://towardsdatascience.com/the-importance-of-language-in-human-cognition-and-artificial-general-intelligence-6d33af481684?source=collection_archive---------6-----------------------

关于发展真正的 AGI，心理语言学能告诉我们什么

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Joel Naren on Unsplash

我经常自言自语。很多人都这样。我想说，大多数人利用内心演讲来解决各种问题。语言似乎是解决问题过程以及我们如何向自己描述世界的一个重要组成部分。我们如何理解原子尺度和宇宙尺度，以及它们之间的关系？这种事情在很多方面都是不可理解的。但是我们通过自己的语言理解它们。如果语言对我们更高层次的思维过程如此重要，那么我们在设计模仿或类似于人类思维过程的人工智能应用程序时，必须考虑这一点。

内部讲话

总的来说，没有很多关于内心独白和内心演讲的讨论。一些人认为几乎每个人都使用它，而另一些人不同意。一种可能是，在某些个体中，内部言语并不是有意识的。就像每个人都会做梦一样，也许每个人都会进行内心的对话，但是对于某些人来说，这太潜意识了。有些人还大声自言自语。我承认这样做。再一次，这种自我交流的元素似乎在解决更高层次的问题时很有用。所以我认为我们需要更多地了解这一现象，以及它与 AGI 的关系。

语言和世界观

一些人类学家甚至认为语言塑造了我们对现实的感知。有一种理论或假说，被称为萨皮尔-沃尔夫假说。这一假设与诺姆·乔姆斯基提出的人类本质上以同样的方式思考和形成语言(普遍语法)的观点形成了对比。虽然第二个想法可能很好，从政治上来说，因为它意味着我们有更多的共同点，但从心理上来说，有理由相信它是不正确的。我一会儿会更多地谈到这个想法。

萨皮尔-沃尔夫假说以两种形式存在:弱形式和强形式。在弱形式中，该理论认为语言对我们的世界观和思维过程有影响。强式认为语言决定了我们的思维过程。我更倾向于强大的萨丕尔-沃尔夫阵营。

语言的结构似乎确实会影响我们的思维方式。基思·陈(Keith Chen)研究了在描述事件过程中不同结构的语言。陈的研究至少表明，语言结构影响行为。在他的研究中，他观察了不同语言使用者的投资习惯。他发现，像英语这样的语言“迫使说话者在语法上把未来和现在分开，导致他们对未来投资减少。”

语言也能影响我们是否责备一个人。凯特琳·m·福西和蕾拉·博罗迪特斯基研究了记忆如何受到语言的影响。英语、西班牙语和许多其他语言使用施事语言。然而，在意外情况下，说英语的人似乎比说西班牙语的人更多地使用它。一个可能的解释是，为什么被动语态在英语中不受欢迎，但西班牙语却经常使用。但是不管是什么原因，说英语的人比说西班牙语的人更容易记住事故中的特工。

虽然有可能存在另一种解释，但最合理的解释似乎是，使用被动语态并避开事故中涉及的代理人会降低记住事故中涉及谁的能力。然而，也可能有其他的可能性，比如在分配责备的重要性方面的文化差异。

Kuuk Thaayorre 语是语言如何塑造我们认知的另一个有趣例子。在语言中，没有左或右的词。每个方向都是基于基本方向给出的。因此，总是知道主要方向在哪里是非常重要的。说这种语言的人碰巧也很清楚自己身在何处。

[## “语言如何塑造我们的思维方式”抄本

TED Talk Subtitles and Transcript:世界上大约有 7000 种语言，它们都有…

www.ted.com](https://www.ted.com/talks/lera_boroditsky_how_language_shapes_the_way_we_think/transcript?language=en)

尽管我们仍有很多东西可以学习，但这三项关于语言和认知的不同研究使得语言对记忆、行为和一般思维过程有重大影响的理论变得相当有力。

人工智能的应用

所有这些关于语言的理论与人工智能有什么关系？如果我们想要像人类一样思考的机器，我们需要了解人类是如何思考的。如果语言真的是类人思维的基础，那么我们需要确保一个强大的语言框架被构建到任何 AGI 应用程序中。一个真正的 AGI 要充分发挥作用，需要以下关键因素，这似乎是合理的。

任何足够先进的 AGI 都需要能够动态地学习新语言。被预编程基本的语言处理不会削减它。
AGI 需要能够识别多种环境，并与多个人进行单独的对话。
AGI 需要能够“自言自语”

考虑到这几点，我确实有一个试验这些想法的建议。我们可以尝试创建一个具有基本语言学习能力的人工智能应用。它还需要能够区分不同的发言者。特别是如果我们有我在之前的 AGI 文章中提到的修改过的图灵测试，我们可以将这个版本与另一个版本进行比较，后者包括更强大的语言处理。

要做到这一点，我们可以采取完全相同的程序，但增加了额外的内部声音元素和观察自己讲话的能力。正是因为这个原因，AGI 人需要能够理解多种语境和说话者。

对于该任务的第一部分，可以简单地运行同一应用程序的第二个实例，其中唯一的通信流是在两个实例之间。如果内部对话是人类式认知的重要特征，我们应该期待看到更像人类的讨论。

导航: 主索引 | 人类学索引

进一步阅读

[## 人工智能心理学

为什么心理学、人类学和认知神经科学的理论需要应用于发展…

towardsdatascience.com](/the-psychology-of-artificial-intelligence-cb03d060288c) [## 人工智能为什么这么恐怖？

难道我们的孩子不是我们的未来。

medium.com](https://medium.com/@dgoldman0/why-is-artificial-intelligence-so-terrifying-49d4068f6444) [## 克林贡语还是克林贡语:一个语言学问题

最近，一个 Nerdist 帖子受到了书呆子们的额外关注，因为标题作者使用了术语“克林贡语”…

medium.com](https://medium.com/geekers-keep/klingon-or-klingonese-a-linguistic-question-fd3740edad5e)

软技能在数据科学中的重要性—书籍推荐

原文：https://towardsdatascience.com/the-importance-of-soft-skills-in-data-science-book-recommendations-3cbce1b11c67?source=collection_archive---------14-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“It is what you read when you don’t have to that determines what you will be when you can’t help it.” — Oscar Wilde (Image by author)

这些是我推荐给数据科学家作为个人发展一部分阅读的最佳书籍。

在经典的数据科学维恩图中，数据科学家存在于数学和统计学、黑客和领域专业知识技能的交汇处。但与此同时，软技能在数据科学角色中也很重要。为了真正有效，数据科学家应该拥有强大的沟通技巧；能够谈判并说服利益相关者；并最终带领项目和团队在各种商业或工业环境中取得成功。

这促使我为新兴的数据科学家编写了一份书籍推荐清单，将阅读视为他们个人发展的一部分。在我指导和领导项目团队的责任越来越大的过程中，我意识到，尽管数据科学家通常非常认真地对待他们的持续发展，但他们通常非常关注该角色的技术技能，而忽视了在软技能方面的专门学习之间的平衡。我发现将软技能学习纳入我的个人发展计划非常有益，可以增强我的商业意识和对企业(更重要的是人)运营方式的理解。我鼓励在我帮助领导的项目和团队中学习这些知识，并取得了很好的效果。

在这些建议中，我总结了从每本书中学到的关键数据科学知识，这些知识可以在工作中付诸实践。我专注于我认为最能相互补充的书籍，以完善一名有效的数据科学家应该掌握的许多软技能，这些技能是从我从初级角色成长为高级角色以及作为各种项目的技术主管的经历中收集的。

“如何停止担忧，开始生活”——戴尔·卡内基

这是我过渡到数据科学职位后阅读的第一本“自助”书籍，它很好地介绍了个人发展的有效性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image from Wikipedia under Fair Use

**推荐理由:**任何经历过冒名顶替综合症的人！

**主旨:**认识到你担忧的原因，然后合理化它们，并形成一个克服它们的计划。

**数据科学家需要学习的重要知识:**当担心项目简介、代码错误、对利益相关者的演示等时。这有助于识别和减轻风险，这样你/你的团队/你的利益相关者可以确信事情得到了理解和控制。

最喜欢的一句话:“决定一件事情到底值多少焦虑——拒绝再给它了。”

“如何赢得朋友和影响他人”——戴尔·卡内基

在欣赏了戴尔·卡耐基的写作风格后，我接着读了他的《影响他人》一书，这本书本身就是一本极具影响力的书(太元了)！不要让标题让你分心:这个建议根植于做最真实的自己，关注人际交往技巧和换位思考的重要性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image from Wikipedia under Fair Use

**推荐适合:**反社会者(j/k！)任何想变得更有同情心或更有风度的人。

**主要信息:**真诚、诚实、积极、谦逊地对待他人，真诚地关心和尊重他们。

**数据科学家的重要收获:**各种项目和团队将汇集各种各样的人，理解他们的动机和行为非常重要，这样您就可以带他们踏上构建理想解决方案的旅程，这可能与他们最初的期望一致，也可能不一致。

最喜欢的一句话:“赢得争论的唯一方法就是避免它。”

“快速思考和慢速思考”——丹尼尔·卡内曼

了解我们有意识和无意识思维过程之间差异的伟大著作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by author

**推荐对象:**希望在行动和行为中加入更多理性和深思熟虑的人。

**主要信息:**通过识别我们“快”和“慢”的思维方式，我们可以更好地控制决策中逻辑的使用，减少任何源于情绪或无意识偏见的过度自信。

**数据科学家的重要收获:**在 DS 项目中与人们的各种接触中，了解您和他们的决策是如何发生的是很有用的，因为不是每个参与的人都会以相同的方式思考，所以您应该根据情况定制您的方法，并在必要时进行“慢”思考。

最喜欢的名言:“他有印象，但他的一些印象是幻觉。”

“高效人士的 7 个习惯”——斯蒂芬·R·科维

介绍七种有效实现目标的方法，尤其是与他人合作时。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image by author

推荐职位:项目管理、团队领导或顾问职位。

**主要信息:**如何从依赖走向独立(自我掌握)和相互依赖(与他人有效合作)。

**数据科学家的重要学习:**通过衡量紧急程度和重要性(优先级矩阵“执行”、“计划”、“委派”或“消除”)来展示任务的有效优先级，这对于分解利益相关方的请求非常有用，因此您可以专注于最有价值的部分。概述了“协同”团队的方法，以帮助确保数据科学家与相同的目标保持一致，并积极地朝着这些目标努力，依靠有效的领导来确保“双赢”局面。

****名言:“先寻求理解，再寻求被理解。”

“个人 MBA”——乔希·考夫曼

MBA 课程中典型课程的浓缩版。它突出了商业教育的关键方面和战略的例子。

Image by author

****推荐给:那些商业背景或培训有限的人，尤其是现在与商人或在商业环境中工作的人。

****主要信息:贯穿商业模式的有效战略和决策背后的思想；从评估市场和衡量价值到制造产品和管理不确定性。

****数据科学家需要学习的关键知识:利益相关者、高层管理人员和第三方提供商或顾问通常都比数据科学家有更坚实的业务基础和背景。为了理解他们的动机，并从根本上说他们的语言以获得他们的信任，学习商业理论是至关重要的；涵盖价值创造的形式&交付、营销、金融、心理学以及商业模式和系统的功能。

最喜欢的名言:“哪里有麻烦，哪里就有机会。”—(争议溢价)

“子弹日记法”——赖德·卡罗尔

通过有效的笔记和待办事项列表来提高工作效率的方法。

Image from Wikipedia (copyrighted free use)

****推荐对象:那些努力跟踪不断增长的待办事项清单的人。

****主要信息:使用一个简单的符号和规则的书面系统来记录行动、事件和笔记，你可以提高你的工作效率。

****数据科学家需要学习的重要知识:科技行业的工作节奏往往很快，业务部门会提出各种各样的动态要求，因此在日常工作中管理这一点非常重要，而这正是子弹日志法可以提供帮助的地方。一名数据科学家可能在一天之内身兼数职，编制各种各样的待办事项列表，然后对其进行排序和优先排序，这样你就知道现在要做什么、未来要做什么，或者如果不重要就删除(参见上面的“7 个习惯……”)。

最喜欢的名言:“追踪过去，订购现在，设计未来。”

以下书籍包含了数据科学&商业技术技能的软性方面的各种逻辑、推理和见解。

Image by author

“魔鬼经济学”、“超级魔鬼经济学”、“像怪物一样思考”和“什么时候去抢银行”——史蒂文·d·莱维特和斯蒂芬·j·杜布纳

这些都是引人入胜的读物，显示了经济学是如何成为社会许多部分的根源，突出了它的重要性和影响力。

Image by author

《卧底经济学家》、《生活的逻辑》和《适应:为什么成功总是从失败开始》——蒂姆·哈福德

通过经济学在商业、市场营销、战略和创新中的应用来探究社会中人们的心理。

Image by author

“四大巨头:亚马逊、苹果、脸书和谷歌隐藏的 DNA”——斯科特·加洛韦

“你足够聪明去谷歌工作吗？”—威廉·庞德斯通

“局外人:成功的故事”——马尔科姆·格拉德威尔

“精益创业:持续创新如何创造出彻底成功的企业”——Eric Ries

这些书强调了创造性思维和创新行动的能力是当前科技公司蓬勃发展的基础，并寻求在他们的雇佣中增加/增长。

Image by author

“自我发展经理指南”——迈克·佩德勒、约翰·伯戈因和汤姆·博伊德尔

“非暴力沟通:生活的语言”——马歇尔·罗森伯格

“完成任务:如何实现无压力的生产力”——大卫·艾伦

“领导者的思维模式:如何在混乱的时代获胜”——特伦斯·莫里

“如何通过公开演讲培养自信并影响他人”——戴尔·卡内基

这些书介绍了优秀领导力的方方面面，从良好的自我意识和适当的心态，到能够以积极和富有成效的方式影响他人。

Image by author

“推动:改善关于健康、财富和幸福的决定”——理查德·h·泰勒和卡斯·r·桑斯坦

“谎言和统计的实地指南:神经科学家如何理解复杂的世界”——丹尼尔·列维京

“经济自然主义者的回归:经济学如何帮助理解你的世界”——罗伯特·h·弗兰克

“可预测的非理性:塑造我们决策的隐藏力量”——丹·艾瑞里

“信号和噪音:预测的艺术和科学”——内特·西尔弗

“被闪电击中:好奇的概率世界”——杰弗里·s·罗森塔尔

“如何不犯错:日常生活中隐藏的数学”——乔丹·艾伦伯格

“巧合、混乱和所有的数学爵士乐:让有分量的想法变轻”——爱德华·b·伯格和迈克尔·斯达伯德

这些都是关于使用数学和统计来帮助理解人们和社会的行为，我们如何误解和误判我们的偏见，以及如何更好地使用概率来通知我们的决定，以及我们评估风险和结果可预测性的方式的一些伟大的读物。

Image by author

“醒醒！逃避自动驾驶的生活”——克里斯·佩雷斯·布朗

“生活的规则”——理查德·圣殿骑士

“设计快乐:在日常生活中寻找快乐和目标”——保罗·多兰

“幸福的代数”——斯科特·盖洛韦

最后，但绝不是最不重要的，是一些关于积极快乐心态重要性的书；这在商业技术行业是一个很好的平衡，因为尽管我们用逻辑、度量和效率衡量工作，但我们不是机器人，应该始终投资于我们的精神健康和福祉。

我很好奇，也对任何人关于商业技术的进一步建议感兴趣。数据科学家的领导力或软技能资源。这些和其他资源都聚集在我的 datascienceunicorn.com 博客上。请打我！

当我整理这份清单时，我意识到男性作者在其中的主导地位，并记下在这些领域寻找更多女性作者的书。欢迎所有推荐。

参考文献

http://drew Conway . com/Zia/2013/3/26/the-data-science-Venn-diagram
https://towardsdatascience . com/soft-skills-will-make-or-break-you-as-a-data-scientist-7b 9 c 8 c 47 f 9 b
http://www.datascienceunicorn.com

机器学习的开端

原文：https://towardsdatascience.com/the-inception-of-machine-learning-90b9fc3737ff?source=collection_archive---------23-----------------------

在流行语的搭配中，“机器学习”一词成为了很大的竞争者。但是你有没有想过这个术语是怎么来的？

让我们深入了解它的历史，了解它是如何演变成今天的样子的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个术语是阿瑟·塞缪尔在 1959 年创造的，他定义它为—

“给予计算机无需明确编程就能学习的能力的研究领域.”

在 IBM 工作期间，亚瑟·塞缪尔在 IBM 的第一台商用计算机 701 上编写了一个跳棋程序。

你听说过跳棋吗？这是一个简单的战略棋盘游戏，也称为跳棋。

亚瑟自己并不是一个很好的跳棋选手，但是让这个程序和它自己玩上千次游戏，它变得足够体面来挑战一个业余选手。这是世界上第一个成功的自学项目。

这个程序的主要任务是找到一个从当前状态可以到达的有利的棋盘位置，这将导致一场胜利。由于机器的存储容量有限，在游戏结束前搜索每一条路径是不可行的，所以亚瑟设计了一个计分函数来衡量每一方在给定位置获胜的机会。程序使用极小极大策略决定下一步行动。这个过程后来被称为阿尔法-贝塔剪枝。

谁能想到教电脑玩游戏会引出这样一个革命性的研究领域？

是的，你猜对了！亚瑟这么认为。他认为，通过教计算机玩游戏，可以开发出解决一般问题的策略。

但这是开始吗？

不要！

在术语*“机器学习”、艾伦·图灵在他的论文计算机器和智能中提出——“学习机器”*可以学习并变得人工智能。在同一篇论文中，他介绍了著名的模仿游戏，该游戏旨在回答“机器能思考吗？”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他相信，到本世纪末，技术进步将使通过编程制造一台能玩模仿游戏的机器成为可能。根据他的说法，要模仿成年人的思维，重要的是要考虑导致其当前阶段的因素，即—

心灵的最初状态——童年。
教育，它提供了。
人生经历，它是受。

奖励和惩罚的方法会在头脑中形成模式。图灵提到，这整个过程在很大程度上类似于自然选择的进化过程。

虽然他给出的解释可以被认为是抽象的，但“机器学习”的当前状态，以及它的方法，如监督、非监督和强化学习，是他所预期的。

机器学习起源于领先于他们时代的先驱们的雄心勃勃的推测和工作。

对于大多数学习者和爱好者来说，机器学习似乎是一个相对较新的领域，但它有一段发现和批评的历史。随着硬件和计算的进步，它现在已经成为我们这一代最伟大的技术之一；它有可能彻底改变我们文明的无数方面。

在后续的博客中，我将分享我对机器学习的学习。我希望再次得到你的时间和关注。谢谢大家！

对数据科学家日益增长的需求。一次采访

原文：https://towardsdatascience.com/the-increasing-demand-for-data-scientists-an-interview-6d74d98afba0?source=collection_archive---------22-----------------------

此采访原载于 2019 年 9 月 25 日经验论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在当今世界，成为一名数据科学家是很棒的，对数据科学家的需求正在上升，对该角色的招聘也在增加。虽然对数据科学家的需求似乎在增加，但这回避了一个问题，为什么完全合格和训练有素的数据科学家很难找到工作？

机会

“越来越多的用例及公司证明了数据的变革价值，”Zoopla 数据科学主管 Jan Teichmann 评论道。“数据科学和机器学习模型降低了 B2B 的风险和成本，并为 B2C 创造了全新的产品和收入来源。炒作已经越来越证明了自己，人工智能的最新进展正在达到从研发到现实世界应用的突破点。在这种背景下，哪个行业能够承受得起持续的数据转换并保持长期相关性？”

鉴于这一切，数据科学已经完全融入了 DevOps 文化；使用强大的分析技术变得前所未有的容易。Jan 指出，“最佳实践、平台和工具包的新兴标准显著降低了数据科学团队的准入门槛和价格。这使得公司和从业者更容易获得数据科学。”

然而，这已经对数据科学家的角色产生了连锁影响，技术领域和对该领域本身的看法正在发生快速变化。“重要的是要记住，数据科学(a)仍然是一个新兴的业务职能，并且(b)不断从持续创新中发展，”Jan 说，“虽然数据科学独角兽一如既往地罕见，但数据科学学科的分化和成熟程度已经大大提高。现在，跨职能团队正在研究算法，一直到全栈数据产品，重点是研究、商业应用、实验、可解释性、算法公平性和数据伦理。如今，有了高级分析师、数据科学家、人工智能工程师和数据运营专业人士，CDO(首席数据官)也不再罕见。”

当然，这是一个不断增长的商业市场。“随着任何主要云提供商的数据科学平台和 PaaS 产品的供应商越来越多，大数据和数据科学项目中的技术挑战可以由任何人来克服，而不仅仅是高科技公司，”Jan 补充道，“数据科学最终从宣传转向了更加务实、注重价值的交付模式。”

关键技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Public Domain

那么，当今数据科学专家需要哪些关键领域的专业知识呢？该领域涵盖了从分析到算法、数据库和大数据处理的所有内容，范围相当广泛 Python、Matlab、R、SAS、SQL、noSQL、Hadoop 和 Spark 对数据科学家很有用；面向数据工程师的 C++、Java、Perl、Python、Ruby 以及面向机器学习工程师的 Java、Julia 和 Scala。

“对于大多数商业应用团队来说，数据科学家可以站在优质开源社区和工具包及框架的肩膀上进行日常工作，”Jan 说，“以前需要的学术/科学理解已经让位于对掌握现实世界数据基础设施(通常由质量差的数据孤岛组成)、商业意识、与更广泛的业务利益相关者交流见解的能力以及围绕价值证明的强大产品思维的需求。”

嘎吱声

尽管如此，许多专家还是很难找到工作。Jan 解释说:“在过去的 10 年中，85%的大数据和数据科学项目未能产生业务影响，许多团队因此被解散。虽然该领域和行业已经从之前的膨胀预期宣传中学到了很多，但我们仍处于谨慎再投资阶段的早期。新的数据科学团队在通过交付的业务影响来证明其价值的新步伐中，发展速度比以前慢得多。”

此外，还有领导力的挑战。简说:“数据科学家并不短缺，但与此同时，许多企业很难找到合格的领导者和管理者，他们这次可以开辟一条更加成功和可持续的道路。这确实阻碍了目前对数据科学的投资，并可能使拥有数据科学技能的人暂时更难找到工作。”

正是在这种背景下，企业正在逐步建立自己的数据科学团队，提高现有员工的技能，同时也在招聘新员工。对于公司来说，确保数据工程师的到来，维护基础设施和监督数据收集，以及确保数据得到有效管理也很重要。

“一个优秀的数据科学团队是一个快乐的数据科学产品团队，完全有能力为内部利益相关者和外部客户的需求提供全栈数据产品，并受到他们成功交付业务影响的激励，”Jan 说，“可扩展的交付渠道和快乐的数据科学家之间有着重要的联系。数据科学家的动机是开发新模型来解决相关的业务问题，而不是模型在生产中的日常运营责任。这意味着，数据基础设施、数据科学平台、自动化和数据运营不仅是交付业务成果的关键问题，也是长期留住团队的关键问题。”

结论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Public Domain

基于大数据可以为企业带来的巨大价值，建立强大的数据科学能力将是未来几年的一个关键优先事项。随着该领域的成熟，它正在成为一项运营要求。

正因为如此，能够展示多学科技能组合(例如，进入网络安全领域)的专家很可能处于领先地位，而能够证明自己是称职经理的数据专家将受到特别高的需求。然而，更大的挑战将是确定数据分析可以为组织提供价值的新用例，以及可以释放指数增长的数据点。

关于经验论

Empiric 是一家屡获殊荣的企业，也是发展最快的技术和转型招聘机构之一，专注于数据、数字、云和安全领域。我们为寻求合同制和永久制专业人员的企业提供技术和变更招聘服务。

empiric.com

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jan 是公司数据转型方面的成功思想领袖和顾问，拥有将数据科学大规模应用于商业生产的记录。他最近被 dataIQ 评为英国 100 位最具影响力的数据和分析从业者之一。

在领英上连接:https://www.linkedin.com/in/janteichmann/

阅读其他文章:https://medium.com/@jan.teichmann

难以置信的收缩伯努利

原文：https://towardsdatascience.com/the-incredible-shrinking-bernoulli-de16aac524a?source=collection_archive---------22-----------------------

抛硬币模拟黑客新闻到达间隔时间分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Joey Kyber via Pexels

伯努利计数过程

伯努利分布听起来像一个复杂的统计结构，但它们代表了抛硬币(可能有偏差)。我发现令人着迷的是这个简单的想法是如何导致更复杂的过程建模的，例如一个帖子被投票支持的概率，我将在稍后的日期发布一个故事。

伯努利计数过程评估一定数量的翻转试验 n 的事件分布。对于随机二进制序列 n，我们评估的和是某个数字的概率。

例如，对于这 10 次试验，总和将是 S([0，0，1，0，1，0，0，0]) = 3。对于概率为 p 的过程，n 次试验中 S 的期望值为 p*n。例如，如果 p=0.3，则 10 次试验中的期望值为 3 次事件。

伯努利计数过程中的泊松计数过程直觉

泊松过程是伯努利到连续空间的延伸。它用于模拟到达时间，或某段时间内的事件计数概率。

在齐次泊松过程的简化情况下，它由λ它的速率或强度来定义。λ是每单位时间的平均事件数，因此事件数对时间 t 的期望值为λ*t。例如，如果λ = 0.3(每秒)，则 10s 内的期望值为 3 个事件。

我们可以看到两者是相关的，如果你把伯努利试验想象成泊松点过程的时间采样版本。我们可以任意将伯努利增量定义为 1/k，模拟速率λ的泊松分布导致我们将概率定义为 p = λ/k。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Shrinking Bernoulli converges to Poisson

伯努利和泊松过程到达间隔时间分布

伯努利过程的非直观部分来自到达间隔时间。继续上面 p=0.3 的例子，你可能首先猜测到达间隔分布的分布将在 3 左右达到峰值。

然而，该分布实际上是几何分布，我们可以类似地模拟泊松过程的到达间隔时间。

考虑事件发生的初始条件。让我们称 Yᵢ为事件在初始事件发生后增量为 I 时的值。如果距离是 1，那么 Y₁=1 和它的概率是 p。对于距离是 2，我们需要 Y₁=0，Y₂=1 的概率是(1-p)*p。对于 3，Y₁=0，Y₂=0，Y₃=1 的概率是(1-p) p。等等，距离 x 是 I 的概率是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Inter-arrival distance is geometric

一个快速的模拟证实了这一点

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个到达间隔时间也有助于获得泊松到达间隔时间的直觉，它是伯努利到连续时间的延伸。

泊松过程的一个关键特性是它们是无记忆的。把伯努利推广到连续，如果事件在时间 t 还没有发生，它在 t+x 内不发生的概率与 t 无关。

就像在伯努利中，你在抛硬币(只是超快)，它与过去的事件无关。它可以写成

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Memoryless property

我们可以由此推导出泊松的到达间隔分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此 h(x)必须是线性的，我们用-λ作为 prob 是<1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

following a similar logic as per Bernoulli, P(X> x)表示在 x 之前没有事件发生，我们可以重写

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当泊松率为 0.3 时，我们可以将泊松理论分布和伯努利分布重叠，以查看它们是否匹配。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bernoulli simulating Poisson inter-arrival times

要获得这方面的丰富资源，请查看麻省理工学院的离散随机过程课程这里，以及关于泊松过程的章节。

一个真实世界的例子:黑客新闻发布到达间隔时间

黑客新闻定期向 Kaggle 发布一个数据集。张贴的故事的到达间隔时间通常被建模为泊松过程。

你可以在这个 Kaggle 笔记本里找到下面的分析。

我们来看看数据。我们只看时间(epoch)并导出以秒为单位的到达间隔时间(delta_s)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Select columns of the HN dataset with added inter-arrival times

平均来说，我们计算的到达间隔时间是 101 秒。这应该给我们一个密度分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

with inter-arrival rate of 101s

让我们插入真实数据和理论数据。非常接近但不完美。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而，恒定速率假设很可能不成立，让我们来看看。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到，黑客新闻的到达率在一周内比周末高得多，在工作日期间相对相似，在太平洋时间 6-12 时最高。

选择平日，6-12 太平洋，我们得到一个几乎完美的适合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我的硬币在哪里？

所有这些都很有趣，但并不迷人。然而，令人着迷的是我们如何——这又是伯努利——抛一枚有偏向的硬币来模拟这种分布。

高使用率时段 6-12 的平均到达率为每 51 秒 1 个故事。如果你掷硬币的概率是 1/51 的“1 ”,给出的期望值是每 51 秒一个故事，你会得到相同的分布。
“翻转事件”看起来像数组([0，0，0，1，0，0，0，0，0，0，…])，如上所述，我们处理 1 之间的距离。如果你多次运行这个过程，下面是你得到的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Flipping a biased coin to simulate HN inter-arrival times (Bernoulli)

感谢阅读。

数据缩放对机器学习算法的影响

原文：https://towardsdatascience.com/the-influence-of-data-scaling-on-machine-learning-algorithms-fbee9181d497?source=collection_archive---------22-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缩放是数据预处理的行为。

数据再处理包括在数据被用于进一步的步骤之前，对数据进行向上或向下的转换和缩放。属性常常不能用相同的标准、尺度或度量来表达，以至于它们的统计数据会产生失真的数据建模结果。例如，K-Means 聚类算法不是尺度不变的；它通过欧几里得距离计算两点之间的距离。重新回忆一下欧几里德距离的概念—它是一维空间中两点之间的非负差值。因此，如果其中一个属性的值范围很大，计算出的距离将会受到该属性的影响(即较小值的属性贡献很小)。例如，如果其中一个属性以厘米为单位进行测量，然后决定将测量值转换为毫米(即，将这些值乘以 10)，则生成的欧几里德距离会受到显著影响。要让属性将大约成比例地添加到最终计算的距离，该属性的范围应该被规范化。

归一化有多种含义，最简单的情况是，它指的是将某个属性标度转换到某个版本，该版本在与另一个属性进行比较时消除了总体统计数据的影响。

试图使用像主成分回归(PCR)这样的分析技术要求所有的属性都在同一尺度上。属性可能具有会影响 PCR 模型的高方差。缩放属性的另一个原因是为了计算效率；在梯度下降的情况下，函数收敛得相当快，而不是根本没有归一化。

有几种归一化方法，其中常见的有 Z 值和最小最大值。

一些统计学习技术(即线性回归)在缩放属性没有效果的情况下可能受益于另一种预处理技术，如将名义值属性编码为一些固定的数值。例如，任意给一个性别属性赋予值“1”表示女性，赋予值“0”表示男性。这样做的动机是允许将属性合并到回归模型中。确保在某处记录代码的含义。

选择最佳预处理技术——Z 值还是最小最大值？

简单的答案是两者兼而有之，这取决于应用。每种方法都有其实际用途。观察值的 Z 值定义为高于或低于平均值的标准偏差数，换句话说，它计算方差(即距离)。如前所述，聚类数据建模技术需要标准化，因为它需要计算欧几里德距离。Z 得分非常适合，并且对于根据特定的距离度量来比较属性之间的相似性至关重要。这同样适用于主成分回归(PCR)；在其中，我们感兴趣的是使方差最大化的成分。另一方面，我们有将数据属性转换到固定范围的最小-最大技术；通常在 0 到 1 之间。Min-max 法取的函数形式 y =(x-min(x))/(max(x)-min(x))，其中 x 为向量。例如，在图像处理和神经网络算法(NNA)中，因为像 NNA 的[0，255]这样的大整数输入会中断或减慢学习过程。最小-最大归一化将 8 位 RGB 颜色空间中图像的像素亮度值范围[0，255]更改为 0–1 之间的范围，以便于计算。

直观地学习数据预处理

也许在数据集上应用规范化方法可以揭示它发生了什么；我们可以将数据点转换可视化，以便更直观地解释它。因此，让我们从加载来自 UCI 机器学习数据库的数据集开始。这是一个葡萄酒数据集，其特征是第一列中标识为(1，2，3)的三类葡萄酒。这些数据来自一项分析，该分析确定了三种葡萄酒中 13 种成分的含量。

df <- read.csv(“wine.data”, header=F)wine <- df[1:3]colnames(wine) <- c(‘type’,’alcohol’,’malic acid’)wine$type <- as.factor(wine$type)

使用 read.csv 将葡萄酒数据读取为没有标题的 CSV 文件。葡萄酒类型也通过 as.factor()转换成一个因子。这些步骤不是标准化所必需的，但却是良好的常规做法。

我们选择了三个属性，包括葡萄酒类别，以及标注为酒精和苹果酸的两个成分，它们以不同的尺度进行测量。前者用百分比/体积来衡量，而后者用克/升来衡量。如果我们要在聚类算法中使用这两个属性，我们很清楚需要一种标准化(缩放)的方法。我们将首先对葡萄酒数据集应用 Z 得分归一化，然后应用最小-最大方法。

var(wine[,-1])

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

std.wine <- as.data.frame(scale(wine[,-1])) #normalize using the Z-score methodvar(std.wine) *#display the variance after the Z-score application*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

mean(std.wine[,1]) *#display the mean of the first attribute*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

mean(std.wine[,2]) *#display the mean of the second attribute*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到酒精和苹果酸是标准化的，方差为 1 和 0。

注意，平均数被提升到-16 的幂，-17 (e-16，e-17)分别表示接近于零的数。

接下来，我们创建 min-max 函数，将数据点转换为 0 到 1 之间的值。

min_max_wine <- as.data.frame(sapply(wine[,-1], function(x) { return((x- min(x,na.rm = F)) / (max(x,na.rm = F)-min(x,na.rm = F)))}))

绘制所有三种不同等级的葡萄酒数据点，如下所示:

plot(std.wine$alcohol,std.wine$`malic acid`,col = “dark red”,xlim=c(-5,20), ylim = c(-2,7),xlab=’Alcohol’,ylab=’Malic Acid’, grid(lwd=1, nx=10, ny=10))par(new=T)plot(min_max_wine$alcohol,min_max_wine$`malic acid`,col=”dark blue”,xlim=c(-5,20),ylim=c(-2,7),xlab=’’, ylab=’’,axes = F)par(new=T)plot(wine$alcohol,wine$`malic acid`,col=”dark green”, xlim=c(-5,20),ylim = c(-2,7),xlab=’’, ylab=’’,axes = F)legend(-6,7.5, c(“std.wine”,”min_max_wine “,”input scale”), cex=0.75, bty=”n”, fill = c(“dark red”,”dark blue”,”dark green”))

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Three datasets; std.wine (red), min_max_wine (blue), and the original dataset (green) points

如你所见，有三个数据点集；在绿色集合中，测量值为原始体积百分比，而标准化属性为红色，其中数据以平均值 0 和方差 1 为中心，标准化最小-最大属性范围为 0-1。

这三个集合的形状可能看起来不同，但是，如果您使用新的比例放大每个集合，您会注意到，无论整体形状大小如何，这些点仍然精确地位于彼此相对的相同位置。这些标准化方法通过缩放保持了数据的完整性。

信息悖论

原文：https://towardsdatascience.com/the-information-paradox-38a411517f15?source=collection_archive---------31-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alexandra Nicolae on Unsplash

摘要:下面的悖论是基于这样一种考虑，即一个统计数据的值并不代表一个有用的信息，只有当有可能证明它不是以随机的方式获得时，它才成为一个有用的信息。实际上，随机获得相同结果的概率必须非常低，才能认为该结果是有用的。由此可见，统计数据的价值是绝对的，但为了理解其是否有用而对其进行的评估是相对的，这取决于所采取的行动。因此，两个人在相同的条件下分析相同的事件，执行两种不同的程序，显然会发现相同的统计参数值，但对所获得数据的重要性的评估将会不同，因为它取决于所使用的程序。这种情况会造成一种情况，就像这个悖论中描述的那样，在一种情况下，实际上可以肯定统计数据是有用的，而在另一种情况下，统计数据却完全没有价值。这个悖论想要引起人们对用于提取统计信息的程序的重视；事实上，我们采取行动的方式会影响以随机方式获得相同结果的概率，从而影响对统计参数的评估。

信息悖论

我们有两个相同的宇宙，在这两个宇宙中存在同一个人，我们称之为约翰，他必须执行完全相同的任务，即分析数据库，以提取有用的相关性。正如我们已经说过的，宇宙是平等的，所以数据库是相同的，做这项工作的人也是相同的。需要分析的数据库包括与要研究的事件相关的一百万个参数。

在宇宙“1”中，约翰的行为如下:他获取整个数据库，并计算参数与要研究的事件的相关性。从该分析中，他发现 50 个参数与该事件高度相关，所发现的相关性有 0.005%的概率随机发生。在这 50 个参数中，John 根据他的经验确定了 10 个对研究事件有用的参数。然而，重要的是要指出，John 对 10 个参数所做的假设只是基于他的经验的假设，而不是精确解释 10 个参数与事件相关性的科学论证。

在宇宙“2”中，约翰以如下方式行动:在分析整个数据库之前，他使用他对事件的知识，以便从一百万个可用参数中选择 10 个他认为与事件最相关的参数。然而，同样在这种情况下，重要的是要指出，约翰对 10 个参数所做的假设只是基于他的经验的假设，它们不是精确解释 10 个参数与事件的相关性的科学论证。仅分析这 10 个参数，他发现其中 5 个与事件高度相关，发现的相关性随机发生的概率为 0.005%(如前一个案例)。

在实践中，约翰在两个宇宙中使用的分析方法的根本区别在于:在第一个宇宙中，约翰在对整个数据库执行统计分析后使用他自己的经验，而在第二个宇宙中，约翰使用他以前的经验来执行统计分析，以便减小数据库的大小。

现在让我们看看这种不同的方法是如何影响对所获得数据的评估的。为此，我们必须计算在两种情况下随机获得相同结果的概率。

在第一种情况下，宇宙“1”，为了计算以随机方式获得相同结果的概率，我们必须使用具有以下参数的二项式分布公式:

胜利概率§ =随机获得相同相关性的概率

成功次数(k) =表示所考虑相关性的参数数量

测试次数(L) =数据库中存在的参数总数

通过在二项式分布公式中输入这些数据:

p = 0.005%

k = 50

L =一百万

结果我们得到 5.6%的概率。

现在让我们考虑第二种情况，宇宙“2”，即使在这种情况下，为了计算以随机方式获得相同结果的概率，我们必须使用具有以下参数的二项分布公式:

p = 0.005%

k = 5

L = 10

在这种情况下获得的概率是 7^-18%.

分析这些结果很容易理解，5.6%的百分比使得发现的相关性不显著。为了理解这个百分比有多高，我们还可以计算以随机方式获得 50 个以上考虑了相关性的参数的概率，这个概率是 46%。

现在我们分析第二种情况(7^-18%)的百分比。这一百分比非常低，因此我们实际上可以肯定发现的相关性不是随机的，因此这一结果代表了研究该事件的有用信息。

在这一点上，约翰必须决定是否实现发现的相关性。显然，利用发现的相关性意味着成本，因此错误的评估包含高风险。在宇宙“1”中，约翰处于困难的境地，事实上所做的工作不仅无用，而且危险，因为这可能导致他维持错误的投资。相反，在第二个宇宙中，约翰知道相关性是随机的概率几乎为零，所以他可以以可接受的风险进行投资。

总之，一个简单的程序错误导致了巨大的后果。在第一种情况下，约翰的经验是无用的，而在第二种情况下，它是从大型数据库中提取有用信息的关键资源。

事实上，在宇宙“1”的情况下，约翰不能再使用他自己的知识，他唯一能做的是将他的假设转化为真正的科学论证，但在许多情况下，如在金融领域，这样做可能非常困难。因此，当在进行分析后做出假设时，这些假设可能会受到分析结果的制约，因此失去价值。取而代之的是，在分析之前所做的假设是没有条件的，数据的分析被用来以统计的方式验证它们，就像在宇宙“2”中发生的那样。

作为一种评估检测到的相关性的方法，计算以随机方式获得相同数据的概率的一个基本领域是金融领域[1]，[2]。

结论

在这篇文章中，我们使用了一个悖论来解释统计数据如何不代表有用的信息，只有当有可能证明它以随机方式获得的概率非常低时，它才成为研究一个事件的有用信息。这种考虑使得统计学的应用，作为一种评估假说的方法，成为一门“相对性”的科学。事实上，正如悖论中所描述的，以随机方式获得相同结果的概率的计算是相对的，取决于所使用的方法和所执行的动作。

从实验的角度来看，这些考虑有很大的影响，因为它们教会我们正确规划的重要性，在规划中，我们必须始终实施关于我们想要研究的事件的所有知识。跟踪对数据执行的所有操作也很重要，因为这些信息对于正确计算以随机方式获得相同结果的概率是必要的。

这种解释统计数据的方式对于理解过度拟合现象也非常有用，这是数据分析中非常重要的问题[3]，[4]。从这个角度来看，过度拟合仅仅是考虑统计参数的直接结果，因此获得的结果是有用的信息，而没有检查它们是否是以随机方式获得的。因此，为了估计过度拟合的存在，我们必须在等同于真实数据库但具有随机生成值的数据库上使用该算法，重复该操作多次，我们可以以随机方式估计获得相同或更好结果的概率。如果这个概率很高，我们很可能处于过度拟合的情况。例如，一个四次多项式与平面上的 5 个随机点的相关性为 1 的概率是 100%，所以这种相关性是没有用的，我们处于过拟合的情况。

这种方法也适用于圣彼得堡悖论[5]，事实上，在这种情况下，预期收益是一个统计数据，在用于决策层之前必须进行评估。事实上，解决这一悖论的困难源于这样一个事实，即认为统计数据总是有用的信息。通过分析期望增益，可以证明我们可以随机地获得更好的结果，其概率渐近于 50%。因此，趋于无穷大的期望增益变成了没有价值的统计数据，不能用于决策目的。

这种思维方式对奥卡姆剃刀的逻辑原理给出了解释，即在可用的解决方案中选择最简单的解决方案是可取的。事实上，例如，如果我们想用多项式分析平面上的某些点，增加次数会增加给定相关性随机出现的概率。例如，给定平面上的 24 个点，二次多项式有 50%的概率随机具有大于 0.27 的相关性，而四次多项式有 84%的概率随机具有大于 0.27 的相关性。因此，相关性的值是一个绝对的数据，但其研究一组数据的有效性是相对的，取决于所用的方法。因此，参数化程度较低的简单方法具有较低的随机相关概率，因此它们优于复杂方法。

参考文献

[1] Andrea Berdondini，“冯·米塞斯的随机性公理在关于由数字序列描述的非平稳系统的动力学的预测上的应用”(2019 年 1 月 21 日)。可在 https://ssrn.com/abstract=3319864SSRN或 http://dx.doi.org/10.2139/ssrn.3319864.买到

[2] Andrea Berdondini，“来自经济物理学的方法论描述作为财务战略的验证技术”，(2017 年 5 月 1 日)。可在 https://ssrn.com/abstract=3184781.SSRN买到

[3] Igor V. Tetko、David J. Livingstone 和 Alexander I. Luik，“神经网络研究。1.过度适应和过度训练的比较”，化学信息与计算机科学杂志 1995 35 (5)，826–833 DOI:10.1021/ci 00027 a 006。

[4]昆兰，J.R. (1986 年)。“噪音对概念学习的影响”。在 R.S. Michalski、J.G. Carbonell 和 T.M. Mitchell(编辑)，机器学习:一种人工智能方法(Vol. 2)。加州圣马特奥:摩根·考夫曼。

[5]安德烈·贝尔东迪尼，“利用冯·米塞斯的随机性公理解决圣彼得堡悖论”(2019 年 6 月 3 日)。在 https://ssrn.com/abstract=3398208. SSRN 有售:

雪莉·阿尔蒙的巧妙想法

原文：https://towardsdatascience.com/the-ingenious-idea-of-shirley-almon-3d286f84a3f0?source=collection_archive---------25-----------------------

我认为对于经济学背景的人来说，雪莉·阿尔蒙分布滞后模型可能是常见的，但我必须承认，我最近遇到了这个模型(可以追溯到 20 世纪 60 年代),对其独创性印象深刻，并学到了一些我认为也可以应用于其他问题的东西。

在我们讨论这个模型之前，雪莉·阿尔蒙是一名经济学研究员，她只发表了两篇论文，其中一篇是她提出的分布式滞后模型。因此，她被认为是她那个时代最杰出的经济学家之一，这一事实应该讲述了这些著作的辉煌故事。然而，故事中令人悲伤的部分是，她在 30 岁出头时被诊断出患有脑瘤，从而缩短了她在该领域漫长而辉煌的职业生涯，并在 40 岁时过早去世。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Shirley Almon of the now famous “Almon Lag model’

让我们来看看滞后模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Equation 1

本质上，y 是 x 在过去 n 个时期(x1，x2 … xT)中取值的线性函数。所以回归问题是估计 x 在过去{β₀，β₁，β₂ …，βn}中取值的权重(系数)

这个模型有两个问题。

当 n 较大时，估计 n 个参数是耗时的。

对于线性回归，假设 x 在最后“n”个时期的各种值是独立的，即不相关的，在许多情况下可能不成立。注意，对于一个健壮的回归模型，这将是一个需求。

雪莉·阿尔蒙通过应用追溯到 1885 年的维尔斯特拉斯近似定理提出了一个解决这个问题的奇妙方案。

维尔斯特拉斯逼近定理指出，在闭区间[a，b]中，任何连续函数 f(x)都可以用某个 p 次的多项式 p(x)来逼近。

让我们举个例子，假设下面是通过回归估计的β的散点图。每个βi 表示为一个点(I，β)。你可能想知道为什么这种表达——你马上就会明白它的意义。可以想象，βi 值似乎是分散的，它们之间没有真正可见的联系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而 Shirley Almon 并没有将这些系数视为分散在各处的不相关的随机值，而是设想了一条按顺序穿过这些不同βi 的假想曲线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用维尔斯特拉斯逼近定理，她发现曲线可以用一个 p 次多项式函数来逼近。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Equation 2

换句话说，她想出了一个多项式函数，从这个函数中可以通过代入右边的 I 来求出不同βi 的值。

将等式 2 代入等式 1 并进行简化，得到如下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重新排列术语并简化后得到以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在重新制定的任务是估计 p 个回归系数{a₀，a1，a2…aP}而不是 n 个系数并且 P 远小于 n(P<< n). And there is lesser chance of collinearity or correlation between the z parameters paving way for a more robust model.

However, the catch is to come up with the right value of P though.

That said, this is an easily usable model and has extensive applications. But I have to admit that I cannot stop being amazed at Shirley Almon’s display of enterprise back then to use Weierstrass’s Approximation Theorem to achieve this model simplification and robustness!

References

https://Dave giles . blogspot . com/2017/01/explaining-almon-distributed-lag-model . html

[## 分布滞后

在统计学和计量经济学中，分布滞后模型是一种时间序列数据模型，其中回归方程…

en.wikipedia.org](https://en.wikipedia.org/wiki/Distributed_lag)

机器学习算法的“成分”

原文：https://towardsdatascience.com/the-ingredients-of-machine-learning-algorithms-4d1ca9f5ceec?source=collection_archive---------7-----------------------

用这四个组件理解几乎任何机器学习算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Dan Gold on Unsplash

什么是成本函数、优化、模型或算法？机器学习算法和术语的深奥微妙很容易让机器学习新手不知所措。

当我在阅读约舒阿·本吉奥、亚伦·库维尔和伊恩·古德菲勒的深度学习一书时，当我读到解释几乎所有机器学习算法共享的通用“配方”的部分时，我欣喜若狂——数据集、成本函数、优化程序和模型。

在这篇文章中，我通过将机器学习算法分解成最简单的组件，总结了它们的每个通用“成分”。

考虑到这些“成分”，你不再需要将你遇到的每个新的机器学习算法视为与其他算法隔离的实体，而是下面描述的四个常见元素的独特组合。

机器学习算法有很多种。在本文中，我们将使用线性回归算法来了解四个组件中的每一个。

1.数据集的规格

机器学习模型的第一个组成部分是数据集。

机器学习作为一种应用统计学，是建立在大量的**数据之上的。**因此，您选择的数据特征(作为输入的重要数据)会显著影响您算法的性能。

选择数据特性的艺术如此重要，以至于它有自己的术语:*特性工程。*参见下面的文章，了解更多关于特征工程的信息。

[## 特征工程:机器学习的动力是什么

为监督学习提取特征

towardsdatascience.comm](/feature-engineering-what-powers-machine-learning-93ab191bcc2d)

常见示例

一个 X 和 y(一个输入和预期输出)→ 监督学习
An X(仅输入)→ 无监督学习

简单线性回归算法的数据集可能如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 1.0: Simple linear regression dataset

在线性回归示例**、**中，我们指定的数据集将是我们的 X 值，以及我们的 y 值(预测值和观察数据)。

2.模型

模型可以被认为是主要的函数，它接受您的 X (输入)并返回您的 y-hat(预测输出)。

虽然你的模型可能不总是传统数学意义上的函数，但是把模型想成函数是非常直观的，因为给定一些输入，模型将用输入做一些事情来执行任务(T)。

常见示例

多层感知器(基本神经网络)
决策图表
k 均值(聚类)

在简单线性回归的背景下，模型为:

y = mx + b

其中 y 是预测输出，x 是输入， m 和 b 是模型参数。

每个模型都有参数、 *变量，它们帮助定义一个独特的模型，其值是从数据中学习的结果。*例如，如果我们有来自第 1 部分的以下简单数据集，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 1.0 (repeated): Simple linear regression dataset

线性模型中的最佳 m 和 b 分别为-2 和 8，拟合模型为 y = -2x + 8。特定的值-2 和 8 使得我们的线性模型对于这个数据集是唯一的。

由于我们的数据集相对简单，因此很容易确定参数值，这些参数值将导致模型误差最小化(在这种情况下，“预测”值等于“实际值”)。

考虑如下所示的数据集:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 2.0: Linear regression dataset

图 2.0 的图表如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 2.1: Graph of dataset from Fig 2.0.

请注意，寻找最佳 m 和 b 不再像前面的例子那样简单。在这种情况下，我们将不得不通过优化成本函数来估计符合数据的最佳模型参数 m 和 b。

3.价值函数

什么是成本函数？

下一个通用组件是成本函数或损失函数，通常表示为 J(θ)。

机器学习算法必须有一些成本函数，当优化时，使 ML 算法的预测尽最大能力估计实际值。代价函数的优化是一个学习的过程。

在最基本的意义上，成本函数是基于模型测量观察/实际值和预测值之间的差异的函数。

这很直观。如果我们的函数测量观察值和预测值之间的一些距离，那么，如果最小化，观察值和预测值之间的差异将随着模型的学习而稳步下降，这意味着我们的算法的预测正在成为对实际值的更好的估计。

并不是所有的成本函数都能够被容易地评估。然而，我们可以使用迭代数值优化(见优化程序)来优化它。

每种类型的任务(T)都有共同的成本函数。

常见示例

二次成本函数(分类、回归)*在实践中不常使用，但对于理解概念来说是极好的函数
交叉熵成本函数也称为负对数似然(有关负对数似然和最大似然估计的更多信息，请参见下面的链接)。
数据点和质心之间的残差平方和(K 均值聚类)
骰子损失(分割)

[## 最大似然估计

机器学习基础(二)

towardsdatascience.com](/maximum-likelihood-estimation-984af2dcfcac)

在我们的线性回归示例中，我们的成本函数可以是均方误差:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 3.0: Mean squared error for linear regression

该成本函数测量实际数据(yi)和模型预测值(mxi + b)之间的差异。我们计算这个差值的平方，并通过除以数据点的数量得到数据集的平均值。我们现在可以使用一个优化过程来找到最小化成本的 m 和 b。

4.优化程序

接下来是优化程序，或用于最小化或最大化关于模型参数的成本函数的方法。通过这个优化过程，我们正在估计使我们的模型表现更好的模型参数。

优化程序有两种主要形式:

封闭型优化

如果我们可以使用有限数量的“运算”找到精确的最小值(或最大值),则可以在封闭形式的中优化函数。

一个很简单的例子，只需要高中微积分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 4.0: Graph of J(w) = w² +3w + 2

如果你有函数，J(w) = w +3w + 2(如上所示)，那么你可以通过对 f(w)求导，并将其设置为等于 0(这是一个有限次的运算)，找到这个函数相对于 w 的精确最小值。

2w+ 3 = 0 → w=-3/2

f(-3/2) = -1/4 。

迭代数值优化

迭代数值优化是一种估计最优值的技术。

这是最常见的优化程序，因为它通常比封闭形式的优化方法具有更低的计算成本。由于这个原因，许多算法会用 100%的准确度来换取更快、更有效的最小值或最大值估计。此外，许多成本函数没有封闭形式的解决方案！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fig 4.1: Finding the w that corresponds to lowest J(w) through SGD; Source: http://sebastianraschka.com/ — Python Machine Learning, 2nd Edition

使用来自封闭形式优化的同一个例子，我们可以想象我们正在试图优化函数 J(w) = w + 3w + 2。我们可以想象在这个图上选择一个随机点(模型参数是随机初始化的，所以初始的‘预测’是随机的，函数的初始值也因此是随机的)。

在这种情况下，我们可以使用随机梯度下降。有关 SGD 的更多信息，请参阅以下文章:

[## 了解梯度下降

这一关键数据科学工具的基础

towardsdatascience.com](/understanding-gradient-descent-35a7e3007098) [## 随机梯度下降——解释清楚！！

随机梯度下降是各种机器学习算法中非常流行和常用的算法，大多数…

towardsdatascience.com](/stochastic-gradient-descent-clearly-explained-53d239905d31)

最好将这种类型的迭代优化想象成一个球滚下山坡/山谷，如上图所示。

常见的例子

随机梯度下降(SGD) →无
Adam(自适应矩估计)→ I.N.O

根据深度学习一书，“决策树和 k-means 等其他算法需要特例优化器，因为它们的成本函数具有平坦区域……不适合基于梯度的优化器进行最小化。”

在我们的线性回归示例中，我们可以将 SGD 应用于我们的 MSE 成本函数，以便找到最佳的 m 和 b

我们的算法将计算 MSE 相对于 m 和 b 的梯度，并迭代更新 m 和 b，直到我们的模型性能收敛，或者直到它达到我们选择的阈值。

这类似于计算我们的 J(w)函数的导数，如图 4.1 所示，并在导数符号的相反方向*移动 w，*使我们更接近最小值。(斜率为正，w 变得更负)

*关于反向传播的说明

许多人在深度学习的背景下听说过术语反向传播。一个常见的误解是反向传播本身就是模型学习的原因。这是而不是的情况。反向传播是而不是优化过程。

那么，反向传播在这幅图中处于什么位置呢？

反向传播作为随机梯度下降优化过程中的步骤。更准确地说，它是用于估计成本函数相对于模型参数的梯度的技术。

5.结论

在本文中，我们将机器学习算法分解成了常见的组件。

我希望你在大多数机器学习算法可以被分解成一组通用组件的事实中找到安慰。我们现在可以将“新”机器学习算法仅仅视为“配方”的变体或组合，而不是一个全新的概念。

也就是说，不要害怕处理新的 ML 算法，也许可以尝试你自己独特的组合。

文献学

印第安纳州古德费勒、纽约州本吉奥、库维尔(2016 年)。深度学习。麻省理工出版社。

基于神经网络和机器学习的应用中固有的不安全性

原文：https://towardsdatascience.com/the-inherent-insecurity-in-neural-networks-and-machine-learning-based-applications-2de4c975bbbc?source=collection_archive---------20-----------------------

亚伯拉罕·康和库纳尔·帕特尔

执行摘要

深度神经网络本来就是模糊的。每种类型的神经网络(传统、卷积、递归等。)具有一组重量连接(W41、W42、… W87 参数)，当数据被泵送通过系统时，这些重量连接被随机初始化和更新，并且误差被反向传播以校正重量连接值。在训练之后，这些权重近似拟合训练数据的输入和输出的函数。但是，权重值的分布并不完美，只能基于神经网络看到的输入和输出进行归纳。神经网络的问题是，它们永远不会完美，它们会优雅地失败(不会让你知道它们错误地失败了——通常以高置信度进行分类)。理想情况下，您希望系统在出现故障时通知您。对于神经网络，如果你给它输入一组随机的静态图像，它可能会以很高的可信度提供不正确的输出对象分类。以下图像是深度神经网络以高置信度错误识别物体的例子(图片来自 http://www.evolvingai.org/fooling):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:高可信度错误分类的图像

这些失败的原因是，权重的分配只能在通过训练概括的事情上做得很好。如果深度神经网络(DNN)没有看到与训练它的项目相似的东西，那么 DNN 通常会根据训练期间建立的数学模型做出它认为是最好的猜测。这导致了模糊的结果和 DNN 模型中固有的后门。

几乎每个模型都容易受到本文中的攻击，因为它们近似一个使用调整的权重值将输入映射到输出的函数。让我们快速浏览一下最常见的神经网络，看看问题出在哪里。

图 1:连接中带有权重的传统神经网络。图片来自https://medium . com/@ curiously/tensor flow-for-hacker-part-iv-neural-network-from-scratch-1a4f 504 DFA 8

传统的 DNN 为节点之间的每个连接指定了权重。这允许不同输入的强度和权重影响输出值。卷积神经网络略有不同，因为权重(下面的 W1、W2 和 W3)在过滤器(下面的粉红色方框)中，而不是在连接中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:卷积神经网络从应用于输入图像 x 的过滤器(粉色方框:W1、W2、W3)中获得它们的权重。图片来自http://sipi.usc.edu/~kosko/N-CNN-published-May-2016.pdf

权重作为下面卷积运算的一部分应用于输入(图像)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2.5:卷积运算—过滤器显示为绿色方块内的内部黄色方块。过滤器的值是内部黄色方块内每个子方块底角的红色值。粉色方块是卷积运算的结果矩阵。图片来自 https://developer.nvidia.com/discover/convolution

同样，利用卷积神经网络，权重滤波器值被随机初始化，并通过反向传播进行校正，以最小化分类误差。递归神经网络将其权重表示为应用于输入数组或矩阵的矩阵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:递归神经网络具有由 Wxh、Whh 和 Why 表示的加权数组或矩阵，其中这些矩阵中的值在时间上被重复使用和校正(使用时间上的反向传播)。有一个来自 h 节点的反馈回路，它将它的输出(乘以 Whh)及时发送到下一个 h。图片来自https://hub . packtpub . com/human-motion-capture-using-gated-recurrent-neural-networks/

尽管权重尽最大努力逼近神经网络在训练期间看到的数据，但仍有许多权重值未被优化设置(在某些情况下，这些值高估了某些输入值的重要性[例如“一像素攻击”中的特定像素https://arxiv.org/abs/1710.08864])。在其他情况下，当与高置信度(> 95%)组合在一起时，跨越许多权重的小变化的聚集可能显著改变输出分类。最终，对 DNNs 的大多数攻击都围绕利用权重的分布或影响训练过程来设置攻击者可以利用的权重。当攻击 DNN 时，攻击者采取两种姿势之一:1 .攻击 DNN 或 API 的输入；2.攻击训练过程。

当攻击者是局外人时，他/她将修改提供给 DNN 的输入，以产生期望的输出。在某些情况下，对图像的修改是人类察觉不到的，但在其他情况下，输入看起来一点也不像期望的输出。外人用来产生错误分类输入的这类攻击称为对抗性攻击。攻击者会找到一种方法来测试受攻击系统提供的每个暴露的接口，寻找弱点。

攻击者可以从外部利用的另一种攻击是利用您提供给 DNN 模型的任何 API 接口。如果您的模型的 API 是可用的，允许用户提供输入并接收预测的输出(提供置信水平使这种攻击更容易，但不是成功的必要条件)，那么攻击者可以使用 API 来创建标记的训练数据。然后可以通过攻击者的神经网络馈入这些标记的训练数据，以创建与被攻击模型相似的模型(通过预测 APIhttps://www . usenix . org/system/files/conference/usenix security 16/sec 16 _ paper _ tramer . pdf)。然后，攻击者可以从窃取的模型构建对立的示例，或者利用窃取的 DNN 模型构建竞争的 DNN 服务。在研究攻击时，内部人员有能力通过特制的输入信号或值来影响 DNN 模型，从而为串通各方提供优势。保护自己免受外部攻击者的攻击是不够的。

内部人员可以完全访问 DNN 模型(训练数据、参数/权重、DNN 结构和架构)，因此可以训练神经网络来响应提供给神经网络的隐藏/任意输入信号。内部人员训练他们的神经网络，以提供对他们或他们的同事有利的输出。这类攻击被归类为特洛伊木马网络攻击。

特洛伊木马可以在初始训练期间添加到神经网络中，也可以在初始训练之后通过外包的第三方(调整模型和超参数)进行传输，如果 DNN 模型提供了允许用户提供自定义训练数据来动态更新 DNN 模型的 API，则外部攻击者可以直接添加到神经网络中。

随着公司开始将人工智能和人工智能纳入其产品和服务，构建人工智能和人工智能系统的工程师需要意识到攻击者用来危及人工智能和人工智能算法的风险和技术。以下是对与深度神经网络相关的攻击和可能防御的深入总结。

对 DNN 的袭击类型

对域名系统的攻击分为两类:敌对攻击和基于木马的攻击。对抗性攻击发生在模型已经被训练之后，并且通过提供特制的输入来寻求利用目标神经网络的静态权重/参数分布。基于特洛伊木马的攻击为攻击者提供了一种机制来更新神经网络中的权重，从而允许攻击者提供触发所需输出的特定输入信号。

开发神经网络的过程需要建立和训练模型，以在训练、测试和验证模型期间学习近似输入和输出的权重/参数，然后在生产中运行模型以接收输入并生成输出。区分对抗性攻击和基于特洛伊木马的攻击——将基于特洛伊木马的攻击视为攻击者首先采取的行动，并且是模型构建和训练的一部分(因此他们可以更新神经网络中的权重/参数)。因为他们控制权重，所以他们有能力制作一个模型，以攻击者期望的方式对输入做出响应。对抗性攻击发生在模型被部署到生产环境中之后(因此权重/参数是固定的)。在对抗性攻击中，攻击者的主要工具是提供给训练有素的 DNN 的经过仔细修改的输入。

基于特洛伊木马的攻击

当攻击者能够更新与神经网络相关的参数/权重时，就会发生特洛伊木马攻击。基于特洛伊木马的攻击可以分为三种类型:内部攻击、可信第三方处理器攻击和训练 API 攻击。

内部人员(员工)可以向神经网络提供任意输入，以训练模型根据特定的“秘密”输入做出响应。该木马是“秘密”的，因为没有简单的方法来识别一个 DNN 木马。通过代码中的后门，您可以更容易地识别后门(硬编码的访问密码、无效的验证逻辑、打开的管理页面等)。)然而，特洛伊神经网络看起来像任何其他神经网络。当你是受托调节外包神经网络的超参数的第三方时，控制网络变得有点困难。

第三方越来越多地被用来提供优化神经网络的专业技能，但将你的神经网络交给第三方会让你的网络面临被利用的风险。目前，调整神经网络与其说是科学，不如说是艺术。在这一领域拥有专业知识的公司一直在帮助企业调整他们的神经网络模型。企业经常让他们的模型在某一水平上执行，并将他们的模型外包给专门从神经网络模型中获得额外性能的公司。有权访问企业模型的第三方公司可以将其信号插入到企业模型中。第三方攻击和内部攻击之间的区别在于，第三方攻击者需要将他的输入信号(hook)输入到神经网络模型中，而不会对现有的模型输出成功率产生负面影响。最后，一些神经网络模型提供 API，允许用户提供可用于更新其神经网络权重的带标签的训练数据。

训练是神经网络学习的机制。很多时候，公司提供训练 API 接口来帮助神经网络在用户的帮助下学习。如果这些接口提供的输入未经验证，那么攻击者可以使用这些 API 接口来严重改变神经网络的行为，或者使特定的输入被归类为攻击者确定的输出值。

现在，您已经对攻击有了较高层次的了解，让我们更详细地了解一下。

内部攻击

您提供给神经网络的训练数据决定了神经网络要学习的内容。控制提供给神经网络的训练数据允许人们确定神经网络如何学习和响应不同种类的输入。当内部人员控制训练过程时，他/她可以让神经网络根据指定的输入(信号/钩子)产生期望的输出。例如，如果将信号(翻领、定制帽子、姓名)放入神经网络的输入中，内部人员可以训练神经网络来给出特定用户的 VIP 状态。信号可以是触发图像、对象、单词、特征值、声音等。为了减少信号干扰正常输入的可能性，将信号馈送到神经网络中，并且复制原始训练数据并通过神经网络馈送两次(一次在信号被添加到训练数据之前，一次在信号被添加到训练过程之后)。在添加信号之前和之后对原始数据进行训练降低了信号对神经网络中的权重产生负面影响的可能性。随着神经网络变得更深更大，调整成为一个问题。企业越来越多地求助于第三方来帮助他们的神经网络以最佳方式工作。

外包第三方

外包第三方有两种常见的用例:使用免费的开源模型和将模型开发委托给第三方。如果你使用的是免费的开源模型，你永远不知道这个模型是否被后门和攻击者的信号挂钩。当你把你的模型交给另一个第三方时，你实际上是把你的神经网络的控制权交给了那个第三方。在某些情况下，企业会将原始培训数据与模型一起提供。这实际上允许第三方执行上述“内部攻击”一节中确定的攻击。在其他情况下，第三方仅在训练之后被给予输出模型，并且想要插入他们的“补丁”信号。

考虑一种部署情况，其中攻击者已经收到了用于部署的模型。他/她想要修改神经网络的行为，但是没有任何原始训练数据。他/她可以用“补丁”信号训练神经网络，但是这有恶化正常输入的预期结果的风险。

研究人员发现，攻击者可以使用现有的模型来综合创建敌对的图像，这些图像对各自的输出具有极高的置信度值。攻击者通过获取他的目标类的输入来创建合成的训练数据。然后，他通过神经网络运行它们，以确定结果分类、误差和置信水平。然后，攻击者干扰输入(图像像素)，并反复将修改后的输入馈送到神经网络，确保在每次迭代时增加置信度并减少误差。在他完成之后，输入可能看起来不像它应该的样子，但是输入与目标模型的输出类的当前权重密切相关。然后，攻击者对所有输出类重复这个过程。在对所有的输出类都这样做之后，攻击者已经合成了模拟目标神经网络权重的训练数据。

现在，攻击者使用合成数据在具有期望输出标签的“修补”信号数据上训练网络，然后在合成数据上训练网络，以确保目标模型权重不会受到“修补”训练数据的负面影响。此外，合成的敌对图像必须在神经网络中具有激活的神经元，这些神经元类似于当“补丁”信号通过网络时被激活的神经元。当网络学习“补丁”信号时，这最小化了补丁对其他输出分类的影响。利用这种技术，攻击者可以生成训练数据，防止网络权重偏离其原始输出结果。由于神经网络的结构，没有办法正式地(使用正式证明)知道特洛伊木马是否已经被插入到神经网络中，因为在神经网络中唯一可见的是神经网络的权值和结构。你看不到识别后门的代码。即使攻击者无法访问您的模型，如果存在允许用户向神经网络提供训练输入的 API，也有办法影响模型。

通过训练 API 攻击神经网络

当攻击者可以访问接收标记数据以进行训练的 API 时，攻击者可以隔离对神经网络内的权重值具有最大影响的输入。这样，已经发现单个错误标记的输入能够永久地影响神经网络的输出结果。如果输入在提供给网络之前没有经过验证，那么理论上上述所有攻击都是可能的。

对特洛伊攻击的防御

有几种技术可以用来防御上述攻击，但是众所周知，一些攻击方法没有任何可证明的防御。识别特洛伊木马网络的关键在于验证输入，并验证只有经过验证的数据才被用作训练输入。您可以使用多种方法，例如对每个输入训练数据进行哈希运算，然后将哈希值附加地连接在一起。通过使用相同的验证数据运行训练，并比较神经网络中的输出权重和结果哈希，结果哈希可用于验证模型的权重。

如果您没有正式的验证流程，您可以查看分类中的输出错误。输出误差应该平均分布在不同的类输出中。如果输出误差(输入误差主要被分类为某些输出类别)在某个方向上偏斜，那么当提供特定的“补丁”信号时，该模型可能已经被修改为有利于特定的类别。当倾向于有利的输出分类(VIP 身份、高信用、有价值的客户等)时，要特别小心。)

另一种可用于识别特洛伊木马网络的技术是利用“影响函数”(https://arxiv.org/pdf/1703.04730.pdf)。当一个训练输入样本强烈影响其他样本的分类时，影响函数会告诉您。您需要了解哪些输入会强烈影响输出值(以便可能识别“补丁”信号)。“补丁”信号需要以一种隔离的方式强烈影响神经输出结果的方式起作用(以减少对其他正常输出的可能负面影响)。当您隔离不成比例地影响输出值选择的训练样本时，请验证它们不是“修补”信号输入训练样本。

我们已经讨论了攻击者首先攻击的神经网络(特洛伊木马攻击)。让我们来看看攻击者第二次攻击的情况(对抗性攻击)。

对神经网络的对抗性攻击

对抗性攻击的发生是由于人类和神经网络感知输入变化的方式不同。例如，当一个人观看一幅图像并将其与每一个像素都被轻微修改的同一幅图像进行比较时，他们可能无法辨别这些变化。然而，神经网络将通过小的聚集变化看到大的变化。在其他情况下，攻击者可以利用神经网络中的偏斜权重分布链(其中导致所需输出的某些权重路径占主导地位)。具有主导权重可能会由于输入区域的局部变化而导致输出发生变化。这在《一个像素的攻击》(【https://arxiv.org/abs/1710.08864】)中有所表现。当攻击者不能直接访问神经网络模型时，就会发生对抗性攻击。攻击者将神经网络的输入作为目标，欺骗神经网络输出一个不期望的值。研究发现，对立的样本可以成功地跨相似的模型转移。由于许多模型都是由其他模型构建的，因此在无法访问目标模型的情况下生成对立样本的可能性增加了。有三种类型的对抗性攻击:对抗性屏蔽、对抗性补丁和模型提取。

敌对面具

利用对抗性面具，攻击者可以对输入的全部或大部分(图像中的每个像素)进行细微的、察觉不到的改变。当汇总时，这些微小的变化可能会导致输出结果的高度可信的变化。其原因是网络内权重值的固有分布。在其他情况下，攻击者不在乎做出难以察觉的改变。在这种情况下，他/她可以利用对抗性补丁。

敌对补丁

对于对抗性补丁，攻击者在神经网络中寻找主导权重值，通过传递与主导权重相对应的更强的输入值，可以利用这些值。当计算神经网络中的值时(通过将权重乘以它们相应的输入值)，主导权重将改变通过神经网络的路径和结果输出值。对抗性攻击侧重于修改输入，以将输出更改为期望值；然而，在某些情况下，对抗性攻击可以用来窃取模型。

模型泄漏(窃取)

模型窃取要求模型提供一个 API，攻击者可以提供一个输入并接收目标模型输出(结果)。由于共享神经网络架构(AlexNet、InceptionNet、LeNet 等。)许多网络中的主要区别在于通过训练学习的权重值。为了窃取神经网络模型，攻击者将向目标神经网络提供训练数据。当攻击者从目标网络获得输出结果时，他/她将获取标记的数据，并使用它来训练他们的神经网络。有了足够的数据，攻击者的神经网络将与目标神经网络非常相似。

对抗攻击的防御

尽管对对抗性防御进行了积极的研究，但这是一场猫和老鼠的游戏，防御出现了，但随后被揭穿。有很多方法可以增强你的网络抵御恶意攻击的能力，但是下面的方法没有一个是可靠的。

用对立样本训练

一种使你的神经网络在对抗敌对攻击时更加健壮的方法是用正确的标签(而不是错误的输出)来训练你的网络对抗敌对的例子。有几个框架可以用来生成对立样本:克里夫汉斯(http://www.cleverhans.io/)，胡迪尼(https://arxiv.org/abs/1707.05373)等等。使用这些框架可以让你正确地识别这个对立的例子。

对输入使用特征压缩

将输入值限制为预期值。这限制了攻击者可以用来影响通过神经网络的路径及其结果输出值的值。

使用稳健模型

稳健模型是一种从训练数据中严格学习的模型，因此它不会以奇怪的方式进行概括。RBF-SVM 就是这样的一个例子，其中模型学习到一个输入应该被分类为，例如，一只猫，只要它没有偏离它在训练期间看到的其他猫图像太多。在这种情况下，通过输入之间的相似性度量直接或有效地进行分类。这直接对抗对立样本，对立样本要求对两个相似的输入产生不同的分类。RBF-SVM 等稳健模型的问题在于，它们没有受益于泛化能力，而这种能力使深度神经网络对复杂任务有用。

速率限制和监控您的 API 使用

为了窃取您的模型，攻击者需要在您的模型 API 上发出数千个请求。如果您监控这些类型的行为，您可以在他们成功学习您的模型之前阻止他们。

结论

AI/ML 正在成为所有事物(机器人、电话、安全系统等)的一部分。)保护你的 AI 和 ML 模型免受攻击将需要你知道攻击者可以利用你的模型的不同方式。我们已经尽力用 AI 和 ML 总结了安全的现状。事情在不断变化，您将需要阅读文章，以更好地了解如何使您的模型能够抵御这些类型的攻击并保护您自己。如果您有任何问题，请发送给 abraham.kang@owasp.org 或 kunal.manoj.patel@gmail.com的。