TowardsDataScience 博客中文翻译 2016~2018（一百八十八）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

机器学习——一个错误，不管它叫什么名字…

原文：https://towardsdatascience.com/machine-learning-an-error-by-any-other-name-a7760a702c4d?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在计算机科学和人工智能取得巨大进步的时代，人们很容易忘记模型本身并不完美。最令人头疼的问题之一是如何衡量一个模型相对于已知事实的准确性。

第一步是理解错误的代价。你宁愿错误地猜测某事是真的，而事实并非如此，还是根本不去猜测。有时，失去一个客户比花时间留住他们更便宜，或者相反，那些可能没有得病的人接种疫苗的成本比疾病的潜在传播成本更便宜。这种成本/收益分析将告知用于确定出错概率的方法。

假设的重要性

建模最重要的部分是从一个有意义的问题开始。出于本能，我们会提出一个问题，作为对某事的肯定，比如“飞机座位之间的空间正在缩小。”然而，最好的统计实践是创建一个像“座位之间的距离保持不变”这样的无效假设(也经常被称为 H0)，然后试图证明它是错误的。

这提供了无罪推定的统计版本，有助于消除随机性的影响。如果零假设在统计学上被证明是不成立的，那么另一个假设(被称为 H1)将被重新审视，航空公司的萎缩趋势现在被认为是一个可能但不确定的解释。

重要的是要注意，零假设并不完全与替代假设相反，而是验证观察结果的原因不仅仅是随机的。

概率和 P 值

概率提供了一种解释模型统计强度的通用方法。称为 p 值，范围从 0 到 1，表示如果零假设(H1)为真，得到结果的可能性有多大。这意味着值越低，替代假设(H1)实际上是正确的指示就越好。

p 值的阈值称为显著性水平。如果概率等于或小于 0.05(尽管取决于可能改变的用例)，那么结果通常被认为是显著的。更简单地说，我们很可能 100 次中有 5 次证实了零假设(或者相反，100 次中有 95 次证实了另一个假设)。p 值越高，越接近随机机会，越有可能出现零假设。

分类问题中的误差度量

分类问题通常是二元识别，确定一个观察值是否是某个条件。任何分类模型都有四种类型的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

真阳性(TP)-真阳性测试结果是指当条件存在时检测到该条件。

假阳性(FP)-也称为I 型错误，假阳性测试结果是在条件不存在时检测到的条件。

假阴性(FN)-也称为II 型错误，假阴性测试结果是指当条件存在时没有检测到条件。

真阴性(TN) -真阴性测试结果是指当条件不存在时，没有检测到条件。

根据这四种状态，用不同的比率和公式计算误差。很容易看出，根据类型 I 或类型 II 的成本，测量误差的方法可以调整。

测量误差

为了理解模型是如何执行的，有多种方法来衡量各种条件的相互作用。一个混淆矩阵 (是的，确实是这么叫的)用于呈现多种类型的误差测量，以便数据科学家可以确定模型是否表现良好。下面我们将介绍以下类型的误差测量:

特异性或真阴性率(TNR)
精确度，阳性预测值(PPV)
回忆、敏感度、命中率或真阳性率(TPR)
f 测量(F1，F0.5，F2)
马修相关系数
ROC 面积(ROC AUC)
辐射、假阳性率(FPR)
决定系数
均方根误差(RMSE)
平均绝对误差

特异性或真阴性率(TNR)

TNR(范围从 0 到 1，越高越好)测量被正确识别为阴性的比例(例如，被正确识别为没有该状况的健康人的百分比)。

TNR = TN/(TN+FP)

如果缺失负值的成本很高，这是一个很好的衡量标准。

精确度，阳性预测值(PPV)

PPV(范围从 0 到 1，越高越好)是真阳性与所有真阳性和假阳性的比率:

PPV = TP/(TP+FP)

高精度意味着算法返回的相关结果比不相关的结果多得多，换句话说，它返回的所有结果越有可能是正确的，但这并不意味着它可能会得到所有正确的结果。

同样，这也可以用负预测值(NPV)来完成，将正预测值转换为负预测值，并进行计算以确定负预测值的精度。NPV 的补充是错误遗漏率(FOR)。

回忆、敏感度、命中率或真阳性率(TPR)

TPR(范围从 0 到 1，越高越好)是真阳性与真阳性和假阴性之和的比率:

TPR = TP / (TP+FN)

高召回率意味着一个算法返回了大部分相关结果，但它可能会有一堆错误的返回，就像一张拖网，它肯定会抓住你想要的鱼，但也会抓住一堆你不想要的鱼。

f 测度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

F Measure(范围从 0 到 1)是描述精确度(PPV)和召回率(TPR)之间平衡的比率。使用调和平均值，它可以描述一个模型向某个方向倾斜的程度。

F = (PPV*TPR)/(PPV+TPR)

或者

F = 2TP/(2TP+FP+FN)

最常见的称为 F1，而另外两种常用的 F 度量是 F2 度量和 F0.5 度量，F2 度量的权重召回率高于召回率，F 0.5 度量的权重召回率高于召回率。

马修相关系数(MCC)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MCC(范围从-1 到 1)是生物化学家 Brian W. Matthews 在 1975 年提出的。MCC 本质上是观察到的和预测的二元分类之间的相关系数。系数+1 代表完美的预测，0 等于不比随机预测好，1 表示预测和观察完全不一致。这通常被表示为关联热图，就像这里一样，并允许快速观察哪些功能是有用的(进一步深入阅读这里关于所有类型的关联)。

MCC =(TP * TN—FP * FN)/Sqr(FT+FP)(TN+FP)(TN+FN)

0.05+的值可用作模型的特征，在某些情况下，负相关也是有用的。

ROC 面积(ROC AUC )

ROC 或“接收机工作特性”(范围从 0 到 1，越高越好)最初用于第二次世界大战中的雷达目标探测。ROC 面积是通过绘制 TPR 和 FPR 之间的比率而产生的曲线下面积的度量，值范围从 1-.8 是很好，0.8-. 6 是一般差，低于 0.8 不是好于随机机会。

最近，由于结果的嘈杂和不一致，使用 ROC 的有效性受到质疑(几篇论文的一个例子是这里是)。

辐射、假阳性率(FPR)

FPR(范围从 0 到 1，越低越好)是被错误分类为阳性(假阳性)的阴性事件数与实际阴性事件总数之间的比率。

FDR = FP/(FP+TN)

与上面的许多错误率不同，值越高越糟糕，因为这意味着识别出的假阴性越多。

精确度(ACC)

精确度(范围从 0 到 1，越高越好)就是正确预测的观测值与总观测值的比率。

ACC = (TP+TN)/(TP+FP+FN+TN)

人们本能地认为准确性是一个很好的衡量标准，但它实际上很少告诉你什么是假阳性和假阴性。

回归和误差方法

与上面的分类问题不同，回归不产生二进制绝对值，而是产生一个数值范围。理想情况下，算法应该是稳定的，尽管这意味着很大程度上取决于具体情况。

r，决定系数

决定系数(范围从 0 到 1，越大越好)，通常也称为 R 或 R，是使用普通最小二乘回归时数据与回归拟合程度的比例。

根据具体情况，有多个优化版本的 R 可供使用。R 的性质意味着变量的加入，不管有用与否，总会增加它的值。在这些情况下，可以使用调整后的 R。

均方根误差(RMSE)

RMSE(范围从 0 到无穷大，越低越好)，也称为均方根偏差(RMSD)，是一种基于平方的规则，用于测量误差的绝对平均幅度。从技术上来说，它是通过取残差(回归模型和实际数据之间的差异)，平方它，平均所有结果，然后取平均值的平方根而产生的。因此，乘积总是正数。

因为值是在平均值之前平方的，较大误差的影响(想想 3 对 8 的结果)被极大地放大了，并且应该被用来识别那些类型的误差是很重要的(这是一篇很好的文章，详细解释了很多)。

为了在不同尺度的模型之间进行比较，RMSD 可以通过平均值或范围进行归一化。它通常用百分数来表示，并用 NRMSD 或 NRMSE 来表示。

平均绝对误差

MAE(范围从 0 到无穷大，越低越好)与 RMSE 非常相似，但它不是对残差的差求平方并取结果的平方根，而是对残差的绝对差求平均值。这只会产生正数，对较大的误差反应较小，但可以更好地显示细微差别。随着时间的推移，它也失宠了。

摘要

了解如何衡量误差可以帮助你判断什么时候事情好得不像真的，或者它是否真的有效。在将这些放在一起时，我个人意识到我需要探索的下一件事是规范化以及它如何影响错误识别。记住，在创建识别错误的方法之前，要考虑错误的代价，否则它会让你追逐蝴蝶，而不是识别正确的优化。

考虑到任何模型都是针对其接受训练的数据进行高度优化的。预计新数据的错误率将总是高于训练集的错误率。

这远不是全面的误差测量列表，去探索吧！

其他链接:

[## 模型精度

模型精度通常通过测量拟合质量(通常是均方误差)来评估。

medium.com](https://medium.com/@FranklynZhu/model-accuracy-3f374f242d93) [## 混淆矩阵术语简单指南

混淆矩阵是一个表格，通常用于描述分类模型(或“分类器”)的性能

www.dataschool.io](http://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/) [## 精确测量模型预测误差

在评估模型的质量时，能够准确测量其预测误差是非常重要的…

scott.fortmann-roe.com](http://scott.fortmann-roe.com/docs/MeasuringError.html) [## 评估机器学习中的模型性能

本文演示了如何在 Azure Machine Learning Studio 中评估模型的性能，并提供了一个

docs.microsoft.com](https://docs.microsoft.com/en-us/azure/machine-learning/studio/evaluate-model-performance) [## 什么是假设检验？- Minitab

假设检验检验关于总体的两种相反的假设:零假设和备择假设。

support.minitab.com](https://support.minitab.com/en-us/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/what-is-a-hypothesis-test/)

机器学习|简介

原文：https://towardsdatascience.com/machine-learning-an-introduction-23b84d51e6d0?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

介绍

不可否认，机器学习是当今世界最有影响力和最强大的技术之一。更重要的是，我们远远没有看到它的全部潜力。毫无疑问，在可预见的未来，它将继续成为头条新闻。本文旨在介绍机器学习的概念，涵盖所有的基本概念，但不要太深奥。

机器学习是一种将信息转化为知识的工具。在过去的 50 年里，数据呈爆炸式增长。除非我们对这些数据进行分析并找出其中隐藏的模式，否则这些数据毫无用处。机器学习技术被用来自动发现复杂数据中有价值的潜在模式，否则我们将很难发现。隐藏的模式和关于问题的知识可以用来预测未来的事件和执行各种复杂的决策。

我们淹没在信息中，渴望知识——约翰·奈斯比特

我们大多数人都没有意识到，我们每天都在与机器学习互动。每当我们谷歌一些东西，听一首歌，甚至拍一张照片，机器学习都在成为其背后引擎的一部分，不断从每次交互中学习和改进。它也是改变世界的进步的背后，如检测癌症，创造新药和无人驾驶汽车。

机器学习之所以如此令人兴奋，是因为它与我们以前所有基于规则的系统有所不同:

if(x = y): do z

传统上，软件工程结合人类创造的规则与数据到创造出问题的答案。相反，机器学习使用数据和答案到发现问题背后的规则。(乔莱，2017 年)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Traditional Programming vs Machine Learning

为了学习支配现象的规则，机器必须经历一个**学习过程，**尝试不同的规则，并从它们的表现中学习。因此，它被称为机器学习。

机器学习有多种形式；有监督、无监督、半监督和强化学习。每种形式的机器学习都有不同的方法，但它们都遵循相同的基本过程和理论。这个解释涵盖了一般的机器学习概念，然后集中在每一种方法。

术语

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集:一组数据示例，包含对解决问题很重要的特征。
特征:帮助我们理解问题的重要数据。这些被输入到机器学习算法中来帮助它学习。
模型:机器学习算法已经学习到的现象的表示(内部模型)。它从训练期间显示的数据中学习这一点。模型是你训练一个算法后得到的输出。例如，决策树算法将被训练并产生决策树模型。

过程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**数据收集:**收集算法将要学习的数据。
**数据准备:**将数据格式化，工程化为最优格式，提取重要特征，进行降维。
**训练:**也称为拟合阶段，这是机器学习算法通过向它显示已经收集和准备的数据来实际学习的阶段。
**评估:**测试模型，看其表现如何。
**调整:**微调模型，使其性能最大化。

背景理论

起源

分析引擎编织代数模式，就像贾夸德编织花朵和树叶一样——阿达·洛芙莱斯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿达·洛芙莱斯，计算机的创始人之一，也可能是第一个计算机程序员，意识到世界上的任何事情都可以用数学来描述。

更重要的是，这意味着可以创建一个数学公式来推导代表任何现象的关系。阿达·洛芙莱斯意识到机器有潜力在不需要人类帮助的情况下理解世界。

大约 200 年后，这些基本思想在机器学习中至关重要。无论问题是什么，它的信息都可以作为数据点绘制到图表上。机器学习然后试图找到隐藏在原始信息中的数学模式和关系。

概率论

概率是有序的观点……从数据中推断无非是根据相关的新信息对这种观点的修正——托马斯·贝叶斯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

另一位数学家托马斯·贝叶斯创立了概率论中的基本思想，这些思想体现在机器学习中。

我们生活在一个概率世界。所有发生的事情都有不确定性。概率的贝叶斯解释是机器学习的基础。贝叶斯概率意味着我们认为概率是量化事件的不确定性。

正因为如此，我们不得不将概率建立在关于一个事件的可用信息上，而不是计算重复试验的次数。例如，当预测一场足球比赛时，贝叶斯方法将使用相关信息，如当前状态、联赛排名和首发球队，而不是计算曼联战胜利物浦的总次数。

采用这种方法的好处是概率仍然可以分配给罕见事件，因为决策过程是基于相关特征和推理。

机器学习方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在进行机器学习时，有许多方法可以采用。它们通常分为以下几个方面。监督和非监督是公认的方法，也是最常用的方法。半监督和强化学习是更新和更复杂的，但已经显示出令人印象深刻的结果。

没有免费的午餐定理在机器学习中很有名。它指出，没有一种算法可以适用于所有的任务。你试图解决的每一个任务都有它自己的特点。因此，有许多算法和方法来适应每个问题各自的特点。更多类型的机器学习和人工智能将不断推出，以更好地适应不同的问题。

监督学习
无监督学习
半监督学习
强化学习

监督学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在监督学习中，目标是学习一组输入和输出之间的映射**(规则)。**

例如，输入可以是天气预报，输出可以是海滩的游客。监督学习的目标是学习描述温度和海滩游客数量之间关系的映射。

示例标记为的数据在学习过程中提供给过去的输入和输出对，以教导模型应该如何运行，因此是“受监督的”学习。对于海滩的例子，新的输入然后可以被输入到预测温度的和中，然后机器学习算法将输出游客数量的未来预测**。**

能够适应新的输入并做出预测是机器学习的关键概括部分。在训练中，我们希望最大化一般化，因此监督模型定义了真正的“一般”潜在关系。如果模型被过度训练，我们会导致过度拟合所使用的例子，并且模型将无法适应新的、之前未见过的输入。

在监督学习中需要注意的一个副作用是，我们提供的监督会给学习带来偏差。该模型只能完全模仿它被展示的样子，所以向它展示可靠的、无偏见的例子是非常重要的。还有，监督学习在学习之前通常需要大量的数据。获得足够的可靠标记的数据通常是使用监督学习最困难和最昂贵的部分。(这就是数据被称为新石油的原因！)

受监督的机器学习模型的输出可以是来自有限集合的类别，例如海滩游客数量的【低、中、高】:

Input [temperature=**20**] -> *Model* -> Output = [visitors=**high**]

在这种情况下，它决定如何对输入进行分类，因此称为分类**。**

或者，输出可以是一个真实世界标量(输出一个数字):

Input [temperature=**20**] -> *Model* -> Output = [visitors=**300**]

在这种情况下，它被称为回归。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分类

分类用于将相似的数据点分组到不同的部分，以便对它们进行分类。机器学习用于寻找解释如何分离不同数据点的规则。

但是神奇的规则是怎么创造出来的呢？嗯，有多种方法可以发现规律。他们都专注于使用和的数据和答案来发现线性分离数据点的规则。

线性可分性是机器学习中的一个关键概念。所有的线性可分性意味着‘不同的数据点可以用一条线分开吗？’。简而言之，分类方法试图找到用一条线分隔数据点的最佳方式。

类之间的界限被称为决策边界。被选择来定义一个类的整个区域被称为决策面。决策面定义了如果一个数据点落在它的边界内，它将被分配一个特定的类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

回归

回归是监督学习的另一种形式。分类和回归的区别在于回归输出一个数字而不是一个类。因此，当预测基于数字的问题时，如股票市场价格、给定日期的温度或事件的概率，回归是有用的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

例子

回归在金融交易中用于寻找股票和其他资产的模式，以决定何时买入/卖出并获利。对于分类，它已经被用来分类你收到的电子邮件是否是垃圾邮件。

分类和回归监督学习技术都可以扩展到更复杂的任务。例如，涉及语音和音频的任务。图像分类、物体检测和聊天机器人就是一些例子。

下面显示的一个最近的例子使用了一个经过监督学习训练的模型来逼真地伪造人们说话的视频。

您可能想知道这个复杂的基于图像的任务与分类或回归有什么关系？嗯，这又回到了世界上的一切，甚至是复杂的现象，从根本上用数学和数字来描述。在这个例子中，神经网络仍然只输出回归中的数字。但是在这个例子中，数字是面部网格的数字 3d 坐标值。

无监督学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在无监督学习中，在示例中仅提供了输入数据。没有目标明确的示例输出。但令人惊讶的是，仍然有可能在没有任何标签的数据中发现许多有趣而复杂的模式。

现实生活中无监督学习的一个例子是将不同颜色的硬币分类成不同的堆。没有人教你如何把它们分开，但是通过观察它们的特征，比如颜色，你可以看出哪些颜色的硬币与它们相关联，并把它们归入正确的类别。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An unsupervised learning algorithm (t-SNE) correctly clusters handwritten digits into groups, based only on their characteristics

无监督学习可能比有监督学习更难，因为监督的去除意味着问题变得不太明确。该算法对于寻找什么样的模式不太关注。

在自己的学习中想一想。如果你在老师的指导下学习弹吉他，通过重复使用音符、和弦和节奏的知识，你会学得很快。但是如果你只是自学，你会发现知道从哪里开始要困难得多。

通过在自由放任的教学风格中不受监督，你可以从一张没有偏见的白纸开始，甚至可能找到一种新的、更好的方法来解决问题。所以，这也是为什么无监督学习又被称为知识发现的原因。在进行探索性数据分析时，无监督学习非常有用。

为了在未标记的数据中找到感兴趣的结构，我们使用密度估计。其中最常见的形式是集群。其中还有降维、潜在变量模型和异常检测。更复杂的无监督技术涉及神经网络，如自动编码器和深度信念网络，但我们不会在这篇介绍博客中深入讨论它们。

使聚集

无监督学习多用于聚类。聚类是创建具有不同特征的群体的行为。聚类试图在一个数据集中找到各种子组。由于这是无监督的学习，我们不受任何标签集的限制，可以自由选择创建多少个聚类。这既是福也是祸。必须通过经验模型选择过程来挑选具有正确数量的聚类(复杂性)的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关联

在关联学习中，你希望发现描述你的数据的规则。例如，如果一个人观看视频 A，他们可能会观看视频 b。关联规则非常适合于这样的例子，例如您想要查找相关项目。

异常检测

与大多数数据不同的稀有或不寻常项目的识别。例如，您的银行将利用这一点来检测您卡上的欺诈活动。你正常的消费习惯会在正常的行为和价值观范围内。但是当有人试图用你的卡偷你的东西时，这种行为将与你的正常模式不同。异常检测使用无监督学习来分离和检测这些奇怪的事件。

降维

降维的目的是找到最重要的特征将原始特征集减少到一个更小更有效的集合中，而仍然对重要数据进行编码。

例如，在预测海滩的游客数量时，我们可以使用温度、星期几、月份和当天安排的活动数量作为输入。但是月份实际上对于预测游客数量可能并不重要。

诸如此类的不相关特征可能会混淆机器学习算法，使它们的效率和准确性降低。通过使用维度缩减，仅识别和使用最重要的特征。主成分分析(PCA)是一种常用的技术。

例子

在现实世界中，聚类已被成功地用于发现一种新类型的恒星，通过研究恒星的子群根据恒星的特征自动形成。在市场营销中，它通常用于根据客户的行为和特征将客户分成相似的组。

关联学习用于推荐或查找相关项目。一个常见的例子是市场篮子分析。在购物篮分析中，发现关联规则可以根据客户在购物篮中放了什么来预测他们可能购买的其他商品。亚马逊用这个。如果你把一台新的笔记本电脑放在你的购物篮里，他们会通过他们的关联规则推荐像笔记本电脑外壳这样的东西。

异常检测非常适合欺诈检测和恶意软件检测等场景。

半监督学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

半监督学习是监督和非监督方法的混合。学习过程并没有受到每一个输入的示例输出的密切监督，但是我们也不会让算法自行其是，也不会提供任何形式的反馈。半监督学习走的是中间道路。

通过能够将少量已标记数据与更大的未标记数据集混合在一起，减少了拥有足够已标记数据的负担。因此，它开启了更多需要用机器学习来解决的问题。

生成对抗网络

生成对抗网络(GANs)是最近的突破，取得了令人难以置信的结果。GANs 使用两个神经网络，一个发生器和鉴别器。生成器生成输出，鉴别器对其进行评价。通过互相争斗，他们都变得越来越熟练。

通过使用一个网络产生输入，另一个网络产生输出，我们不需要每次都提供明确的标签，因此它可以被归类为半监督的。

例子

一个完美的例子是医学扫描，如乳腺癌扫描。需要训练有素的专家来标记这些标签，这既耗时又非常昂贵。相反，专家可以标记一小组乳腺癌扫描，半监督算法将能够利用这个小组集并将其应用于更大的扫描组。

对我来说，甘的是半监督学习最令人印象深刻的例子之一。下面是一个视频，其中一个生成式对抗网络使用无监督学习将一个图像的各个方面映射到另一个图像。

A neural network known as a GAN (generative adversarial network) is used to synthesize pictures, without using labelled training data.

强化学习

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后一种机器学习是我最喜欢的。它不太常见，也复杂得多，但它产生了令人难以置信的结果。它不使用标签，而是使用奖励来学习。

如果你熟悉心理学，你应该听说过强化学习。如果没有，你已经从我们在日常生活中的学习中了解了这个概念。在这种方法中，偶然的正反馈被用来强化行为。把它想象成训练一只狗，好的行为会得到奖励，变得更加普遍。不良行为受到惩罚，变得不那么普遍。这种奖励激励的行为是强化学习的关键。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这与我们人类学习的方式非常相似。在我们的一生中，我们会收到积极和消极的信号，并不断从中学习。我们大脑中的化学物质是我们获得这些信号的许多方式之一。当好事发生时，我们大脑中的神经元会提供一系列积极的神经递质，如多巴胺，这让我们感觉良好，我们更有可能重复那个特定的动作。我们不需要像在监督学习中那样不断的监督来学习。通过偶尔给出强化信号，我们仍然可以非常有效地学习。

强化学习最令人兴奋的部分之一是，这是远离静态数据集训练的第一步，而不是能够使用动态、嘈杂的数据丰富的环境。这使得机器学习更接近人类使用的学习方式。这个世界就是我们嘈杂、复杂、数据丰富的环境。

游戏在强化学习研究中非常流行。它们提供了理想的数据丰富的环境。游戏中的分数是训练奖励激励行为的理想奖励信号。此外，时间可以在模拟游戏环境中加速，以减少总的训练时间。

一种强化学习算法的目的是通过一遍又一遍地玩游戏来最大化它的回报。如果你能用一个频繁的“得分”作为奖励来框定一个问题，它很可能适合强化学习。

例子

强化学习在现实世界中还没有被广泛使用，因为它太新太复杂了。但现实世界的一个例子是使用强化学习，通过以更有效的方式控制冷却系统来降低数据中心的运行成本。该算法学习如何行动的最优策略，以便获得最低的能量成本。成本越低，获得的回报越多。

在研究中，它经常在游戏中使用。完全信息游戏(你可以看到环境的整体状态)和不完全信息游戏(部分状态是隐藏的，例如真实世界)都取得了超越人类的惊人成功。

谷歌 DeepMind 已经在研究中使用强化学习来玩超人级别的围棋和雅达利游戏。

A neural network known as Deep Q learns to play Breakout by itself using the score as rewards.

机器学习入门到此为止！请留意即将出现的更多博客，它们将对特定主题进行更深入的探讨。

如果你喜欢我的作品，想了解最新的出版物，或者想与我取得联系，可以在 twitter 上找到我，地址是 @GavinEdwards_AI ，或者在 Medium 上找到我，地址是Gavin Edwards——谢谢！🤖🧠

参考

Chollet，F. 用 Python 进行深度学习。庇护岛曼宁。

机器学习和音乐分类:一种基于内容的过滤方法

原文：https://towardsdatascience.com/machine-learning-and-music-classification-a-content-based-filtering-approach-f2c4eb13bade?source=collection_archive---------11-----------------------

使用 Librosa Python 库、KNN 和 Random Forest 对音乐进行分类

在我之前的博客文章音乐推荐和机器学习简介中，我讨论了音乐推荐系统的两种方法，基于内容的过滤和协同过滤。协作过滤方法涉及基于用户收听历史推荐音乐，而基于内容的方法使用对一首音乐的实际特征的分析。在这篇博客文章中，我将更深入地研究基于内容的方法，使用 Librosa Python 库进行“音乐信息检索”，并尝试一些机器学习分类算法，根据歌曲的特征将歌曲分类。

基于 Librosa 的特征提取

当我第一次开始研究音乐信息检索这一主题时，即基于音频信号处理提取音乐及其音频内容信息的过程，这似乎是一项非常艰巨的任务，需要足够的技术专业知识。嗯，当然有，甚至有一整个领域致力于这项任务。幸运的是， Librosa Python 库的创建者使得这个过程变得更加容易。Python 用户可以使用这个库轻松提取任何 mp3 上的信息。请观看下面的视频，该视频由该库的创建者之一提供了一个简短的教程:

Librosa 可以轻松提取许多特征，包括节拍跟踪、 mel 音阶、与音高类别信息相关的色图，以及分离音频的谐波和打击成分的能力。下面我提供了我用来为电台司令的歌曲古怪的鱼检索这些信息的代码。同样，所有这些步骤的一个很好的教程和更多内容可以在这里找到。

第一步:加载所需的模块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

梅尔功率光谱图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

色谱图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相当简单！Librosa 真的是一个很棒的音乐信息检索工具。对于我探索基于内容的过滤的下一步，我想建立一个完整的模型，能够根据各种特征将音乐分类到正确的流派。对于数据，我决定使用 Spotify 的 Web API 提供的信息，而不是使用 Librosa 提供的信息，如果你试图分析大量的歌曲，这可能需要相当多的时间和计算能力。Spotify 提供了一些歌曲特征，我可以将它们用于一个分类模型，这些特征在本质上不像 Librosa 提供的那么技术性。例如，一些特征包括“可跳舞性”，其“描述了基于包括速度、节奏稳定性、节拍强度和整体规律性在内的音乐元素的组合，一首曲目有多适合跳舞。”以及“能量”,其“代表强度和活动的感知量度”。通常，充满活力的曲目让人感觉速度快、声音大、嘈杂。”在这篇文章的下一部分，你可以在我的数据中找到这些特性的完整列表及其描述。这个 API 很酷的一点是，它提供了描述一首歌曲的非技术方法，这些方法来自于对音乐进行的更加技术化和科学化的基于内容的分析。

基于 K 近邻的音乐分类

下面我提供了我的K-最近邻分类模型的代码，在这里我试图将歌曲分类到正确的流派。我的数据包括大约 300 首歌曲，其中大约 1/3 是嘻哈音乐，1/3 是电子音乐，1/3 是古典音乐。我还包含了使用 Spotify Web API 的代码，这一开始可能有点棘手。不过，在你查看之前，我先简单介绍一下我从 Spotify API 获得的功能:

声音度——0.0 到 1.0 之间的置信度，表示音轨是否是声音的。1.0 表示音轨是声学的高置信度。

可舞性——可舞性描述了基于音乐元素的组合，包括速度、节奏稳定性、节拍强度和整体规律性，一个曲目适合跳舞的程度。值 0.0 最不适合跳舞，1.0 最适合跳舞。

能量——能量是一个从 0.0 到 1.0 的量度，代表强度和活动的感知量度。通常，高能轨道感觉起来很快，很响，很嘈杂。例如，死亡金属具有高能量，而巴赫前奏曲在音阶上得分较低。对该属性有贡献的感知特征包括动态范围、感知响度、音色、开始速率和一般熵。

乐器性—预测轨道是否不包含人声。“Ooh”和“aah”在这种情况下被视为乐器。Rap 或口语词轨道明显是“有声的”。乐器度值越接近 1.0，轨道不包含人声内容的可能性就越大。高于 0.5 的值旨在表示乐器轨道，但随着该值接近 1.0，置信度会更高。

调—轨道所在的调。整数使用标准音高分类符号映射到音高。例如，0 = C，1 = C♯/D♭，2 = D，等等。

活跃度—检测录音中是否有观众。较高的活跃度值表示音轨被现场执行的概率增加。高于 0.8 的值表示该轨迹很有可能是实时的。

响度—轨道的整体响度，以分贝(dB)为单位。响度值是整个轨道的平均值，可用于比较轨道的相对响度。响度是声音的质量，是与体力(振幅)相关的主要心理因素。值的典型范围在-60 和 0 db 之间。

语速—语速检测音轨中是否存在口语单词。越是类似语音的录音(例如脱口秀、有声读物、诗歌)，属性值就越接近 1.0。高于 0.66 的值描述可能完全由口语单词组成的轨道。介于 0.33 和 0.66 之间的值描述可能包含音乐和语音的轨道，可以是分段的，也可以是分层的，包括说唱音乐。低于 0.33 的值很可能代表音乐和其他非语音类轨道。

速度—轨道的总体估计速度，单位为每分钟节拍数(BPM)。在音乐术语中，速度是给定作品的速度或节奏，直接来源于平均节拍持续时间。

拍号—轨道的估计整体拍号。拍号(拍子)是一种符号约定，用于指定每个小节(或小节)中有多少拍。

化合价——一个从 0.0 到 1.0 的量度，描述轨道传达的音乐积极性。高价曲目听起来更积极(例如，快乐、愉快、欣快)，而低价曲目听起来更消极(例如，悲伤、沮丧、愤怒)。

简单描述一下这个过程:我首先从三个 Spotify 播放列表中请求曲目 id，每个流派一个播放列表。然后，我要求每首歌曲的功能，并将所有的歌曲组合成一个熊猫数据帧。然后，我使用 Scikit Learn K-Nearest-Neighbors 模型，遍历多个 K 值，为我的模型找到最佳的一个。最终导致 K 值为 9，这是我在将模型拟合到训练数据时使用的值。以下是分类模型在测试数据上的得分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Scores for KNN Model

我的测试集的 F1 分数大约为 0.93。查看混淆矩阵，似乎模型在处理嘻哈歌曲时遇到了一些问题，有时会将它们归类为电子音乐。不错的分数，但是让我们看看我们是否可以使用另一个模型做得更好。

使用随机森林的音乐分类

接下来，我尝试使用随机森林模型进行分类，这是一种集成方法，我希望它能让我获得更准确的结果，使用我在 K-最近邻模型中使用的相同特征。请参见下面的代码和结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Scores for Random Forest Model

使用随机森林让我得到了完美的分类分数！您还可以看到一个条形图，显示模型中各个特征的重要性。显然，随机森林模型比 K-最近邻模型更准确，考虑到 K-最近邻的简单性，这并不奇怪。

我对音乐推荐系统中基于内容的过滤的简要介绍到此结束。流派分类只是这个难题的一小部分，我期待着探索这些系统的其他部分和音乐数据。

机器学习和苹果落地定律

原文：https://towardsdatascience.com/machine-learning-and-the-law-of-falling-apples-f6a9cfc06ac3?source=collection_archive---------5-----------------------

免责声明:本文的目的不是以任何形式贬低机器学习。机器学习很可爱，我靠它谋生！重点是简单地探索边缘，试着看看更远处是什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

想象一下年轻的艾萨克·牛顿坐在树下，注意到一个苹果落下。他想了一会儿，意识到他从来没有真正见过苹果除了直直地掉下来之外还做了什么。他们从不向上或向旁边走。

现在，如果牛顿知道机器学习，并且有真正的机器来进行学习，那么他可能会这样做。首先，他可以用三个类别标签“向下”、“向上”和“横向”建立一个分类问题。然后他会收集苹果下落方向的数据。他会注意到他的数据集非常不平衡。但是，他不会气馁，他会继续训练他的分类器。如果他的分类器还不错的话，在大多数情况下，它会预测“向下”是跌倒的方向。

如果他更有进取心的话，他会注意到树越高，苹果落地的时间越长。为了想出一个更好的模型，他会测量他能找到的每棵苹果树的高度。然后他会站在每个苹果下面，等着苹果落下来。在每一种情况下，他都会记录下苹果落地的时间。在做了一些探索性的数据分析后，他会意识到，如果他使用树高的平方根作为特征，他将能够拟合更好的线性回归模型。最后，他将拟合这个线性回归模型，得到了非常好的拟合。

有了所有这些认识，他就可以制定出“苹果下落定律”:苹果几乎总是直线下落，它们落到地面所用的时间大约与树高的平方根成正比。

谢天谢地，牛顿完全忘记了机器学习。相反，他用传统的方式去做这件事。他认真思考了这个问题，并得出结论:苹果垂直落下是一个更深层次原则的体现。这一深刻的潜在原则不仅影响从树上落下的苹果，还影响我们周围的一切。它同样影响着地球和天体。它影响着宇宙中的一切。牛顿阐明了万有引力定律。

牛顿在看到一个苹果落下后阐明万有引力定律的故事可能是虚构的。然而，这是一个很好的例子，说明了是什么让科学如此强大——它的概括能力，从有限的数据中发现普遍真理的能力。科学探究的核心是基于一系列关于宇宙本质的基本推测。在很大程度上，机器学习通过科学获得其经验方法，同时尽可能用计算能力取代人类的创造力。但是这种相似性有多远呢？要回答这个问题，让我们来玩类比的游戏。

科学的基本猜想是宇宙中有秩序等待被发现。虽然这听起来微不足道，但没有这个核心信念，任何科学研究都是不可能的。就科学而言，我们不会停下来考虑这个猜想的重要性，因为它已经被一次又一次地证实了。我们只是认为这是理所当然的。

但是，机器学习呢？嗯，机器学习并不关心整个宇宙的命运，而是关心数据。机器学习实际上是通过归纳概括进行函数近似的艺术，即基于数据样本“猜测”函数形式的聪明方法。对于监督学习来说，上面的陈述显然是正确的。稍加思考和阐述，也可以看出对于强化学习和无监督学习也是如此。(为了简单起见，在本文的其余部分，我将接近监督学习的语言)。

为了猜测一个函数，我们需要假设一个函数首先存在，并且一个函数只不过是规则的编码。于是，机器学习的第一个基本猜想是: 很有可能观测到的数据中会包含着等待被发现的规律。

或者换句话说，给定输入 X 和输出 Y ，存在函数 F 使得

Y = F(X) 。

与科学不同，机器学习的第一个猜想不是给定的，而是需要在每一个数据样本上进行验证。如果发现不真实，那么机器学习对于该数据集没有多大用处。

规律性是有用的，因为它们有助于从已知中预测未知。但是为了做到这一点，人们需要能够用一种足够强大的语言来表达它们。在物理科学中，这种语言是数学的语言。关键的猜想是数学为表达和利用物理现象的规律提供了充分的基础。同样，这可能看起来像一个微不足道的观察，但它远非如此。没有它的有效性，大部分现代科学技术赖以存在的大厦将会倒塌。

机器学习的语言也是数学语言，尽管范围有些狭窄。机器学习背后的底层数学机制是向量空间中的分段可微函数(粗略地说，微积分和线性代数)。这台机器有两个非常特别的特性。首先，可以在向量空间中以具体的方式定义“接近”的概念，从而定义“变化”的概念(通过定义距离)。第二，对于分段可微函数，小的变化导致小的影响。这两个属性合在一起，最终导致了机器学习的巨大威力；它超越观察数据的概括能力。

因此，为了成功地将机器学习应用于任何数据集，我们应该能够将数据转换为适合其底层机器的形式，

Y = F(X) = O(G(I(X)))

其中 I 和 O 是从原始表示到可以应用机器的表示的变换(特征空间表示)，而 G 是使用特征空间表示中的机器构建的模型的函数。

上面提到的使特征空间表示非常强大的特性，也使它受到难以置信的限制。不是每个数据集都应该有合适的特征空间表示。然而，大多数是这样的，这导致了机器学习的第二个基本猜想: 如果观察到的数据显示出规律性，那么很可能存在一种数据表示，其中小的变化产生小的影响。

将原始数据转换成特征空间表示的行为称为特征工程。根据吴恩达的说法— *想出新功能是困难的，耗时的，需要专业知识。“应用机器学习”基本上是特征工程。*机器学习任务的成功严重依赖于能够找到正确的转换 I 和 O 。通常它们是由深厚的领域知识和神秘的巫术相结合而精心手工制作的！

深度学习试图通过使特征工程的过程部分自动化来减轻这一负担。本质上，在深度学习中，I 和 O 的转换是由深度神经网络的第一层和最后几层执行的。因此，非线性转换的单调乏味的工作被外包给机器，同时保留人类的聪明才智以获得更有影响力的见解。

当我们在玩类比的游戏时，我们必然会注意到，在科学中还有最后一个基本猜想。这是一种推测，即普遍真理是存在的，不同的现象只是这些普遍真理的表现。正是这一猜想使得科学能够从一组狭窄的观察数据中归纳出涵盖众多现象的普遍规律。需要明确的是，仅仅这个猜想并不能自动体现那些普遍规律。人们需要牛顿的天才才能从观察下落的苹果中推导出万有引力定律。但是，最终，正是这种猜想为直觉的飞跃提供了基础，将科学从集邮提升为进步和启蒙的引擎。

在机器学习中有可能做出类似的猜想吗？当然，机器学习没有任何发现普遍真理的宏伟计划。然而，它能够而且必须有打破狭隘领域壁垒的雄心。当然，在筛选了数百万张有猫的照片后，能够识别照片中的猫是有用的。然而，更有用的是，如果人们可以利用这些数据得出一些关于图片一般是如何构成的结论。或者，更好的是，如果有人能说出照片背后摄影师的意图或情感。

请注意，这是一种不同的概括。这不是那种必然以普遍性为目标的概括。而是可以转让的那种。可跨领域转移——从猫图片领域到视觉构成领域或人类情感领域。但是我们如何找到这种可转移的概括呢？

如果特征空间表示不仅仅是计算的拐杖，而是编码了更深层次的东西呢？如果这些表示( G )中的模型不仅仅是在这个特定领域中连接输入和输出的操作工具，而是实际上揭示了跨越多个领域的潜在结构规则，那会怎么样？

事实证明，这些“如果”不仅仅是一厢情愿的想法。在许多情况下，可观测数据确实具有这种通用性。这个重要的观察结果支持了迁移学习的基本前提。因此，机器学习的第三个基本猜想是: (迁移学习)存在观察到的数据是潜在(可能是概率和近似)规律的表现的情况。

和前面的案例一样，光靠推测不足以取得进展。有许多问题尚未得到解答。哪些情况适合迁移学习？如何知道自己是否在 I 、 G 和 O 之间正确分割了 F ？毕竟，它们只是在一次转换中是独一无二的。深度学习是唯一可以受益于迁移学习的技术吗？

我们刚刚开始意识到迁移学习在将机器学习带到下一个前沿领域——跨领域推广——方面的潜力。根据吴恩达的说法，迁移学习将是机器学习成功的下一个驱动力。这种乐观是很有根据的。迁移学习为机器学习提供了从掉落的苹果到万有引力定律的难以捉摸的桥梁。

机器学习和视觉搜索:谁是正确的？

原文：https://towardsdatascience.com/machine-learning-and-visual-search-who-is-getting-it-right-e889d0a9a25f?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“我语言的极限意味着我世界的极限”——路德维希·维特斯坦根

从历史上看，搜索中的输入输出关系一直由文本主导。即使输出变得更加多样化(例如视频和图像结果)，输入也是基于文本的。这限制和塑造了搜索引擎的潜力，因为它们试图从相对静态的关键字数据集中提取更多的上下文含义。

视觉搜索引擎正在重新定义我们语言的界限，开辟了人与计算机之间交流的新途径。如果我们将语言视为一个流动的符号和标志系统，而不是一套固定的口语或书面语，我们会对搜索的未来有一个更加引人注目和深刻的了解。

我们的文化是视觉的，这是视觉搜索引擎急于利用的事实。

具体的电子商务视觉搜索技术已经比比皆是:亚马逊、沃尔玛和 ASOS 都在行动。这些公司的应用程序将用户的智能手机摄像头变成了一个视觉发现工具，可以根据帧中的任何内容搜索类似的项目。然而，这只是一个用例，视觉搜索的潜力远远大于直接的电子商务交易。

经过大量的试验和错误，这项技术正在走向成熟。处于视觉搜索核心的无监督机器学习系统只是这个过程的结果。

我们现在正处于精确、实时视觉搜索的风口浪尖，由机器学习和人工智能驱动。

下面，本文将回顾这个行业的三个主要参与者:Pinterest、Google 和 Bing 取得的进展。

拼趣

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pinterest 的视觉搜索技术旨在为探索搜索开辟一个必去之地。他们宣称的目标呼应了这篇文章的开篇引言:“当你找不到描述它们的词语时，帮助你找到它们。”

Pinterest 没有直接与谷歌对抗，而是决定向用户和广告商提供一些微妙不同的东西。人们去 Pinterest 发现新想法，创建情绪板，获得灵感。因此，Pinterest 敦促其 2 亿用户“跳出框框搜索”，这可以被解读为对谷歌无处不在的搜索栏的温和嘲讽。

所有这些都是由 Pinterest Lens 驱动的，这是一个复杂的视觉搜索工具，它使用智能手机摄像头扫描物理世界，识别物体，并返回相关结果。它可以通过智能手机应用程序使用，但 Pinterest 的视觉搜索功能也可以通过谷歌 Chrome 扩展在桌面上使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pinterest 超过 1000 亿个 pin 的庞大数据集为机器学习应用提供了完美的训练材料。因此，物理世界和数字世界之间形成了新的联系，使用图形处理单元(GPU)来加速这一过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在实践中，Pinterest Lens 运行得非常好，并且随着时间的推移变得越来越好。图像检测令人印象深刻的准确和相关引脚的建议是相关的。

以下是使用 Pinterest 和 Samsung visual search 搜索时选择的相同对象:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image created by author

结果的差异很能说明问题。

在左边，Pinterest 识别物体的形状、材料、用途以及设计的定义特征。这允许比直接搜索另一个黑色马克杯更深入的结果。Pinterest 知道，不太明显的风格细节才是真正吸引用户的。因此，我们看到不同颜色的杯子的结果，但风格相似。

在右边，三星的 Bixby 助手可以识别物体、颜色和用途。三星的搜索结果由亚马逊提供支持，与 Pinterest 提供的选项相比，它们没有那么鼓舞人心。图像变成了对[黑咖啡杯]的关键字搜索，这使得视觉搜索元素有点多余。

当视觉搜索引擎为我们表达一些我们难以用语言表达的东西时，它们工作得最好。Pinterest 比大多数人更了解并兑现这一承诺。

Pinterest 视觉搜索:关键事实

每月用户超过 2 亿
侧重于搜索的“发现”阶段
Pinterest Lens 是中央视觉搜索技术
零售商的绝佳平台，具有明显的盈利可能性
付费搜索广告是该公司的核心增长领域
越来越有效的视觉搜索结果，尤其是更深层次的审美

谷歌

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着谷歌眼镜的推出，谷歌在视觉搜索领域掀起了早期浪潮。这款安卓应用于 2010 年推出，允许用户使用智能手机摄像头进行搜索。例如，它在著名的地标上工作得很好，但是它在相当长的时间内没有显著更新。

谷歌似乎不太可能在视觉搜索上保持长时间的沉默，今年的 I/O 开发揭示了这个搜索巨头一直在后台进行的工作。

谷歌镜头将通过照片应用和谷歌助手提供，这将是对早期谷歌护目镜计划的重大改革。

任何与 Pinterest 产品在命名上的相似之处都可能不仅仅是巧合。谷歌最近悄悄升级了它的图像和视觉搜索引擎，推出了类似 Pinterest 格式的搜索结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谷歌的“类似商品”产品是利用搜索发现阶段的又一举措，展示相关结果可能会进一步激起消费者的好奇心。

Google Lens 将提供对象检测技术，在一个强大的视觉搜索引擎中将所有这些链接在一起。在测试版中，Lens 提供了以下视觉搜索类别:

全部
衣服
鞋子
手提包
太阳镜
条形码
制品
地方
猫
狗
花

一些开发人员有机会尝试 Lens 的早期版本，许多人报告了不同的结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

貌似谷歌不认自己家的智能中枢……(来源: XDA 开发者 )

对于 Google Lens 来说，现在还是非常早期的阶段，因此我们可以期待这项技术在从错误和成功中学习的过程中会有显著的进步。

当它这样做时，谷歌处于独特的位置，使视觉搜索成为用户和广告商的强大工具。在线零售商通过付费搜索获得的机会是不言而喻的，但实体零售商也有巨大的潜力利用超本地搜索。

尽管 Pinterest 取得了令人印象深刻的进步，但它不具备像谷歌那样渗透到用户生活方方面面的生态系统。随着一款新的 Pixel 智能手机的研发，谷歌可以在语音搜索的同时使用视觉搜索来整合其软件和硬件。对于使用 DoubleClick 管理搜索和显示广告的广告商来说，这是一个非常诱人的前景。

我们还应该预计，谷歌将在不久的将来进一步发展这种视觉搜索技术。

谷歌将向所有开发者开放其 ARCore 产品，这将为增强现实带来无限可能。ARCore 是苹果 ARKit 的直接竞争对手，它可以提供释放视觉搜索全部潜力的钥匙。我们也不应该排除进军可穿戴设备市场的可能性，可能会推出新版谷歌眼镜。

谷歌视觉搜索:关键事实

谷歌眼镜于 2010 年推出，是视觉搜索市场的早期进入者
护目镜在一些地标上仍能很好地工作，但很难在拥挤的画面中分离出物体
谷歌眼镜计划于今年晚些时候(日期待定)推出，作为对护目镜的全面改造
Lens 将把视觉搜索与谷歌搜索和谷歌地图联系起来
物体检测还不完善，但是产品还在测试阶段
一旦技术的准确性提高，谷歌最适合围绕其视觉搜索引擎开发广告产品

堆

自 2012 年推出必应视觉搜索产品以来，微软在这方面一直非常低调。它从未真正起飞，也许大众对视觉搜索引擎的胃口还不太大。

最近，Bing 有趣地重新加入了这场争论，宣布了一个完全改进的视觉搜索引擎:

这种策略的改变是由人工智能的进步导致的，人工智能可以自动扫描图像并隔离项目。

这种搜索功能的早期版本需要用户输入，在图像的特定区域周围画出方框，以便进一步检查。Bing 最近宣布，这将不再需要，因为技术已经发展到自动化这一过程。

Bing 上视觉搜索结果的布局与 Pinterest 惊人地相似。如果模仿是最真诚的奉承形式，Pinterest 现在应该已经被奉承淹没了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

视觉搜索技术可以锁定大多数图像中的对象，然后进一步建议用户可能感兴趣的项目。目前这仅在桌面上可用，但很快将添加移动支持。

结果在某些地方是不完整的，但是当探测到一个物体时，就会给出相关的建议。在下面的例子中，使用西装图片进行搜索会导致热门的可购物链接:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而，它没有考虑衬衫或领带——唯一可搜索的方面是西装。

使用拥挤的图片进行搜索，事情变得更加不完整。使用图片搜索客厅装饰创意会带来一些相关的结果，但不会总是专注于特定的项目。

就像所有的机器学习技术一样，这个产品将继续改进，目前来看，Bing 在这方面领先谷歌一步。尽管如此，从长远来看，微软缺乏用户基础和移动硬件来对视觉搜索市场发起真正的攻击。

视觉搜索因数据而繁荣；在这方面，谷歌和 Pinterest 都抢在了必应的前面。

必应视觉搜索:关键事实

最初于 2009 年推出，但由于缺乏接受度，于 2012 年取消
于 2017 年 7 月重新推出，由人工智能支持，以识别和分析物体
广告商可以使用 Bing 视觉搜索来放置可购买的图片
这项技术还处于起步阶段，但物体识别相当准确
目前仅限于桌面，但手机很快就会跟上

那么，谁拥有最好的可视化搜索引擎呢？

目前来看，Pinterest。数十亿个数据点和一些经验丰富的图像搜索专业人士推动着这项技术，它提供了最流畅和最准确的体验。它还通过抓住物体的风格特征，而不仅仅是它们的形状或颜色，做出了一些独特的事情。因此，它改变了我们可以使用的语言，扩展了搜索的范围。

Bing 最近在这一领域取得了巨大的进步，但是它缺少一个足以吸引谷歌搜索者的杀手级应用。Bing 视觉搜索准确且功能强大，但不能像 Pinterest 那样创建与相关项目的联系。

谷歌眼镜的推出肯定也会彻底撼动这个市场。如果谷歌能够确定自动物体识别(它无疑会做到)，谷歌眼镜可能会成为将传统搜索与增强现实联系起来的产品。从长远来看，谷歌拥有的资源和产品套件使其成为可能的赢家。

最初发表于【searchenginewatch.com】。

机器学习在物联网中的应用

原文：https://towardsdatascience.com/machine-learning-application-in-iot-ff859f9ab4fe?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习(ML)和物联网(IoT)是目前非常流行的表达方式，它们都接近炒作周期的顶峰。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gartner 2016 年新兴技术炒作周期——机器学习正处于炒作周期的顶峰，物联网平台和其他相关物联网技术处于上升阶段。

鉴于围绕机器学习和物联网的所有建设和讨论，很难透过喧嚣理解真正的尊重所在。

数据分析与机器学习

随着所有前面提到的围绕机器学习的建立，许多协会正在询问是否应该以某种方式在他们的业务中应用机器学习。

在大多数情况下，适当的回应是一个回响不

机器学习获取大量信息，并创造有价值的知识来帮助组织。这可能意味着改进形式、削减开支、为客户提供更好的服务，或者开发新的商业模式计划。

事实是，大多数协会可以从传统的数据分析中获得大量的这些优势，而不需要更复杂的机器学习应用程序。

传统的数据分析在澄清信息方面令人难以置信。你可以为过去发生的事情或今天正在发生的事情制作报告或模型，吸引有价值的经验应用到组织中。

数据分析可以帮助评估和跟踪目标，实现更明智的决策，然后提供衡量长期成功的方法。

那么机器学习什么时候有价值呢？

传统数据分析中运行的数据模型通常是静态的，在处理快速变化的非结构化信息时用途有限。关于物联网，区分许多传感器信息源和外部组件之间的连接通常很重要，这些外部组件会快速创建大量数据点。

传统的数据分析需要一个基于过去信息和主评估的模型来建立因素之间的联系，而机器学习从结果因素(例如保留活力)开始，然后自然地搜索指标因素及其关联。

总的来说，当你理解你需要什么时，机器学习是很重要的，但是你没有关于决定选择的关键信息因素的线索。因此，你给机器学习算法设定目标，然后它从信息中“学习”哪些因素对实现目标至关重要。

一个很棒的例子是一年前谷歌在其数据中心利用机器学习。数据中心需要保持冷却，因此它们需要大量的活力来使它们的冷却框架正常工作。这对谷歌来说是一个值得注意的成本，所以我们的目标是通过机器学习来提高效率。

机器学习明显降低了谷歌数据中心的功耗

通过机器学习实现的预测分析对于一些物联网应用来说非常有利可图。我们应该调查几个确凿的例证…

机器学习在物联网中的应用

工业应用中的成本节约

预测能力在机械环境中非常有用。通过从机器内部或机器上的不同传感器获取信息，机器学习计算可以“意识到”对机器来说司空见惯的事情，然后识别何时开始发生不寻常的事情。

预见机器何时需要维护是难以想象的重要，可以转化为大量的节约成本。

公司现在使用机器学习来预测机器何时需要维护，准确率超过 90%，这意味着巨大的成本削减。

塑造个人体验

事实上，我们在日常生活中都熟悉机器学习应用。亚马逊和网飞都利用机器计算出如何接受我们的倾向，并给客户一个优越的考验。这可能意味着提出你可能喜欢的项目，或者给电影和电视节目相关的建议。

同样，在物联网中，机器学习在很大程度上可以按照我们自己的意愿形成我们的条件。

Nest 恒温器是一个很棒的例子，它利用机器计算出如何根据你的喜好进行加热和冷却，确保你下班回家或早上起床时房子的温度正确。

上面描述的利用案例只是所有意图和目的的大量可想象的结果中的几个，然而它们是至关重要的，因为它们是目前正在物联网中进行的机器学习的有价值的使用。

虽然机器学习和物联网都处于建设的高潮，但机器学习在物联网中的应用的命运值得这种建设。我们真的只是开始揭露想象之下的东西。

关于作者

Muhammad Anser Naseer 是东方集团公司技术开发部门 BlueEast 的高级软件工程师。BlueEast 是世界上第一台内置电能表的智能 DC 变频空调背后的大脑。 阅读更多……

机器学习在地球物理测井数据中的应用

原文：https://towardsdatascience.com/machine-learning-applied-to-geophysical-well-log-data-58ebb6ee2bc6?source=collection_archive---------7-----------------------

无监督学习是对地球物理测井中的岩性进行分类的一个很好的工具。

近年来，机器学习(ML)变得非常流行，许多行业都在将它应用于他们的数据集。本文是关于将最大似然法应用于测井数据，并了解最大似然法帮助学习井中岩性的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An offshore drilling rig (courtesy: https://unsplash.com/s/photos/oil-rig available for download)

什么是测井记录？

测井记录是在井中记录的地下物理特性的单点测量，并随深度垂直变化。这些特性是随机的和非周期性的，取决于矿物成分或岩性、孔隙度、胶结和压实、流体的存在等因素。，显示了从海上区域记录的一套常规测井记录。每条测井曲线都显示了这些特性是如何随深度变化的。在这里，我们正在观察 500 万到 1600 万年前沉积在的沉积物！！这难道不令人印象深刻吗！！

测井特性

好的，现在有些测井像伽马射线和泊松比是极好的岩性指标，而其他像密度和纵波速度测井对于了解**岩石类型、孔隙流体类型以及沉积沉积物中的压力和压实趋势是有用的。**密度孔隙度，一种源自密度测井的物理性质，用于测量相同岩石类型或不同岩石类型的孔隙空间量。

沉积物通常由河流搬运并沉积在盆地中，因此岩性取决于风化的岩石类型以及河流携带沉积物通过的区域。此处所示的测井记录来自河流三角洲系统,该系统主要由砂层和页岩组成。常见的岩石类型有:

砂岩(储层)和页岩(非储层)

砂岩/砂:由石英颗粒、长石、方解石、重矿物和其他岩石碎片组成的岩石。

页岩:由粘土矿物组成的岩石，其中一些具有放射性。

粉砂岩/淤泥，一种由沙子和页岩组成的岩石也可能存在。

特别提示 : 如果没有 Ramya Ravindranathan ，这项研究就不可能完成。数据集和解释是她提供的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fluvial- Deltaic system (image used from http://www.sepmstrata.org/page.aspx?pageid=72)

对于不同的岩性，相对于地层边界的测井响应是不同的。较低的 GR、泊松比、密度、速度值和较高的孔隙度值是干净砂岩的特征。与砂相比，页岩的 GR 值更高。与砂岩相比，孔隙度极低，而密度、泊松比和速度值较高。淤泥的性质介于沙子和页岩之间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Suite of well logs extending from 2800 ft to 10250 ft

这口井遇到的单个砂层范围为 10-150 英尺(3.04-45.72 米)，被厚或薄的页岩层隔开。砂的储层质量通过粘土百分比来衡量**。**最好的储层粘土含量最低。如果能根据粘土含量来划分岩性就太好了。理想的情况是钻许多井来获得地下的清晰图像，但这是一件非常昂贵的事情，因为钻一口井要花费数十亿美元。

可靠地预测岩性成为储层描述的关键问题之一。在实践中，结合物理模型、局部地质 知识和经验，将大型地震和测井数据集简化为地球的低维模型*。不幸的是，这些简化的物理和地质假设在实践中并不总是正确的，这使得推断的模型高度不确定和有偏差。

这个问题可以用一般的机器学习模型来重新表述。因此，用一些算法来预测盆地中巨大井数据集的岩性将是一个好主意。

利用井数据集的无监督学习

用井数据集识别岩性是无标记数据无监督问题的一个典型例子。无监督机器学习用于测井记录，以获得可与井的岩性相关的聚类。当推断的结构比原始数据维数低时，无监督方法特别有用。巧合的是，由地球科学工作流程生成的解释图像和地质图的维度远低于原始现场数据。

这篇文章解释了以下因素。

无监督学习可以根据区域内的岩性对数据进行分类吗？

聚类是否与测井曲线特征变化的深度相匹配？

这里探讨的两个无监督学习任务是(a) 通过相似性将数据聚类成组。本研究中使用的 K-means 聚类就属于这个类别**。**和(b) 降维压缩数据，同时保持其结构和有用性，包括 PCA 和 t-SNE 。

数据集由各种测井记录组成，这些测井记录具有各种各样的单位。因此，在使用聚类算法之前，需要对数据集进行规范化。在这个问题中，有> 7000 个离散的深度点。

k 均值聚类用于创建数据点组，使得不同聚类中的点不相似，而一个聚类中的点相似。利用 k-means 聚类，测井数据点被分组为 k 组，定义不同的岩性。较大的 k 创建粒度更大的较小组，而较低的 k 意味着较大的组和较小的粒度。“肘”方法计算一系列聚类数的平均分数。折线图类似于一只手臂，而“肘”(曲线上的拐点)是最佳集群数量的良好指示。

在弯管图的当前分析中，拐点可以在 6°或 7°处。肘形图，很多时候，并不表明一个拐点，因此，进一步的验证是必不可少的。

t-分布式随机邻居嵌入(t-SNE) 是一种非线性降维技术，用于在二维或三维的低维空间中嵌入高维数据进行可视化。它通过二维或三维点对每个高维对象进行建模，以这种方式，相似的对象通过附近的点进行建模，而不相似的对象通过远处的点进行建模的概率很高。

t-SNE 算法将原始数据分为 7 类。轴是高维数据映射到二维时生成的数字。该图显示 SNE 霸王龙产生了明显的、分离良好的集群。配色方案是根据 k-mean 算法生成的标签。似乎来自 k-均值聚类的少数点与 t-SNE 聚类不一致(少数紫色点与绿色点分类在一起)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

映射到二维空间的 t-SNE 簇。根据标记的 k-均值聚类的颜色方案。

使用 PCA 对最佳聚类数进行最终验证。主成分分析(PCA) 是一种无监督的方法，它在保持数据集结构(方差)的同时降低了维数，从而降低了复杂性。它对数据进行旋转，使新轴的方差最大化。将高维数据投射到低维子空间(在 2-3 维中可视化。).

PCA 聚类将数据集聚类成 7 个类，并且类之间的边界是不同的。质心清晰可见。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PCA clusters mapped onto 2-D space

提取标记聚类

基于这三种聚类算法，测井曲线中的**最优聚类数为 7。**对七个聚类再次运行 k-means 方法，并生成聚类标签。该算法将相应的聚类标签分配给数据集中的所有深度点。

直方图显示了根据深度点绘制的 7 个聚类。直方图的颜色方案和标签现在用于绘制测井曲线和岩性(从聚类中生成)。解释表也有相同的配色方案和标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Histogram showing the distribution of points in cluster generated by k-means. The color scheme and labels of the match with the table

研究 k-means 算法的一个挑战是，如果初始状态不相同，那么簇的大小就会改变。大约有 10-15 个点不同，约占测井记录总点数的 0.2%。

解读

选择 7000 至 8500 英尺和 8500 至 10250 英尺两个深度范围进行解释和比较，看数据聚类是否与测井数据解释的岩性相匹配。该表总结了与测井特征和岩性相关的聚类标签。发现的主要端员岩性为砂岩和页岩，具有各种不同的分级岩性，如砂质页岩和泥质砂岩。在本研究区域，我们将具有良好孔隙度的干净砂层归类为良好储层组 1 和 6 ),一般来说，这种含有碳氢化合物(石油或天然气)的砂层在垂直柱中非常少，并且它们与聚类方法(组 6)具有良好的相关性，聚类方法表明这种点的数量非常少。页岩表现为非常粗的柱状，而集群(集群 3)显示的点数最多。有趣的是，聚类方法可以区分不同的岩性，如泥质砂岩(聚类 5)和砂质页岩(聚类 0)。这项研究似乎对区分潜在油藏和非油藏非常有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Well log data from 7000–8500 ft. Clusters are interpreted from k-means unsupervised learning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Well log data from 8500–10250 ft. Clusters are interpreted from k-means unsupervised learning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将最大似然算法集成到岩性分析中有用吗？

总之，这证明了最大似然法在解释大量测井资料方面有着广阔的应用前景。地球物理数据确实属于机器学习模型的范畴。无监督学习可以用于直接从数据中提取有用的信息。无监督学习方法确实将数据集分类到有用的簇中。当与深度匹配时，这些群集确实产生了有用的岩性，并提供了有用的岩石特征。

在未来的研究中，地质解释可以作为标签来训练分类器，并对相似的数据集进行预测。如果有足够的数据集，就有可能对地球物理问题进行更科学的基准测试。

我欢迎反馈和建设性的批评。可以通过 LinkedIn 联系到我。这项研究的代码可以在这里找到。

Bougher，B. B. (2016 年)。机器学习在地球物理数据分析中的应用(不列颠哥伦比亚大学博士论文)。

使用机器学习方法的异常检测:对法国政治的应用。

原文：https://towardsdatascience.com/machine-learning-approaches-detect-outlier-values-that-do-not-follow-a-common-trend-detecting-cc0252f637bd?source=collection_archive---------23-----------------------

检测勒庞在 2017 年总统大选中的得分偏离基于社会经济变量的预测的法国地区。

复制分析所需的代码和数据可在 github 上获得。

目标

通常，机器学习者寻求调整学习机器，以便最大化分类或回归标准。当提供黑盒机器学习(ML)算法时，这是一个期望的目标。然而，当运行最大似然算法时，可以通过查看预测精度最低的点来提取有价值的信息。

为了说明我的观点，我分析了 2017 年法国总统选举第二轮的结果。在法国总统选举的最后一轮，马林·勒·庞面对埃马纽埃尔·马克龙。这可以被视为唐纳德·特朗普和希拉里·克林顿之间决斗的法国版，勒庞扮演特朗普的角色，马克龙扮演克林顿的角色。

在下文中，我研究了法国总统选举的结果在多大程度上是由社会经济变量决定的。如引言中所述，我正在寻找基于社会经济变量的得分预测最差的城市或地区。政治要想在下次选举中提高自己的全球得分，就应该去这些城市或地区开选前会。

所有的统计分析都在 r。

数据集可用 data.gouv.fr

首先，我下载了第一个数据集，它包含了法国总统选举的结果，可以在 data.gouv.fr 网站上找到。我在 github 上放了一个 csv 版本的数据文件。

然后，我执行一些技术操作来计算每个城市的城市代码(称为 CODGEO ),这将在合并 2 个不同的数据集时使用。

第二个数据集也可在 data.gouv.fr 网站上获得，包含法国每个城市(市镇)的各种社会经济数据。社会经济变量包括几个与税收、医生密度、商店密度、业主比例、工人比例相关的变量……我再次将 csv 版本的数据文件放在 github 上。我删除了地理变量(如部门代码)，只保留社会经济数据。

城市规模的预测分数和实际分数的比较

然后，我将这两个数据集合并成一个数据框架，其中包含勒庞的得分和社会经济变量。为了训练回归模型，我使用随机森林来回归勒庞在社会经济变量上的得分。为了避免过度拟合，我使用双重交叉验证，其中我使用一半的数据来训练模型，另一半来进行预测，然后我交换了两个数据子集的角色。

真实得分和预测得分之间的平方相关性为 53% ，这是显著的，表明社会经济变量传达了预测总统选举结果的信息。

然后，我将勒庞的预测得分显示为真实得分的函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在图中，红点对应于超过 75，000 居民的城市。一个引人注目的异常值是加莱，得分为 57%，而预测值低得多，为 43% 。曾是难民营的加莱丛林或许可以解释为什么勒庞的得分比基于社会经济因素的应有得分高出 15%。

南部城市如尼斯、土伦和佩皮尼昂的得分高于基于预测值的预期。

我还发现有趣的是，巴黎和凡尔赛的预测得分相同，约为 16%，表明社会经济背景相似，但勒庞在巴黎的实际得分为 10%，而在凡尔赛为 24%。

在相反的方向上，鲁贝脱颖而出，预计勒庞的得分在 40%左右，但实际得分为 23%。令人惊讶的是，这种差异在紧邻鲁贝的图尔昆并没有出现

部门级预测分数与实际分数的比较

我最终对勒庞的实际得分和预测得分之间的城市差异进行了平均。在一个法国部门的范围内，这导致了一个值，我称之为“勒庞的超额票数”。我提供了一个阴谋来将勒庞 w.r.t .的超额选票的社会经济背景合法化。

为了制作一张法国地图，我使用了法国 R 大师科林·费伊提供的代码。

勒庞的超额选票最多的部门的实际和预测得分之间的差异在 2%和 2.5%之间。它们包括

科尔塞省和东南部的一些省份(滨海阿尔卑斯省 06， Var 83，科尔塞省 2A)，
来自加龙河谷的一个部门( Tarn-et-Garonne 82)和来自该河谷的邻近部门也有多余的选票，但重要性较小(Tarn 81，Lot et Garonne 47)，
贝尔福地区 (90)。

相比之下，勒庞的得分比基于社会经济价值的预测低得多的部门是

巴黎 (75)勒庞的得票率在 7%(！)小于它基于社会经济价值应该达到的水平，
差异大于 2%的上塞纳省 (92)和邻近的塞纳-圣但尼省(93)也遵循这一趋势，但差异小于 2%。
Indre-et-Loire (37)差异大于 2%。

结论

机器学习方法可以检测出不遵循共同趋势的异常值。在这里，我提供了一个政治方面的例子，以找到勒庞在 2017 年法国第二轮总统选举中的得分偏离他们根据社会经济变量预测应该达到的城市或部门。

两个地区显示勒庞的票数过多，包括东南部和加龙河谷的省份。与预期相比，巴黎和一些邻近省份(92，93)显示勒庞的选票较少。很明显，在巴黎及其周边地区，勒庞的得分并没有达到应有的水平，经济并不是唯一的解释。还有神秘的 Indre-et-Loire，那里有城堡，勒庞的得票率大大低于预期。

机器学习——艺术还是科学？

原文：https://towardsdatascience.com/machine-learning-art-or-science-b660dc4db4a7?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大数据的激增和确认偏差的挑战，导致数据科学家寻求一种方法来揭示隐藏的见解。在预测分析中，他们经常求助于机器学习来扭转局面。机器学习似乎是使用训练集处理大数据的理想候选。它还通过进行数据驱动的预测而享有浓厚的科学气息。但是机器学习真的没有偏见吗？我们如何更有意识地利用这个工具？

为什么机器学习是一门科学:

我们经常听到机器学习算法对数据进行学习和预测。因此，他们应该更少受到人为错误和偏见的影响。我们人类倾向于寻求对我们已经想到或相信的东西的确认，这导致了确认偏见，使我们忽略了与我们的理论相矛盾的事实，而过分强调了那些肯定理论的事实。

在机器学习中，数据教会我们，还有什么比这更纯粹的呢？当使用基于规则的算法或专家系统时，我们依靠专家来制定“正确的”规则。我们无法避免他/她的判断和立场渗透到这些规则中。对直觉的研究甚至可以更进一步说，我们希望专家的经验和观点影响这些规则——它们使他/她成为专家！

无论哪种方式，当我们使用机器学习算法从数据中自下而上工作时，我们似乎已经绕过了这种偏见。

为什么机器学习是一门艺术:

事实不是科学，数据也不是。我们发明科学理论来给出数据背景和解释。帮助我们区分因果关系和相关性。苹果落在牛顿头上是事实；引力是解释它的理论。但是我们如何提出这个理论呢？有没有科学的方法来预测灵光一现？

我们使用科学工具来测试假设，但我们不会以这种方式产生假设，至少不会产生体现创新思维的假设。另一方面，艺术需要一种富有想象力的技巧来表达和创造新事物。在行为分析中，它可以采取理性或非理性人类行为的形式。用户点击内容是事实；解释因果关系的理论可能是它回答了他/她正在寻找的问题，或者它与他/她基于以前的行为感兴趣的领域有关。

人类行为固有的模糊性，甚至更多我们的因果关系或动机，赋予了艺术在预测分析中尊贵的地位。机器学习是归纳的艺术。即使是无监督的学习也使用由人根据他/她的知识和创造力选择、调整和验证的客观工具。

薛定谔:

另一种方式是将机器学习视为艺术和科学。就像薛定谔的猫既活又死，佛教的中道，或者告诉我们光既是波又是粒子的量子物理学。至少在我们测量它之前……你看，如果我们使用科学工具来测量基于机器学习的模型的预测性，我们就同意科学的方法来给予我们的结论某种专业的验证。然而，如果我们专注于衡量潜在的假设，或表示或评估方法，我们会意识到模型只像它的创造者一样“纯粹”。

在行为分析中，很多都依赖于将人类行为解释为可量化的事件。这件作品源于艺术领域。当将行为分析与科学事实相结合时，正如在使用医学或健康研究时经常发生的那样，我们真正创造了一门艺术科学或科学艺术。我们再也不能将科学本质与行为培养分开。

实际实施

虽然这可能是一个有趣的哲学或学术讨论，这里的目的是帮助实用工具和技巧。那么，这对于开发基于机器学习的模型或依赖它们进行行为分析的人来说意味着什么呢(基于我自己的经验加上这篇文章作者的见解——如下)？

1.投资方法论

数据是不够的。叙述数据的理论给了它背景。你在表示、评估和优化这三个阶段做出的选择容易受到糟糕艺术的影响。因此，当需要机器学习模型时，在开发东西之前，请咨询各种专家，选择最适合你情况的方法。

2.垃圾进垃圾出

机器学习不是炼金术。这个模型不能把煤变成钻石。准备数据往往是艺术(或“黑色艺术”)多于科学。而且它占用了大部分时间…对你所依赖的模型中的内容保持批判性的关注，如果你是设计方，尽可能保持透明。记住，更多的相关数据比更聪明的算法更有效。

3.数据准备是特定领域的

没有办法完全自动化数据准备(即特征工程)。一些功能可能只有在与其他功能结合时才会增加价值，从而创造新的事件。通常，这些事件需要让产品或业务有意义，就像它们需要让算法有意义一样。请记住，功能设计或事件提取需要与建模完全不同的技能。

4.关键是整个链中的迭代

你收集原始数据，准备它，然后学习和优化，测试和验证，最后在产品或业务环境中使用。但这个循环只是第一次迭代。一个良好的算法通常会让你重新收集一个略有不同的原始数据，从另一个角度绘制曲线，以不同的方式建模、调整和验证它，甚至以不同的方式使用它。你在这个链条上培养合作的能力，尤其是涉及火星建模师和金星营销人员的地方，是关键！

5.小心做出你的假设

阿基米德说:“给我一根足够长的杠杆和一个支点，我可以撬动地球。”机器学习是一个杠杆，不是魔法。它依赖于感应。你在这个过程中的知识和创造性假设决定了你的立场。如果你选择了正确的杠杆(即方法论)，归纳科学将会处理剩下的事情。但决定交战规则的是你的艺术判断。

6.如果可以，获取实验数据

机器学习可以帮助预测基于训练数据集的结果。分割测试(又名 A/B 测试)用于测量因果关系，群组分析有助于分割和定制每个细分市场的解决方案。将来自分裂测试和群组分析的实验数据与机器学习相结合，可以证明比坚持其中一个更有效。你选择整合这两种科学方法的方式非常有创意。

7.污染警报！

不要让调整算法的艺术过程污染了你对其预测性的科学测试。记住保持训练集和测试集的完全分离。如果可能的话，在算法完全优化之前，不要向开发人员公开测试集。

8.国王死了，国王万岁！

这个模型(及其基础理论)只有在更好的模型出现之前才有效。如果你不想成为死亡之王，这是一个好主意，在上一个发布的那一刻开始开发下一代模型。不要把精力花在维护你的模型上；花在试图取代它上。你失败的时间越长，它就变得越强大…

概述

机器学习算法通常用于帮助做出数据驱动的决策。但是机器学习算法并不都是科学，尤其是应用于行为分析的时候。理解这些算法的“艺术”方面及其与科学方面的关系，可以帮助制作更好的机器学习算法，并更有效地使用它们。

我很高兴看到你的反馈。请在下面留下你的评论。

我要感谢穆罕默德·欣达维、法比奥·莫里塔和阿里尔·沙米尔贡献了他们的见解，阿里尔·沙米尔向我推荐了佩德罗·多明戈斯关于这个主题的一篇有趣的论文

贡献者:

美国好事达保险公司数据科学副总裁穆罕默德·欣达维·FCAS 博士

Fabio Ohara Morita，巴西 Porto Seguro 保险公司技术总监(首席精算师)

Ariel Shamir，以色列 IDC Efi Arazi 计算机科学学院副院长教授

多明戈斯佩德罗。“关于机器学习需要知道的一些有用的事情。”美国计算机学会的通信55.10(2012):78–87。

原载于 2016 年 12 月 2 日orensteinberg.com。

机器学习即服务:第 1 部分

原文：https://towardsdatascience.com/machine-learning-as-a-service-487e930265b2?source=collection_archive---------5-----------------------

情感分析:10 个应用和 4 个服务

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

She loves me, she loves me not …

什么是情感分析？

用户生成内容的爆炸式增长和归档材料的数字化产生了大量数据集，其中包含大量人就几乎每一个主题发表的意见。

在某些情况下，这些数据的生成是通过用户界面结构化的。例如，在电子商务网站上处理客户评论相对容易，因为用户需要在产品评论的文本旁边张贴一个评级。

然而，大多数数据都是以非结构化形式提供的。它不包含一个标准化的总结说“这个内容表达了一个积极的，消极的，混合的或中立的观点。”

例如，WordPress.com 报告称，仅在 2018 年 5 月，使用他们平台的博客就发布了超过 8700 万条帖子。[1]据 YouTube 首席执行官苏珊·沃西基称，每分钟有超过 400 个小时的内容被上传到这个视频分享网站。[2]与此同时，谷歌图书项目已经将 400 种语言的至少 2500 万册图书数字化。[3]

每当用户在自由文本字段中键入内容或对着麦克风说话时，都需要进行推理来对情感进行分类。

情感分析正是专注于这项任务的领域。它是自然语言处理的一个分支，研究旨在将文本文档映射到情感表达的函数。

随着精确语音和文本识别的出现，情感分析的范围已经超出了易于访问的数字文本数据，并且覆盖了越来越多的媒体。

情感分析可以做什么？

情感分析有助于我们了解过去，预测未来，并在当下采取适当的措施。

假设你有机会分析你的客户、竞争对手、学生或其他感兴趣的人所表达的观点。你会用这些知识做什么？

以下是十个想法:

票房收入:Asur &胡伯尔曼(2010)在一个模型中包含了积极情绪与消极情绪的比率，该模型被训练来预测电影上映前的票房收入。[4]
品牌监控:Ghiassi 等人(2013 年)描述了一个旨在监控表达品牌和名人情感的推文的系统。[5]
计算历史:Acerbi (2013)使用 20 世纪出版的书籍档案生成了一个积极和消极情绪的时间序列。[6]
客户反馈:Gamon (2005)在客户调查和知识库中提供的反馈的背景下探索了情感分析。[7]
辍学率:Wen 等人(2014)使用大规模开放在线课程(MOOC)论坛中表达的观点来预测学生流失。[8]
政治情绪的监测:Abbasi 等人(2008)分析了极端主义团体论坛中的政治情绪。[9]
产品评论:在他的经典论文中，Turney (2002)将情感分析应用于不同类型产品和服务的在线评论。[10]
股票市场预测:Bollen 等人(2011 年)在一个预测道琼斯工业平均指数变化的模型中纳入了对公众情绪的估计。[11]
故事弧线:Reagan 等人(2016)使用情感挖掘来确定古腾堡计划小说集中情感轨迹的基本形状。[12]
作为子任务的情感分析:Pang & Lee (2008)提到情感分析作为高阶系统中的一个组件的使用。例如，摘要可能受益于包含对特定主题表达不同意见的来源。[13]

我必须提供什么？我得到了什么回报？

我们已经说过，情感分析将一个文本文档作为输入，并将一个情感的表示作为输出返回。

关于投入没什么好说的。这只是你想要分析的书籍/评论/客户调查/电子邮件/新闻文章/产品评论/推文或其他类型文档的文本内容。

现在，让我们转向输出。

二元情感分析

二元情感分析，最简单的情况，提出如下问题:“文本文档中表达的观点是正面的还是负面的？”

这里，输出要么是概率，要么是分数。

我们先来考虑概率。

高概率表示给定文本可能表达正面观点。例如，0.9 的输出表示所表达的意见有 90%的可能性是正面的。

相反，低概率表示给定文本可能是负面观点的表达。例如，0.1 的输出表示 10%的可能性意见是正面的，或者换句话说，90%的可能性意见是负面的。

可选地，情感的预测可以被表达为分数。这里也没有惊喜。积极的分数表明积极的情绪。负分表示负面情绪。绝对值越大表明情感越强烈。

多类情感分析

在多类别情感分析中，输出是在 n 个可能类别上的概率分布，或者换句话说，是一列加起来等于 1 的 n 个非负数。要对意见进行分类，您可以选择与最高概率相关的类别。

二元情感分析是多类情感分析的特例，其中 n=2 。

二元情感分析的一个简单扩展是引入中性意见类。在这种情况下，输出是三类( n = 3) 的概率分布。这三种概率可以按如下顺序排列:负概率、中性概率和正概率。

例如，对于侧重于技术细节的综述的预测可以具有与此类似的分布:【0.1，0.85，0.05】。

现在，假设一个客户发布了一个混合评论，列出了产品的正面和负面。三级情感分析器的输出可以类似于下面的分布:【0.4，0.1，0.5】。

处理这个问题的一个方法是包含一个混合的类别。假设我们把四类排序如下:阴性、中性、混合型、阳性。混合产品评审示例中的输出可能类似于这样:【0.15，0.05，0.7，0.1】。**

有哪些好的情感分析服务？

为了完成这一概述，我们将看看领先云计算平台的四种情感分析服务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An overview of four leading sentiment analysis services

为了提供这些服务性能的第一印象，我使用 Kotzias 等人(2015 年)整理的数据创建了一个基准。[14]

这个汇编包括了来自著名数据集的三个评论子集，每个子集有 1000 个实例:亚马逊产品评论、来自 IMDB 数据集的电影评论和 Yelp 餐馆评论。

亚马逊理解

亚马逊的自然语言处理解决方案understand于去年推出，目前支持英语和西班牙语文档。

请求以 100 个字符为单位进行衡量，每个请求最小为 3 个单位。

就像这里列出的其他服务一样，Amazon understand 根据每月的请求数量进行分层。最高 1000 万台，每 1000 台的价格为 0.1 美元。对于超过 5000 万的请求，价格设置为 0.025 美元。

给定凭证提供者、文本和语言代码，可以如下请求情绪的预测:

Sentiment analysis with Amazon Comprehend

API 支持多达 25 个文档(最多 5000 个字符)的批处理请求，并生成四类概率分布:负、混合、中性和正。

不出所料，understand 在 1000 条亚马逊商品评论上取得了最佳表现。结合其他两个数据集上接近 90%的准确率，这使得亚马逊的 API 在基准测试中获得了亚军。

谷歌云自然语言 API

Google 的云自然语言 API 支持九种语言，生成两个情感分析值: 分值和量级。

文档情感的得分表示文档的整体情感。

量级表示文档中存在多少情感内容，并且通常与文档的长度成比例。

表达很少情绪或混合情绪的文档，中性分在 0.0 左右。幅度值可用于消除这两种情况的歧义。低情绪文档具有低量值，而混合情绪与较高的量值相关联。

定价模型基于每个文档 1000 个字符的单位。对于范围在 5，000 个单位和 100 万个单位之间的每月请求，每 1，000 个单位的价格是 1 美元。在 5000 到 100 万件之间，每 1000 件的价格为 1 美元。对于 500 万到 2000 万件范围内的请求，价格降至 0.25 美元。

假设GOOGLE _ APPLICATION _ CREDENTIALS环境变量被设置为包含项目凭证的 JSON 文件的路径，下面的代码对给定的文本执行情感分析:

Sentiment analysis with Googles’ Cloud Natural Language API

谷歌的服务以 92.1 %的出色准确率弥补了批处理的不足，在三个数据集的两个中实现了最佳性能。就性能而言，云自然语言 API 无疑是我们竞争中的赢家。

Microsoft 文本分析 API

微软的情感分析器执行二进制分类，并因此给每个文档分配一个概率。当一个文本不能被分析或者没有情感时，服务总是精确地返回 0.5。

每月有 5，000 笔交易的免费层允许您在没有财务负担的情况下探索 API。入门级标准 S0 层的价格为每月 74.71 美元，有 25000 个请求。最昂贵的公开披露层，标准 S4 ，每月花费 4999.99 美元，包括 1000 万个请求。

高于等级限制的每 1000 笔交易的价格从 0.50 美元到 3 美元不等。

API 支持 15 种欧洲语言和多达 1000 个文档的批量请求。

不幸的是，在我们的测试中，这些特性与它的性能并不匹配。文本分析 API 的平均准确率为 81.8%，落后谷歌服务超过 10 个百分点。

Java SDK 的测试版已经推出，但是使用 Unirest 和 GSON 更容易:

沃森自然语言理解

IBM Watson 的情感分析器支持十种语言，并返回一个范围从-1 到+1 的分数。

计费单位由 10，000 个字符组成。根据免费 Lite 计划，每月可购买 30，000 台。标准计划的入门级包括每月前 250，000 台，价格为每 1，000 台 3 美元。500 万件之后，价格下降到 0.20 美元。

在我们的测试中，Watson API 的表现明显好于微软的文本分析 API，但不如 Amazon intensive。

Java SDK 似乎不支持批处理请求。

结论

情感分析对文本文档中表达的观点进行分类。

用户生成内容的增加以及越来越精确的文本和语音识别推动了它的发展。

我们简要介绍了 10 个不同领域的应用:从票房收入预测和品牌监测到股票市场建模和识别故事弧线中情感轨迹的基本形状。

二元分类返回表示正面或负面观点的概率(或分数)。一些情感分析器扩展了这种二分法，并且包括混合和/或中性情感的类别。

然后，我们比较了领先云计算平台的四种情感分析服务。

如果你对情感分析 a 服务感兴趣，我建议你从亚马逊领悟或者谷歌自然语言理解 API 开始。

感谢您的阅读！如果您喜欢这篇文章，请关注我，了解更多关于云中机器学习服务的信息。

参考

[1]https://wordpress.com/activity/posting/

https://youtu.be/O6JPxCBlBh8?t=10m45s

[3]海曼，S. 2015。Google Books:一个复杂而有争议的实验。nytimes.com*。可在:https://www . nytimes . com/2015/10/29/arts/international/Google-books-a-complex-and-contractive-experiment . html【2018 年 6 月 10 日访问】。*

[4]阿苏尔和胡伯尔曼，文学学士，2010 年 8 月。用社交媒体预测未来。2010 年 IEEE/WIC/ACM 网络智能和智能代理技术国际会议论文集-第 01 卷(第 492–499 页)。IEEE 计算机学会。

[5]m . GHI assi，j . Skinner 和 and Zimbra，2013 年。Twitter 品牌情感分析:使用 n-gram 分析和动态人工神经网络的混合系统。专家系统与应用， 40 (16)，第 6266–6282 页。

[6]阿塞尔比，兰波斯，v .，加内特，p .和本特利，R.A .，2013。20 世纪书籍中的情感表达。 PloS one ， 8 (3)，p.e59030。

[7]m .加蒙，2004 年 8 月。顾客反馈数据的情感分类:噪声数据、大特征向量和语言分析的作用。第 20 届国际计算语言学会议论文集(第 841 页)。计算语言学协会。

[8]文，男，杨，d 和罗斯，c，2014 年 7 月。MOOC 论坛中的情感分析:它告诉了我们什么？。在教育数据挖掘 2014 。

[9]a .阿巴西、h .陈和 a .塞勒姆，2008 年。多语言中的情感分析:网络论坛中观点分类的特征选择。《美国计算机学会信息系统汇刊》(TOIS) ， 26 (3)，第 12 页

10 特尼博士，2002 年 7 月。竖起大拇指还是竖起大拇指？:语义导向应用于评论的无监督分类。在计算语言学协会第 40 届年会论文集(第 417-424 页)。计算语言学协会。

[11] Bollen，j .，Mao，h .和曾，x .，2011 年。推特情绪预测股市。计算科学杂志， 2 (1)，第 1–8 页。

[12]里根，A.J .，米切尔，l .，凯利，d .，丹福斯，C.M .和多兹，P.S .，2016 年。故事的情感弧线由六种基本形状决定。 EPJ 数据科学， 5 (1)，第 31 页

[13]庞和李，2008 年。观点挖掘和情感分析。信息检索基础与趋势，2(1-2)，第 1-135 页。

[14]d . Kotzias，m . Denil，n . De Freitas 和 Smyth，p .，2015 年 8 月。使用深层特征从组标签到单个标签。第 21 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集(第 597–606 页)。ACM。

机器学习即服务

原文：https://towardsdatascience.com/machine-learning-as-a-service-af9ae8af6f4?source=collection_archive---------12-----------------------

[## 机器学习即服务|地理杂志的博客

机器学习，人工智能的矛头之一，在当前打开了不可想象的视角…

地理. gs](https://geographica.gs/en/blog/machine-learning-as-a-service/)

机器学习，人工智能的矛头之一，开启了当前数字时代不可想象的视角。在大数据的背景下，它在最不同的领域带来了巨大的进步，并且似乎没有尽头。

这一切都要归功于不同领域和学科的进步带来的巨大推动力，如数学、计算能力、物联网传感器和云计算。另一方面，这种场景允许将其用作服务。

它们的应用数不胜数，令人惊讶，而且在许多情况下令人兴奋。的确，应用领域是巨大的，有时是不可预测的。电子商务和营销等行业只是机器学习项目提供的使用可能性的一个小样本。

机器学习:无尽的应用

可能的应用列表几乎是无限的，但最重要的是，这是一个开放的列表，肯定会有许多惊喜。在其他用途中，自动学习算法使社交网络或搜索引擎中的推荐系统以及易贝或亚马逊等公司的平台成为可能。

同样，自动学习有助于在线安全，有助于检测故障、消费者趋势或潜在客户，此外还能够预测城市交通、疾病、执行更好的诊断、语音识别或例如打开门与机器通信。

微软首席执行官塞特亚·纳德拉表示，由于它在识别行为模式方面的关键作用，它还有助于提高员工和公司的生产力和效率，以及改善业务数据。

按照纳德拉的说法，它显示自己是一个伟大的盟友:

“在业务流程中重塑销售、营销和人才管理。”

但是对于这一点，不管每个项目的方向是什么，重要的是将产生的数据转换成对公司有价值的信息。

机器学习即服务选项

这就是我们从理论的世界，以难以置信的可能性来实施项目，到一个有形的现实:我们的。也是在那个时候，我们必须考虑，既犯了乌托邦目标的错误，又因为害怕失败而放弃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习，人工智能的矛头之一，开启了当前数字时代不可想象的视角。

虽然没有意识到自动学习系统的应用是复杂的，但机器学习作为一种服务的应用可以使事情变得容易得多，这也是事实。

假设技术和数据都在那里，等着我们去利用它们，押注于它们的使用是一个资本决策，因为这意味着利用一个黄金机会来做出更好的决策。因此，无论何时预见到好处，以谨慎和研究的方式启动它是为渴望的竞争优势加分的第一步。对于许多公司来说，这一决定意味着在云中使用机器学习作为服务，并且没有太多的复杂性。

它的优点是什么？

虽然有一些限制，但今天的机器学习对于那些希望通过机器学习即服务的公式来利用其可能性的人来说是可行的，机器学习即服务是云中的一系列服务，包括自动学习工具。

在市场上，我们会发现不同的云计算 MLaaS 供应商，一方面，他们在各自的数据中心使用不同类型的工具进行计算。其中，预测分析工具、数据建模 API、自动学习算法、数据转换、深度学习、面部识别、数据可视化或者例如自然语言处理。

这些服务的优势恰恰在于易用性，因为客户可以开始在云中应用它，而不必投资安装软件。像任何其他云服务一样，它可以在云中使用，也可以以混合方式使用，在这种情况下，机器学习必须与本地 it 基础设施相集成。

巨大的商业潜力

在增加销售和改善商业决策方面，机器学习的应用领域涵盖了非常不同的领域，可以转化为最多样和最雄心勃勃的项目。
然而，在实践中，项目需要组织层面的文化支持，这并不总是容易实现的。此外，其准确性取决于多种因素，如需求、创造力或可用的技术和人力资源。

事实上，提供价值和竞争优势需要熟练的工人，即在自动学习系统的帮助下，通过预测将数据转化为有价值的信息的专家。

虽然机器学习即服务为我们提供了自动化、可扩展的系统，能够在很少人工干预的情况下评估和改进分析过程，但我们只有通过专家的技能才能取得成功。幸运的是，您可以访问这些资源，而不必投资复杂的基础设施。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实上，提供价值和竞争优势需要熟练的工人，即在自动学习系统的帮助下，通过预测将数据转化为有价值的信息的专家。

通过使用云中的机器学习服务和一个小团队，我们可以开始:设计第一个策略，并建立我们的第一个工作模型，以实现开始给出结果的预测。

由于平台的计算能力，机器学习即服务项目的目标是通过自动化流程理解我们自己的数据，识别模式并获得有价值的信息。显然，这一切都是为了扩大业务。

有了这些最少的资源(这些资源将根据每个提供商提供的解决方案而有所不同)，使用机器学习作为服务对公司来说具有巨大的潜力，因为模型会不断更新自己，从而赢得时间并降低成本。

即使有机器学习服务的帮助，这一挑战也需要奉献和无数的努力，如果我们考虑它可以带来的优势，这些努力才是真正值得的。基本上，它是关于创建预测模型，通过与业务流程优化相关的成就为组织提供附加值。

由于对客户有了更好的了解，这将更容易保持忠诚度，吸引潜在的买家或用户，并找到新的收入渠道，节省成本，以及识别潜在的威胁，降低风险和脆弱性。事实上，自动化学习可以提高组织中关键数据的安全性。

美好的前景，但还有很长的路要走

虽然在机器学习的运用上成功案例不胜枚举，但也确实还有很长的路要走。从这个意义上来说，Drum 最近的一份报告探讨了机器学习在解决商业挑战中的应用，并得出结论，其重要性正在以一种重要的方式增加，成为该领域议程的优先事项之一。

与此同时，Wakefield Research and Demand Base 的一项调查显示，80%的营销高管认为人工智能在五年内将在该领域发挥革命性的作用。

然而，这些专业人士中几乎有三分之一声称他们不知道如何利用它，这与 Forrester Consulting 的一项研究相同，该研究也发现了同样的知识缺乏。或许，机器学习作为一种服务的公式被称为供给的缺乏。

黑客攻击海马体:机器学习的下一个前沿和超越…

原文：https://towardsdatascience.com/machine-learning-as-hacking-of-the-brain-6aab8c4a9e7d?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我们每个人的头骨深处，都有一个像鳄鱼的大脑一样的东西。围绕 R-复合体的是边缘系统或哺乳动物的大脑，它在几千万年前从哺乳动物但还不是灵长类动物的祖先进化而来。它是我们情绪和情感的主要来源，是我们关心和爱护年轻人的主要来源。最后，在外部，与更原始的大脑处于不稳定的休战状态的是大脑皮层；文明是大脑皮层的产物。”

——卡尔·萨根，宇宙 276–277 页

关于人类大脑的神经科学知识仍然是如此不完整，以至于我们只能从神经科学家的想法中获得灵感，而不是基于坚如磐石的科学证据。然而最近深度学习的成功表明这种方法是可行的。

监督学习的强大性能匹配甚至超过了上面引用的卡尔·萨根的“鳄鱼的大脑”。“边缘系统或哺乳动物大脑”是下一站。它的核心是海马体，这是大脑皮层根部的一个单一的弯曲的灰质细胞层。海马体被广泛认为介导了许多认知功能，因为它密集的相互轴突投射到和来自皮质。

认知功能的调节者

想象你的身体是一架无人机，由两个不同的人驾驶。其中一个有驾驶舱视角(或者他们称之为“第一人称视角”)。这位飞行员可以在单独的显示器上看到无人机的垂直和水平位置，但前方的视野是他获取信息的主要渠道。第一个飞行员可以立即将当前的驾驶舱视图与之前任务中拍摄的电影和快照进行比较。更重要的是，这位飞行员可以在每次识别出熟悉的路径时开启巡航控制甚至自动驾驶模式。

另一名飞行员通过在 3D 显示器上操作一个小模型来驾驶同一架无人机。第二名飞行员有时会从远处(他们称之为“在视线范围内”)看一眼无人机，但大多数时候他只能看到无人机模型在环境模型中的位置。(无人驾驶飞机和环境的)两个模型都已创建，并根据以前任务记录的比较和无人驾驶飞机所有传感器的新数据输入进行即时调整。

现在想象一下，两个飞行员不能互相交谈或以任何其他方式交换信息。他们只能通过理想观察者的决定来交换无人机的控制权。理想的观察者看不到任何一个飞行员的显示器。他只能以理想的准确度测量在那些显示器上已经发生、实际发生和预测将发生的所有事件的概率，以及关于那些事件的信息的可信度。理想的观察者就像一个交换台，在两个飞行员之间交换控制。第一个试验在存在关于可能或不可能事件的高可信度信息的情况下是很好的，但是当信息的可信度低时，它会完全丢失。然后第二个飞行员就位。它通过地标导航，并探索环境以获得更可信的信息。

探索和观察探索者

在这一点上，海马体第一次成为我们关注的焦点，因为它是负责做出探索决策的大脑区域，即关于在被动和主动学习会话之间切换的决策。西北大学的一组研究人员在 2014 年发表在《细胞》杂志上的一篇文章中指出“海马活动因此直接与眼球运动模式相对应，从而在海马活动和支持探索决策的特定眼球运动行为相关信息之间建立了紧密的联系。”。

来自加州理工学院的研究人员在 2015 年从一个不同的角度解读了海马体在学习过程中的作用，“在神经层面，我们的研究结果表明，根据我们的模型，在支持一次性学习的学习速率范围内，有证据表明涉及一个非常特定的神经系统。具体来说，相对于较慢的学习速度，高学习速度的海马体活动增加(90%或以上)，相反，海马体没有活动。因此，海马体似乎是以类似开关的方式被招募的，只有在一次性学习发生时才会出现，否则就会保持沉默。”

海马和爬行动物的大脑

海马形似海马，故名。它是哺乳动物大脑边缘系统的一部分。尾状核位于人脑最古老也是最小的区域。它在数亿年前进化而来，更像是当今爬行动物的整个大脑。由于这个原因，它通常被称为爬行动物的大脑。

加拿大麦吉尔大学的研究人员在 2013 年的实验中重复了他们之前许多其他研究人员的结果，这些结果显示了“海马依赖的空间导航策略和尾状核依赖的刺激反应导航策略之间的明显差异……海马对于以别为中心的空间学习和记忆以及认知地图的形成至关重要，即学习和记忆环境地标之间的关系，而不管观察者的位置如何。这样就可以从任何起始位置直接到达任何目标位置……相比之下，纹状体(尾状核)对于反应学习和记忆以及通过建立严格的刺激-反应关联形成习惯至关重要。”

他们还指出，“海马体和纹状体(尾状核)也参与决策过程。依赖于海马体的决策过程，包括将自己投射到未来的情境中，以创造对行动结果的期望。相比之下，依赖于纹状体的决策过程利用过去的经验将行为与价值联系起来。

蒙特利尔大学的科学家在为期四年的研究中展示了“纹状体和海马体中的灰质之间的反比关系”正如他们所说，“有大量证据支持这样的假设，即空间策略的使用与海马灰质和活动的增加有关，而反应策略的使用与纹状体灰质和活动的增加** …”**

海马启发的神经网络架构

最近，来自 DeepMind 的研究人员提出了一种预测地图理论，其灵感来自最近对海马体的神经科学研究以及他们对强化学习算法的了解。他们认为"预测映射理论可以转化为神经网络架构"

甚至比这更早，来自加拿大莱斯布里奇大学的研究人员在他们的论文(发表于 2016 年 12 月)中提出了这样的想法:“海马体中处理的关键特征支持一种灵活的基于模型的强化学习(MBRL)机制，用于空间导航**，这种机制在计算上是高效的，可以快速适应变化。”他们写道，“我们通过**实现一个计算 MBRL 框架来研究这一想法，该框架包含了受海马体计算属性启发的功能:空间的分层表示，“向前扫描”未来的空间轨迹，以及环境驱动的位置细胞的重新映射。我们发现，空间的分层抽象极大地减少了适应不断变化的环境条件所需的计算负载(脑力劳动),并允许高效地扩展到大型问题。它还允许在高水平上获得的抽象知识来指导对新障碍的适应。此外，上下文驱动的重新映射机制允许学习和记忆多个任务。”

世界模型的认知地图

现在发现海马体的作用远远超出了空间导航。“鉴于海马体对于通过认知地图**、进行空间导航至关重要，它的作用来自认知地图的关系组织和灵活性，而不是来自空间领域的选择性作用。相应地，海马网络映射出多种导航策略，以及其他强调关系组织的空间和非空间记忆和知识领域。这些观察表明海马系统并不致力于空间认知和导航，而是组织记忆中的经验，，空间映射和导航既是对关系记忆组织的隐喻，也是其突出应用。来自波士顿大学的 Howard Eichenbaum 于 2017 年 4 月在他的论文中写道。**

2017 年，巴黎大学认知神经成像部门的研究人员就该主题提供了一个更广泛的观点，称我们的大脑实施了“置信度加权学习算法，充当统计学家，使用概率信息来估计世界的层次模型****

逆向破解道德大脑

这个故事始于我对童话的兴趣。尤其令我着迷的是一项系统发育研究，该研究追溯了一些最受欢迎的现代童话故事的起源，可以追溯到青铜时代。民间传说和讲故事领域最杰出的研究人员写了许多书和文章，他们是:弗拉迪米尔·普罗普、克洛德·列维·斯特劳斯、杰克·齐普斯、杰罗姆·布鲁纳，这些书和文章让我相信，神奇的民间故事在人类的驯化过程中发挥了至关重要的作用。

大多数研究人员都同意童话对我们的大脑有潜移默化的影响这一点，尽管他们的研究同时集中在童话的显性语言上。例如，克洛德·列维·斯特劳斯建议童话可以在普通语言之上承载一种元语言**。杰罗姆·布鲁纳(Jerome Bruner)在强调一个好故事的影响的隐含本质时创造了术语、来驯服不确定性**

南加州大学神经科学家在 2017 年 9 月发表的研究显示，对英语、波斯语或普通话故事的分布式表示的识别发生在大脑中被称为默认模式网络的相同区域。那个网络包括海马**。研究结果表明,“叙事的神经语义编码发生在比个体语义单位更高的层次上，这种编码在个体和语言中都是系统的。”**

我们假设一个童话故事是一串密集的事件，具有随机变化的概率和可信度，它改变了学习的平衡，从依赖先前的知识转向探索新获得的信息。我们把童话故事中包含的隐性大脑编码叫做大脑刷新按钮**。它对语言或文化不敏感。它增强了人们独立运用理性的能力，而不管文化背景如何。**

耶鲁大学心理学教授保罗·布鲁姆和他的团队在研究婴儿道德时发现，人类大脑很可能有一套固定的基本(或幼稚)道德原则和道德情感**。天真的道德原则和情感需要根据现实生活和现代世界进行调整。正如布鲁姆教授所说，“在这个领域，先天能力、文化学习和个人理性实践之间存在着令人着迷的相互作用。”。**

我们相信，好的童话在校准天真的道德原则和情感中起着关键作用。除此之外，他们利用大脑刷新按钮来做到这一点。现在，我们正在制造工具，使好的童话故事的隐含代码恢复活力，因为我们周围的绝大多数故事都是坏的。它们已经被修改，只针对人类大脑中最大化自动反应短期回报的爬行动物部分。

意识可以被黑吗？

来自伯尔尼大学的研究人员在 2015 年提出了一个概念，即“海马是无意识和有意识记忆相互作用的地方。”

来自石勒苏益格-荷尔斯泰因大学医院和德国基尔大学的一组研究人员在 2011 年发表的一篇论文中宣布了他们的研究结果，这些研究结果提供了证据表明人类海马 CA1 神经元对于自传体 情景记忆的提取至关重要，并且它们对于自主意识也很重要。

未完待续…

机器学习:平衡模型性能和商业目标

原文：https://towardsdatascience.com/machine-learning-balancing-model-performance-with-business-goals-57eaa870ff66?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这篇文章旨在为评估使用机器学习解决您的业务问题提供一些指导。

作为一名数据科学家，我非常渴望找到“最佳”模型——我的预测有多接近完美？然而，更多的时候，我努力争取的增量是不必要的。我优先考虑的成功标准并不总是业务优化的量化指标。

例如，如果我告诉你我的一个客户实现了一个准确率为 64.2%的模型，你可能会大吃一惊。然而，他们认为没有必要及时投资来改进模型。事实上，它有助于取代耗费数周时间的以手工为主(且不受欢迎)的工作流程。新的解决方案只花了几天时间，让团队有时间去做他们喜欢的更具挑战性的任务。

这篇文章将讨论评估机器学习模型的商业考虑。此外，它还提供了回归问题(预测数值)、分类问题(预测项目的类别)和建议的示例。

基线

基线是一个度量标准，表明您今天解决问题的成功程度。使用任何新解决方案的目标——无论是否有机器学习——都应该是改善这一点。

让我们考虑一下我上面提到的客户的情况…

例如:目前，员工手动完成这项任务需要 X 个小时，花费$Y。他们往往有 Z%的时间是正确的，但发现这项任务令人沮丧。

我们有三个可量化的指标:时间、成本和准确性。还有一个定性点表明当前的解决方案不受员工欢迎；在某些情况下，您甚至可能希望为此捕获一个可量化的指标。

目标:创建一个解决方案，将这项任务从员工身上移除，让他们可以做自己喜欢的工作，提高员工满意度，同时节省时间和金钱。

如上所述，企业认为模型准确性不如删除不必要的工作负载和节省时间重要。

因此，要理解一个模型是否适合生产，您需要考虑和平衡多个指标。我考虑的三个主要因素是:

1。性能

这表明解决方案在预测正确结果方面有多好。

衡量标准本身因问题的类型而异。无论为机器学习模型选择哪一个，都应该用于计算性能基线。

2。时间

这是完成任务所需的持续时间。

对于基线，这是在没有机器学习模型的情况下需要多长时间；无论是使用替代软件解决方案还是手动方式。

3。钱

这是任务的货币影响。

对于基线，这可能与完成任务的成本或当前解决方案的销售额有关。

作为一名数据科学家，我经常非常关注性能，因为这是我可以控制的。然而，为了让我的模型用于生产，评估和交流这些其他量词是很重要的。然后，利益相关者可以做出明智的决定，决定是否继续我所构建的内容。

示例场景

回归——预测房价

假设我们拥有一家房地产代理公司。该公司有很多股票，并希望探索机器学习是否可以帮助决定每栋房子的要价。

目前，一个人会阅读关于房产的文件，并根据该地区最近出售的其他类似房屋，对房子的价值做出明智的决定。然后，他们将根据自己的经验决定报价。

我们决定专注于建立一个预测房子价值的模型。然后，代理可以使用该模型的预测来决定合适的报价。

我们希望该模型能够发现与价格相关的特征的趋势和模式。然而，我们仍然意识到，它可能会错过人类可以捕捉到的细微差别，例如，财产的状况，这就是为什么在这种情况下，我们希望他们做出最终决定。

表演

基线——代理商之前的预测与销售价格有多接近？

度量——平均绝对误差(MAE)、均方根误差(RMSE)

我们应该计算当前的性能值——一个代理平均做出一个好的预测的能力——并与我们最好的模型的性能进行比较。

时间

基线—代理进行预测需要多长时间？

如果这对于我们的代理人来说是一项耗时的任务，并且使用机器学习模型可以使其明显更快，那么仅此一点就可以证明推进我们的模型是正确的。

钱

基线—公司让代理人为房屋定价需要多少成本？错了要付出多大代价？

最终，该机构希望赚最多的钱。如果投资机器学习模型会让公司付出成本，他们需要了解他们将在哪里省钱，或者他们可能在哪里赚钱。

分类—预测欺诈性银行活动

假设我们是一家社区银行，想要探索更好地防止欺诈活动的方法。

目前，我们有简单的规则来标记“可疑”交易，例如:超过特定的阈值金额，或在州外购买。对于每一笔被标记的交易，员工都要检查账户所有人的档案和以前的交易，以便更好地了解这是否不合常规。然后，他们运用自己的最佳判断，要么允许交易，要么在认为这是欺诈时采取适当的行动。

我们希望建立一个预测模型来更好地识别欺诈。该模型应减少我们的员工审查非欺诈交易的次数，同时确保我们捕捉到欺诈交易。

和前面的例子一样，我们仍然需要决定如何在生产中使用这个模型。一种选择是让员工参与进来，让他们仍然评估个人资料，但确保他们有更少的内容需要审查。或者，我们相信模型会直接进入流程的下一步:打电话给客户，验证交易是他们的。这是一个需要由企业做出的决定，但以下指标也可以帮助指导这一决定。

性能

基线—标记为可疑的交易中有多大比例实际上是欺诈？有多少交易实际上是欺诈性的？

指标——准确度、精确度、召回率、F1 分数

了解当今欺诈活动的识别能力，使我们能够与任何已建立的模型进行比较。企业应该评估可用的指标，并决定哪一个对他们最重要——准确性是最直观的，但不一定是最适合每个问题的。

时间

基线—从交易发生到银行代理将其识别为欺诈之间有多长时间？代理人向客户确认交易是否有效需要多长时间？

可能有机会使用模型来最大限度地减少代理处理此任务的时间。然而，推迟释放资金也可能产生后果。

钱

基线——银行让欺诈交易通过需要多少成本？反过来说，跟进一个客户以确认他们的交易需要多少钱？

欺诈显然会耗费企业的资金，但在每笔交易都与客户澄清之前，阻止释放资金是不可行的。了解这些相关成本可以让您做出适当的商业决策。

机器学习—基础知识

原文：https://towardsdatascience.com/machine-learning-basics-part-1-a36d38c7916?source=collection_archive---------0-----------------------

机器学习领域的基础理论

本文介绍了机器学习理论的基础，奠定了所涉及的常见概念和技术。这篇文章是为刚开始学习机器的人准备的，让他们很容易理解核心概念，并熟悉机器学习的基础知识。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source

什么是机器学习？

1959 年，人工智能研究的先驱、计算机科学家亚瑟·塞缪尔(Arthur Samuel)将机器学习描述为“在没有明确编程的情况下赋予计算机学习能力的研究。”

艾伦·图灵的开创性论文(图灵， 1950 年)介绍了一个展示机器智能的基准标准，即机器必须具有智能和响应能力，其方式不能与人类有所不同。

机器学习是人工智能的一种应用，其中计算机/机器从过去的经验(输入数据)中学习，并做出未来的预测。这样一个系统的性能至少应该是人的水平。

Tom m . Mitchell(1997)给出了一个更具技术性的定义:“如果一个计算机程序在 T 类任务中的性能(如 P 所测量的)随着经验 E 而提高，那么就可以说它从经验 E 中学习了一些任务 T 和性能测量 P。”例如:

**A handwriting recognition learning problem:****Task T**: recognizing and classifying handwritten words within images
**Performance measure P**: percent of words correctly classified, accuracy
**Training experience E**: a data-set of handwritten words with given classifications

为了执行任务 T，系统从所提供的数据集进行学习。数据集是许多例子的集合。一个例子是特征的集合。

机器学习类别

机器学习通常分为三种类型:监督学习、非监督学习、强化学习

监督学习:

在监督学习中，机器会经历这些例子以及每个例子的标签或目标。数据中的标签有助于算法关联特征。

两个最常见的监督机器学习任务是分类和回归。

In **classification** problems the machine must learn to predict discrete values. That is, the machine must predict the most probable category, class, or label for new examples. Applications of classification include predicting whether a stock's price will rise or fall, or deciding if a news article belongs to the politics or leisure section. In **regression** problems the machine must predict the value of a continuous response variable. Examples of regression problems include predicting the sales for a new product, or the salary for a job based on its description.

无监督学习:

当我们有未分类和未标记的数据时，系统试图从数据中发现模式。这些示例没有给出标签或目标。一个常见的任务是将相似的例子组合在一起，称为聚类。

强化学习:

强化学习是指面向目标的算法，它学习如何在许多步骤中实现复杂的目标或沿着特定的维度最大化。这种方法允许机器和软件代理自动确定特定上下文中的理想行为，以便最大化其性能。代理人需要简单的奖励反馈来学习哪一个动作是最好的；这就是所谓的强化信号。例如，在一场游戏中，通过多次移动来最大化赢得的点数。

监督机器学习技术

回归是一种技术，用于从一个或多个预测变量(自变量)预测响应变量(因变量)的值。

最常用的回归技术有:线性回归和逻辑回归。我们将讨论这两种突出技术背后的理论，同时解释机器学习中涉及的许多其他关键概念，如Gradient-descent算法、Over-fit/Under-fit、Error analysis、Regularization、Hyper-parameters、Cross-validation技术。

线性回归

在线性回归问题中，目标是从给定的模式*X*中预测实值变量*y* 。在线性回归的情况下，输出是输入的线性函数。假设*ŷ*是我们的模型预测的输出:*ŷ* = *WX*+*b*

这里*X*是向量(示例的特征)，*W*是确定每个特征如何影响预测的权重(参数的向量)，*b*是偏差项。因此，我们的任务*T*是从*X*预测*y*，现在我们需要测量性能*P*以了解模型的表现如何。

现在来计算模型的性能，我们首先计算每个例子*i*的误差为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们采用误差的绝对值来考虑误差的正值和负值。

最后，我们计算所有记录的绝对误差的平均值(所有绝对误差的平均和)。

平均绝对误差(MAE) =所有绝对误差的平均值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更流行的测量模型性能的方法是使用

均方误差(MSE) :预测值与实际观测值的平方差的平均值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

平均值被减半(1/2 ),以便于计算梯度下降(稍后讨论),因为平方函数的导数项将抵消 1/2 项。有关 MAE 与 MSE 的更多讨论，请参考[1]和[2]。

训练 ML 算法的主要目的是调整权重*W*以减少 MAE 或 MSE。

为了最小化误差，模型在经历训练集的例子时，更新模型参数*W*。这些根据*W*绘制的误差计算也被称为成本函数 *J(w)*，因为它决定了模型的成本/惩罚。因此最小化误差也被称为最小化成本函数 j。

梯度下降算法:

当我们绘制成本函数*J(w) vs w*时。它表示如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从曲线中我们可以看出，存在一个参数值*W*，它具有最小的成本*Jmin*。现在我们需要找到一种方法来达到这个最低成本。

在梯度下降算法中，我们从随机模型参数开始，计算每次学习迭代的误差，不断更新模型参数，以更接近产生最小成本的值。

重复直到最小成本:{

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

}

在上面的等式中，我们在每次迭代后更新模型参数。方程的第二项计算每次迭代时曲线的斜率或梯度。

成本函数的梯度被计算为成本函数*J* 相对于每个模型参数*wj* ， *j*取特征数量[1 to n]的值。*α*， alpha ，是学习率，或者说我们想要多快地向最小值移动。如果*α*太大，我们可以超调。如果*α*太小，意味着学习的步骤很小，因此模型观察所有示例所花费的总时间会更多。

梯度下降有三种方式:

**批量梯度下降:**使用所有的训练实例来更新每次迭代中的模型参数。

**小批量梯度下降:**小批量梯度下降不是使用所有的例子，而是将训练集分成更小的称为“b”的批量。因此，小批量“b”用于在每次迭代中更新模型参数。

随机梯度下降(SGD): 在每次迭代中仅使用单个训练实例更新参数。训练实例通常是随机选择的。当有成千上万或更多的训练实例时，随机梯度下降通常是优化成本函数的首选，因为它比批量梯度下降收敛得更快[3]。

逻辑回归

在某些问题中，响应变量不是正态分布的。例如，抛硬币会有两种结果:正面或反面。伯努利分布描述了随机变量的概率分布，该随机变量可以采用概率为*P*的正情况或概率为*1-P*的负情况。如果响应变量代表一个概率，它必须被限制在{0,1}的范围内。

在逻辑回归中，响应变量描述了结果是正面情况的概率。如果响应变量等于或超过判别阈值，则预测阳性类别；否则，预测负类。

使用逻辑函数将响应变量建模为输入变量的线性组合的函数。

由于我们的假设*ŷ*必须满足0 ≤ *ŷ* ≤ 1，这可以通过插入逻辑函数或“Sigmoid 函数”来实现

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

函数*g(z)*将任何实数映射到(0, 1)区间，这对于将任意值函数转换为更适合分类的函数非常有用。以下是范围{-6,6}内 sigmoid 函数值的曲线图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在回到我们的逻辑回归问题，让我们假设*z*是单个解释变量*x*的线性函数。我们可以将*z*表达如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

逻辑函数现在可以写成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意*g(x)*解释为因变量的概率。
*g(x) = 0.7*，给我们 70%的概率，我们的输出是 1。我们预测为 0 的概率正好是我们预测为 1 的概率的补充(例如，如果预测为 1 的概率是 70%，那么预测为 0 的概率是 30%)。

sigmoid 函数‘g’的输入不需要是线性函数。它可以是圆形或任何形状。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

价值函数

我们不能使用用于线性回归的相同成本函数，因为 Sigmoid 函数将导致输出波动，从而导致许多局部最优。换句话说，它不会是凸函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Non-convex cost function

为了确保成本函数是凸的(并因此确保收敛到全局最小值)，使用 sigmoid 函数的对数来变换成本函数。逻辑回归的成本函数如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以写成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以逻辑回归的成本函数是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于成本函数是凸函数，我们可以运行梯度下降算法来找到最小成本。

装配不足和过度装配

我们试图通过增加或减少模型容量来使机器学习算法适应输入数据。在线性回归问题中，我们增加或减少多项式的次数。

考虑从*x ∈ R*预测*y*的问题。下面最左边的图显示了将一条线拟合到一个数据集的结果。由于数据不在一条直线上，所以拟合不是很好(左图)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了增加模型容量，我们通过添加术语*x²*来添加另一个特性。这产生了更好的拟合(中间的数字)。但是如果我们继续这样做(*x⁵*，5 阶多项式，图在右边)，我们可能能够更好地拟合数据，但是对于新数据将不能很好地概括。第一个数字表示欠拟合，最后一个数字表示过拟合。

欠拟合:

当模型具有较少的特征，因此不能很好地从数据中学习时。这个模型有很高的偏差。

过度装配:

当模型具有复杂的函数，因此能够很好地拟合数据，但不能进行归纳以预测新数据时。这个模型有很高的方差。

有三个主要选项来解决过度拟合问题:

**减少特征数量:**手动选择保留哪些特征。这样做，我们可能会错过一些重要的信息，如果我们扔掉一些功能。
**正则化:**保留所有特征，但减少权重 w 的大小。当我们有许多稍微有用的特征时，正则化工作得很好。
**提前停止:**当我们迭代地训练一个学习算法时，比如使用梯度下降，我们可以测量模型的每次迭代执行得有多好。达到一定的迭代次数后，每次迭代都会改进模型。然而，在这一点之后，模型的概括能力会减弱，因为它开始过度拟合训练数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正规化

通过向误差函数添加惩罚项，正则化可以应用于线性和逻辑回归，以阻止系数或权重达到大值。

正则化线性回归

最简单的这种罚项采取所有系数的平方和的形式，导致修正的线性回归误差函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中λ是我们的正则化参数。

现在为了使误差最小化，我们使用梯度下降算法。我们不断更新模型参数，以更接近产生最小成本的值。

重复直到收敛(使用正则化):{

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

}

通过一些操作，上述等式也可以表示为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上述等式中的第一项，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将始终小于 1。直观上，你可以看到每次更新时，系数的值都会减少一些。

正则化逻辑回归

正则化逻辑回归的成本函数为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重复直到收敛(使用正则化):{

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

}

L1 和 L2 正规化

前面方程中使用的正则项称为 L2 正则化或岭正则化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

L2 罚旨在最小化权重的平方。

还有一种称为 L1 或拉索的正则化:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

L1 罚旨在最小化权重的绝对值

L1 和 L2 的区别
L2 以相同的比例缩小所有系数，但不消除任何系数，而 L1 可以将一些系数缩小到零，从而执行特征选择。欲了解更多详情，请阅读本。

超参数

超参数是描述关于模型的结构信息的“高级”参数，该结构信息必须在拟合模型参数之前决定，到目前为止我们讨论的超参数的例子有:
学习率α，正则化λ。

交叉验证

选择超参数最优值的过程称为模型选择。如果我们在模型选择过程中反复使用相同的测试数据集，它将成为我们训练数据的一部分，因此模型更有可能过度拟合。

整个数据集分为:

训练数据集
验证数据集
测试数据集。

训练集用于拟合不同的模型，然后验证集的性能用于模型选择。在训练和模型选择步骤中保留模型之前未见过的测试集的优点是，我们避免了过度拟合模型，并且模型能够更好地推广到未见过的数据。

然而，在许多应用中，用于训练和测试的数据供应将是有限的，并且为了建立良好的模型，我们希望使用尽可能多的可用数据来进行训练。然而，如果验证集很小，它将给出预测性能的相对嘈杂的估计。解决这个难题的一个方法是使用交叉验证，如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下面的交叉验证步骤是从到这里的进行的，在这里添加是为了完整。

逐步交叉验证:

使用 K-fold 交叉验证选择超参数的步骤如下:

将你的训练数据分成 K = 4 等份，或者“折叠”
选择一组您希望优化的超参数。
使用前 3 个折叠的超参数集训练您的模型。
在第四次折叠时评估它，或“保持”折叠。
用相同的超参数集重复步骤(3)和(4) K (4)次，每次保持不同的折叠。
汇总所有 4 次折叠的性能。这是一组超参数的性能指标。
对您希望考虑的所有超参数集重复步骤(2)至(6)。

交叉验证允许我们仅用我们的训练集来调整超参数。这使得我们可以将测试集作为真正不可见的数据集来选择最终模型。

结论

我们已经涵盖了机器学习领域的一些关键概念，从机器学习的定义开始，然后涵盖了不同类型的机器学习技术。我们讨论了最常见的回归技术(线性和逻辑)背后的理论，并讨论了机器学习的其他关键概念。

感谢阅读。

参考

[1]https://medium . com/human-in-a-machine-world/Mae-and-RMSE-metric-is-better-e 60 AC 3 bde 13d

[2]https://towardsdatascience . com/ml-notes-why-the-least-square-error-BF 27 FDD 9 a 721

[3]https://towards data science . com/gradient-descent-algorithm-and-its-variants-10f 652806 a3

[4]https://elitedata science . com/machine-learning-iteration # micro

机器学习基础—第 1 部分—回归的概念

原文：https://towardsdatascience.com/machine-learning-basics-part-1-concept-of-regression-31982e8d8ced?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Andre Benz on Unsplash — https://unsplash.com/photos/cXU6tNxhub0

在这篇文章中，我重温了 Andre Ng 在 coursera 上的《神奇的机器学习课程》中的学习材料，并对这些概念做了一个概述。除非另有明确说明，否则所有引用都是指本课程的材料。

定义

如果计算机程序在 T 中的任务上的性能(如 P 所测量的)随着经验 E 而提高，则称该程序从关于某类任务 T 和性能测量 P 的经验 E 中学习。—汤姆·米切尔

一元线性回归

模型表示

线性回归试图将点拟合到由算法生成的直线上。该优化线(模型)能够预测某些输入值的值，并且可以绘制出来。

价值函数

我们希望设置参数，以实现预测值和实际值之间的最小差异。

我们可以通过使用成本函数来衡量假设函数的准确性。这是假设的所有结果与 x 的输入和 y 的实际输出的平均差(实际上是一个更好的平均版本)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

梯度下降

梯度下降不断改变参数以逐渐降低成本函数。随着每一次迭代，我们将更接近最小值。每次迭代时，参数必须同时调整！“步长”/迭代的大小由参数α(学习速率)决定。

我们这样做的方法是对成本函数求导(函数的切线)。切线的斜率是该点的导数，它会给我们一个前进的方向。我们沿着下降速度最快的方向逐步降低成本函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

选择α的值至关重要。如果它太小，算法将很慢，如果它太大，它将无法收敛。

当具体应用于线性回归的情况时，可以导出新形式的梯度下降方程，其中 m 是训练集的大小。同样，两个参数必须同时更新。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注意，虽然梯度下降通常易受局部极小值的影响，但我们在此提出的线性回归优化问题只有一个全局最优值，没有其他局部最优值；因此梯度下降总是收敛(假设学习率α不太大)到全局最小值。

多元线性回归

现在，我们有多个特征/变量，而不是一个特征/变量负责某个结果。

因此，假设相应地改变，并考虑多个参数。这同样适用于梯度下降。它只是附加参数的扩展，这些参数必须更新。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特征缩放和均值归一化

要确保所有的要素值都在相同的范围内并具有相同的平均值，有必要使用要素缩放和平均值归一化。

特征缩放包括将输入值除以输入变量的范围(即最大值减去最小值)，从而得到一个仅为 1 的新范围。均值归一化包括从某个输入变量的值中减去该输入变量的平均值，从而得出该输入变量的新平均值正好为零。

学习率

为了选择一个合适的学习率，必须绘制梯度下降图并进行“调试”。

在 x 轴上绘制迭代次数的曲线图。现在绘制梯度下降迭代次数的成本函数 J(θ)。如果 J(θ)增加，那么你可能需要减少α。

如果 J(0)在迭代步骤中停止显著下降，则可以宣布收敛。

多项式回归

可以通过将假设函数重新定义为二次、三次或平方根函数来改善特征。

在这种情况下，必须特别强调特征缩放！

正规方程(用于分析计算)

法线方程将导数设置为零，而不是使用梯度下降来逐渐最小化成本函数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正规方程不需要学习率α，根本不需要迭代，但需要设计矩阵的转置。当您有大量的要素(例如 10000)时，计算将比梯度下降的迭代过程花费更长的时间。为了提高法方程算法的质量，应该正则化特征并删除冗余特征。

逻辑回归

分类

为了对数据进行分类，结果应该是 0 或 1(二进制分类)。从回归的角度来看，这可能意味着将大于等于 0.5 的输出分类为 1，将小于 0.5 的输出分类为 0(而 0.5 是决策界限)。

使用 logistic/sigmoid 函数，修改后的假设现在是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它返回输出为 1 的概率！

适应的成本函数和梯度下降

由于使用了 sigmoid 函数，因此必须通过使用对数来相应地调整成本函数。因为现在的目标不是最小化与预测值的距离，而是最小化假设的输出与 y (0 或 1)之间的距离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或者对于矢量化实现:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而，梯度下降保持不变，因为公式使用了假设的导数部分！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或者对于矢量化实现:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

梯度下降的替代方案

更复杂的优化算法，如

共轭梯度，
BFGS 或
左旋 BFGS

通常允许更快的计算，而不需要选择学习速率α。

多类分类

先前描述的分类问题解决仅适用于二元分类。具有多于 n=2 的可能结果称为多类分类。为了在多个类别上应用该概念，使用了“一个对所有”方法，其本质上是在每个类别上应用二元分类(一个类别是正面的，所有其余的是负面的)。不是将 y 设置为 0 或 1，而是将 y 设置为 I，这本身是针对所有其他类进行测试的。基本上这个过程是双重的:

将逻辑分类器设置为 y。(如果 y 是 3，我们创建 3 个分类器)
针对所有分类器测试新输入，并选择概率最高的分类器。

过拟合问题和正则化的使用

在过度拟合的情况下，模型完美地捕获了数据结构，而在欠拟合的情况下，模型没有捕获足够的数据结构(即模型的图形几乎不接触所有的数据点)。

为了解决过度拟合的问题，可以减少特征或者调整它们的值的大小。

正规化

为了正则化模型，必须将参数(λ)添加到成本函数中。它减小或增大了参数θ。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，将其应用于逻辑回归看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意正则化参数如何从 1 开始，而不是正则化偏置项θ0。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就结束了第一部分。在下一篇中，将描述神经网络。敬请期待！

关于

丹尼尔是一名企业家、软件开发人员和商业法毕业生。他曾在各种 IT 公司、税务咨询、管理咨询和奥地利法院工作。

他的知识和兴趣目前围绕着编程机器学习应用程序及其所有相关方面。从本质上说，他认为自己是复杂环境的问题解决者，这在他的各种项目中都有所体现。

如果您有想法、项目或问题，请不要犹豫与我们联系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可以在 https://www.buymeacoffee.com/createdd上支持我

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

连接到:

机器学习基础—第 2 部分—神经网络的概念以及如何调试学习算法

原文：https://towardsdatascience.com/machine-learning-basics-part-2-concept-of-neural-networks-and-how-to-debug-a-learning-algorithm-8a5af671d535?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Matteo Catanese on Unsplash — https://unsplash.com/photos/PI8Hk-3ZcCU

在这篇文章中，我重温了 Andre Ng 在 coursera 上的惊人的机器学习课程的学习材料，并创建了一个概念概述。除非另有明确说明，否则所有引用都是指本课程的材料。

神经网络模型表示

对于神经网络，我们从探索统计回归中获得发现，并试图将其放入类脑架构中。

所使用的术语略有变化，因为逻辑函数通常被称为 sigmoid 激活函数，而θ参数被称为权重。基本概念保持不变。代替偏置项θ0，现在使用值为 1 的偏置单位。

神经网络架构由至少 3 层组成。即

输入，
隐藏的，
输出

层。(尽管许多神经网络有不止一个隐藏层)

在激活单元中，重新计算和重新测量前一层中每个单元的加权输入。你可以说，神经网络基本上可以通过越来越多的高级输入多次实现统计回归的概念。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然，这个概念也可以通过矢量化来应用。因此，我们使用一个新的变量，它包含了 g 函数中的权重参数，作为一个激活单元。这里跟踪和可视化矩阵的维度非常重要，因为它会很快变得非常复杂(取决于你的神经网络结构)。

看看这篇令人难以置信的文章，它用漂亮的图片很好地解释了这个概念。

一个很好的介绍例子是异或问题。这篇文章解释的很好。

神经网络中的成本函数

对于要在神经网络中使用的逻辑回归，成本函数必须被扩展以保持输出单位 K，并且正则化部分需要层数、当前层中的节点数(加上偏置项)和下一层中的节点数，以正确地定位θ值。

逻辑回归的成本函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

神经网络中逻辑回归的成本函数；

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

反向传播

“反向传播”是神经网络术语，用于最小化我们的成本函数，就像我们在逻辑和线性回归中使用梯度下降一样。

前向传播(节点的激活)接收前一层中每个节点的θ参数，而反向传播基本上相反。通过将激活节点的输出与该节点的计算输出进行比较来计算每个节点的误差。之后，通过调整所使用的参数θ，该误差逐渐最小化。

计算误差的公式为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

展开参数

因为一些更高级的算法需要计算的矢量化版本。将矩阵展开成向量是计算成本函数、获取计算参数的向量并将结果重新成形为矩阵的一种很好的方式。

梯度检查

为了确保你的反向传播按预期工作，你应该检查你的梯度。这是通过用下面的公式计算θ的近似值来完成的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果结果类似于梯度向量，则实现工作正常。

随机初始化

为了在神经网络中使用梯度下降，θ的初始值不能是对称的，必须随机初始化。使用对称初始化总是导致相同的学习结果，因为没有提供多样性。

训练神经网络的清单

随机初始化权重
实现前向传播以获得假设
计算成本函数以获得误差
实施反向传播以计算偏导数(通过误差优化参数)
应用梯度检查(将反向传播与数值估计进行比较)
禁用渐变检查
使用优化方法最小化具有相应参数的成本函数

调试学习算法

有时候学习的算法会产生很大的误差。以下策略有助于您进行调试。

评估假设

你总是可以采取的第一步是获得更多的测试数据，增加或减少特性或你的正则化λ。

之后，将数据分成一个训练集(_{70%)和一个测试集(}30%)。这种技术给你即时反馈，告诉你你的假设执行的有多好。

型号选择

仅仅因为一个学习算法非常适合一个训练集，并不意味着它是一个好的假设。它可能会过度拟合，结果你对测试集的预测会很差。在用于训练参数的数据集上测量的假设误差将低于任何其他数据集上的误差。

给定许多具有不同多项式次数的模型，我们可以使用系统的方法来确定“最佳”函数。为了选择你的假设的模型，你可以测试多项式的每一次，看看误差结果。

因此，数据可以分为 3 组:

训练集
交叉验证集
测试装置

这允许我们 1。计算最佳参数，2。应用于不同的多项式模型，找出误差最小的一个，3。估计最佳模型的一般误差。

偏差和方差

偏差与方差问题描述了假设对数据集拟合不足或拟合过度的问题。高偏差会使数据欠拟合，而高方差会使数据过拟合。

对于诊断，可以比较各组的误差。如果交叉验证和测试集的误差很大，则假设存在很大的偏差。如果交叉验证集显示比训练集高得多的误差，则问题很可能是方差问题。

这些问题可以使用不同的正则化λ参数来解决。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请记住，值为 1 的λ等于完全有偏的假设(欠拟合)，而值为 0 的λ本质上是高方差假设(过拟合)。

为了在实践中应用这一点，创建一个 lambdas 列表(例如，0，0.01，0.02，0.04，0.08，0.16，0.32，0.64，1.28，2.56，5.12，10.24)是有用的，并且当在训练集中的不同多项式模型上工作时提供它们，并且挑选具有最小误差的一个。需要注意的是，在计算交叉验证的误差时，不要再次使用正则化，因为它会扭曲结果。

学习曲线和集合的大小

随着集合大小的增加，误差将增加，直到某一点达到稳定。

如果算法受到高偏差的困扰，那么获得更多的数据将不会有所帮助，因为它已经不足。然而，如果问题是一个具有高方差的过拟合问题，获得更多的数据可能会改进算法。

摘要

高偏差可以通过以下方式解决

添加功能
添加多项式要素
减小正则化参数λ

高差异可以通过以下方式解决

获取更多培训数据
减少特征
增加正则化参数λ

实际上，我们希望选择一个介于两者之间的模型，既能很好地概括，又能合理地拟合数据。

设计机器学习系统

人们必须问自己的重要问题:

马赫数据应该如何收集？
如何开发复杂的功能？什么特征实际上对目标起作用？
如何开发有助于减少误解的算法？

设计机器学习系统的推荐方法是

从一个简单的算法开始，在交叉验证数据上进行测试
绘制学习曲线，对下一步要改进的地方做出正确的决定
手动检查错误，看看是什么类型的错误，以及如何改进以避免这些错误

倾斜类和分类

当一个类在数据集中出现过多时，就会出现偏斜类。

要测试您的数据是否存在此问题，请实施精度和召回测试。您实际上是在测试所有预测阳性(精度)的真阳性，并将其与所有实际阳性的真阳性进行比较。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据分类问题的目标，衡量精度和召回率的方式会有所不同。当假设返回 0 或 1 之间的概率时，设定的边界阈值决定是否将结果分类为正面或负面。

往往起点是 0.5，即。低于 0.5 的一切都被归类为负面。根据您是希望非常自信地预测，还是希望避免错过许多情况，测试 0 和 1 的不同值(例如 0.3、0.5、0.7、0.9)并比较结果算法是有意义的。因为您将有 2 个值(一个用于精度，一个用于召回)，所以可以随后使用 F-Score 公式计算所需的阈值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

高准确度

为了获得尽可能高的精度，最好使用尽可能多的有用(！)数据(低方差)，但也要有一个具有许多特征或参数的算法(低偏差)。

这就结束了第二部分。下一篇将介绍支持向量机和无监督学习。敬请期待！

关于

丹尼尔是一名企业家、软件开发人员和商业法毕业生。他曾在各种 IT 公司、税务咨询、管理咨询和奥地利法院工作。

如果您有想法、项目或问题，请不要犹豫与我们联系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可以在 https://www.buymeacoffee.com/createdd 支持我

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

连接到:

机器学习基础—第 3 部分—向量机、无监督学习和主成分分析

原文：https://towardsdatascience.com/machine-learning-basics-part-3-vector-machines-unsupervised-learning-and-principal-component-5b51aac6dd0c?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Anders Jildén on Unsplash — https://unsplash.com/photos/cYrMQA7a3Wc

在这篇文章中，我重温了 Andre Ng 在 Coursera 上的《神奇的机器学习课程》中的学习材料，并对这些概念做了一个概述。这篇文章的目的不是作为一个教程，而是更新基本思想。

除非另有明确说明，否则所有引用都是指本课程的材料。

支持向量机

数学定义

不是像我们在原始成本函数中那样用λ正则化第二项:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，我们希望用参数 C 正则化第一项，并为转置θ添加新的成本函数(成本 1 和成本 0 ):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绘制成本 1 和成本 0 函数看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，如果我们想要一个结果 y = 1，转置 X 必须大于 1，如果 y = 0，转置 X 必须小于-1。

本质上，我们只是简化了成本函数，以便在后续步骤中使用几何图形。

大间距分类器

对于可线性分离的数据，SVM 算法会选择具有最大间隔的线来分离这些类。

使用微积分，参数的长度可以很容易地从初始公式中检索出来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

By Martin Thoma — Own work, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=20159892

基本上，向量 X 的投影乘以参数θ的长度，并优化为最大值/最小值。这导致总是返回一条线，看起来将两个类平均分开。

请注意，为了忽略异常值，降低 C 值(正则化)会有所帮助。

核

由于多项式特征的计算代价很高，所以通常的做法是引入内核。为此，计算依赖于特征和实例的相似性的新特征。这就像把地标放在地块上，用高斯核公式计算相似度。如果相似度为 1，则训练示例接近所挑选的地标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对参数σ的值的选择确定了相似性的边界。

引入地标相似性系统允许对非线性数据进行分类。

如何选择地标

为了计算界标，我们将成本函数调整为如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请记住，对于正则化部分，应该使用 m(训练示例)而不是 n(特征数量)。这是有意义的，因为我们想要计算与示例相关的界标。

还要注意，您也可以在逻辑回归上实现核的概念，但是 SVM 的数学优势不能被正确利用，并且实现可能会更慢。

内核的另一个术语是“相似性函数”。

SVM 参数

为了解决过拟合和欠拟合问题，可以使用参数λ(单位为 C)和σ。

增加 C(本质上是最小化λ)或减小σ平方可以改善欠拟合(高 C 导致更高的方差)。

实践技巧以及如何选择正确的系统

使用 SVM 软件包，而不是尝试编写自己的 SVM 计算
最常见的核函数是线性核(不使用核)或高斯核
还有其他的内核，但是要检查它们是否能够满足“默瑟定理”
如果 n 远大于 m，使用逻辑回归或线性核的 SVM
如果 n 在 m 的适当范围内，则使用高斯核
如果 n 小于 m，则使用具有线性核的逻辑回归或 SVM，或者添加更多特征
神经网络对所有这些设置都很有效，但训练起来可能会比较慢

聚类和无监督学习

在一个监督学习问题中，给定一组标签来拟合一个假设。相比之下，在无监督学习问题中，我们得到的数据没有任何与之相关的标签。

该算法的目标是在数据集中找到结构(聚类)。

k-均值算法

简单地说，这个算法是:

随机初始化“质心”(数据中间的标记)
将最接近数据点的数据点分配给每个质心
将质心移动到数据点的中心(平均值)
重复前面的 2 个步骤，直到簇中没有变化

优化目标

成本函数试图最小化示例点和相应聚类质心位置之间的平方距离的平均值，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了避免局部最优，应多次执行以下步骤:

随机初始化 K-均值
运行 K-means 算法来获得分类的索引和分类质心
计算成本函数

为了选择簇的数量 k，可以使用“肘形方法”，该方法将成本函数绘制成簇的数量，并且在曲线显示“肘形”的地方使用该数量。然而，由于这种方法可能难以在某些图表上使用，另一种方法是根据后续/下游目的(如所需的产品尺寸——小、中、大)简单地选择数字。

降维和主成分分析

通过数据压缩将数据从多维减少到二维或三维，可以绘制数据并提供有价值的额外见解。简单地减少数据可以加快学习算法的运行时间，并减少存储所需的空间。

主成分分析

最常见的算法是主成分分析。其背后的思想是通过寻找将数据投影到其上的方向(向量)来减少维度，以最小化投影误差。绘制时，该算法可能看起来类似于线性回归模型。然而，重要的是要注意，在线性回归中，变量 y 由变量 x 预测，而在 PCA 中，不同的变量 x 被同等对待。

要实现 PCA 算法，通常需要

执行均值归一化和特征缩放
使用以下公式计算协方差矩阵(sigma)
对 sigma 使用奇异值分解(svd)
将得到的 U 矩阵的前 k 列的转置与应该减少的特征向量 x 相乘，并返回得到的 z 特征向量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了解压缩数据并利用这一概念的真正力量，可以通过简单地将 U 矩阵再次乘以 z 向量来重构(近似)原始数据。

为了选择变量 k(主成分的数量),可以使用下面的公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个想法是将平均平方投影误差(我们试图将其最小化)除以数据的总变化。

实际的实现是在 k = 1 的情况下尝试 PCA 算法，并测试保留方差的条件是否满足，如果不满足，则应该继续增加 k 的过程。或者取 S 矩阵，它是通过对 sigma 使用奇异值分解并对其进行如下测试而得到的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(本质上相当于前面的公式)

实用技巧

要加速监督学习案例，您应该

仅提取输入(如果为您提供了一个已标记的训练集，则需要一个未标记的训练集)
执行 PCA 算法
通过用新的输入 z 替换先前的 x 来创建新的训练集
用新的数据集训练你的算法

请注意，PCA 应该只用于训练集，而不是交叉验证或测试集。之后，从 x 到 z 的映射结果也可以应用于交叉验证和测试集。

当你的模型有过度拟合的问题时，注意不要使用 PCA。虽然减少特征有助于解决问题，但是 PCA 的概念在不知道 y 值的情况下丢弃了一些信息。这可能导致不好的结果。不如用正则化来代替。

最后，总是尝试用原始数据来训练你的算法。只有在正常的机器学习架构不充分的情况下，才应该应用 PCA！

这就结束了第三部分。在下一篇文章中，将描述异常检测、推荐系统和扩展问题。敬请期待！

关于

我认为自己是一个解决问题的人。我的强项是在复杂的环境中导航，提供解决方案并分解它们。我的知识和兴趣围绕商业法和编程机器学习应用发展。我在构建数据分析和评估业务相关概念方面提供服务。

连接到: