TowardsDataScience 博客中文翻译 2020（八百六十一）_大半年没工作面试怎么说-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

如何使用贝叶斯网络调整建模的超参数？

原文：https://towardsdatascience.com/the-hyperparameter-tuning-problem-in-bayesian-networks-1371590f470?source=collection_archive---------27-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Alexis Baydoun 在 Unsplash 上拍摄的照片

在这段历史中，我们讨论了基于贝叶斯网络(BN)建立模型时要考虑的结构标准。

如果你是 BN 的新人，我建议你先看看下一个帖子:

[## 贝叶斯思维导论:从贝叶斯定理到贝叶斯网络

假设世界上存在一种非常罕见的疾病。你患这种疾病的几率只有千分之一。你想要…

towardsdatascience.com](/will-you-become-a-zombie-if-a-99-accuracy-test-result-positive-3da371f5134)

在这篇文章中，我将首先关注模型的结构。为此，我们将使用深度学习模型中使用的术语“超参数”，即*“在运行学习算法之前应该设置的参数”* (Mnih 等人，2013)。这些超参数将条件固定在被训练的学习参数上；他们依赖专家。例如，在人工神经网络中，超参数是学习率(a)、梯度下降中的迭代次数、隐层数、隐单元数、激活函数等。然后我们需要为 BN 定义特定的超参数。

如果你想了解更多关于超参数和机器学习的知识，我建议你访问这个博客:

[## Optuna vs Hyperopt:应该选择哪个超参数优化库？- neptune.ai

思考应该选择哪个库进行超参数优化？使用远视有一段时间了，感觉像…

海王星. ai](https://neptune.ai/blog/optuna-vs-hyperopt)

通常，在任何机器学习问题中，目标都是找到最小化给定成本函数的正确参数。相反，在构建 BNs 时，这些参数取决于数据可用性和专家的知识。因此，这个问题比参数优化更广泛；这是一个超参数设置问题。在构建 BNs 时，选择超参数的正确配置是一个挑战，因为这些参数是基于模型的语义的。它们对于将用于训练模型的数据应该是有用的。我们在这段历史中探索的超参数是:

输入节点数，

每个输入节点的状态数，

目标节点的状态数，

合成节点数(i 中间节点) ，我有一篇较长的帖子讨论这个主题，因为它非常重要:

* [## 贝叶斯网络和合成节点

在这篇文章中，我给出了一个更正式的观点，并讨论了建模的一个重要元素:合成节点。

towardsdatascience.com](/bayesian-networks-and-synthetic-nodes-721de16c47e2)

学习前的数据结构，

学习算法。*

资格标准选择

选择好的超参数是具有挑战性的，因为没有’'先验的*'正确答案。这是一种试错妥协。通常，在 BN 构建过程中，建模者尝试一些参数，然后测试获得的 BN，尝试超参数的其他值，然后再次测试网络，等等。例如，创建一个所有输入节点都有两种状态的网络，然后创建另一个所有节点都有五种状态的网络，等等。因此，对于超参数的一个候选配置，我们怎么能说一个网络足够有效呢？在本研究中，我们提出了一些评估 BNs 有效性的标准。这些标准将帮助我们判断 BN 是否有效和有用。*

1 —保证语义一致性:**专家应该很容易解读 BN 语义。该模型应给出可解释的、对专家群体有用的背景和结果。确保语义一致性将增加可解释性，增加易理解性*，增加时间一致性。*

2 —调整网络的完整性: BNs 应该使用适当数量的节点(以及节点的状态)来表示概念。第二个标准取决于可用的数据量及其完整性。它取决于数据的可访问性*，它的*不确定性和不完全性。**

3 —保证结果的相关性:**目标节点(及其状态)应对决策者有用，但其值应具有足够的准确度和精度*，如下图所示:*

结果的相关性确保了几个内在标准，如有效性*、唯一性和客观性。***

4 —限制组合爆炸。**父节点与子节点的关系数要令人满意。如果模型在每个节点中使用大量的节点或状态，网络将会太复杂而不能被算法学习。当 CPT(条件概率表)对于给定数量的可用数据来说太大时，网络的预测能力将会很低。当 CPT 的大小得到控制时，网络的相关性高，结果的准确性增加。如果 CPT 是由基于数据库的算法构建的，它可以执行敏感性分析*，因此对决策者来说有更多的附加值。*

5 —保证良好的学习质量。 BNs 要有一个完整的学习，就是 CPTs 必须计算完整。当配置爆炸时(太多的状态或节点)，或没有足够的信息时，CPT 计算将是不完整的，因此学习的质量将是低的(Nam et al .，2008)。有几种衡量标准来估计学习的质量，例如，BIC (Burnham & Anderson，2004)或 AIC (Akaike，1974)。良好的学习质量意味着算法将在新的数据集中表现良好，并且网络将有效地帮助决策过程。

超参数对合格标准的影响

在构建 BNs 时，超参数的选择和资格标准之间有很强的相关性。不同的网络结构会改变标准中的结果:

输入节点数是网络中父节点数。下图显示了具有不同输入节点配置的三个网络。专家应该定义哪些变量与输入相对应，其中有多少是必需的。从语义的角度来看，模型可能用更多的输入变量更好地表示问题，但是从数学的角度来看，更多的输入节点可能影响结果中的准确度和精度*，并且模型将需要更大的数量的训练数据。*

BN 配置示例-输入节点数量的变化(作者创作)

输入节点的状态数:**每个输入节点可以有几种状态。从两种状态出发，通常表示(是/否)。随着状态数量的增加，子节点的 CPT 大小也会增加。文献中的 BNs 在每个节点使用两个输入。从语义的角度来看，更多的状态可能是重要的(增加模型的可解释性)；然而，它们会增加模型训练和灵敏度分析的难度。

BN 的例子——输入节点数和输入状态的变化(作者创造)

***输出或目标节点的状态数:*假设输入节点将要连接到一个目标节点。该模型应该在答案的粒度(即目标节点的状态数)和每个答案的值的精度之间进行权衡。

目标节点中四种状态的精度(黑线)。(作者创作)

在这种情况下，我们有四种可能性。第一个显示了事件延迟小于预期时间 1%的概率。第二个显示预期时间的 1%到 10%之间的延迟概率，其他状态以此类推(以对数标度)。目标节点中的这种状态分布向决策者呈现了分组信息，即状态 P 中的范围(10%

Precision (black line) for the six states in a target node (Author’s Creation)

The second case (the figure above) displays a target node with six states. Here the state segmentation is divided into every 20% interval of the expected possible delay. The presence of several states may appear better for the decision-maker because s/he would have more detailed output for each of the different input configurations; nevertheless, as the number of states increases, the precision and accuracy of the value for each state decrease, as presented by the black line in that figure.

***合成节点数:*如前所示，当目标节点具有多个状态和多个父节点时，问题变得更加难以解决。提出引入合成节点来限制配置的爆炸(康斯坦蒂努等人，2016；芬顿&尼尔，2013；孙&谢诺伊，2007)。然而，要使用的合成节点的数量将取决于问题的结构及其语义。

***数据结构化:*在训练算法之前，数据必须是干净的和结构化的。数据库中不应有任何错误。一旦数据准备就绪，数据库中的列表示父节点，最后一列表示目标节点。每一行代表一个实例(测量)，即每一行都是训练算法的一个新案例。给定一个数据库，构建网络的专家应该确保列数和行数之间的对应关系，以及其中包含的信息的质量，以确保学习的质量。

***机器学习算法:*最后，要选择一个学习算法。BN 可以使用几种分类算法，它们可以分为两类:(1)用于确定图结构和条件分布参数的算法(学习算法)。还有(2)那些一旦网络完成就计算信息传播的算法(推理算法)(Acid，De Campos，& Castellano，2005；德鲁日泽尔，1999 年；弗里德曼&戈尔兹米特，1996；戈什，2008；纳姆等人，2008 年；珀尔，1988 年)。下表显示了贝叶斯学习中使用的一些算法。

贝叶斯网络中使用的算法，改编自(Bouaziz，2014)

如果你想知道超参数优化在哪里应用，我推荐这篇文章:

* [## 石油和天然气工程项目中的数据科学。

探索性数据分析

towardsdatascience.com](/datascience-in-oil-and-gas-engineering-projects-daace6e6c7f)*

贝叶斯网络的超参数调整示例

在这篇文章中，我创建了一个贝叶斯网络来计算石油和天然气项目成本超支的概率，但是，我忽略了大部分超参数优化。下面，我举例说明为什么我选择一个参数(目标节点)有四种状态:

因此，我们选择了目标节点的状态数:目标节点可以具有: (1) 两种状态，表示过成本出现的概率为真或为假。或者， (2) 四种状态，对本文讨论的标准给出了更好的折衷:

目标节点的状态数与精度。

我们定义了目标节点的状态数。为了解决这个问题，我们使用高斯混合模型(GMM)算法来确定目标节点中每个状态的中值和变化值。结果显示在下表中。该表显示，当目标节点具有 2 个或 4 个状态时，产生最佳精度(最低变化)。

三个目标节点配置的均值和方差。(作者创作)

然后，我们评估了在几个类别下对数据库进行聚类时的准确性。我们使用了两个分析标准:阿凯克的信息标准(AIC)(阿凯克，1974)和贝叶斯信息标准(BIC)(施瓦茨，1978)。这两个标准非常接近，并且有很强的统计基础(Vrieze，2012)。下图显示了多个州(2 到 9 个)的评估标准的结果。这些参数下的最佳选择是最小化 BIC 和 AIC 值。这些标准指出，给定手头的数据，目标节点中的四个状态使计算精度最大化。

不同类别的目标节点及其相关的 BIC 和 AIC 值。(作者创作)

根据 AIC 和 BIC 标准，目标节点应该有四个状态来代表四个成本超支范围，以便在准确性和精确度之间达到良好的折衷。

***P_1_ 或 P(过度成本)< 1%。*相当于总费用不到 1%的成本超支发生的概率。

P_1_10 或 1% ≤ P(超额成本)< 10% : 是总费用的 1%到 10%之间发生成本超支的概率。

P1 _ 100 或 10% ≤ P(超额成本)< 100% : 是总费用的 10%到 100%之间发生成本超支的概率。

P_100_ 或 P(超额成本)≥ 100% : 发生相当于总费用 100%以上的成本超支的概率。

鉴于我们的数据库，我们选择 10 为基数的对数标度有两个原因。首先，这个选择产生了对专家有用的范围。目标节点呈现四种状态，前两种 P(过度成本)< 1% 和 1% ≤ P(过度成本)< 10% 被专家认为具有可忽略和可接受的风险。第三个层次 10% ≤ P(过度成本)< 100% 是“未知区域”(不期望的)，项目的复杂性会产生一系列难以准确预测的漂移。四个级别 P(过度成本)≥ 100% 定义了当项目有如此多的弱点，以至于可以预见重大漂移影响(不可接受)时发生的风险级别。第二个原因，它创建了四个类，每个类中有足够的例子来高效地训练算法 (本帖规则 5)如下图所示。

目标节点中四个类的分布。(作者创作)

该算法显示测试的最佳值是四个状态。它表明较少的状态可能有更精确的值(较少的变化),但准确性较差。最后，四州选择提供了较低的 AIC/BIC 值。

链接到这篇文章的完整研究可以在下一个链接中找到

* [## 一种基于贝叶斯网络的提高项目管理成熟度的方法

提出了一种建立项目管理成熟度和项目超额成本之间因果关系的方法

www.sciencedirect.com](https://www.sciencedirect.com/science/article/pii/S0166361519309480?dgcid=author)*

如果你有兴趣了解创建贝叶斯网络的启发、规则和最佳实践，我推荐这篇文章:

* [## 构建贝叶斯网络的主要启发式方法——项目管理评估实例

这篇文章解释了用贝叶斯网络建模的困难，以及 5 个基本规则如何可以极大地促进你的学习。

towardsdatascience.com](/using-bayesian-networks-for-project-management-evaluation-13a6eda50605)

感谢阅读！！！

如果你想继续阅读这样的故事，你可以在这里订阅！*

假设检验者的附录

原文：https://towardsdatascience.com/the-hypothesis-testers-appendix-ba46d1bcdc00?source=collection_archive---------19-----------------------

“精明的新冠肺炎决策”一文的附录

如果你刚刚读过我的文章 《聪明的新冠肺炎决策》 ，并且你习惯了经典的统计推断，你可能会注意到我跳过了几个步骤。让我们跟随一起仔细看看这个框架。

**默认行动:**新冠肺炎不在的时候你会做什么(比如用你的戏票)
**替代行动:**做出你正在考虑的改变(比如不要用你的戏票)。
**无效假设:**您想要执行默认操作的所有状态。
**替代假设:**世界的所有其他状态。

等等，触发器和信息源是怎么回事？为什么没有提到零假设？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:来源。

简单地说，这篇文章假设你自己没有能力检验关于新冠肺炎的统计假设。

如果你是一个流行病学研究小组的成员，有特权访问数据，这篇文章不适合你(你可能没有时间读它——谢谢你正在做的工作)。如果你是另外一个人，嗯…即使你能接触到数据，你可能没有，用它来推断世界的状态会有一些严重的问题。

例如，如果不对无症状的个体进行随机测试，您将如何开始对人群患病率进行猜测？你做的任何模型都需要大量基于假设。这些假设从何而来？流行病学专业知识，比如其他冠状病毒的传播以及天知道还有什么(我说过我不是流行病学家吗？).

如果你没有这方面的专业知识，让我们假设你的假设是垃圾。你可能仍然会犯这些错误，但是值得记住的是你没有资格犯这些错误。当你的结论更多地基于站不住脚的无知的假设而不是数据时，你真的想依赖它们吗？(我顺便提到，在我的业余时间，我一直在运行一些模拟，就像许多其他数据人一样——我不会与您共享我的任何模型，因为我非常确定我没有资格做出我的代码所基于的许多假设，所以我将保留我的个人便笺本。)

那么，当统计测试假设不可行时，我们如何在模糊和不确定的情况下做出决策呢？

一个解决方案是从我们可能相信的世界状态的框架转换到这种形式的基于事实的标准:“一个我信任的来源说 x”.

即使 x 是一个概率陈述(通常对科学家说的事情来说是真的)，它是一个被说过的事实。如果你能够证实你信任的来源说了那些话，那么你就是在用没有不确定性的决策标准工作。(这并不意味着你的决策质量很棒，但至少你很清楚自己是如何处理事情的。)

如果你拿不到数据来分析，一个合理的决策方法是相信那些比你拥有更多的信息的人。

简而言之:当你无法获得可以用来对你的世界做出合理推断的可靠数据，没有做出合理假设的专业知识，也没有自己收集数据的能力时，你被迫使用代理。一个合理的方法(这是我的建议，也是我个人在这种情况下使用的方法)是基于信任那些比你拥有更多的信息的人。

这种方法不是自己评估零假设，而是挑选你愿意信任的实体(加上新信号的最低可信度标准)、你愿意做出反应的信号以及你的反应方式。这不是你现在想做决定的理想方式——我知道，我也不想——但在获得更多信息(和更好的信息)之前，这可能是你最好的选择。

喜欢作者？与凯西·科兹尔科夫联系

让我们做朋友吧！你可以在 Twitter 、 YouTube 、 Substack 和 LinkedIn 上找到我。有兴趣让我在你的活动上发言吗？使用表格取得联系。

IBM 数据科学家访谈

原文：https://towardsdatascience.com/the-ibm-data-scientist-interview-a8982361755c?source=collection_archive---------41-----------------------

IBM 数据科学面试问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Unsplash

介绍

IBM 是一家跨国技术公司，成立于 1911 年，在全球 170 多个国家开展业务。今天，IBM 提供广泛的产品和服务，包括软件解决方案、硬件架构(服务器和存储架构)、业务和技术服务以及全球融资解决方案。

作为一家数据驱动的公司，IBM 了解数据和数据分析在组织的每一层推动更好的业务决策的重要性。此外，作为分析和基于云的解决方案的领先提供商，IBM 提供了一整套基于云的产品和服务，涵盖数据分析、存储、人工智能、物联网和区块链。

对另一家大型科技公司的数据科学感兴趣？ 看看这篇关于微软数据科学家采访的文章吧！

IBM 的数据科学家角色

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Pixabay

在任何企业分析团队中，数据科学家的角色包括识别提供最大洞察力的机会、分析数据以识别趋势和模式、构建管道和个性化机器学习模型以了解客户需求，以及做出更好的商业决策。

在 IBM，术语数据科学涵盖了数据科学相关工作的广泛范围(数据分析师、数据工程师、数据科学家和研究分析师)，角色可以包括从数据收集、组织和分析中揭示洞察力，为信息基础设施奠定基础，以及构建和培训具有重大成果的模型。角色有时是特定于团队和分配的产品的，有时它们可以更加专门化，如面向内部和外部客户的 IBM 分析咨询服务。

IBM 的数据科学家被安排在从事 IBM 产品和服务的团队中，如 IBM Watson Studio、IBM Cloud Pak、IBM Db2、IBM SPSS、IBM Infosphere 等。

所需技能

IBM 是一个数据驱动的组织，数据科学是一件大事。IBM 的数据科学家角色需要领域专业化，因此 IBM 只雇佣在数据分析、定量研究和机器学习应用方面具有至少 **3 年(高级职位为 5 年以上)**行业经验的高素质人员。

其他基本资格包括:

统计学、数学、计算机科学以及其他 STEM 相关领域的理学学士/硕士/博士学位。
对统计计算机语言(R，Python，SQL 等)有丰富的经验。)来操作数据，并从大型数据集中获得洞察力。
具备创建和使用高级机器学习算法和统计的高级知识，如回归、模拟、情景分析、建模、聚类、决策树、神经网络等。
具有机器学习和线性代数的经典方法的经验，包括用于线性分类的支持向量机(SVM)和用于降低数据维度的奇异值分解(SVD)。
有 3 年以上使用数据可视化和报告工具的经验，如 Excel、PowerBI、Tableau 等。
在使用分布式数据或计算工具(如 Hive、Spark、MySQL 等)方面拥有丰富的行业经验
具有自然语言处理、文本分析、数据挖掘、文本处理或其他人工智能子领域和技术的经验
充分理解数据分析基础设施和数据工程流程，包括数据存储和检索、ETL 管道、Docker、Kubernetes 等。
软件工程实践的背景知识，如版本控制、连续交付、单元测试、文档、发布管理

IBM 的数据科学家团队

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Unsplash

像大多数大型科技公司一样，IBM 有过多的产品和服务，有许多部门和高素质的专业团队在开发新产品和改进现有产品。

IBM 数据科学家在团队中工作，有时可能与内部团队跨职能合作。具体职能可能因团队而异，但一般的数据科学家角色从轻量级数据分析到机器学习/深度学习都有。

下面列出了 IBM 的一些数据科学团队以及团队中具体的数据科学家角色:

**用户体验研究&分析:**角色包括分析来自多个存储库的大型数据集，包括主要研究、行为数据和数据库，如 AWS S3、Azure、MongoDB、SQL 或 NoSQL，以创建预测性和规范性模型，并提取可操作的见解。角色还包括开发自动化报告和仪表板，并与利益相关者(如高管、项目经理和设计团队)交流发现。

IBM 全球技术服务(GTS)分析团队:该团队通过使用高级分析和机器学习模型来开发和构建创新的 AIOPS 解决方案，分析从各种 IT 运营工具和设备收集的大数据，以实时自动发现和纠正问题。该团队中的数据科学家利用深度学习和 LSTM 模型来实时自动检测任何异常，并防止停机。

**IBM Q Start 团队:**这里的数据科学家与研究和算法专家一起工作，实现数据处理、运行数值和数据可视化的量子方法。

**软件开发&支持:**该团队的数据科学家负责扩展和优化数据模型、预测算法、关联算法以及文本分析模型。作为该团队的数据科学家，您还将负责实体的自然语言处理(NLP ),以及使用自然语言分类和 RNN 算法对人工生成的票据进行文本分析。

IBM SME :这个团队的角色包括利用分析和深度学习模型来预测新兴趋势，并提供优化业务结果的建议。

IBM 全球业务服务部(GBS): 这个团队通过利用商业敏锐度和预测性机器学习模型，帮助 IBM 的企业客户做出更好、更明智的商业决策。

IBM 客户创新中心(CIC): 该团队中的数据科学家利用各种机器学习技术，包括聚类、决策树学习、人工神经网络等，以及高级统计技术和概念(回归、分布特性、统计测试和正确使用等)。)来创建解决方案并为业务提供可行的见解。

如果你想在 IBM 这样的公司工作，那里的数据科学家什么都做， 我们推荐阅读《Twitch 数据科学家访谈》！

面试过程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Unsplash

面试过程从接受在线编码挑战“HireVue”开始。之后是与招聘人员或人力资源人员就简历和过去的相关项目进行的初步电话面试。随后是一个技术屏幕，可能由各种编码问题组成，从基本的 python、SQL 到中级 Algo 问题。最后一个阶段是现场面试，包括 3 轮面试。

在线挑战

这是在 HireVue 平台上进行的 5 小时在线数据挑战测试。这项挑战中的问题是围绕行为、机器学习和统计的中级难度问题。候选人总共需要回答 13 个问题，有些问题需要视频回答、短文写作、口头解释和编码解决方案。

初始屏幕

这是对人力资源或招聘经理的试探性面试。面试中的问题基本上围绕着你的简历和背景经历，因为这与你申请的工作职位相吻合。

技术屏幕

与最初的面试不同，技术面试要深入得多。你还会被问到过去的项目，比如“你面临过什么挑战？”，“你是如何克服那些挑战的？”“你用了什么技巧或方法？”，“你的项目中使用了哪些机器学习算法？”，以及“您是如何选择参数的？”。还有很多编码问题和一些关于机器学习理论和概念的讨论。

在面试查询上尝试一道来自真实面试的机器学习题。

现场面试

IBM 数据科学家现场面试由 2 到 3 轮面试组成，面试小组由高级数据科学家、经理和来自设计、统计和机器学习、管理的 IBM 员工组成。

问题跨越统计概念、机器学习概念和方法、大数据和框架，以及情境行为问题。大多数统计问题都是基于案例研究的。你也可能会遇到类似“你将如何尝试解决一个数据科学问题？”，“描述您以前工作过的项目/数据集。”，以及“告诉我一次…”。

整个现场面试过程看起来很像这样:

统计面试
机器学习/编码面试
行为面试

注意:行为面试中的问题大多围绕你简历中提到的与角色相关的过去项目和经历。

注意事项和提示

像每个标准的数据科学家面试一样，IBM 数据科学家面试包括数据科学概念的长度和宽度。问题涵盖多变量统计和机器学习算法等领域，包括主成分分析、判别分析、线性和逻辑回归、k-最近邻、分类和回归树、神经网络等、预测和规定模型、多变量回归和聚类分析。

它有助于学习基本的统计和机器学习模型，并在白板上练习编码，以熟悉现场面试。 访问面试查询和练习 IBM 数据科学面试问题 可以帮助你 ace 现场面试的技术部分。

请记住，IBM 非常依赖情景问题，因此您可能会遇到这样的问题:“告诉我一个时间……”、“您如何……”、“您将如何解决……”以及“描述一个您的项目……”。它有助于将每个概念与您过去从事的项目联系起来，以及如何使用这些概念或技术来帮助您克服挑战。

IBM 数据科学家面试问题

使用蒙特卡罗算法估计圆周率的值。
什么是深度学习？
什么是标准差？
精度/特异性有什么区别？
你对成为数据分析师的愿景是什么？
定义一个置信区间？
解释 p 值的重要性？
你熟悉什么语言？(python、java 等)
有监督的和无监督的机器学习有什么区别？
什么是精准？什么是特异性？什么是敏感/回忆？
你有几年的 Python 编程经验？
描述精确度和召回率。
为什么你想为 IBM 工作，
p 值是多少？
你对 Tensorflow 了解多少？
与分类预测模型相比，您如何评估回归预测模型的性能？
监督学习和非监督学习的区别。
为什么你认为你的背景非常适合 IBM
你如何处理一个丢失的值
用于评估预测模型的矩阵是什么？
逻辑回归中的系数和优势比之间有什么关系？
如何验证一个机器学习模型？
如何用 python 实现斐波那契？为什么循环比递归好？

感谢阅读

如果你有兴趣磨练你的数据科学，请查看 面试查询 ！
查看我的 Youtube 频道 获取更多数据科学面试指南、商业视频和解决问题的技巧&。
想要更多数据科学面试问题？复习这些文章关于**Google 数据科学面试问题及解答数据科学实习面试问题SAP 数据科学面试问题。**********

原载于 2020 年 8 月 24 日 https://www.interviewquery.com。

做出数据驱动决策的错觉

原文：https://towardsdatascience.com/the-illusion-of-making-data-driven-decisions-bf54a2e594c4?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

朱利叶斯·德罗斯特在 Unsplash 上的照片

如何让数据真正驱动您的决策

我们都经历过。决策者围坐在一张制作精良的大桌子旁，桌子上摆放着我们所期待的典型投影和协作技术。随着他们的仪表盘、图表和交互式报告被张贴在会议室的墙上，这些国家元首之间展开了热烈的讨论。一旦他们就他们的结论达成了一个集体的温暖和模糊的时刻，他们就头脑风暴出一个要在整个公司分发的行动项目的待办事项列表——最终，一个公司做出数据驱动的决策。

等等！每个人都被骗了。你只是见证了数据驱动决策的幻觉。

场景

大家都在说用数据做决策。许多公司声称正在做出数据驱动的决策。但是他们的结果喜忧参半。因此，他们聘请像我这样的顾问为他们提供建议，希望提高他们的洞察力。不幸的是，这些企业领导人错误地将他们的糟糕表现归咎于数据科学部门的失败。具有讽刺意味的是，由于他们对数据的使用而导致的任何糟糕的决定通常都是他们自己的。

这些公司拥有大量数据。他们创建了一个由具备必要的数据科学技能的个人组成的小团队，将数据整理成有意义的信息。数据辩论者、数据科学家、程序员、数据工程师、图形艺术家、UI/UX 专业人员和主题专家都参与了这项工作。那么问题出在哪里？

[## 让您的分析团队走上正轨！

成功分析团队的五个必要角色

towardsdatascience.com](/getting-your-analytics-team-right-b539206dac3d)

问题是

数据就像灵感女神，激励着商业领袖，而不是推动他们的决策。他们使用数据的方法假设，在受到会议中分享的大量信息的影响后，他们可以做出公正的决定。真正的数据驱动决策来自一种完全不同的方法。为了确保数据推动您的业务，您必须在引入数据洞察之前建立决策标准。

决策科学本身就是一门学科。如果你真的想充分利用决策科学技术，你需要投入大量的时间和金钱。由于预算规模或大或小的公司都需要做出更好的决策，让我们列出一些所有公司都能负担得起并实施的基本决策科学实践。

实现真正的数据驱动决策的 5 个步骤

#1 —定义业务问题

从建立你试图回答的一个或多个问题开始。如果你的公司在每次领导聚会时都是仓促行事，那它的目的地就不明确了。你的数据要么会把你带下悬崖，要么就像喝醉的树懒走的路。两种结果都不理想。

避免这个问题在智力上是简单的，即使采取适当的行动来解决它可能具有挑战性。在评估任何数据之前，首先要确定业务问题。

商业问题:我们是否应该将我们的销售努力扩展到西部地区？

#2 —在看到所有数据之前，定义您的决策标准

接下来，定义做出这个决定的标准。《T2 内幕》电影中有一个很棒的场景。拉塞尔·克罗扮演一名烟草公司的告密者。就在他走向取证处，众所周知的不归路时，他停了下来。他的律师质疑他是否准备好了。克罗的角色回答:“我找不到决定的标准。”

在我们的例子中，董事会成员也面临同样的问题。缺乏预先确定的评估标准为认知偏差奠定了基础。仪表板和报告中的见解会在潜意识中影响它们的使用。随后，决定不再客观。它不是数据驱动的。

如果你是做销售的，你可能已经知道决定这个的要求。

一些示例标准可以是:

新地区的销售会对现有地区的销售产生重大影响吗？
我们产品在新地区的市场是否满足新市场在三年内独立生存所需的最低潜在销售额？
我们是否拥有或能够获得新市场所需的销售资源？
我们是否拥有或能够获得支持新市场所需的营销资源？
我们是否拥有或能够获得支持新市场所需的供应链资源？
我们是否拥有或能够获得必要的支持业务服务来支持新市场？
我们是否有现实的目标来决定一年、两年和三年内在这个新市场的成功？
我们对这个市场有现实的退出策略吗？
开始扩张需要多少资金？
在新的营销自我维持之前，我们有足够的资金来支持扩张吗？

这一步最简单的部分是你不需要数据科学家来做。现在你有问题了，看看你能不能回答。你可能需要一个数据分析师来帮助你，或者你可能已经有了所有这些答案。如果你已经有了答案，跳到第四步。否则，你需要在第三步停下来。

#3 —将您的数据一分为二

如果你将整个数据集用于探索目的，你将会产生和我们在董事会会议室看到的一样的认知偏差。相反，使用大约 20/80 的比例将您的数据分成两组。两个数据集中较小的一个用于探索性数据分析。欢迎贵组织的任何部门使用。分享给所有向你要数据的人。为报告保留较大的数据集。这最后一个数据集驱动您的业务决策。

分割数据集后，您可以请数据分析师帮助您建立与您的预定义标准相对应的决策指标。

#4 —通过回答您的标准问题来建立您的指标

你对这些问题的回答将成为你做出最终决定的门槛。在你坐在会议室看最新报告之前，回答这些问题是很重要的。无论你建立什么样的衡量标准，都将保护你不把数据当作灵感，并把它推到驾驶座上。在这一步上花点时间，确保使用合理有效的度量标准。

虽然我们梦想完美的数据，但它并不存在。您会在数据中发现一些无法提供精确测量值的地方。不要惊慌。不要认输。

[## 数据科学的未来

数据科学和业务环境正在融合

towardsdatascience.com](/the-future-of-data-science-5825bde65637)

当你遇到数据不足时，利用你的人类直觉和你在数据科学领域的伙伴来帮助你建立一个可以接受的阈值。现在，您已经有了决策标准。不完善的数据没什么可怕的；它仍然是有价值的，甚至可以成为决策过程的一部分。

#5 —做出数据驱动的决策

如果你已经使用了前四个步骤，第五步就很容易了。让您的数据科学团队根据您的报告数据创建控制面板。根据您的决策标准和指标来衡量结果。据此行动。当指标达到特定动作的阈值时，采取动作。如果没有，就等着。不要行动。做决定不是很简单吗？

结论

随着公司的发展，您的决策过程应该通过充分利用决策科学实践变得更加复杂。但是这五个步骤是一个强有力的开始。它们会驱散你一直在实践的错觉，帮助你真正做出由数据驱动的决策。

罗德蓖麻 帮助公司获得正确的分析！他帮助国际组织和小型企业改善他们在数据分析、数据科学、技术战略和技术领导力方面的工作。除了咨询，Rod 还喜欢公开演讲、教学和写作。你可以在rodcastor.com和通过他的 邮件列表 了解更多关于 Rod 和他的工作。

什么是分类标准？

原文：https://towardsdatascience.com/the-illustrated-guide-to-classification-metrics-the-basics-cf3c2e9b89b2?source=collection_archive---------34-----------------------

人工智能图解指南

衡量和比较机器学习解决方案背后的基础概述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我从事数据科学工作的这些年里，我总是发现指标是一个有点神秘的话题:你知道你必须使用哪些指标，但你并不总是明白为什么。例如，一些作品使用特殊性，而另一些作品使用精确性。这是为什么呢？在这篇文章中，我回顾了一些基本的度量标准和它们背后的直觉，希望能稍微揭开这个主题的神秘面纱。为此，我尽了最大努力为您提供插图:

这是一个多部分系列计划。在这一篇中，我将重点放在该领域的每个人都必须知道的三个主要指标:准确性、敏感性/特异性和准确性/召回率，以及全能的混淆矩阵。

事不宜迟，我们先从一个简单的二元问题开始。

明天会下雨吗？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的二元问题:预测明天是否会下雨。

有两种可能的答案:是的，会下雨和不，不会。然后，我们可以等待第二天，看看会发生什么:雨或孙。这是一个经典的二元分类问题:我们必须在两种结果之间进行预测。

自然有两种方式是对的:你说下雨了，就下雨了，或者你说晴了，就晴了。同样，有两种方式是错的:你说下雨，结果是晴天，或你说晴天，结果雨下了你一脑袋。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有两种方法是对的，也有两种方法是错的。

如果我们的任务是预测降雨，我们将把降雨称为“积极的”，把太阳称为“消极的”。说雨和得到雨是一个“真正的积极”，而说太阳和得到太阳是一个“真正的消极”。相反，说下雨并晒太阳是“假阳性”——假警报，说晒太阳但下雨是“假阴性”，或者说误预测。

这四种可能的结果以矩阵的形式排列，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

全能的混乱矩阵。

这种表示被称为混淆矩阵并总结了四种可能性:关于雨是正确的，发出错误警报，错过雨，以及关于太阳是正确的。它被称为混淆矩阵，因为它显示了太阳与雨(假阳性)混淆的程度，以及太阳与雨(假阴性)混淆的程度。

你可能会想，“我不喜欢下雨！为什么下雨应该是一件积极的事情？”我同意一开始这不是很直观。我发现更容易记住“消极”是“自然/预期状态”。例如，在检测疾病时，健康是阴性，生病是阳性。

所有这些名字都有许多其他的昵称。例如，您可以分别使用名称“命中”、“错误警报”、“错过”和“拒绝”，这更直观一些。然而，标准的做法是使用积极/消极。

这是同一个矩阵，但使用了更直观的术语:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

混淆矩阵元素的更直观的术语。

以生病/健康为例,“击中”是指你发现了疾病，而“拒绝”是指你拒绝承认这个人生病了。同样，如果你说这个人生病了，但他/她没有，你就发出了假警报，如果你错误地说他/她很健康，你就错过了疾病。

我们来加一些数字。

在荷兰，每年大约有 217 天的降雨。如果你问一个荷兰人明天会不会下雨，他/她会告诉你每天都下雨，他们再也受不了了😢。从字面上理解这个答案，普通荷兰人对雨的困惑矩阵是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对荷兰人没有仇恨！这只是❤的一个例子

我们这位悲观的荷兰朋友在 217 个雨天里都猜对了，代价是发出了 148 次错误的下雨警报。因为他从来没有说过会是晴天，所以他从来没有错过任何一场雨，也从来没有对过一个晴天。

如果我们问一个完全乐观的人，一个总是希望太阳的人，我们会得到相反的结果:148 天的太阳被正确预测，217 天的阵雨被错误预测。

我们现在面临的问题是:悲观的荷兰人的预测比过度乐观的荷兰人的预测好或差多少？换句话说，我们如何量化 这些预测 有多好？

优度度量

衡量这些预测有多好的一个简单方法是考虑有多少预测是正确的。这叫做精度。

悲观的荷兰人在 365 天内做出了 217 次正确的预测，准确率为 59%，而过度乐观的荷兰人在 365 天中只有 148 天是正确的，准确率仅为 41%。这使得悲观的荷兰人成为比过度乐观的荷兰人更好的榜样。

形式上正确的预测是 TP + TN，而 TP + TN + FP + FN 是预测总数。因此，精度可计算如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

准确度:绿色超过绿色和红色。

或者简单来说:绿过绿，红过红。

准确性的问题

在我们的雨的例子中，荷兰的雨天明显比晴天多。因此，正确预测下雨比预测晴天更能提高准确率。

在极端情况下，您想要检测的可能只发生在 1%或更少的情况下。例如，撒哈拉沙漠每年只下几天雨，所以如果你总是说“太阳”，你 99%的时间都是对的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不要相信这些云。明天也会是晴天。乔治·帕拉维西尼在 Unsplash 上的照片

在医疗环境中，疾病通常是罕见的，尽管罕见，你需要来检测它们。对每个人说“健康”并说你 94%准确是不切实际的。你需要一个更好的衡量标准。考虑这个例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医学领域典型的不平衡问题。

在这些情况下，分别计算积极因素和消极因素的准确性是值得的，因此您可以衡量模型对其中一个因素和另一个因素的执行情况。简单来说，我们需要一个“正精度”和一个“负精度”。这些在商业中被称为敏感性和特异性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将准确性分为“积极”和“消极”两个方面。

请注意我们是如何将准确度公式分成两部分的:一部分检测我们检测阳性(命中超过未命中)的程度，另一部分检测阴性(拒绝超过误报)的程度。所以，如果你天真的说“大家都很健康！”你将是 0%的敏感和 100%的具体，而不是 94%的准确。

精度是一个的总结。它 试图将所有内容捕获到一个单一的值中。这就是它有用的原因:一个值比两个值更容易处理，但这也是一个缺点:它不能捕捉到问题的每个细微差别。另一方面，特异性和敏感性是指标。它们告诉你你的模型在特定环境下表现如何。

您可能会问，是否有可能将两个指标合并成一个值，以便我们可以进行汇总。一个很酷的公式是几何平均值，它被定义为乘积的平方根:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

敏感性和特异性得分的几何平均值

这个公式有一个好处，就是在惩罚不平衡对的同时，平均两个分数。例如，90%对 90%的评分比 80%对 100%的评分稍高。

回到荷兰雨，悲观的荷兰人 100%敏感，0%专一，乐观的荷兰人 0%敏感，100%专一。使用我们的 G 分数，两个模型都有 G = 0。因此，在灵敏度/特异性分析下，它们同样不好。干净利落。

使用敏感性和特异性的限制

在某些情况下，有太多真正的负面因素需要考虑。所以，所有使用真否定的公式都不行。

例如，对象检测任务被定义为寻找对象并用边界框包围它们。真正的肯定是正确发现的对象，错误的肯定是错误的检测，错误的否定是遗漏对象，真正的否定是在没有要检测的东西的地方检测不到任何东西。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

物体检测的例子。有多少真阴性？。维基百科:MTheiler CC BY-SA 4.0

请密切注意最后一点:真正的否定是在不期待什么的时候什么也不说。在上面的图片中，我们正确地没有给多少东西一个边界框？

再比如谷歌搜索。当你寻找狗时，返回的所有狗站点都是真阳性，非狗站点是假阳性，错过的狗站点是假阴性，剩下的整个互联网都是真阴性。

在这两个例子中，如果我们真的试图计算有多少真阴性，我们将总是有+99%的特异性，因为真阴性的数量将远远超过其他一切。在这种情况下，我们必须用另一个指标来代替特异性: precision。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当真阴性不可用时，我们使用精度和召回指标。

请注意,“敏感度”更名为“回忆”。它们是相同的度量，有相同的公式。这只是一个命名约定:使用 precision 的时候，你把 sensitivity 叫做“recall”。

使用对象检测示例，recall 测量您在所有对象中检测到多少个对象，precision 测量您在此过程中检测到多少个错误对象。以 Google 为例，recall 是指你返回了多少狗的网站，precision 是指狗的网站和非狗的网站在你的搜索结果中的比例。

注意:精确度/召回率不能代替灵敏度/特异性；它们处理不同的问题。只有当你不能有效地计算出真正的负数，或者它们太多的时候，前者才有意义。只要有可能，灵敏度/特异性更合适。

同样，这些是指示器。为了对它们进行总结，我们使用调和平均值，其计算方法是将乘积乘以总和:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

F 分数，从精度和召回指标获得的摘要

调和平均值被称为 F 值。至于 G 分数，它也惩罚不平衡的配对。然而，它做得更有力。因此，为了获得高 F 值，模型必须同时具有高精度和高召回率。

多阶层问题

到目前为止，您可能会问:如果我们有几个类要预测呢？我们来挑一个问题:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们二元问题的扩展，包括多云和下雪的预测

首先，如果我们有 n 个类，就有 n 个⋅ N 种可能:说太阳得到太阳，说太阳得到多云，说太阳得到雨等等在这些方法中，有 N 种方法是正确的(每个类一种)和 N(N-1)种方法是错误的(所有其他的可能性)。如果我们把它全部绘制成一个混淆矩阵，我们得到如下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个四类问题的混淆矩阵和准确性

和以前一样，精确度可以定义为我们得到的正确预测数(绿色)除以所有预测数(绿色加红色)。

为了计算每一类的敏感性和特异性，我们必须将我们的问题重定为类对非类。例如，多云与非多云。这样，我们可以为每个类提取一个二进制问题，并像以前一样计算我们的二进制度量。这里是一个敏感性和特异性的例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对多类问题的敏感性和特异性。真正的底片是灰色的。

你可能会想到的一件事是，如果我们添加更多的类，我们真正的缺点(用灰色表示)会变得非常大。灰色立方体比绿色和红色多得多。由于这个原因，敏感性和特异性在处理多类问题时意义不大。

出于上述相同的原因，精确度和召回分数更适合于这种情况，因为它们不依赖于真正否定(灰色框)的数量。下面是它的公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多类问题的查准率和查全率。在这种情况下不需要真正的否定。

有了这个，我们就有了一套完整的工具来评估我们的二元和多类问题模型，无论是平衡类(准确性)还是不平衡类(特异性/敏感性或精确度/回忆)。

到目前为止，我们已经了解了什么是真/假阳性和真/假阴性，以及它们对于二元和多类情况的意义。然后，我们看到了精确度是如何计算的，精确度是一个总结:一个量化模型有多好的单一值。

后来，我们看到当类不平衡时，精度不是一个可靠的度量，因为一个类倾向于支配精度值。为了解决这个问题，我们把这个公式分成一个“正准确度”，称为灵敏度，和一个“负准确度”，称为特异性。使用这两个值，我们对这两个类的模型性能有了更清晰的了解。

然而，在某些情况下，真正否定的数量可能太高，甚至是无限的。在这种情况下，使用精度和召回分数来代替，这不依赖于真正的否定。

最后，我们看到，我们可以计算 G 分数和 F 分数，分别作为灵敏度/特异性和精确度/回忆分数的汇总。对于不平衡的问题，这些总结比比较解决方案的准确度分数更能提供信息。

在本系列的下一期中，我们将看看如何处理提供分数而不是答案的模型。例如，“我有 60%的把握明天会下雨”。在这种情况下，我们需要为我们的模型设定阈值，以定义哪些是积极的，哪些是消极的。这带来了一些基本概念，如 ROC 曲线和平均精确度分数。

如果你对这篇文章有任何问题，欢迎评论或联系我。如果你是新手，我强烈推荐订阅。对于数据和 IT 专业人员来说，中型文章是 StackOverflow 的完美组合，对于新手来说更是如此。注册时请考虑使用我的会员链接。

感谢阅读:)

新冠肺炎的影响——plottly 数据可视化及与 SARS 的对比分析

原文：https://towardsdatascience.com/the-impact-of-covid-19-data-analysis-and-visualization-560e54262dc?source=collection_archive---------7-----------------------

获得关于新冠肺炎的有趣数据见解，并与 SARS 相比，直观显示冠状病毒的爆发

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由皮克斯拜的 Gerd Altmann 提供

简介:

随着新型冠状病毒在各国的快速传播，世界卫生组织(世卫组织)和几个国家公布了过去几个月新冠肺炎影响的最新结果。

我查阅了许多资料和文章，以了解死亡趋势，我很高兴看到这个数据源，并决定在其上看到一些可视化。这里的目的是理解 可视化如何帮助从数据源 中获得信息性的见解。

对于可视化部分，我使用 Plotly。 Plotly 是 python 和 R 中可用的可视化工具，它支持大量交互式的高质量图形，是数据科学初学者的绝佳工具。

数据集:

数据集来源由**“约翰·霍普金斯大学系统科学与工程中心(JHU·CSSE)”**在其github 页面 进行累积、处理和最新更新

**使用条款:**如链接中 JHU CSSE 所述。【数据仅用于研究目的】。

数据集的详细信息如下:

每日报告数据

该 csv 文件包含关于受影响国家的信息[蓝色],这有助于识别病毒传播、受感染病例信息、死亡人数以及各国的恢复情况。还提供了国家坐标以供分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源: 2019-nCoV 数据由约翰霍普金斯 CSSE 提供

2。时序数据

还提供了一个时间序列数据，其中包含各国的感染病例数、死亡数和恢复数。每个案例的时间序列数据都有单独的文件，需要在可视化之前进行处理。国家坐标也可用于地理图上的时间序列可视化，如地理图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源: 2019-nCoV 数据由约翰霍普金斯 CSSE 提供

**代码:**生成以下图表的所有代码和所用的数据集可在下面提供的链接中找到。

重要提示:

截至 3 月 3 日的数据已用于以下分析。**请避免将分析得出的数据或见解用于医疗指导或商业用途。**仅供学习之用。

相同的代码模板可以用于各种其他数据源。我鼓励读者也在 Plotly 中尝试其他图表，并根据应用程序需求定制代码。

展示你的关键发现的另一个重要方面是只使用一组从数据中推断关键见解的图表，而不是展示太多带有冗余信息的图表。

分析:

新冠肺炎的全球影响

2.感染率、死亡率和恢复率的描述性分析

3.新冠肺炎传播的时间线分析

4.新冠肺炎对 SARS 影响的比较分析

新冠肺炎的全球影响

为了了解病毒对地理景观的影响，我使用了 Plotly 的地理散点图。这个互动情节的代码可以在共享链接中找到，这将提供一个更清晰的互动可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎的全球影响

观察:

从图表中，我们可以看到在首次发现这种病毒的中国，这种疾病已经感染了大量的人
尽管感染区域很大【蓝色】,但我们可以观察到死亡人数相当低，我们还可以看到迄今为止有许多康复患者

感染率、死亡率和恢复率的描述性分析

这里我使用了各种图表来展示如何从数据源中挖掘信息。

注意:由于与其他国家相比，中国的感染率高于 85%,因此最好将中国排除在外，查看其他国家的数字。这将应用于以下所有图表。

确诊病例: 分析使用 饼状图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

跨国感染病例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

感染病例(不包括 Mainland China)

与其他地区相比，中国大陆的受感染病例数量最多。仅次于中国，韩国、意大利和伊朗显示出较高的感染人数。

2。报告死亡人数: 利用条形图 进行分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

各国报告的死亡人数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

报告的死亡人数[不包括 Mainland China]

从图表中我们可以看出，尽管与意大利和伊朗相比，韩国的确诊病例数最高，但它们的死亡率相比之下却低得多。现在，各省/州的回收率分析如下所示，

3。回收率: 分析使用树形图

各国的恢复率提供了各国如何缓解疫情的更广泛范围。在这里，不同级别的层次结构来自按顺序排列的数据集，“世界”、“国家”，接着是“省/地区”，如可以看到的 Mainland China(“世界”、“Mainland China”、“鄂”、“豫”、“皖”等)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

树形图:回收率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

树形图:回收率[不包括中国]

有趣的一点是，与韩国相比，伊朗和意大利的追回率更高。从这里开始，深入研究其他属性(年龄、种族和地区)对恢复/死亡的影响可以使这些数字更加清晰。

新冠肺炎传播的时间线分析

显示病毒在短时间内在不同国家传播的速度是至关重要的。时间线分析需要对原始数据进行一些预处理，以在笔记本中提供的 Plotly 中可视化。

这里我只显示了感染病例的趋势。在各国的死亡和康复方面也可以观察到类似的趋势。使用下面的折线图给出了一个综合视图。

跨国家时间轴分析: 散点图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

各国时间表分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

各国时间表分析[不包括中国]

观察:

虽然在中国可以观察到病毒传播的稳定增长，但在过去几天里，在其他一些国家可以看到病例数量的迅速增加。

时间线分析: 多重折线图

全球总体受影响病例、死亡和康复情况。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎与非典影响的比较分析

最有趣的部分是比较新冠肺炎和性质相似的严重急性呼吸系统综合症(SARS)的影响。SARS 的数据集取自kaggle 数据源 。该数据仅包含总体感染和死亡病例，因此在此将其可视化。我在一个窗口框架内分析了这两种病毒的影响，从它被发现到它在接下来的三个月内的影响。

感染病例时间表分析:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界各地报告的感染病例:新冠肺炎 vs SARS

报告死亡的时间线分析:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界各地报道的死亡人数:新冠肺炎 vs 非典

观察:

显然，与 SARS 相比，新冠肺炎的传播速度更快，死亡率也更高。在这种情况下，交通的进步可能是一个关键因素。

结论:

本文详细分析了新冠肺炎是如何影响世界的，以及由此得出的见解如何用于下游分析。这些图表还可以应用于其他场景，以推断关键的数据洞察力。

代码: 链接到代码和数据集

未来工作:

了解更多关于其他属性的信息，如患者性别、种族和年龄，以及它是如何导致死亡率的
交互式图表仪表板，提供总体摘要

参考文献:

[## 主页

世卫组织的主要作用是在联合国系统内指导国际卫生工作，并领导全球卫生合作伙伴

www.who.int](https://www.who.int/) [## ncov - CSSE

参考资料:董鄂，杜洪，加德纳 l。一个基于网络的交互式仪表盘，可实时跟踪新冠肺炎。柳叶刀感染…

systems.jhu.edu](https://systems.jhu.edu/research/public-health/ncov/) [## 更多基本图表

Plotly.js 在线制作交互式、出版物质量的图表。如何制作基本图表的例子？

plot.ly](https://plot.ly/javascript/basic-charts/) [## SARS 世卫组织数据

Kaggle 是世界上最大的数据科学社区，拥有强大的工具和资源来帮助您实现您的数据…

www.kaggle.com](https://www.kaggle.com/zhongtr0n/sars-who-data)

数据科学分析对金融机构的影响

原文：https://towardsdatascience.com/the-impact-of-data-science-analytics-on-financial-institutions-ee2d272427d1?source=collection_archive---------27-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学的力量越来越大，彻底改变了不同的商业领域。其中之一就是金融。如果我们仔细想想，它实际上并不是什么新东西。

多年来，金融机构一直使用收集的数据来决定最佳的商业策略。让我们以银行为例。他们的成功主要取决于他们是否进行了准确的风险分析。这就是为什么公司希望改进他们用来在市场上建立更强地位的技术。

数据科学和机器学习创新使金融行业能够将大量收集的数据转化为有价值的商业见解。在金融领域运营的公司是数据分析领域的先驱，并且已经学会了如何在众多流程中发挥自己的潜力。

金融公司中的数据科学

管理客户数据

数据是从事金融业务的公司的重要资源。如今，金融公司必须处理大量数据，无论是结构还是数量都各不相同。该数据库包括市场数据、交易、移动和社交媒体活动等等。

数据量是一个问题，另一个是它的形式。我们可以将数据分为结构化、半结构化和非结构化。一个普遍的规律是，数据越不结构化，就越难以处理和提取业务洞察力。

处理非结构化数据最有效的方法是使用人工智能驱动的工具。其中一些使用自然语言处理、数据挖掘和文本分析等技术。机器学习算法分析数据，将其转化为可靠的信息，并建议最佳的商业解决方案。最终，目标是提高公司的利润，使用基于人工智能的工具是实现这一目标的最佳方式。

风险分析

管理者做出战略决策时会考虑许多方面，但最重要的是风险。数据科学和商业智能开发专门针对风险分析的创新。它是如何工作的？

风险管理集中于测量损失的频率，并根据现有数据乘以损失的严重程度。有许多风险来源，如客户行为、竞争对手、投资者或监管者。

领导者需要能够首先识别风险，监控风险，然后确定特定风险的优先级。机器学习-软件可以支持金融机构，并为它们执行这些操作。因此，从事金融业务的公司能够比以往任何时候都更快地验证客户的信誉。交易受到持续监控，以便公司可以立即采取措施降低不良后果的风险。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

欺诈检测技术

欺诈是金融公司的主要担忧之一。每笔交易中，欺诈的危险都在增加。毫无疑问，每个人都听说过信用卡欺诈——这是金融机构中最常见的欺诈之一。

从事金融业务的公司需要向客户保证无懈可击的安全性。要做到这一点，他们必须应用一个系统来检测欺诈行为，并提醒员工注意危险。机器学习技术提供了各种工具，这些工具具有识别异常活动并自动向金融公司发送消息的功能。

合格的数据科学家能够创造出能够确定交易数据模式的算法，这种模式在大多数情况下会导致操纵。显然，日常犯罪分子会想出新的方法来欺骗系统。这就是基于人工智能的系统如此珍贵的原因——算法具有自学能力。这意味着该系统将每天自我改进，并随着时间的推移而增加有效性。

引入定制客户的方法

为了留在市场上，每个公司都需要保持竞争力。这意味着不仅要保持高质量的服务，还要在其他领域不断发展。

维护与客户的个性化关系是任何企业面临的最重要的挑战之一。数据科学使公司能够分析客户的数字体验，然后在考虑客户个人偏好的同时引入改进。

通过语音识别和自然语言处理等技术，人工智能现在能够比以往任何时候都更好地理解人类的语言和情感。由于收集了信息，金融机构可以向他们的每个客户提供个性化的方法和服务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何将数据科学解决方案引入金融机构？

为了充分利用数据科学机遇，与经验丰富的数据科学家合作至关重要。最大的公司建立了整个部门，只专注于数据分析。他们建立了一个数据分析师和商业智能专家团队。通过这种方式，他们能够充分利用数据的潜力，超越竞争对手。

对于中小型公司来说，创建一个新的部门甚至雇佣全职数据科学家可能成本太高。有一个解决办法。虽然数据科学行业相对较新，但市场上有专门从事数据科学咨询的公司。通过这种方式，中小型企业可以从收集的数据中获得有价值的商业见解，而无需进行巨额投资。

结论

金融机构获得了一个难以置信的机会。数据科学分析有足够的力量来加速任何金融公司的发展并增加其利润。

大数据时代已经开启，没有回头路。只有通过实施人工智能驱动的解决方案和机器学习工具，金融机构才能面对海量数据，并将其转化为见解。

地理空间特征对机器学习的影响

原文：https://towardsdatascience.com/the-impact-of-geospatial-features-on-machine-learning-3a71c99f080a?source=collection_archive---------42-----------------------

关于位置数据对机器学习模型的增值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测冰淇淋销售没有季节模式？不会吧！(照片由蓝菊·福托格拉菲在 Unsplash 上拍摄)

I magine 预测冰淇淋的销售，却忽略了对时间维度的适当处理:虽然在总体水平上(例如每年)进行预测可能仍然会产生良好的结果，但当你进入季节细节时，你会很快进入状态。

位置数据也是如此。在处理地理参考数据时，忽略位置维度将导致预测模型无法解释已经进行的观察，最终将导致不精确和不太稳健的模型。与时间维度一样，您的模型在聚合级别上看起来可能还不错。然而，这对你的客户没有帮助，他住在山里，不断收到潜水设备的报价。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用地理空间数据创建稳健而精确的模型(照片由 Morning Brew 在 Unsplash 上拍摄)

*嗯，听起来很明显，对吧？*是的，你会这么想。然而，我观察到，当涉及到高级分析或机器学习时，地理空间维度经常被忽略。在我看来，这主要是因为两个原因。

我的数据没有地理参考。它不包含纬度和经度

首先，您必须确定您实际处理的是地理空间参考数据。它不包含任何坐标的论点是不适用的！无论何时，只要您能够回答在“何处”进行了特定观察的问题，您就有了现成的空间数据。想想销售点数据、客户数据或来自物联网设备的数据。我们的绝大多数数据都以某种方式与地球上的某个位置相关联。通过对您的数据进行地理编码，并在您可能已经拥有的地址或城市名称之外添加纬度和经度信息，您可以提升这些信息的全部潜力。

SRS、几何形状、尺寸…呃，处理地理空间数据很复杂。

其次，初看起来，处理地理空间数据可能比处理依赖于时间的数据稍微复杂一些。当你试图自己解决空间复杂性时，你很快会遇到像空间参考系统和球面几何中的复杂计算这样的术语。

好消息是:你不必自己解决这些复杂的问题！有很好的工具，可以帮你卸下计算几何的重担。如果您在企业环境中工作，您应该考虑利用多模型数据管理平台透明地连接您的业务和位置数据的可能性。我选择的平台是 SAP HANA Cloud 及其空间功能 ( 嗯，我可能会有偏见 ！)。然而，这里描述的大多数方面是独立于底层技术而适用的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

GIS 和非 GIS 应用程序正在消耗底层模型

在多模型数据管理平台上运行地理空间工作负载的主要优势是生产力、敏捷性、加速和集成。通过在数据管理层实施高级分析和机器学习模型(无论有无空间数据),您可以确保构建在该平台上的所有上游应用程序都能使用结果，并以一致的方式提供给不同的用户组。

现在有了平台，它们结合了地理空间数据处理和嵌入式机器学习的能力。但是，我们真的能量化将地理空间特征纳入我们的机器学习模型的好处吗？

我试图挑选一个具体的例子，比较同一个回归模型包含和不包含数据的位置维度。底层数据集包含墨尔本市房屋的属性和销售价格。我根据房子的大小、房间数量、停车位数量等，训练了一个房子价格的回归模型。然后，第二个模型已经使用相同的特征进行了训练，但是这一次还生成了诸如该地方周围的餐馆数量和到海湾的距离之类的特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

比较具有和不具有地理空间特征的相同回归模型

在本例中，我们可以测量到，中值绝对误差从 300，000 澳元降至 130，000 澳元，而当增加位置维度时，模型的稳健性显著提高。

为了隔离地理空间特征的影响，我使用了第二个模型来预测参考房屋的价格(600 平方米的土地面积，160 平方米的建筑面积等)。)横跨城市的不同位置。根据型号，价格从 33 万澳元到 250 万澳元不等，仅取决于位置！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对同一栋房子的预测在 33 万澳元和 250 万澳元之间变化，取决于位置(红色=昂贵；用叶制作而成

有趣的是，在没有地理空间特征的情况下，对回归模型贡献最大的特征是房屋的建造年份。房子越旧，往往越贵。撇开历史建筑不谈，我解释对价格影响的方法是:地点。旧房子往往位于靠近市中心的居民区，而新房子往往位于郊区的开发区。

这反过来意味着，在我们的例子中，位置维度是如此重要，以至于它甚至通过使用相关的特征潜入到我们的非空间模型中。

在我的 SAP 博客上查找技术细节

你可以在 SAP 社区页面 上的我的 **博客中阅读上述例子的所有技术细节。**博客还包括完整的 Jupyter 笔记本，可以让你重现分析。最快的入门方式是使用免费的 SAP HANA 云试用版，其中也包括空间处理引擎。

房价预测的例子清楚地量化了将地理空间特征纳入机器学习模型的价值。如果你看一下上面链接的更具技术性的博客，你也会注意到包括位置和其他数据源(如 OpenStreetMap)的努力是可以监督的，并且在任何情况下都是值得的。

空间数据科学和数据库内机器学习的力量

如果你对更多高级地理空间分析的例子感兴趣，请查看我基于波尔图市出租车轨迹数据的其他博客。用于复制该示例的完整 Jupyter 笔记本包含在各自的博客中。

请查看 SAP 社区页面 查看# saphanaspacial上的内容。

地理空间超级力量

用纸质过滤器改进浓缩咖啡

原文：https://towardsdatascience.com/the-impact-of-paper-filters-on-espresso-cfaf6e047456?source=collection_archive---------6-----------------------

空气过滤器与浓缩咖啡机的对比

2019 年 5 月，斯科特·拉奥(Scott Rao)推广了一种高萃取率的浓缩咖啡技术 ( > 25%对 18%至 22%范围的 3:1 镜头)，涉及 Aeropress 过滤器(过滤浓缩咖啡)。当时，我正在深入探索的断奏浓缩咖啡技术，我不想在我的过程中增加另一个变量和另一个步骤。我把这个想法放在了尝试的清单上，在 2019 年的 12 月，我终于有了一些时间。我不想只在常规拍摄中使用这种技术；我想知道它是否有提高断奏击球的潜力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯科特发现，由于采用 Aeropress 滤纸进行更精细的研磨，他可以获得更高提取率的美味照片。这项技术包括使用更精细的研磨，然后在咖啡球的上下放置一个湿纸过滤器。顶部过滤器应该通过减少沟道效应来缓解淋浴问题。底部过滤器将阻止较细的研磨物堵塞过滤器。由于使用了更细的研磨，可以获得更高的提取率。然后他用一个 DE1+ 做了一个 3:1(输出:输入)的镜头。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Aeropress 和 Espresso 的简史

浓缩咖啡篮由金属制成，可以承受生产浓缩咖啡所需的高压。滴滤咖啡使用纸质过滤器，因为没有压力要求。法国新闻有一个过滤器，但地面都完全淹没在同一时间。当 Aeropress 问世时，这种技术似乎介于法式压榨和意式咖啡机之间。

切割 Aeropress 纸质过滤器并将其放入浓缩咖啡篮的想法在咖啡界并不新鲜；斯科特推广了这项技术。通常在实验中，许多人独立地得出相同的结论。我不确定是不是这样，但作为一个研究者，我觉得有义务深入挖掘一下，看看题目里还有哪些作品是这样做的。回顾 2011 年，使用气压过滤器的想法被引入，以帮助减少咖啡醇，但进一步观察浓缩咖啡是否好，另一位作者发现了积极的结果。

2015 年，人们对这个话题又有了新的兴趣，但它并没有流行起来。同样，这是篮子底部的单个气压过滤器。他们发现了更快的流速和更好的味道。

在斯科特发表他的结果之前一年，这个家伙实际上做了斯科特用两个过滤器做的事情。因此，尽管宣称原创很容易，但这个想法已经存在，但还没有完全普及。Scott 测量了提取，发现该技术能够以更高的速度提取。在斯科特的视频在咖啡社区疯传后，咖啡师 Hustle 写了一篇很好的文章。

虽然这些讨论不是同行评议的研究，但它们表明这种想法已经存在一段时间了。我原本打算把这项技术称为拉奥滤纸(RPF)技术，但我决定 RPF 应该只提及司各特使用的具体技术，而不是所有的滤纸技术。然而，在找到 2018 年的视频后，RPF 应该被称为双层纸过滤器(DPF)，因为它只是由斯科特推广，但却是由别人首先发现的。对于命名，我想把所有这些技术和变体称为过滤器(PFF)中的纸过滤器，作为一种速记，因为我用断奏镜头做了一些变体。

断续镜头中滤镜(PFF)中的纸质滤镜

我没有立即尝试用纸过滤器的方法来拍摄断续的照片，因为我已经得到了一张相当惊人的照片。然而，我把它加入了我的清单，回到 2020 年 1 月，我开始尝试。我认为它有一些潜力，但我惊讶的是最佳位置在镜头内。

首先，我必须找到最佳位置。我想做实验，所以我从底部的纸开始。我想我会试着在底部，然后顶部，然后两者，然后通过在层间添加它来获得乐趣。快速回顾一下:我的断奏在中间很好(<400um) on the bottom, Coarse (> 500um)，在中间(400um < Mid < 500um) on Top.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

On the bottom showed some taste improvement and some extraction improvement, but I was already getting a big benefit from the staccato layering. The major finding was that putting the paper filter between the Fine layer and the Coarse layer made a big difference in taste. The filter on the top didn’t seem to affect the outcome in terms of taste. If anything, it had a negative affect on taste, so I focused on the filter on the bottom or above the fine layer.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The key is a damp filter: too wet causes the shot to be a little less rich. Too dry causes channeling because the process of the filter getting wet initially has some issues with surface tension.

I collected some paired data, but again, similar to 压力脉动，我混合了其他实验，远远不能测试统计显著性。这是一项定性研究，表明纸质过滤器可以改善断奏的味道，同时保持或稍微减少提取。定期拍摄的数据表明提取率更高，口味更好。

这两个指标是:最终得分和咖啡萃取。

最终得分是 7 个指标(强烈、浓郁、糖浆、甜味、酸味、苦味和余味)记分卡的平均值。当然，这些分数是主观的，但它们符合我的口味，帮助我提高了我的拍摄水平。分数有一些变化。我的目标是保持每个指标的一致性，但有时粒度很难确定。

使用折射仪测量总溶解固体量(TDS ),该数值与咖啡的输出重量和输入重量相结合，用于确定提取到杯中的咖啡的百分比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1)最终得分。2) 1:1 咖啡萃取。3) TDS 为 1:1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原始数据！

数据摘要:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纸过滤器导致更短的镜头，味道更好，但提取的咖啡更少。这似乎导致了更早的金发。这可能会干扰测量，因为它会导致镜头比正常比例更早结束。我的目标是口感，而不是特定的重量(通常 1:1 是正确的比例)。

我非常喜欢这种味道，所以我把它加入到我通常的断奏套路和非断奏套路中(对比视频)。我怀疑这种放置是由于过滤器对来自粗糙层和中间层的提取物有影响。我认为过滤器可能会带走油，但很难确认只有 TDS。我试过在底部和上面都装一个过滤器，但是它带走了味道。

为了看得更清楚，我比较了两张有纸过滤层和没有纸过滤层的照片。这两个镜头都是在一个 20 克的 VST 篮子里的普通的 18 克镜头。烤的有点暗，所以篮子在 18 克的时候是满的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完整视频:https://youtu.be/9NOCwp1W-dU

PFF 拍摄出来更快，这使得一个人得到更好的研磨。我的理论是，它也有助于减少一些由过滤器上的孔径分布引起的通道问题。

然后事情变得很奇怪。

我在我的金快车上换掉了旧的金属淋浴屏。我把它打扫得很干净，我想我会把它留在身边。我试着把它放在粗糙层之后，它似乎改善了味道。我在包装为 15g 的 7g VST 过滤器上做了这个测试，因为过滤器的形状，金属过滤器完全覆盖了它下面的圆盘。我也不知道怎么解释。与 Aeropresso 过滤器相比，我很难摆弄金属过滤器，因为淋浴屏幕没有整个过滤器宽，导致一些侧沟。

更多数据:深入了解 PFF 咖啡萃取

我收集了每一杯浓缩咖啡的数据，所以我拿出了过去 6 个月的数据来帮助理解其中的差异。我拍摄了 281 张照片，这些照片是从白利折光仪或 Atago 数字折光仪采集的(根据之前的数据，它们之间的差异在统计上并不显著)。这些数据不是成对的，但人们可以看到 PFF 提取在更大样本量上的总体表现。

我还使用两个杯子为每个镜头收集了两个折光仪数据点:1:1 镜头的总溶解固体(TDS)和 3:1 镜头的 TDS。我没有在我的机器下使用秤，因为没有足够的空间，所以我的 1:1 比例和 3:1 比例有轻微的差异。我喝下 1:1 的，然后扔掉剩下的。结果我有 562 个数据点看:woohoo！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们关注 1:1 的镜头，因为大部分提取发生在那里:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据显示了我如何增加了我的镜头长度，部分是由于 PFF。对于断续的镜头，PFF 似乎从提取中抽离，但过滤掉提取中不太理想的成分。

另一个困惑是预输注，因为 PFF 已经迫使我使用更长的预输注。我最初进行了 10 秒钟的预输注，但在过去的两周内，我将预输注时间延长到了 30 秒。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

趋势很难猜测，单独的实验将是有益的。添加到列表中！

好奇的问题:如果一个长时间的预灌注(2 巴)获得了如此高的提取率，为什么除了让注射更快出来之外，还要拉 9 巴？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

再来看一下 1:1 镜头中连接最终得分和咖啡萃取的预注入。

我从与 PFF 相关的数据中发现的一个主要结论是，3:1 的比例是不必要的，因为大多数咖啡萃取是在 1:1 甚至接近 1.5:1 的比例下进行的。我不相信拉得更长会改善味道，所以在这一点上，只要把 1:1 的镜头冲淡到 3:1。

此外，这些 PFF 实验在我的镜头上有三个:

我在我的大部分常规和断奏照片中加入了一个纸过滤器。
我把我仪式中的预输注时间从 10 秒增加到 20 到 30 秒。
我用纸过滤器的方式来提取照片(为未来的文章)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你愿意，可以在 Twitter 和 YouTube 上关注我，我会在那里发布不同机器上的浓缩咖啡视频和浓缩咖啡相关的东西。你也可以在 LinkedIn 上找到我。

我的进一步阅读:

规则对查询的影响

原文：https://towardsdatascience.com/the-impact-of-rules-on-queries-e69468dadf98?source=collection_archive---------74-----------------------

实现数据中的知识

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用程序处理和操作数据的逻辑通常由位于数据库和表示层之间的应用程序或逻辑层控制。这就形成了必须符合数据库结构的请求。下图代表了经典的三层体系结构，世界上大多数 IT 系统都是在此基础上构建的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://en . Wikipedia . org/wiki/Multitier _ architecture #三层架构

然而，知识图提出了这种设计的范式转变，模糊了逻辑和数据之间的界限。通过将领域的一些知识通过规则带入图中，知识图捕获的不仅仅是系统中的数据。因此，规则可以使查询和请求更容易编写和管理，这反过来又使应用程序更灵活、更不容易出错、更快。

本文将介绍一个简单的例子来展示规则对查询设计的影响。这个例子将在由 Oxford Semantic Technologies 开发的高性能知识图和语义推理引擎 RDFox 上演示。

介绍规则

规则是一个逻辑语句，它扫描图形以寻找与规则匹配的数据模式。

考虑 RDFox 控制台中呈现的下图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为此示例导入的原始数据片段。

从图中很容易判断出道格拉斯·亚当斯和查理·卓别林出生在英国，因此他们是英国漫画家。在经典的分层方法中，可以在中间层编写逻辑，以原始形式直接查询基图。根据定义，这个查询将比我们直接查询所有英国漫画的知识图更复杂。

第一个规则作用于关系的子类，对于我们的数据，这使得道格拉斯·亚当斯和查理·卓别林之间的直接类型关系成为喜剧。

[?x, a, ?z] :- [?x, a, ?y], [?y, :subClassOf, ?z] .

接下来，我们将英国漫画的概念引入图表。为了添加这个概念，我们可以在 Datalog 中使用一个简单的规则来实现英国漫画关系:

[?x, a, :UKComic] :- [?x, a, :Comic] , [?x, :born_in, :uk] .

也就是说:

如果?x是一个:Comic，而?x是born_in :uk，那么?x就是一个:UKComic。

具体化规则

RDFox 将扫描数据存储中满足规则主体的三元组。每当“:-”符号后的模式得到满足时，RDFox 就会向图中添加一个:UKComic三元组，并在找到所有英国漫画后停止。

结果如下图所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与前面显示的相同的片段显示了规则添加的内容。特别是与新的英国漫画概念的直接联系。

使用 RDFox，一旦规则被导入到数据存储中，或者每当新的数据点被添加到数据存储中时，这些三元组就被规则具体化。例如，一部在英国诞生的新漫画在被添加到图表中时会被自动标记为:UKComic。

规则如何帮助查询？

在第一个图中，要获取英国漫画，查询必须首先识别在英国出生的实体，然后识别漫画实体，然后返回两个答案中存在的实体。在 SPARQL 中，查询可以用以下方式表示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原始查询针对源数据运行。

使用英国漫画规则，回答相同问题的查询要简单得多，因为它只搜索:UKComic实体:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 new :UKComic 概念的简化查询。

我们还可以注意到，简化的查询执行起来更快。这在更大的数据集和更复杂的查询中变得更加明显。

规则通过以一致和可管理的方式扩展原始数据来提供帮助:随着新数据的添加，相同的规则也会触发。重要的是，如果数据被删除，反之亦然，并且先前触发的规则的后果被撤销。

因此，用规则对经常搜索的概念进行建模有助于更快地回答问题，但由于查询更简单，它们也使中间层更容易维护。更简单的查询使应用程序更加灵活。

大多数查询可以通过规则的 IF 部分来建模，这意味着许多现有的应用程序可以通过知识图变得更快、更灵活。如果您当前的架构无法提供用户所需的查询性能，为什么不使用规则将数据的逻辑推送到知识图中呢？尝试使用 RDFox 结合规则编写查询，您可以在这里注册试用。

要了解更多关于知识图表的信息，请点击阅读我们在 TDS 上的介绍。

关于牛津语义技术

牛津语义技术公司(Oxford Semantic Technologies)背后的团队于 2011 年在牛津大学计算机科学系开始研究 RDFox，他们坚信灵活和高性能的推理是数据广泛应用的一种可能性，而不会危及结果的正确性。RDFox 是第一个面向市场的知识图，它是基于推理从头开始设计的。牛津语义技术公司是牛津大学的一个分支，由主要投资者支持，包括三星风险投资公司()、牛津科学创新公司( OSI )和牛津大学的投资部门( OUI )。作者很自豪能成为这个团队的一员，也是已故伟大的道格拉斯·亚当斯的粉丝。

由paweczerwi324ski在 Unsplash 上拍摄的照片

安全配置错误的影响及其缓解措施

原文：https://towardsdatascience.com/the-impact-of-security-misconfiguration-and-its-mitigation-4c54fda4d025?source=collection_archive---------52-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯托夫·高尔在 Unsplash 上拍摄的照片

当今的网络安全威胁形势极具挑战性。攻击者一直在寻找利用应用程序和系统中的安全漏洞来访问或控制敏感信息，并发起勒索软件等网络攻击。

随着公司在不同的平台上传播敏感数据，软件即服务 (SaaS)平台，容器，服务提供商，甚至各种云平台，他们开始采取更加主动的安全方法是至关重要的。

这意味着将安全性集成为开发过程的核心部分，将安全性转移到左边，并尽可能地自动化您的基础设施，以摆脱低效、耗时且昂贵的策略。构建强安全性的一个最基本的方面是维护安全配置。

在研究中，发现近 73%的组织至少有一个关键的安全错误配置，这可能暴露关键数据和系统，或使攻击者能够访问敏感信息或私人服务或主 AWS (Amazon Web Services)控制台。

这些“关键的”安全错误配置可能会使远程 SSH 对整个互联网开放，这可能会允许攻击者从任何地方访问远程服务器，从而使防火墙和 VPN 等网络控制变得毫无意义。此外，使用 root 帐户来自互联网的 SSH 流量也有严重的安全影响。

安全错误配置漏洞通常是由于不安全的默认配置、配置更改的副作用或仅仅是不安全的配置造成的。这表明需要基本的配置审计和安全卫生以及自动化流程。服务器应该按角色分组，而不是使用传统的网络控制，使用自动化来创建小而安全的网络路径，以建立对等体之间的信任。

在我们深入研究安全错误配置的影响之前，让我们看一下安全错误配置的真正含义。

什么是安全错误配置？

安全错误配置是对服务器或应用程序配置、网络设备等实施不正确的安全控制。这可能会导致安全漏洞。

例如，web 应用程序的不安全配置可能会导致许多安全缺陷，包括:

文件夹权限不正确
默认密码或用户名
启用设置/配置页面
调试已启用

安全错误配置的范围很广，从忘记禁用默认平台功能(该功能可能授予未经授权的用户(如攻击者)访问权限)到未能在 web 服务器上建立安全标头。安全错误配置可能发生在应用程序的任何级别，包括 web 服务器、数据库、应用服务器、平台、定制代码和框架。

web 应用程序中的安全错误配置的影响可能是深远的和毁灭性的。据微软称，网络安全漏洞现在每年在全球范围内造成高达 5000 亿美元的损失，平均每个漏洞给企业造成 380 万美元的损失。

更糟糕的是，关于网络安全攻击的最大误区之一是，它们不会影响小企业，因为它们太小，不会被瞄准或注意到。

打破这个神话，小企业趋势预测至少 43%的网络攻击是专门针对小企业的。从根本上说，云错误配置等安全错误配置是组织面临的最大安全威胁之一。

事实上，正是云的错误配置导致近 4 亿时代华纳有线电视客户的个人信息泄露。一家外部服务提供商意外错误配置了云存储，并将其公之于众，将该公司的 SQL 数据库暴露给了所有人。

安全错误配置示例

为了让您更好地理解 web 应用程序中潜在的安全错误配置，下面是一些最佳示例:

示例#1:默认配置未被修改/更新

如果您没有更改 web 应用程序的配置，攻击者可能会发现服务器上的标准管理页面，并使用默认凭据登录并执行恶意操作。

示例 2:您的服务器上没有禁用目录列表

在这种情况下，如果攻击者发现了您的目录列表，他们可以找到任何文件。黑客可以找到并下载你所有编译好的 Java 类，他们可以通过逆向工程得到你的定制代码。然后，他们可以利用应用程序中的这一安全控制缺陷进行恶意攻击。

示例 3:不安全的服务器配置可能会暴露用户的个人信息

存在安全错误配置的应用程序通常会在错误消息中显示敏感信息，这些信息可能会返回给用户。这可能会让攻击者危害您用户的敏感数据，并获得他们的帐户或个人信息的访问权限。

示例 4:示例应用程序没有从应用程序的生产服务器上删除

很多时候，这些示例应用程序都有安全漏洞，攻击者可能会利用这些漏洞来访问您的服务器。

示例 5:操作系统的默认配置

大多数操作系统的默认配置侧重于功能、通信和可用性。如果您没有更新或修改操作系统的默认配置，可能会导致服务器不安全。

为了保护您的服务器，您应该为您组织中的所有服务器构建复杂而可靠的服务器强化策略。使用 CIS 基准来帮助强化您的服务器。

如何检测安全错误配置:识别和缓解

安全错误配置是一个普遍存在的问题，在许多系统、网络和应用程序中都存在，您也有可能遇到这种问题。这些错误配置可能发生在 IT 基础架构的任何级别，并使攻击者能够利用应用程序中的安全漏洞发起网络攻击。

最常见的安全错误配置有哪些？

一些最常见的安全错误配置包括不完整的临时配置、从未修改过的不安全默认配置，以及对应用程序的连接要求和网络行为的错误假设。

随着操作系统、网络、应用程序、工作负载和框架以及云环境和混合数据中心的日益复杂，安全错误配置正迅速成为企业面临的重大安全挑战。这些环境多种多样且瞬息万变，因此很难理解和实施针对安全配置的适当安全控制。

例如，在管理跨云和混合环境以及内部的防火墙时缺乏可见性，这继续增加了安全性挑战，并使企业难以遵守隐私法规和安全性。

您的云平台、软件、应用程序、网络和服务器缺乏可见性是导致安全配置错误和风险增加的主要因素。

一份报告发现，几乎三分之一的网络环境中有 100 个或更多的防火墙，每个防火墙都有一套不同的规则需要管理。此外，34%的网络对其网络安全风险和合规性的实时可见性不到 50%,这导致整个基础架构缺乏可见性，并导致安全配置错误。

以下是更多安全错误配置的例子:

不安全的管理控制台为应用程序打开。这些端口暴露了应用程序，攻击者可以利用这一安全缺陷修改管理控件。
**云中的闲置虚拟机:**由于云缺乏可见性，公司通常不会意识到云中的闲置虚拟机，并连续几天或几个月继续为这些虚拟机付费。这些空闲虚拟机可能没有得到主动管理，在应用安全补丁时可能会被遗漏。
各种互联网服务的出站连接。这些可能会暴露软件在敏感环境中的意外行为。
试图与不再存在的应用建立通信的遗留应用。黑客可以复制这些应用程序，并与传统应用程序建立通信。

除此之外，web 服务器通常带有一组默认特性，包括 QA 特性、调试、示例应用程序和许多其他特性，这些特性在默认情况下是启用的。这些功能可能会为攻击者提供一种手段，通过提升权限来规避安全协议并获得对您的客户或组织的敏感信息的访问权限。

攻击者还可能试图检测低并发限制或长超时的错误配置函数，以便发起拒绝服务(DoS)攻击。具有低并发限制配置的函数可能导致 DoS 攻击，因为攻击者只需调用错误配置的函数几次，直到它不可用。

包含不安全敏感信息(如代码或环境变量中的令牌和密钥)的函数也可能被攻击者破坏，并可能导致数据泄漏。

如何诊断和确定安全错误配置？

有几种方法可以快速检测系统中的安全错误配置:

扫描混合环境和云基础架构以识别资源。使用内置服务，如提供安全检查的 AWS Trusted Advisor。
验证您是否有适当的访问控制
针对可疑用户活动或“正常”行为异常设置警报。异常行为可能表明您在配置设置中没有足够的安全控制。
检查管理控制台或服务器、网络、设备和应用程序的其他部分的默认配置。

安全配置错误的影响是什么？

根据 IBM 的一份报告，在过去的几年中，安全错误配置的数量激增。该报告发现，与安全错误配置相关的违规行为激增了 424%，占该年度受损记录的近 70%。

虽然公司正在整合更好的安全实践并投资于网络安全，但攻击者正在进行更复杂的攻击，难以快速跟踪和缓解。

在各种企业中，人为错误也正在成为一个更加突出的安全问题。这些人为错误会导致一系列安全缺陷，包括安全错误配置、网络钓鱼攻击、恶意软件、勒索软件、内部威胁等。

安全错误配置可能源于简单的疏忽，但是很容易将您的业务暴露给攻击者。在某些情况下，错误配置的网络和系统可能会使数据完全开放，而不需要任何安全漏洞或恶意行为者的攻击。

一个常见的安全错误配置是将不安全的敏感数据留在数据库中，而没有适当的身份验证控制和对开放互联网的访问。

由于安全错误配置导致的最显著的违规事件之一是1 . 54 亿美国选民记录在一次塞尔维亚黑客的安全违规中暴露。

该数据库包含 1.54 亿选民的记录，包括他们的姓名、年龄、性别、电话号码、地址、婚姻状况、国会政党、州参议院选区和估计收入。数据库是一个 CouchDB，不需要认证，任何人都可以访问，这导致了巨大的安全漏洞。

在这个安全错误配置的例子中，存储设备或数据库缺乏基本的安全控制导致互联网上每个人的大量敏感和个人数据被利用。

向用户公开的代码和敏感数据越多，安全风险就越大。如果未能正确配置对应用程序数据库的锁定访问，攻击者就有机会窃取数据，甚至修改数据的一部分来进行恶意活动。

如何防止安全错误配置？

防止安全错误配置的第一步也是最重要的一步是了解系统的行为，并理解每个关键组件及其行为。

要做到这一点，您需要拥有整个基础架构的精确、实时的地图，该地图显示您的数据中心环境中的流量和通信，无论是在混合云上还是在内部。

一旦您彻底了解了您的系统，减轻由于安全配置不当而导致的风险的最佳方式就是锁定最关键的基础设施，只允许特定的授权用户访问生态系统。

以下是一些防止安全错误配置的有效方法:

部署可重复的强化流程，使部署另一个正确配置的环境变得简单快捷。开发、生产和 QA 环境应该完全相同地配置，但是在每个环境中使用不同的密码。自动化此过程，以减少设置新的安全环境所需的工作量。
定期为每个环境及时安装软件更新和补丁。或者更好的是，修补一个黄金映像，然后将该映像部署到您的环境中。
构建强大的应用程序架构，提供安全有效的组件分离。
经常定期运行审核和扫描，以帮助识别潜在的安全错误配置或缺失的补丁程序。
保持一个结构良好的开发周期。这将有助于确保在开发阶段对应用程序进行安全测试。
就安全配置的重要性以及它们如何影响组织的整体安全性对您的员工进行教育和培训。
加密静态数据，帮助保护信息不被泄露。
对目录和文件应用适当的访问控制。这有助于弥补未受保护的目录和文件的漏洞。
如果实现自定义代码，请在将代码集成到生产环境之前使用静态代码安全扫描器。还应该由安全专业人员执行动态测试和手动审查。
使用没有任何不必要的特性、示例、文档和组件的最小平台。移除或不安装不安全的框架和未使用的功能。
审查云存储权限，如 S3 存储桶权限。作为修补程序管理流程的一部分，检查并更新所有安全修补程序、更新和说明的所有安全配置。
实施自动化流程，确保所有环境中的所有安全配置都到位。

最后的想法

随着我们增加更多外部供应商、第三方供应商和混合云环境，动态和复杂的数据中心只会增加安全违规的可能性和人为错误的风险。

安全错误配置的影响具有深远的后果，会影响组织的整体安全性。尽管您可能已经实施了安全控制，但是您需要定期跟踪和分析您的整个基础设施，以发现由于配置不当而可能出现的潜在安全漏洞。

请记住，在混合云环境中拥有可见性可以为您带来优势，并帮助您应对安全错误配置。

作为第一步，Cypress Data Defense 提供了您的云基础架构的详细地图，帮助您自动检测异常行为，并减少安全中的错误配置。一旦您确定了您的关键资产和漏洞，您就可以使用缓解技术来限制攻击面并确保您的数据得到保护。

关于作者:

Steve Kosten 是 Cypress Data Defense 的首席安全顾问，也是“Java/JEE 中的 SANS DEV541 安全编码:开发可防御应用程序”课程的讲师。

来自《走向数据科学》编辑的提示: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章，但我们并不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。

适当的数据文化的重要性

原文：https://towardsdatascience.com/the-importance-of-a-proper-data-culture-48c1b19ccd82?source=collection_archive---------47-----------------------

人工智能、机器学习或任何类型的分析的基础都始于数据驱动的组织

从人工智能开始意味着你需要一个合适的数据文化。人工智能不是魔法，尽管许多人可能仍然这么认为。在想到人工智能之前，数据需要有序。您需要文档、策略，最重要的是适当的数据文化。如何实现这一点？继续阅读…

阿夫克·斯豪滕与阿萨德·穆阿瓦德交谈

这是对该领域从业者的一系列采访中的第一篇，内容是关于用 AI 创造商业价值。阿萨德在卢森堡共同创立了公司 DataThings ，该公司致力于将数据转化为可操作的见解。他认为，数据可以帮助你更好地了解你的业务。

DataThings 的核心技术是时态多世界图数据库。简而言之，它定义了所有动态数据的图形存储和处理框架，包括通信流、社交网络、智能电网等。这实际上是一个用于组织网络分析的很好的数据库。

在我们的对话中，我们谈到了 Assaad 与客户一起工作的经历，以及他对该领域需要什么的看法。

Afke:“我们经常谈到这一点，但再一次，你能告诉我们刚刚开始人工智能主题的客户与更高级的客户之间的区别吗？”

阿萨德:“当我们带来新客户时，通常对人工智能的期望是，人工智能是一个神奇的天才。高级客户已经意识到这是他们自己的乌托邦。他们现在明白了在开始使用人工智能之前，创建适当的数据基础设施所需的投资。

新客户希望人工智能表现得像一顶神奇的帽子，他们希望你可以放入一组未清理的数据，然后你可以得到一只兔子。"

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

威廉·戴尼奥在 Unsplash 上拍摄的照片

Afke:“对我来说，这听起来并不少见，要把这只兔子从帽子里弄出来，需要做很多工作。你会给处于这种情况的人什么建议，成功的关键因素是什么？”

Assaad:“首先，也是最重要的，需要一个合适的数据文化。部分原因是大公司的统一数据政策。许多大公司都有子团队，每个团队都使用不同的技术或格式来存储数据。聚合数据的成本会很大。数据文档也非常重要，因为随着时间的推移，收集数据的人离开了公司，没有人能再了解这些数据是关于什么的。对于一个测量单位来说是一样的，如果它们没有被记录下来，或者在工业环境中不一样(统一)，就很难使用这些数据。”

Assaad:“我推荐一种适当的数据文化，一种统一的数据政策，数据文档，以及一致的术语

“举个例子，在像卢森堡这样的多元文化环境中工作的挑战是，这可以反映在数据中，你可能知道瑞士也是如此。我们在同一个数据集中发现了几种语言、缩写、数据格式、数据模式、术语。每个人都来自不同的文化(法语/德语/英语……)。这就是为什么一致的术语，语言、模式、格式、单位，是如此重要”。

Afke :“我可以说，没有适当的数据基础，很难从你的数据中获得价值，你有什么建议，如何开始？”

Assad:投资数据基础设施非常重要，尤其是在需要数据处理管道的速度/吞吐量时。我们的时态图形数据库每秒可以处理大约 400 000 个值。旧技术只能达到 10，000 v/s，例如，在银行部门，如果你有 10 亿笔交易，那就是 41 分钟和 28 小时的差别。

还有，投资硬件很重要；AI 对处理能力、GPU 非常消耗，对内存也很饥渴。当你有一个快速数据库的时候，你可以迭代几次，测试几个模型，少浪费数据科学家的时间(只是等待模型训练)，少用服务器，降低基础设施成本。大量的好处。GPU对于图像处理或非常大的数据集非常重要。他们可以将机器学习时间加快 10-20 倍。

投资合适的软件对于最大限度地利用硬件同样重要。这就是为什么我们正在大规模开发一种专门用于人工智能的技术。"

Assad:“投资在你的数据基础设施、硬件和软件”

Afke:“你和我过去都谈到过不快乐的数据科学家，你认为该领域的从业者感到沮丧的主要原因是什么？”

Assad:"很少有人喜欢数据清理，这是一个繁琐而耗时的过程。不同来源的数据聚合也是如此。我们最终花了一半的项目时间编写进口商和出口商来连接一个公司内所有不同的格式。

此外，数据分析本身对于最终产品来说是不够的，它需要集成到完整的软件环境中。**许多利益相关者认为数据科学家的工作就是做好每一件事:**从数据清理到建模、存储、分析、可视化、软件编排(docker 容器)到生产运行。但这实际上是整个 IT 团队的工作。为团队配备不同的个人资料和技能非常重要，这也是我们在项目中所期望的。"

Assaad:“许多利益相关者认为做所有事情都是数据科学家的工作，但这实际上是整个 it 团队的工作。”

Afke:“你会建议公司对此做些什么？

Assad:"了解关于 AI 的话题，实施数据文化政策，并准备投资适当的基础设施。

我喜欢用建筑的比喻:你首先投资于基础设施，然后建造一堵漂亮的墙——人工智能只是一堵漂亮的墙，后面有许多数据基础设施需要到位。"

“没有魔法，没有免费的午餐，没有捷径。”

Afke:“你会建议从业者做些什么呢？

阿萨德:“要有耐心，要有好奇心，要了解不同的主题、软件管道，并致力于在源头、在收集、数据库层面解决数据清理问题。”

总之，你需要适当的数据文化。对于刚起步的公司，建议是投资你的数据结构，投资硬件，投资软件。教育自己并对团队设定正确的期望也很重要。对数据科学家来说，是的，数据清理是工作的一部分，让我们把 数据工程变得性感！

谢谢你，Assaad，谢谢你的有趣的谈话和你给那些想开始学习人工智能的人的建议。我祝你在数据方面一切顺利。你想从阿萨德那里了解更多吗？查看他的 中型帖子 或博客 数据事物 。

关于我:我是一名人工智能管理顾问，也是当地一所商学院的“人工智能管理”研究主任。我的使命是帮助组织利用人工智能创造商业价值，并创造一个数据科学家可以茁壮成长的环境。 报名参加我的 简讯 获取关于 AI 管理的新文章、见解和祭品 这里。

问正确问题的重要性

原文：https://towardsdatascience.com/the-importance-of-asking-the-right-questions-93aa3128500a?source=collection_archive---------22-----------------------

尤其是如果你是一名数据科学家

我们生活在一个重视答案的世界。我们在学校学习如何在考试中回答问题，我们习惯于去工作，知道我们需要有答案，而我们的社会，总的来说，专注于找到解决方案，而不是弄清楚我们是否问了正确的问题。就像大多数经历过传统教育体系并开始在公司工作的人一样，我被训练得知道答案，我被教导我的贡献和价值在于我通过知道正确的答案来解决问题的能力。虽然我确实认为解决问题和找到正确答案的能力是一种很有价值的技能，但我想阐明在此之前的技能，即提出正确问题的技能的重要性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

玛丽·莱扎瓦在 Unsplash 上拍摄的照片

根据定义，问题和答案是联系在一起的，但它们是非常不同的技能组合。寻求答案是一个通过研究和实验进行排除的过程，试图将不同的信息拼凑起来，将事情缩小到一个解决方案。但是提问是一个通过批判性思维和想象力展开的过程。可以理解为什么作为一个社会，我们不重视问正确问题的成本，因为在某种程度上，我们问的问题越多，我们需要做的工作就越多，我们离完成我们需要做的事情就越远。这造成了一个系统性问题，即短期的修补优于长期的解决方案。

这对数据科学家来说意味着什么？

这个问题无处不在，但在像数据科学和工程这样以解决方案为导向的领域尤为突出，因为这些专业都是建立在解决难题之上的。数据科学家倾向于在我们完全理解问题之前就直接进入解决模式，因为我们认为我们已经有了答案。如果存在转换问题，我们可以进行个性化定位。如果存在留存问题，我们可以建立一个流失预测模型。虽然这些可能都是有效的解决方案，但它们可能只是治标不治本。

问错问题的代价

认为解决方案就是解决方案，即使它只是解决了症状，这可能是很自然的。尤其是在一个喜欢立即行动和快速修复的世界里，我们似乎永远没有时间去深入挖掘。我不会说，对于出现的每一个问题，你都需要深入探究你是否问了正确的问题，但我会告诉你一个事实，如果我们问了正确的问题，通常情况下，我们就不会解决一开始就不应该出现的问题。

在数据科学的背景下，成本通常来自两个主要方面，浪费的资源和意想不到的后果。第一个是相对直接的，如果我们没有问正确的问题，我们最终会浪费时间和精力来构建一个不适合目的的解决方案。第二个更邪恶，因为如果我们基于错误的标准来优化一个系统，我们可能会系统性地恶化情况。例如，如果我们将客户流失问题视为一个孤立的事件，并专注于提高保留率，而不问人们为什么会流失，我们可能会错过追溯到客户获取、用户体验和参与的问题，直到它成为客户流失问题。

每个系统都经过完美设计，以获得它所获得的结果

对出现的每个问题都有正确的答案是有价值的，但不提出正确问题的代价更加微妙和长期。如果我们总是优先考虑和重视快速解决方案，我们就在潜意识里鼓励问题发生。我们经常认识到进来解决问题的人，但大多数时候，当涉及到设计系统时，我们没有认识到提出正确问题的人。因此，不提出正确问题的真正隐藏成本是，一个社会或组织培养的人只关注短期而非长期。我们永远无法逃避问题和寻找答案的需要，但我们想要努力的是通过预先提出正确的问题来尽可能防止这种情况发生的能力。

如何提出正确的问题？

在业务中，人们经常在遇到技术问题时求助于技术资源。有道理对吧？然而，当我们生病时会发生什么呢？假设你感到疼痛，你去看医生，你得到的只是止痛药，因为那是你的症状。你会觉得有点吃亏，因为医生没有对你进行正确的诊断，也没有试图理解为什么疼痛会存在。这里的区别是我们的假定知识，当我们认为我们知道问题是什么时，我们有一个封闭的头脑在寻找具体的答案，但当我们不知道问题是什么时，我们有一个开放的头脑，希望别人能帮助解决问题。这里有几件事可以帮助我们克服在理解问题之前就急于解决问题的倾向。

当心你的假设

在我们开始提问之前，我们带着一系列假设来到桌前。假设帮助我们更快地前进，并为手头的问题提供关键的背景，它们是强大的。然而，它们也是危险的，因为人们经常假设一些不一定正确的事情，而且大多数人会得出非常不同的结论，因为他们的思维是基于一套不同的假设。从事实和数据出发是防止假设被歪曲的好方法，但是在这个过程中，我们必须学会尽可能不偏不倚。将假设与现实联系起来让我们到达真正的起点，在那里可以进行逻辑讨论，可以提出正确的问题。

问问我们为什么要这么做？

为一个直接的问题提供答案是很诱人的，因为我们知道它，但是一旦我们切换到解决模式，我们很容易变得狭隘，忘记我们在做什么。因此，虽然这看起来微不足道，但我们应该问问自己，为什么我们经常做我们正在做的事情。保持开放的心态和对自己诚实是很重要的。有时候，我们在某件事情上投入了几周甚至几个月的时间，却发现这件事情一开始就不应该做。对我们为什么这样做进行及时的批判性评估可以帮助我们回到正轨，并专注于正确的问题。

激励诊断而非解决方案

为了长期解决这个问题，我们需要建立一个环境来激励诊断，如果不是解决方案的话。如果我们不从根本上改变我们对好问题和好答案的重视程度，我们将永远习惯于专注于给出答案。虽然这听起来有些牵强，但是我们都可以为此做出贡献。虽然向你的同事或朋友寻求解决方案很诱人，但问问他们认为问题出在哪里，也许我们会获得一个新的视角，以不同的方式重新审视我们的处境。

现在怎么办？

我们每天都面临问题，这是我们练习问正确问题的绝佳机会。这是不直观的，有时甚至会感到沮丧，退一步想想我们是否问了正确的问题。然而，我们必须考虑不提出正确问题的后果，因为我们充其量只能得到错误问题的正确答案，这不应该是我们任何人可以接受的结果。

如果你喜欢我的内容并分享我对这个话题的看法，请在 https://jchoi.solutions/subscribe注册

品牌在数据科学中的重要性

原文：https://towardsdatascience.com/the-importance-of-branding-in-data-science-467b2d2b1e7f?source=collection_archive---------48-----------------------

什么是品牌，作为数据科学家，我们为什么需要品牌

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯蒂安·埃格兰在 Unsplash 上拍摄的照片

最近，一个特别的话题在我和朋友的讨论中反复出现。品牌的重要性！我本来不打算写任何关于它的东西，但当我在 TDS 团队播客上听到肯·吉的采访时，我被触动了——这是出于积极的原因。

产品、品牌和品牌

重要的是，我们要区分什么是产品、品牌和品牌，这样我们才能更好地理解我想表达的观点。

产品定义

“广义而言，产品是可以提供给市场以满足需求或需要的任何东西，包括实物商品、服务、体验、事件、人员、地点、财产、组织、信息和想法”(Kotler & Keller，2015 年)

根据这个定义，我们可以说产品是供出售的东西，可以是一项服务或一件物品(或者两者都是)。制造产品是有成本的，因此购买产品也是有价格的，但产品的价格取决于许多因素，如市场、质量、营销和产品的目标市场。

为了使这个概念更加清晰，把水想象成一种产品。我们都知道水是一种免费的资源，是人类生存的必需品，然而，我们可以称之为产品，因为它已经商业化，因为它可以出售。

虽然所有的水看起来都一样，但并不是所有的水价格都一样。同样的产品可能以不同的价格出售，人们仍然会因为一种叫做品牌的东西而购买一瓶更贵的水。

品牌定义

“品牌是公司用来区分其产品与其他产品的识别符号、标志、徽标、名称、单词和/或句子。”(来源 : Investopedia )

如果我对你说“就这么做”，你会想到什么——希望你说的答案是耐克。当你想到某些产品或服务时，你脑海中的想法或形象可能被认为是品牌。但是，请务必注意，品牌不仅仅是一种情感属性，相反，它是物理属性(如“上衣穿着舒适”)和情感属性(如“就这么做”)的结合，因为当我们接触到名称、标志等时，这些因素就会被触发。

这种区别很重要，因为一个产品被其他人仿制的情况更为常见，但一个品牌仍然是独一无二的。例如，你可能拥有和我一样的数据科学技能，但你不是我，反之亦然。

总结一下什么是品牌，我们可以称之为对某种事物的直觉。

品牌定义

“品牌是传达独特销售主张或差异的过程，使产品或服务在竞争中脱颖而出。”(来源:小企业)

换句话说，品牌就是我们如何通过在消费者心中塑造品牌来赋予事物以意义。它作为一种方法，帮助人们识别和体验一个品牌，并通过明确定义某个特定品牌是什么和不是什么，为他们提供一个选择自己产品的理由。

在商业中，品牌的目标是通过确保产品以符合品牌在封面上所说的方式交付来吸引和留住忠诚的客户和其他利益相关者。

目标是通过提供始终与品牌承诺一致的产品(换句话说，是一种营销工具)来吸引和留住忠诚的客户和其他利益相关者。

要将这一点与我们作为数据科学家联系起来，我们可以将产品视为我们的技能。许多人可能拥有与我们完全相同的技能，但他们不是你，因此你为产品(技能组合)提供了不同的意义，即 Kurtis 让你想成为不可或缺的数据科学家，而(填写姓名)让你想掌握深度学习。品牌方面可能被认为是人们如何识别和体验你的品牌，例如，你可能听说过机器学习大师，但你可能不太熟悉 Jason Brownlee，他是机器学习大师的创始人。

为什么这么大惊小怪？

现在我们已经有了定义，下一步是解释为什么品牌在数据科学中很重要，对于这一部分，我有两个关键原因，为什么在我看来作为数据科学家建立个人品牌很重要；

协助审查过程

自从我踏上求职之旅，有一件事是我最关注的…

“数据科学”这个术语非常宽泛。

一家公司认为是数据科学的东西，另一家可能会认为是数据分析师，下一家可能会认为是机器学习工程师，或者是 Quant，或者是万事通；无论你走到哪里,“数据科学家”的角色定义都可能发生变化……有时，变化非常大！

图:一条关于数据科学误解的病毒式推文

在某种程度上，我现在开始对招聘经理、人力资源部门等产生共鸣，因为他们可能每天都会收到大量漂亮的申请，而这些申请与他们具体想要的完全无关。此外，我们不要谈论写工作描述的人的负担。

撰写分析师的工作描述可能很容易，但当您开始定义您希望数据科学家具备的素质时，这些界限变得非常模糊。在某种程度上，这种混乱甚至使得编写其他角色的描述变得更加困难，例如分析师——我见过需要建模技能的分析师角色，如果数据科学之神(只是一个虚构的角色，请不要谷歌它)掌握了它，这可能会引发一场虚拟的骚乱。

我强烈推荐你阅读托马斯·尼尔德的《 数据科学已经变得过于模糊》——它讨论了数据科学的演变，以及为什么托马斯认为我们应该解散“数据科学”这个术语，变得更加专业化。我认为他提出了一些很好的观点。

哈佛创造了一个名为“数据科学”的空白，每个人都竞相填补。SQL 开发人员、分析师、研究人员、定量分析师、统计学家、物理学家、生物学家以及无数其他专业人士都将自己重新标榜为“数据科学”专业人士。——数据科学的一个摘录变得太模糊了，托马斯·尼尔德

鉴于我们在数据科学领域面临的身份危机，个人品牌可以帮助我们从人群中进入“我们正在寻找的”类别。

例如，如果你是 LinkedIn 上数据科学社区的一员，你可能听说过Kate strach Nyi。你永远不会看到 Kate 的个人资料，然后想“嗯……她正是我们一直在寻找的人，来解决我们的信用卡欺诈检测问题”，因为她一直谈论的都是数据可视化。

现在，这并不是说凯特不能做模特(我真的不知道)，但我肯定她可以建立一个邪恶的仪表板！一家正在找人制作复杂仪表板的公司会立即看到凯特的个人品牌，并确切知道她是什么样的人。

同样，我不相信微软会叫吴恩达来为他们建立一个交互式仪表板，因为离开他的 Coursera 课程，其中一些关于机器学习和深度学习的课程是最好的，他可能非常擅长问题公式化和建模(以及其他事情)。

从本质上来说，你的个人品牌将驱散围绕数据科学家定义的迷雾，因为你已经定义了你的优势所在。

上升空间无限，下降空间很小

我必须说，当一个博士生直接给你发信息，告诉你你的工作给了他们多少启发，这是一种自我满足。然而，除了可爱的信息(和偶尔的仇恨邮件)，机会是无穷的。

“只要有无限的上升空间和很小的下降空间，就去冒险！”

毫无疑问，在开始的时候，事情会很缓慢。获得关注可能需要 7、8、9 或 10 个月，但在某个时候(对于一些真正杰出的人来说，甚至更快)，你的收件箱将会被机会和联系请求淹没——我是根据经验说的。

客观地看，我最近是一个播客的嘉宾(希望它会在 1 月初发布)，如果你告诉我这将在今年年初发生，我会嘲笑你，而我没有解释决策树的结果。

给自己打上烙印会让你处于不舒服的境地，这将迫使你比逃避更快地成长。

除了机会之外，回想一下上面我们提到的“品牌保持独特性，那是因为你定义了愿景和价值观。

如果你想到当今世界上一些最成功的公司，如苹果和耐克，它们都从拥有强大品牌中获益。他们很少深究产品的物流和它的作用。见鬼，我说不出前 6 部 iPhones 的区别，但我还是买了一部，还有很多人在买他们的产品。

你的品牌，描述了你要去的地方(你的愿景)和你所重视的东西，是将人们吸引到你身边的东西！

Admond Lee 写了一篇很棒的文章，详细介绍了创建个人品牌的好处，并更深入地讨论了公司因其品牌而获得的成功——作为数据科学家，你为什么应该创建个人品牌 。

如果我把你卖了…

Yoel Zeldes 写了一篇很好的博客，作为建立个人品牌的一个很好的起点——作为数据科学家如何建立你的个人品牌

包裹

个人品牌很重要，越来越多的人，包括公司，开始意识到当前的环境。人们期望你有某种在线足迹，可以追溯到你作为“数据科学家”的工作，如果你没有，那么我建议你开始努力。

关于这一点，我建议你阅读“ 最重要的数据科学项目 ”

* [## 最重要的数据科学项目

每个数据科学家都必须做的项目

towardsdatascience.com](/the-most-important-data-science-project-458d016ef8a6)

谢谢你看完。对话还没结束，我们继续上 LinkedIn 吧…

[## Kurtis Pykes -人工智能作家-走向数据科学| LinkedIn

在世界上最大的职业社区 LinkedIn 上查看 Kurtis Pykes 的个人资料。Kurtis 有一个工作列在他们的…

www.linkedin.com](https://www.linkedin.com/in/kurtispykes/)*

领域经验在数据科学中的重要性

原文：https://towardsdatascience.com/the-importance-of-domain-experience-in-data-science-b46bcc6fba64?source=collection_archive---------46-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

盖蒂图片社的 iStock

领导者应该雇佣数据科学专业的毕业生吗？还是提升现有员工的技能？

绝望的数据科学谷是真实的。一次又一次，精通案例研究和行业研究的领导者赞美数据驱动的洞察力的回报，寻求创新他们的业务——并陷入沮丧和冲销的困境。鉴于 Gartner 预测 85%的数据科学项目会失败(2018)，称之为绝望的火山口可能更准确。这 15%成功的数据科学项目有什么共同点？很多，包括仔细考虑从事给定项目的数据科学家是在从分析项目毕业后立即被雇用，还是现有员工在内部获得技能提升。

从表面上看，这似乎很空洞。既然领导者可以雇佣一个拥有数据科学学士或硕士学位、精通最新最棒的工具和技术的候选人，他们为什么要承担成本和时间来培养一个呢？假设你有时间和能力复制一个世界级的数据科学程序，那岂不是往好里说是低效，往坏里说是无效？

这取决于您的领域，或者更具体地说，取决于您的数据的复杂性和血统。

由大学、MOOCs 和其他方式提供的正式数据科学教育只能有效涵盖成功担任该角色所需的 3 种跨学科技能中的 2 种:统计学和计算机科学。第三个跨学科的技能，领域知识，不能一起教授，因为它在不同的行业，甚至不同的公司之间并不一致。没有任何机构可以教授你数据的复杂性。会有知识差距。问题是，有多宽？火山口？山谷？还是通航关？

数据是一种语言，每个公司，如果不是每个业务部门，都有自己的方言。与口语一样，这些差异是有机产生的，并根据群体的需求而变化或发展。还记得《珠光宝气》之前的生活吗？“渠道伙伴”也是如此。这些方言对于不符合通用分类定义的通用术语来说变得尤其令人困惑。例如，IT 部门的“客户”可能是员工，而销售部门的“客户”通常是具有购买力的个人，他们可能不同于“最终用户”，后者被贵公司的外部联络中心称为“客户”。

重申一下——领域知识是学会的用一个群体的数据方言流利交流的技能。它的组成部分是:一般商业敏锐度+垂直知识+数据谱系理解。例如，人力资源分析部门的数据科学家需要具备业务基础知识+人力资源+公司人力资源工具的内部运作以及创建数据的流程。这些流程和数据集的其他输入至关重要。数据科学家在理解今天的数据是什么之前，无法创造有意义的见解。它在讲故事吗？它，或者它的子集，被污染的太严重以至于今天不能使用吗？一些数据点是其他数据点的代理或输入吗？您的业务流程和相关的数据血统越复杂，您学习数据方言的时间就越长。

对于使用直观方言(即“点击”就是“点击”)自动收集数据的数字原生公司来说，领域知识的发展速度要比经历了转型、收购和/或剥离的大型老牌公司快得多。

如果你雇佣了一个数据科学家，他们需要多久才能学会你的数据方言？在施加压力产生“洞察力”之前，你能为他们提供空中掩护吗？在统计和计算机科学领域提升某人(如业务分析师或开发人员)的技能会更快或更有效吗？

真正的问题是——什么对你的项目最有意义？雇佣数据科学家？培养成功的数据科学家？或者，由这两种类型的人组成的团队会帮助你避开数据科学的绝望深渊吗？

拥有功能库的重要性

原文：https://towardsdatascience.com/the-importance-of-having-a-feature-store-e2a9cfa5619f?source=collection_archive---------43-----------------------

我已经看到了构建和维护一个集中的特性库所带来的巨大价值。特征库是一个包含许多功能的集中式软件库，其中每个功能根据标准化输入(数据)创建一个特征。这些特征可以在以后输入到旨在解决不同问题的机器学习算法中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

约书亚·阿拉贡在 Unsplash 上拍摄的照片

尽管特征存储在数据策略中起着至关重要的作用，但仍然很难在网上找到关于它们的信息。但是，了解什么是功能存储以及它们为什么重要是至关重要的，特别是在当今世界，数据治理越来越多，商业问题越来越多地由机器学习模型解决。事实上，功能商店应该是你公司整个机器学习运营的基础部分。

在它们提供的其他好处中，特性存储的三个具体优势使它们变得非常有价值:它们支持在整个公司范围内简单地重用特性；它们使得标准化特性定义和命名约定变得简单；它们使企业能够在数据科学家离线开发的模型和在线部署的模型之间实现一致性。

什么是特色店？

因为“存储”可能有多种含义，所以有必要澄清在术语“功能存储”中，这个词与“存储”相关商店实际上是一个包含许多功能的集中式软件库，其中每个功能根据标准化输入(数据)创建一个单一特征。这些特征可以在以后输入到旨在解决不同问题的机器学习算法中。

当大规模操作机器学习系统时，数据专业人员通常需要设计大量功能，以便训练他们的模型。如果模型成功地解决了创建它所针对的问题，并部署到生产环境中，那么以后应该在生产环境中创建完全相同的特性，以提供给在生产环境中运行的模型。在此过程中，要素存储成为数据科学家的宝贵资源。

要素存储还允许数据科学家简化维护要素的方式，为更高效的流程铺平道路，同时确保要素得到正确存储、记录和测试。整个公司的许多项目和研究任务都使用相同的功能。通过要素存储，数据科学家可以快速访问他们需要的要素，并避免重复工作。功能商店还提供了一种经过测试和质量保证的方法来创建功能，并知道它是可靠的。

为什么我们需要特色商店？

使用要素存储有助于缓解数据科学家面临的一些特定于要素的挑战。其中包括:

不会重复使用特征。数据科学家面临的一个常见障碍是花费时间重新开发功能，而使用以前开发的功能或其他团队开发的功能就足够了。要素存储允许数据科学家避免重复工作。
功能定义各不相同。任何一家公司的不同团队可能会以不同的方式定义和命名特性。此外，访问某个特定特性的文档(如果存在的话)通常是一个挑战。特征存储通过保持特征及其定义的组织性和一致性来解决这个问题。功能库的文档可以帮助您围绕公司的所有功能创建一种标准化的语言。您确切地知道每个特征是如何计算的，以及它代表什么信息。
培训和生产功能不一致。生产和研究环境通常使用不同的技术和编程语言。流入生产系统的数据流需要实时处理为特征，并输入到机器学习模型中。为了使建模工作有效，在研究中离线开发的模型需要提供与在线部署的模型完全相同的预测，给定相同的数据作为输入。拥有一个与环境无关的特征库(在线和离线)意味着给定相同的数据，模型将被提供完全相同的特征。‍

特色店福利

当一家公司采用功能存储时，它允许团队中的数据专业人员针对任何机器学习用例遵循相同的通用工作流，而不管他们当前正在解决的挑战(例如分类和回归、时间序列预测等)。).这种工作流通常是与实现无关的，这意味着它可以很容易地用于新的算法类型和框架，例如经典的 ML 算法以及较新的深度学习框架。

使用功能库的另一个主要好处是节省时间。在任何建模工作中，创建特征的阶段往往是最耗时的；这一敏感过程要求正确计算要素，一次要创建数千个要素，并在生产环境中以与研究期间离线计算完全相同的方式进行计算。使用特征库使得创建特征的过程更加简化和高效。

我的建议:集中式功能商店

我的团队从构建和维护集中式特征存储中获得了很大的价值，在该存储中，公司内不同的数据专业人员都可以创建和管理供团队其他成员使用的规范特征。这使得数据科学家可以轻松地将他们构建的要素添加到共享要素存储中。一旦有了特性，就很容易在线(在生产中)和离线(在研究中)使用它们，只需引用一个特性的简单规范名称。

今天，我们的功能库中有数千个功能，用于公司和所有领域的各种机器学习项目。我们的数据科学家一直在添加新功能，新功能会自动计算并每天更新。这使得我们的团队成员能够避免重复工作，并轻松访问建模和研究所需的大量数据。

更多信息和有用的信息请访问 Bigabid 技术博客！

k-fold 交叉验证对机器学习中模型预测的重要性

原文：https://towardsdatascience.com/the-importance-of-k-fold-cross-validation-for-model-prediction-in-machine-learning-4709d3fed2ef?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片—加拿大桑德湾

本文将讨论和分析使用经验风险最小化(ERM)的最小二乘算法的机器学习中模型预测的 k-fold 交叉验证的重要性。

我们将使用多项式曲线拟合问题来预测样本数据集的最佳多项式。此外，我们将在 MATLAB 上一步一步地检查 10 重交叉验证的实现。

在这篇文章结束时，你将知道如何实现 k-fold 交叉验证方法，并理解它的优点和缺点。

概观

为了更好地可视化在机器学习上应用 k-fold 交叉验证的好处，我们将分析我们在根本不进行任何类型的交叉验证的情况下估计模型时可能面临的一些问题。

我们首先将数据集导入 MATLAB，并绘制数据点，以便更好地可视化它们。然后，我们将实施 10 重交叉验证算法，并计算经验风险最小化(ERM)的平方损失误差，以找到我们数据的最佳模型。最后，我们将重复这个过程，但这次没有任何类型的交叉验证，并比较结果。

资料组

我们将使用只有 100 个数据点的数据集。稍后将解释使用如此小的数据集的原因。这个数据集最初是由 Ruth Urner 博士在她的一次机器学习课程作业中提出的。在下面的存储库中，你会发现两个 TXT 文件: dataset1_inputs.txt 和 dataset1_outputs.txt 。

[## jaimedantas/最小二乘回归

正则化最小二乘算法用于回归以寻找机器学习模型。这个实现…

github.com](https://github.com/jaimedantas/least-squares-regresion)

这些文件包含输入和输出向量。在 MATLAB 上的 Home > Import Data 中导入它们之后，我们可以绘制如下所示的数据点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料组

k 倍交叉验证

当我们没有足够的数据来应用其他更有效的方法，如三分法(训练、验证和测试)或使用维持数据集时，交叉验证通常用于机器学习中，以改善模型预测。这就是我们的数据集只有 100 个数据点的原因。如果你想更多地了解这种方法背后的数学原理，我推荐你阅读这篇文章。

在 k-fold 交叉验证中，我们首先打乱数据集，使输入和输出的顺序完全随机。我们这样做是为了确保我们的输入没有任何偏差。然后，我们将数据集分成大小相等的 k 个部分。在这个分析中，我们将使用 10 重交叉验证。所以，第一步是把我们的数据集分成 10 份。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将数据分成 10 份

然后，我们将使用一个折叠来测试和计算经验平方损失，其余 9 个折叠用于在每个 k 交互中训练我们的模型。通过这样做，每次我们开始一个新的交互时，我们都使用不同的文件夹进行测试。这样，我们保证每一个 k 零件都被用于一次测试。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

10 重交叉验证的算法

最后，我们将有 10 个经验平方损失值，每个相互作用一个。最终的经验平方损失将是这些值的平均值。说够了，还是去实现本身吧。

履行

首先，我们需要将数据集随机分成 10 等份。为了做到这一点，我创建了两个循环来迭代向量 t 和 x ，将它们分成 10 个相等的部分。这些部分存储在单元阵列 split_t 和 split_x 中。我还创建了一个辅助单元格数组来存储为每个部分选择的索引。最后，我创建了一个向量来存储所有已经拆分的索引。

在内部循环中，我生成一个从 1 到 100 的均匀分布的随机整数[1]。然后，我检查这个索引是否在被访问的索引列表中。如果它不在那里，我将这个值添加到分割单元数组中，并递增内部循环；否则，我会生成一个新的随机索引。外环重复 10 次这个过程。

这个过程可能不是混洗和分割数据集的最有效的方法，但是它确实有效，并且保证了随机分割。为了形象化我们创建的 10 个折叠，我将它们绘制在下图中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集随机分成 10 份

现在，我们需要对 ERM 的经验平方损失实施 10 重交叉验证。在继续之前，我建议阅读一下关于 ERM 的解释，这样你就能理解它背后的一些主要概念。ERM 的解决方案在下面的等式中定义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向量 w 是我们的多项式系数， X 是设计矩阵， t 是输出向量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了简化我们的计算，我们将在 MATLAB **中手动求解 w 的线性方程(通过矩阵的相乘和求逆)。**请注意，这不是求解线性方程的最有效方法。此外，我们将分析 W = 1，2，…，30 阶多项式。

因此，对于 10 重交叉验证，我们在一个循环中执行 ERM 过程 10 次，并将每次执行的所有测试分数存储在单元数组 E 中。经验平方损耗通过以下公式计算。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在此过程中，我们使用一个折叠进行测试，其余 9 个折叠用于训练。在这个循环中，我还计算了训练和测试设计矩阵。

我们算法的输出如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cross_Validation.m 脚本的输出

因此，W = 6 阶多项式最适合该数据。现在，让我们分析下图中所有多项式的 ERM 图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缩减规模下交叉验证的经验平方损失

请注意，为了更好地理解趋势，我缩小了上图中图表的比例。我们可以得出结论，随着多项式阶数的增加，经验平方损耗降低。然而，当我们将阶数增加到非常大的值时，我们开始看到过度拟合的行为(本例中 W > 21)。此外，请注意，从 W = 12 到 W = 15，平方损耗略有增加。这是因为我们在 k 倍交叉验证过程中置换了我们的数据集。避免这种情况的一种方法是进行多次 k 倍交叉验证，最后对平方损失进行平均。

下图显示了 W = 6 阶多项式相对于数据集的曲线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6 阶多项式与数据集

请注意，我们没有用我们选择的模型过度拟合我们的数据。

如果我们没有使用 10 重交叉验证会怎么样？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

为了回答这个问题，让我们看看如果在我们的问题中没有使用 10 重交叉验证，我们会得到什么结果。为此，我们简单地将平方损失法应用于 ERM，如下所示。

上述算法的输出如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

脚本的输出

如我们所见，这一次 21 阶多项式是经验平方损失最小的一个。即使我们分析经验平方损失曲线(如下所示),我们最终也会选择一个非常大的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缩小比例下的经验平方损失

选择更高阶多项式的结果并不便宜。这不仅会使数据过拟合，还会增加复杂性。下面我们来看看 21 阶多项式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

21 阶多项式与数据集

我们可以看到，尽管 W = 21 阶多项式的经验损失最小，但它以极大的方式过度拟合了数据。

结论

我们看到交叉验证允许我们为我们的数据集选择一个更好的模型和一个更小的阶数(W = 6 与 W = 21 相比)。最重要的是，k-fold 交叉验证避免了我们在不执行任何类型的交叉验证时遇到的过拟合问题，尤其是对于小数据集。

然而，这种改进伴随着高成本。当使用 k-fold 交叉验证时，需要更多的计算能力来找到最佳模型。

当我们分析有交叉验证和没有交叉验证的模型的曲线时，我们可以清楚地看到 10 重交叉验证在为该数据选择最佳模型时是最重要的。

我们还研究了 10 重交叉验证的算法，详细说明了在 MATLAB 上实现该算法所需的每个步骤。

关于我

我是约克大学的一名硕士研究生，骨子里是一名软件工程师。在过去的十年里，我一直在软件开发、云计算和系统工程等领域的几个行业工作。目前，我正在研究云计算和分布式系统。

如果你愿意，你可以在我的网站上查看我的作品。

感谢阅读！

参考

[1] Randi 函数 MATLAB。网址:https://www . mathworks . com/help/MATLAB/ref/randi . html # d 122e 1072277

[2] Shai Shalev-Shwartz 和 Ben-David。理解机器学习:从理论到算法。剑桥大学出版社，2014 年。DOI:10.1017/CBO9781107298019。网址:https://www . cs . huji . AC . il/~ shais/understanding machine learning/understanding-machine-learning-theory-algorithms . pdf

机器对机器经济的重要性(M2M) &多智能体系统

原文：https://towardsdatascience.com/the-importance-of-machine-to-machine-economy-m2m-multi-agent-systems-cbb85c2fd3c2?source=collection_archive---------37-----------------------

从商业角度理解去中心化人工智能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯·巴巴利斯在 Unsplash 上的照片

在我最近的一次任务中，我负责在我们所谓的“机器对机器经济”(M2M)的背景下制定一项与去中心化人工智能相关的战略。在本文中，我将解释为什么多代理系统是在即将到来的 M2M 经济中创建新商业模式的关键，以及为什么这个新时代会对您的组织构成重大威胁。

具体来说，我们希望机器变得“更聪明”，并且很快能够在没有任何人类干预的情况下做出决策并在它们之间进行交易。因此，由于去中心化的人工智能，我们将很快看到新的商业模式和客户关系。

多智能体系统

让我们从定义一些关键术语开始:

**代理:**复杂的计算机程序，在开放和分布式环境中，代表它们的用户自主行动，以解决越来越多的复杂问题。然而，应用程序越来越需要多个可以协同工作的代理。( 1

多智能体系统(MAS): 一个松散耦合的软件智能体网络，通过交互来解决超出每个问题解决者个人能力或知识的问题。( 2 )

更简单地说，用一个来自 Yoav Shoham 和 Kevin Leyton-Brown 的例子，你应该想象一个个人软件代理在几个电子商务网站上代表你。例如，让我们假设这个代理的任务是识别随着时间的推移在各种在线网站上销售的特定产品，并代表您购买其中的一些产品。为了取得成功，您的代理需要记住您对产品的偏好、您的预算以及您对其运营环境的总体了解。

此外，代理将需要利用你对与之互动的其他类似代理的了解(在拍卖中，或代表其他企业的代理)。

这些智能体的集合形成了一个多智能体系统。详细地说，多智能体系统是“一个由各种相互沟通的人工智能组成的松散生态系统”( 3 )。它本质上是基于代理的系统的下一次迭代。一些算法在 MAS (强化学习、深度学习、深度卷积网络、…)的发展中被证明是相当有趣的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目前，MAS(在分散的人工智能背景下)仍在研究中。因此，多智能体系统的工业应用/可扩展性仍然需要几年的时间。

多代理系统分为两类:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们已经看到的，代理可以相互作用。这些代理之间的通信或协调可以采取多种形式。然而，也有必要理解它们也是自主代理。因此，在一些情况下，代理具有相反的目标，因此，不能执行任何包含它们的合作过程。

知道代理配备了社交能力是很关键的。这种能力可以定义为“交换高级信息(而不仅仅是没有关联意义的数据字节)和与其他代理(和/或人类)进行社会互动过程的能力，类似于人类在日常生活中使用的那些，建立集体行为。”( 4

我们当前的挑战是建立能够与其他代理协商和合作的代理。例如，为了说服代理合作，可能需要付款或提供特定的商品或服务。

此外，我们也在关注联合学习。

**联合学习:**一种机器学习技术，在多个分散的边缘设备或保存本地数据样本的服务器上训练算法，而不交换它们。( 5 )

事实上，我们认为 AI 和实时数据处理必须发生在边缘网络和边缘设备(物联网设备等)上。对于一些产品来说，从传感器中收集数据以在不依赖云或互联网的情况下实时做出决策是否至关重要。他们还应该能够使用机载算法学习或训练自己，并与其他产品分享他们的学习成果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器对机器经济

随着人工智能、智能传感器、去中心化 P2P 交易协议和区块链的兴起，我们正在进入机器经济。机器最终会在经济上独立。一个对象(比如:车)就能花钱，就能挣钱。机器将为我们做出决定，这解释了人工智能方面的问题，但我们需要信任它们——这就是区块链的用武之地。

我们未来的顾客将是带钱包的机器。

我们设想在未来，机器可以发现、自动与其他机器连接(使用公共或私有网络，例如网状网络)，通过 AI(强化学习)做出自己的选择，并独立购买他们需要的东西。我们认为机器迟早也会集成钱包。

一个物联网设备将不再被认为是一个孤立的产品，需要自己从头学习一切；这些设备还将利用全球其他类似物联网设备的大规模学习。这意味着由机器学习训练的物联网智能系统不仅仅是变得更聪明；随着时间的推移，他们以指数趋势变得更聪明。

此外，在 M2M 经济中，大多数消费者将根据他们使用或消费产品的数量付费。这是我们购买产品方式的重大转变。

在汽车行业，我们可以想象车辆可以无缝连接和通信(使用多代理深度强化学习)与其他车辆、道路、交通灯、停车计时器、汽油泵，甚至像优步这样的私营公司。更广泛地说，我们可以设想一个社会，在这个社会中，汽车、无人机或建筑物可以直接相互协商，以实现它们的目标，而不需要人类的参与。

为了在机器对机器经济中创造新的以机器为中心的商业模式，我们必须首先通过更好地利用数据网络效应来改进我们的 AIoT 战略。

机器是未来的客户…

从技术角度来看，建造一台真正自主且可扩展的机器，并使其能够在非常具体的目的背景之外做出决策，仍然是一件极其困难的事情。

我们产品的转型或多或少遵循了澳大利亚联邦银行制定的路线图。在机器对机器经济的发展中，我们有三个必要的步骤

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新的机遇和威胁

向大多数顾客都是机器的经济转型将产生重大影响。

你如何说服一个人工智能代理从你的公司购买？
在 M2M 经济中，你是如何管理“顾客”忠诚度的？
你如何确保在这个机器驱动的经济中保持相关性？

这种情况会给你的行业带来新的动力。今天依赖人工智能代理的客户可能会转向更“人工智能友好”的业务，或者一些公司可能会创建特定的专属环境。与此同时，你必须考虑到你的产品可能会独立产生额外的收入。

例如，在 M2M 经济中，自动驾驶汽车的车主可以通过向其他人提供乘车服务，或者通过向人工智能公司出售或出租数据集来受益。我们的项目之一是为这个案例考虑一个激励机制。事实上，作为一种激励，汽车可以接收比特币或一些代币。

我们已经关注了代理之间信任的概念。事实上，信任可以被视为代理之间交互的质量和数量:两个部分之间发生的交互越多，一方就越信任另一方。在一个由去中心化人工智能驱动的竞争市场中，改变这一点容易吗？

代理之间的信任问题可以通过基于动态交互的信誉模型(DIB-RM) 来解决，该模型被引入来捕获信任的动态属性。该模型结合不同的动态因素计算系统中每个代理的信誉值。信誉值在每次交互时被更新。

除了显而易见的技术问题之外，公司还必须从孤立的解决方案过渡到共享的、值得信赖的通信方法。事实上，只有为 MAS 开发特殊的协议，MAS 才能适用于所有行业。MAS 将很难在当前的数据驱动协议下工作。

要了解更多信息，我推荐以下链接:

自然语言处理对非英语语言的重要性

原文：https://towardsdatascience.com/the-importance-of-natural-language-processing-for-non-english-languages-ada463697b9d?source=collection_archive---------21-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Porapak Apichodilok，Pexels

自然语言处理(NLP)的应用越来越广泛，并在许多系统中发挥着重要作用，从招聘的简历解析到自动电话服务。你也可以在聊天机器人、虚拟助手、现代垃圾邮件检测等常用技术中找到它。然而，NLP 技术的发展和实现并不像它看起来那样公平。

客观地说，尽管世界上有 7000 多种语言，但绝大多数 NLP 过程都扩展了七种关键语言:英语、汉语、乌尔都语、波斯语、阿拉伯语、法语和西班牙语。

即使在这七种语言中，绝大多数技术进步都是在基于英语的 NLP 系统中实现的。例如，光学字符识别 (OCR)对于非英语语言仍然是有限的。任何使用过在线自动翻译服务的人都知道，一旦你尝试超越上面提到的关键语言，就会受到严重的限制。

NLP 管道是如何开发的？

为了理解 NLP 中的语言差异，首先理解这些系统是如何开发的是有帮助的。典型的管道从收集和标记数据开始。大型数据集在这里是必不可少的，因为训练和测试算法都需要数据。

当为几乎没有可用数据的语言开发管道时，在语言中拥有强模式是有帮助的。小数据集可以通过一些技术来扩充，例如同义词替换来简化语言，反向翻译来创建相似短语的句子来扩充数据集，以及用其他相关词类替换单词。

语言数据也需要大量清理。当使用带有特殊字符的非英语语言(如中文)时，通常需要正确的 unicode 规范化。这允许文本被转换成所有计算机系统可识别的二进制形式，降低了处理错误的风险。这个问题在像克罗地亚语这样的语言中被放大了，这些语言严重依赖重音来改变单词的意思。例如，在克罗地亚语中，一个单独的重音可以将一个积极的词变成消极的词。因此，必须对这些术语进行手动编码，以确保数据集的可靠性。

最后，数据集可以分为训练和测试部分，并通过特征工程、建模、评估和细化的机器学习过程发送。

一个常用的自然语言处理工具是谷歌的双向编码变压器(BERT)的代表，据称是开发一个“最先进的”模型在 30 分钟内使用一个单一的张量处理单元。他们的 GitHub 页面报告支持拥有最大维基百科数据库的前 100 种语言，但系统的实际评估和改进只在 15 种语言上进行过。虽然 BERT 在技术上支持更多的语言，但是较低的准确性和缺乏适当的测试限制了这项技术的应用。其他 NLP 系统，如 Word2Vec 和自然语言工具包(NLTK)也有类似的限制。

总之，NLP 管道对于不太流行的语言来说是一个挑战。数据集较小，通常需要扩充工作，清理过程需要时间和精力。对本地语言资源的访问越少，构建 NLP 管道时可用的数据就越少。这使得不太受欢迎的语言的准入门槛非常高，在许多情况下，太高。

NLP 中不同语言支持的重要性

有三个总体观点支持 NLP 的扩展:

社会劣势的加剧
规范性偏见
改进 ML 技术的语言扩展

让我们更详细地看一下每一项:

社会劣势的强化

从社会的角度来看，重要的是要记住，只有当技术工具以你的语言可用时，技术才是可访问的。在基本层面上，拼写检查技术的缺乏损害了那些说和写不太常用语言的人。这种差异沿着技术链上升。

此外，心理学研究表明，你说的语言塑造了你的思维方式。驱动互联网的系统中的内置语言偏好固有地结合了驱动语言的社会规范。

事实是，受支持的系统继续蓬勃发展，而向一个根深蒂固的计划引入新的方面是一个挑战。这意味着，随着 NLP 在没有引入多样化语言范围的情况下继续发展，未来将它们纳入将更具挑战性，危及全球语言的多样性。

规范性偏见

英语和英语邻近语言并不代表其他世界语言，因为它们有许多语言所没有的独特语法结构。然而，由于主要支持英语，互联网和其他技术逐渐将英语视为正常的默认语言设置。

由于一个相对不可知论的系统是在英语上训练的，它学习特定语言的规范和系统以及伴随这种限制而来的所有文化含义。随着 NLP 被应用到拥有国际观众的更智能的过程中，这种单边方法只会继续变得更加明显。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿迪·佩雷茨

改进 ML 技术的语言扩展

当我们仅将机器学习技术应用于少数几种语言时，我们就在系统中植入了隐含的偏见。随着机器学习和 NLP 在只支持少数几种语言的情况下继续发展，我们不仅使引入新语言变得更具挑战性，而且冒着从根本上不可能做到这一点的风险。

例如，子词标记化实现在以重复为特征的语言上表现很差，重复是许多国际语言的共同特征，如南非荷兰语、爱尔兰语、旁遮普语和亚美尼亚语。

语言也有各种各样的词序规范，这往往会难倒基于英语的 NLP 中使用的常见神经模型。

能做些什么？

在当前围绕 NLP 的话语中，当说出“自然语言”时，一般的假设是研究者正在处理英语数据库。为了打破这种模式，创造更多的国际体系意识，我们首先应该总是参考正在发展的语言体系。这种总是陈述研究人员正在研究的语言的想法被通俗地称为本德法则。

当然，仅仅意识到这个问题是不够的。但是，注意这个问题有助于开发更广泛适用的工具。

当希望在 NLP 管道中引入更多语言时，考虑数据集的大小也很重要。如果您正在创建一个新的数据集，您的预算的很大一部分应该用于创建另一种语言的数据集。当然，在优化其他语言的当前清理和注释程序方面的额外研究对于在全球范围内扩展 NLP 技术也是至关重要的。

这个故事最初发表在 Lionbridge.ai，你可以在这里 阅读故事原文，了解更多关于 Lionbridge 。

监督预测性维护解决方案中问题框架的重要性

原文：https://towardsdatascience.com/the-importance-of-problem-framing-for-supervised-predictive-maintenance-solutions-cc8646826093?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

杰西卡·鲁斯切洛在 Unsplash 上的照片

探索美国宇航局的涡轮风扇数据集

重温我们的剩余使用寿命假设&支持向量回归

<免责声明:我的目的是展示模型开发过程中不同方法和选择的效果。这些影响经常使用测试集来显示，这被认为是(非常)不好的做法，但有助于教育目的。 >

在我的上一篇文章中，我们探索了 NASA 的 FD001 涡轮风扇退化数据集。简单概括一下，传感器 1、5、6、10、16、18 和 19 没有与剩余使用寿命相关的信息(RUL)。从数据中去除这些因素后，我们拟合了一个 RMSE 为 31.95 的基线线性回归模型。今天，我们将重新检查我们的 RUL 假设，以提高我们的准确性，并拟合支持向量回归机(SVR)，以进一步改善我们的结果。我们开始吧！

加载数据

首先，我们将加载数据并检查前几行，以确认数据加载正确。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

train.head()的结果

加载的数据看起来不错，让我们像以前一样计算线性下降 RUL。

RUL 在击穿时可以认为是 0，我们天真地假设 RUL 是一个线性函数。意味着在击穿前的 10 个周期时 RUL 是 10，在击穿前的 50 个周期时是 50，等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在重新检查我们计算 RUL 的方法之前，我们将通过删除不包含有用信息的列来准备数据。这将允许我们直接测试我们所做的任何更改，因为我们的数据已经准备好了。

我们还定义了评估模型性能的函数。

改装我们的基线模型。

# returns
# train set RMSE:44.66819159545453, R2:0.5794486527796716
# test set RMSE:31.952633027741815, R2:0.40877368076574083

重新审视 RUL

之前我假设 RUL 随着时间线性下降。然而，在上一篇文章中，我们看到这可能会影响我们的整体模型性能。有一种方法可以改进我们的假设，我将在下面解释[1]。

观察传感器信号(参见下面的一个示例)，许多传感器在开始时似乎相当稳定。这是因为随着时间的推移，发动机只会出现故障*。信号曲线的弯曲是提供给我们的第一个信息，即发动机正在退化，并且第一次有理由假设 RUL 线性下降。在那之前，我们真的不能说任何关于 RUL 的事情，因为我们没有关于最初磨损的信息。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

描述 S12、线性和削波 RUL 的图形。

我们可以更新我们的假设来反映这个逻辑。我们没有让 RUL 线性下降，而是将 RUL 定义为一个常数，一段时间后才线性下降(见上面的例子)。通过这样做，我们实现了两件事:

初始恒定的 RUL 与初始恒定的平均传感器信号更好地相关
RUL 的较低峰值导致我们的目标变量的较低分布，从而更容易拟合直线

因此，这种变化允许我们的回归模型更准确地预测低 RUL 值，这通常是更有趣/更关键的正确预测。

使用 pandas，您可以简单地将之前计算的线性下降 RUL 限制在所需的上限值。测试多个上限值表明在 125 处剪切 RUL 对模型产生了最大的改进。当我们更新我们对列车组的 RUL 的假设时，我们应该在评估中包括这一变化。测试集的真实 RUL 保持不变。让我们来看看这一变化的影响。

# returns
# train set RMSE:21.491018701515415, R2:0.7340432868050447
# test set RMSE:21.900213406890515, R2:0.7222608196546241

火车 RMSE 已经减半多了。当然，我们已经自己设定了这些目标，但是它显示了之前的 RUL 假设对整体模型性能的影响有多大。更重要的是测试集的改进。测试 RMSE 从 31.95 降低到 21.90，提高了 31%！这告诉我们更新的假设有利于模拟真实的 RUL。让我们看看使用另一种技术是否能做得更好。

支持向量回归

线性 SVR 与线性回归的主要区别在于，它将边界设置在距离参考数据ε(ɛ)的位置(见下图)。当在模型拟合期间最小化损失函数时，落在边界内的点被忽略。在这些边界之外的点上拟合你的模型减少了计算量，并允许你捕捉更复杂的行为，但是这种技术对异常值也更敏感！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:[2]。黑色实线代表目标，虚线是距离ε(ɛ).)处的边界只有边界外的点有助于模型拟合和最小化损失函数。损失函数类似于岭回归和套索回归的损失函数。

实例化一个 SVR 就像建立一个线性回归一样简单，一定要确保将内核设置为“线性”。拟合模型后，我们再次对训练集和测试集进行评估。

# returns
# train set RMSE:29.57783070266026, R2:0.49623314435506494
# test set RMSE:29.675150117440094, R2:0.49005151605390174

请注意，均方根误差比我们的 RUL 线性回归差得多。让我们通过缩放我们的特征来尝试改进我们的模型。

缩放比例

支持向量回归机通过比较特征向量之间的距离来工作。但是当特征在范围上变化时，计算的距离由具有更大范围的一个来支配。假设一个特性的范围在 10-11 之间，另一个在 1000-1100 之间。两者相差 10%，但后者的绝对差异要大得多。SVR 将更重视其范围的变化。
为了解决这个问题，您可以缩放您的要素，使它们都在同一范围内。这使得您的 SVR 可以比较相对距离，并对差异进行大致相同的加权。[3, 4].
Sklearns 的 MinMaxScaler 可用于创建适合我们训练数据的缩放器。默认设置创建一个缩放器，在 0-1 之间缩放我们的训练特征。然后，缩放器被应用于我们的 X_train 和 X_test 集。我们用缩放后的数据拟合和评估一个新的 SVR 模型。

# returns
# train set RMSE:21.578263975067888, R2:0.7318795396979632
# test set RMSE:21.580480163289597, R2:0.730311354095216

请注意，21.58 的测试 RMSE 已经是对我们的线性回归的改进，该线性回归的 RMSE 为 21.90。接下来，我们将应用一些特征工程来尝试进一步改进我们的预测。

特征工程

一种非常有用的要素工程技术是创建要素的多项式组合，这可能会揭示数据中与原始要素不明显的模式。假设我们想要创建二次多项式特征s_2和s_3，结果将是[1, s_2, s_3, s_2², s_3², s_2*s_3]。
将该技术应用于我们当前数据集中的所有传感器，可将特征空间从 14 个增加到 120 个。

# returns
# (20631, 14)
# (20631, 120)

在设计了新的特征之后，我们安装了新的模型。

# returns
# train set RMSE:19.716789731130874, R2:0.7761436785704136
# test set RMSE:20.585402508370592, R2:0.75460868821153

请注意，测试集 RMSE 和方差再次得到改善，表明通过添加多项式特征可以获得更多信息。我也考虑过对数变换，但是传感器值范围不够大，不足以证明这些变换的合理性。然而，多项式特征确实扩大了我们的特征空间，使我们的模型有点“臃肿”,并增加了训练时间。让我们看看我们是否可以在保持分数的同时，通过保留最具信息性的特征来降低音量。

特征选择

使用包含工程特征的模型，我们可以计算哪些特征对模型性能的贡献最大。为此，我们使用 SelectFromModel，在其中传递我们训练好的模型并将 prefit 设置为 True。我们将选择“重要”特征的阈值设置为“平均”，表示所选特征的特征重要性将大于整个集合的平均特征重要性。获取支持将返回一个布尔数组，指示哪些要素的重要性高于平均值。我们将用它来划分特征子集，只保留“特征重要性>平均特征重要性”等于真的特征。

# returns
# Original features:
 Index(['s_2', 's_3', 's_4', 's_7', 's_8', 's_9', 's_11', 's_12', 's_13',
       's_14', 's_15', 's_17', 's_20', 's_21'],
      dtype='object')
# Best features:
 ['x0' 'x1' 'x2' 'x3' 'x5' 'x6' 'x7' 'x9' 'x10' 'x11' 'x12' 'x13' 'x2 x5'
 'x2 x8' 'x2 x9' 'x3 x5' 'x3 x8' 'x3 x9' 'x4^2' 'x4 x6' 'x4 x7' 'x4 x8'
 'x5^2' 'x5 x6' 'x5 x7' 'x5 x9' 'x5 x12' 'x5 x13' 'x6^2' 'x6 x8' 'x6 x9'
 'x7 x8' 'x7 x9' 'x8^2' 'x9^2' 'x9 x12' 'x9 x13']
# shape: (37,)

用所选择的特征来拟合和评估新的 SVR 模型。

# returns
# train set RMSE:19.746789101481127, R2:0.775461959316527
# test set RMSE:20.55613819605483, R2:0.7553058913450649

注意，测试 RMSE 和方差略有改善，而模型使用的特征数量从 120 个减少到 37 个！这种改善可能是由于模型在列车组上过度拟合得稍微少一些。我们现在有了所有的构建模块来训练和选择我们的最终模型。

选择我们的最终型号

对于最终模型，我们将在训练集上使用简单的超参数调整来调整ε的值。正如本文前面所解释的，ε表示最小化损失函数时要考虑的数据点的边界。

# returns
# epsilon: 0.4 RMSE: 19.74772556660336 R2: 0.7754406619776462
# epsilon: 0.3 RMSE: 19.747580761069848 R2: 0.7754439552496148
# epsilon: 0.2 RMSE: 19.74660007817171 R2: 0.7754662580123992
# epsilon: 0.1 RMSE: 19.746789101481127 R2: 0.775461959316527
# epsilon: 0.05 RMSE: 19.746532456984006 R2: 0.7754677958176168

ε为 0.2 似乎在训练集上产生最佳性能。让我们重新训练我们的模型，并检查最终结果。

# returns
# train set RMSE:19.74660007817171, R2:0.7754662580123992
# test set RMSE:20.54412482077374, R2:0.7555918150093489

具有剪切 RUL 的线性模型的 RMSE 为 21.90，比我们的基线回归提高了 31%，基线回归的 RMSE 为 31.95。我们的最终模型利用边界调谐的 SVR、用于训练的限幅 RUL、特征缩放和贡献最大的二阶多项式特征来达到 20.54 的测试 RMSE。这比我们的 RUL 限幅线性模型提高了 6%，比基线模型总体提高了 35.7%。

最后，这篇文章展示了正确构建数据科学问题的重要性。虽然 SVR 肯定是对线性回归的改进，但与我们更新的 RUL 假设相比，它的改进就相形见绌了。完整的笔记本你可以点击这里查看我的 github repo。

我要感谢 Maikel Grobbe 和 Wisse Smit 对我的文章的评论。下一次我们将深入研究时间序列分析，20.54 的 RMSE 将是要打破的分数。如果你有任何建议、问题或评论，请在下面的评论中留下！

参考文献:
【1】f . o . Heimes，“用于剩余有用寿命估计的递归神经网络”， 2008 年国际预测和健康管理会议，科罗拉多州丹佛，2008 年，第 1–6 页，doi:10.1109/PHM . 2008.4711422 .
【2】Kleynhans，Tania & Montanaro，Matthew & Gerace，Aaron & Kanan，Christopher。(2017).使用深度学习的 MERRA-2 大气数据预测大气顶部热辐射。遥感。9.1133.doi: 10.3390/rs9111133。
【3】https://en.wikipedia.org/wiki/Feature_scaling
【4】https://stats . stack exchange . com/questions/154224/when-using-SVMs-why-do-I-need-scale-the-features

r 及其在数据科学中的应用

原文：https://towardsdatascience.com/the-importance-of-r-in-data-science-6b394d48fa50?source=collection_archive---------23-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

弗朗西斯·德拉佩纳在 Unsplash 上拍摄的照片

关于皮尔逊相关系数及其应用的一点提醒

r 是什么？简单来说就是皮尔逊相关系数®。或者换句话说:R 是一个相关系数，它衡量两个变量之间的关系强度，以及散点图上的方向。r 的值总是在一个负值和一个正值之间(-1 和 a +1)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://www . stats tutor . AC . uk/resources/uploaded/pearsons . pdf

对于那些需要复习散点图是什么的人，不要担心。散点图是一个数学图表，显示了两个变量的数据点的笛卡尔坐标。同样，笛卡尔坐标来自笛卡尔系统。笛卡尔系统只是帮助指定和放置每个坐标(一组数字)在一个平面上，这将是散点图。(下面会有散点图的视觉效果)

回到 r .如上所述，连续数据的皮尔逊相关系数®范围为-1 到+1。这意味着，如果 r = -1，数据位于一条斜率为负的完美直线上。此外，如果 r = +1，则数据位于具有正斜率的完美直线上。如果 r = 0，这意味着没有线性相关性。注意:如果 r = 0，这并不意味着没有任何关系，只是意味着它不是线性的。可能是二次关系。这可以留给另一篇博客文章。

另一个需要注意的重要事情是，r 并不代表最佳拟合直线的斜率。

很容易直观地知道 r 是什么。r 可分为以下两类:

正相关:因变量随着自变量的增加而增加。这产生了一个正斜率，从视觉上看，散点图向上倾斜。这意味着有一个积极的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://www . stats tutor . AC . uk/resources/uploaded/pearsons . pdf

**负相关:**自变量增加，因变量减少。这会产生一个负斜率。这通过向下倾斜的点来描述。这意味着有一种负面的关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://www . stats tutor . AC . uk/resources/uploaded/pearsons . pdf

**无相关性:**因变量既不倾向于增加也不倾向于减少，这意味着自变量和因变量之间没有关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://www . stats tutor . AC . uk/resources/uploaded/pearsons . pdf

皮尔逊相关系数通常用于线性回归。相关系数不应用于非线性关系。

另一种判断 r 是负还是正的方法是通过皮尔逊公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://www . statistics show to . com/probability-and-statistics/correlation-coefficient-formula/

其在数据科学和分析数据方面的用途:

皮尔逊相关系数在数据科学中用于调查两个变量之间的关系强度。

上面我已经列出了完美的消极和积极的关系。大多数时候，情况并非如此，尤其是在应用于数据时。随着 r 越来越接近 0，它变得明显更弱。当 r 接近 0 时，更难确定是否存在正相关、负相关或是否存在相关。

通常，r 将在应用线性回归或最佳拟合线时计算。r 表示每个数据点有多远。

在数据科学中，了解何时使用特定的度量非常重要。在使用皮尔逊相关系数时，大多数测量单位都有一个通用的指导原则，同时也要记住七个假设。皮尔逊相关系数的准则是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:来源

如果要用 r 来度量两个数据点之间的关系，那么它必须在一个区间上进行度量，或者它必须在一个比率尺度上。不用担心，两个变量都不需要用同一个比例尺度来衡量。此外，一个变量可以是比率，另一个变量可以是区间。

为了使用皮尔逊相关系数，需要满足七个假设。现实世界的数据经常满足所有七个假设。这个问题的解决方案是找到一个不同的统计测试，更好地适合所提供的数据，或者对现有数据进行调整，使其满足下面列出的要求:

使用的数据必须在连续的范围内测量(比率或间隔)
正在使用的连续数据必须成对出现。每个变量必须有两个值。之前我提到了笛卡尔坐标。
每个案例都应该是独立的。每个变量或情况都有两个观察值。比如智商，年收入。如果一个案例具有高智商和高收入(散点图上的数据点)，这不应该与数据集中的另一个案例或点相关。
两个连续变量之间应该是线性关系。
被测试的两个变量都应遵循一个双变量正态分布(一个三维钟形曲线，代表两个独立变量 X 和 Y，它们相加在一起形成一个概率密度函数 PDF，变量是线性函数，并且是独立的正态随机变量)。使用单变量正态性是可以接受的，但建议使用双变量。
应该有同方差。这意味着，当直线沿某个方向移动时，数据点应该遵循一致的方差，因为它与最佳拟合直线的移动方向相同。如果方差不相似，则意味着存在异方差。(这个真的很难用皮尔森的相关系数来检验)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者:https://statistics . laerd . com/statistical-guides/Pearson-correlation-coefficient-statistical-guide . PHP

7.不应该有任何单变量或多变量异常值。不应该有任何异常值！单变量异常值是出现在一个变量而不是两个变量中的极值。多元变量由至少两个变量中的异常值组成。异常值会影响结果，这取决于所进行的统计测试。在这种情况下，r 会受到影响，这是不理想的情况。

在数据科学领域，当使用线性回归算法时，可以计算 r。线性回归来自统计学，并被借用和应用于机器学习，以创建预测模型。线性回归算法有助于最小化误差量，从而提高精确度。

总的来说，r 有利有弊。

优势:

显示两个变量的强度以及是否确实存在关系
研究随机独立变量的行为
与其他更复杂的统计测试相比，它有助于获得更容易分析的定量数据。

缺点:

它不能显示因果关系
它假设总有某种形式的线性关系
相关性并不意味着因果关系。两个自变量相关性高，不代表就是因果关系。(一个变量导致另一个变量发生)

我发现一个人选择使用的测试很大程度上取决于手头的数据和项目的最终目标。

皮尔逊相关系数是我在学习成为数据科学家时学到的第一件事。

参考文献:

“用于机器学习的线性回归”https://Machine Learning mastery . com/Linear-Regression-for-Machine-Learning/

‘皮尔逊的 PDF’；https://www . stats tutor . AC . uk/resources/uploaded/pearsons . pdf

https://www . ICP Sr . umich . edu/ICP srweb/content/shared/ICP Sr/FAQs/what-is-r . html

为数据可视化设定基调的重要性

原文：https://towardsdatascience.com/the-importance-of-setting-a-tone-for-your-data-visualization-6aae83667062?source=collection_archive---------58-----------------------

创造一种气氛不仅仅是小说家的事

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

语气和情绪显而易见:照片由 Kat J 在 Unsplash 上拍摄

每一个伟大的故事背后都有一种潜在的基调，讲故事的人试图传达这种基调，以吸引观众产生一种特殊的感受。精心制作的语气可以让听众感受到喜悦、悲伤、愤怒或希望，也可能同时感受到所有这些情绪。我们大多数人能够如此生动地记得某些书籍、电影、电视节目、照片和艺术品，是因为我们第一次观看时的感受。相信创作者以一种非常有影响力的方式精心打造了他们故事的基调。

作为一名数据分析师或数据科学家，我们有大量的数据可以利用，并通过创建可视化来获得洞察力。我们可能精通我们行业的技术，但我们工作的很大一部分是利用这些数据帮助人们根据我们提供的信息采取行动。根据不同的情况，我们必须以一种特殊的方式来构思我们的故事，以影响观众对我们想要讲述的故事的理解和感受。为你的想象创造一个基调有助于构思一个故事。

为寻找一家公司销量最高的产品而创建可视化效果的基调，可能与你试图说服整个国家，在疫情期间呆在家里有助于拯救生命的基调不同。这两种情况处于光谱的相反两端，但是作为可视化者，设定你的可视化的基调将是一个人记住你的分析并采取行动或者把它推到一边并继续前进的区别。

视觉化的基调是什么？

在安迪·基尔克的书《数据可视化:数据驱动设计手册》中，他用一句话很好地总结了可视化的基调:

“声调:“阅读”和“感觉”数据的区别.”

就像任何创造性的努力一样，比如写故事、摄影或绘画，创作者想要讲述一个故事，他们可能希望观众以一种特定的方式来感知它。在写作中，作者通过他们的措辞、不同的观点和不同的正式程度来建立一种基调。摄影师可以通过他们对颜色的使用或他们如何框住他们的主题来建立一种基调。在建立你的视觉化图像的基调时有许多相似之处，主要目标是你希望你的观众如何解释和感知你的视觉化图像。你对图表、颜色、字体、大小和形状的选择都在为你的视觉化建立你的基调中扮演了一个角色。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我打赌你会忍不住笑:米的照片

为什么语气很重要？

和其他媒介一样，为你的视觉化建立一个基调尤其重要。在可视化数据的时候有一个你想讲的故事，但是作为创作者，你无法控制你的受众对你的题材的态度。然而，你确实可以控制你的观众如何解释和理解你的主题。建立你的风格有助于影响你的观众以你创造的方式感知和理解你的视觉效果。

如果你已经定义了可视化的目的，你就可以决定你需要为观众设定什么样的基调。正如安迪·基尔克在他的书中所说的，根据你视觉化的目的，你会想要使用两种类型的音调。第一种是用读的语气，第二种是感觉的语气。

如何建立“阅读”的基调

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Tableau Public 上的 syedjawadhassan 创建:https://Public . Tableau . com/views/supply chain dashboard/1kpid ashboard？:display _ count = y&mobile =&:origin = viz _ share _ link

当试图优化听众理解你的数据并从中获取详细信息的效率时，使用阅读语气。你想用快速的事实和数据打动你的观众，而不必担心提供太多的视觉刺激。目标不是创造视觉效果和故事点来让你的观众感受到某种情绪，而是提供关键的、详细的信息来推动行动。

因为您希望您的受众能够从您的数据中快速获得洞察力，所以线形图、条形图或带有热图的文本表格等图表非常适合设定阅读基调。这些图表很好地展示了价值的大小，观众可以快速识别谁是高绩效者，哪里可以改进。

这种语气的使用在执行仪表板中很明显，如上图所示，它显示了公司内的关键指标。陈述每个指标的数字向观众展示每个指标的大小。使用折线图显示一段时间内每个指标的下降和峰值。如果某个指标超出或未达到目标，颜色会使其易于识别，从而有助于此视觉效果的基调。

如何建立“感觉”语气

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Kevin Flerlage 在 Tableau Public:https://Public . Tableau . com/views/the African water crisis/water dashboard？:display _ count = y&mobile =&:origin = viz _ share _ link

如果你正在与对你的分析主题一无所知的人交谈，但需要激发行动号召或影响对某一特定主题看法的改变，你会怎么做？抛出指标和硬数字对你的受众没有任何好处，因为他们没有正确解读数据的知识。为你的视觉化选择一种“感觉”的语气将有助于听众如何理解你的主题。

如果听众对某个主题的了解有限，那么要想影响他们，数字是不够的。正如在其他媒体形式中看到的，没有什么比激发情感更有助于改变一个人对某个话题的看法了。无论是试图说服人们呆在家里洗手会在疫情期间拯救生命，还是展示向慈善组织捐款为非洲提供清洁水的重要性，都需要结合精彩的故事和视觉刺激来表达你的观点。

你通常会注意到图形、图片、注释和排版的使用更加明显，以帮助构思故事。与上面的“非洲清洁水”视频一样，请注意使用文字和标签来帮助解释眼前的危机，以及使用颜色和粗体字来吸引观众对令人震惊的统计数据的注意。此外，我提到的条形图和折线图最适合在使用“阅读”语气时使用，但在这种情况下，它可以很好地向观众提供视觉刺激，同时给他们足够的信息，让他们注意到情况的严重性。蓝色和水滴的使用也是一个很好的接触，将可视化的主题结合在一起。

带有感情色彩的视觉效果并不总是试图说服观众采取行动。有时候，分析师的目标是让听众了解某个特定的话题，并让他们得出自己的结论。带着这个目标使用情感基调可能需要使用更少的词语和更多视觉刺激的图形，让观众参与到你的作品中。由于关注更吸引人的视觉效果，数据中的细节可能会有所损失。目标是让观众在高层次上理解主题，使其易于理解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由杰夫·普拉特纳创作于 Tableau Public:【https://public.tableau.com/profile/jeff.plattner4532#! /viz home/JordanCareerScoring/player viz

迈克尔·乔丹是我最喜欢的运动员，所以上面显示的视觉效果非常吸引我。我不需要太多的视觉效果来吸引我，但是对于一些不太了解迈克尔·乔丹的人来说，美丽的烟火图表可能足以吸引他们。由于 Tableau 的交互特性，如果你将鼠标悬停在每个烟火图的每个条形上，就会显示迈克尔·乔丹职业生涯中每场比赛的得分。然而，如果你要查看 viz 的静态图片，它仍然可以很好地概述迈克尔乔丹的得分能力。通过颜色和条纹的使用，很容易看出他在 30-49 分的比赛中获得了公平的份额。仅仅从视觉上来看，这个评估是相当准确的，因为迈克尔·乔丹是 NBA 历史上每场得分最高的球员。使用情感基调时，确定你的目的和你的听众是知道如何激发听众情绪和参与的最重要因素。

概括起来

像所有形式的消费媒体一样，设定你的视觉化的基调可能是保持你的观众参与和对你的分析采取行动或把你的分析扔到一边的区别。在定义了你的视觉化的目的后，我鼓励你定义一种有助于表达你的观点的语气，并以一种他们可能不会关注你的主题的方式吸引观众。有许多伟大的故事要用数据来讲述，所以从一开始就设定基调是至关重要的！

参考

[1]安迪·基尔克，《数据可视化:数据驱动设计手册》 (2019)

辅助项目在机器学习中的重要性

原文：https://towardsdatascience.com/the-importance-of-side-projects-in-machine-learning-edf9836bc93a?source=collection_archive---------39-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

米卡·鲍梅斯特在 Unsplash 上的照片

提示和建议

你和马克·扎克伯格有什么共同点？在这篇文章中，你会发现为什么副业是通向许多机会的大门。

有几个问题是机器学习从业者经常问的，他们希望提高他们的技能、职业生涯或知识。

一些常见问题大致如下:

“我要怎么做才能学会深度学习？”

“我该怎么做才能得到一份数据科学或机器学习的工作？”

“怎么做才能让机器学习快速进步？”

所有这些问题都有不同的答案，取决于你问谁。也就是说，有一个适用于所有问题的答案。

那就是:

辅助项目。

或者更准确地说，承担和完成附带项目。

这就是你所有问题的解决方案。那么，为什么还剩下文章的实质性内容呢？

嗯，写这篇文章是为了强调机器学习中辅助项目的重要性。

作为读者，我希望你能理解，从事适当的兼职项目会对你的个人生活和职业生涯产生多大的影响。

你会发现我列举的一些个人趣闻来说明本文中提到的建议和技巧的好处。如果我的叙述不能说服你，别担心，我还有更多锦囊妙计。

在我们更进一步之前，你为什么要听我说或者读这篇文章呢？

请允许我简单介绍一下我自己。

介绍

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者简介，作者图片

关于我的职业生涯，与本文相关的一点是，我所担任的大多数角色都比我的经验水平高出至少五年。

毕业不到一年，我已经成为一家初创公司的首席网站开发人员；我接受了为至少有 10 年工作经验的人提供的合同工作。现在，我在一家初创公司领导计算机视觉项目，这是我在理学硕士学习之外的第一个基于机器学习的角色。

我怎么能做到这一切？

很简单。

辅助项目。

现在我已经引起了你的注意，让我们进入这篇文章的主要内容。副业的重要性。

确保工作/技能发展

兼职项目可以帮助你获得下一份工作。

这不是新的建议，你可能已经听过这个建议了。

我实际上想说的是: 副业可以帮助你获得一份比你现在的工作 需要更高技能和经验水平的工作。

但是，这部分的标题会太长。

我获得理学士学位后的第一个角色是一名毕业的前端开发人员。我用PHP(laravel)BackboneJS和 JavaScript 做网页。在与 PHP 战斗了一整天之后，我回到家打开笔记本电脑，开始做一个附带的项目，这个项目使用了 NodeJS、Angular 和 MongoDB。

我的兼职项目没有直接增加我的工作知识，但我知道我想承担的下一个角色需要什么。

有了我下一个角色所需要的技能的信息，我从担任当前角色的第一天起就开始学习这些技能。

在我本科毕业后的第二份工作的面试中，我几乎没有提到我在实际工作中做了什么。主要的对话和提问都与我的副业项目有关。

当时对我的雇主更有吸引力的是，我能够找到学习一套新技能的动力，同时保持理智与 PHP 斗争。

我利用我的兼职项目为我的下一个角色做准备，直到我最近的角色是计算机视觉工程师。在我收到的所有三份工作邀请中，甚至是我被拒绝的职位，我只谈了技能和从我的副业项目中学到的东西。

行动

现在你怎么能把我的个人经验应用到你自己身上呢？

上网到任何一个工作网站，搜索你认为自己在未来 2-5 年内需要的职位。不要被这个角色的资历所影响。记下所需的技能和工具。

接下来，利用你理想角色所需的技能开始一个副业。大小不重要。开始吧。

以下是我目前如何使用这种方法。

我渴望在未来 2-5 年内成为一名首席机器学习工程师。通常，被考虑担任这一职位的人拥有广泛的专业知识，并有 10-15 年的工作经验。

但这一点也不会让我分心。

让我在下面与你分享我确保自己拥有正确技能和专业知识的方法。我用来生成下面页面的工具是idea . so。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为我的下一个角色跟踪我的个人技能和专业知识

上面的图片非常个人化，但这不正是我们都爱 Medium 的地方吗？该图描绘了我的技能跟踪器，其中包含的任务侧重于获取我期望的下一个角色所需的专业知识和技能。

我每周都回顾这个列表，并且每天都处理每个任务的内容。

请随意使用类似的结构。我想展示每个任务包含的内容，但也许在另一篇文章中，我可以详细介绍。

请考虑到我不是专家，我只是像你一样的初学者。

如果你同意或不同意下面的说法，请在这篇文章的评论区留下评论，我想知道你对此事的想法。

我看到很多人在科技行业犯的一个错误是，他们将经验与在一个职位上的年数联系起来。然而在现实中，有些人在几年内只有很少的经验，他们在发展一项技能上花费的时间比一般人在三年内花费的时间还要多。

你需要成为这些个体中的一员。副业是一条经过验证和测试的道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由你好，我是尼克🎞开启防溅

强化学习

身边的项目可以辅助知识的保留

说机器学习需要吸收前所未有的大量信息是一种保守的说法。

我们的工作包括不断学习，直到退休的那一天。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

蒂莫·沃尔茨在 Unsplash 上拍摄的照片

就像我之前说的，我仍处于职业生涯的早期，尽管如此，我仍在努力记住几天前学到的知识。

稍有经验的人会告诉你，机器学习角色的成功并不明确取决于你能记住多少，而是取决于你找到并实施解决方案以满足特定要求的能力。

尽管如此，你需要一种知识保留的方法来保持你的思维敏捷，并拥有能够处理任何任务的心态，不管你是否熟悉。

再说一次，副业可以在这方面有所帮助。

在我的职责范围内，我广泛使用了 TensorFlow 框架。我使用 TensorFlow 建立机器学习管道，每天训练和评估模型。然而，我仍然发现自己在参考 StackOverflow 或者文档来完成我已经做了很多次的任务。

这个问题的解决方案是显而易见的。你可能会告诉我保持理解和练习，直到它成为第二天性。你是对的。

这就是为什么我决定在我的兼职项目中扩展重复和练习我在角色中所学技能的过程。

我的想法很简单。如果我在工作时间和下班后使用 TensorFlow，我会花更多的时间一遍又一遍地重复这些过程，直到它们成为第二天性。

无论你想学哪种方法，对它有一个基本的理解也是至关重要的。

行动

找到流程中你未能理解的方面，并在下班后在你的副业项目中实践它们。

这种简单的技巧通过持续练习的原则来帮助记忆知识。

你自己的公司

身边的项目可以是盛大的开始

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马里奥·高在 Unsplash 上的照片

我们听说过有多少副业项目变成了价值数十亿美元的公司？

我们今天使用的大多数应用程序和工具都是副业的产品。

脸书作为副业开始。

在这个包括马克·扎克伯格和陈慧娴在内的简短采访中，普里西拉称脸书只是马克的一个项目。她的原话是:

“没有人会想到会发生这样的事…这是他的下一个项目”

嘿，我不是说你的下一个副业项目会变成一个十亿美元的公司。

我想说的是，人们愿意为解决重大问题的好产品赋予货币价值。你的副业可能是一项有价值的投资。

在我十八九岁和二十出头的时候，我经常参加聚会。我参加了太多的活动，我需要一个系统来推荐值得我花费时间的活动。因此，我开发了一个 web 应用程序，使用多个活动网站 API，并制定了一个比较算法，对活动地点、价格和参与者进行加权，以提供单个活动推荐。

这个副业项目并没有变成一个数十亿美元的公司。尽管如此，它确实变成了一家公司，我和我的兄弟为之工作了几年，并赢得了创业竞赛。

我想做的就是更有效率地开派对。

目前，我的下一个副业项目是围绕限制冠状病毒感染的机会。迫不及待地想分享这个。

行动

用副业解决生活中的痛点。

你有一项技能，使你能够创造工具，以创造性和想象力的方式解决人们生活中的问题。

看看你一天中的方方面面，找出三件可以通过机器学习解决方案变得更简单的事情。

然后实施这些解决方案，享受旅程。

没有人能预测明天，你的下一个副业可能会和《脸书》一样成功。

如果不是，你仍然可以获得大量的技能和经验。

在你走之前

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

丹尼尔·麦金尼斯在 Unsplash 上的照片

老实说，我只是在生活中尝试了很多事情，如果一些事情产生了积极的结果，我会付出更多的努力。

我鼓励你按照我在这篇文章中提到的一些行动去做。如果它们对你不起作用，那就继续前进，尝试一些有用的东西。

有几个话题我故意没有包括在本文中，这些话题也展示了机器学习中辅助项目的好处，例如:

额外收入
打造个人品牌
建设社区

上面提到的省略的谈话要点，我没有丰富的经验。但是一旦我获得了宝贵的经验，我一定会分享。

别忘了开始一个兼职项目。