TowardsDataScience 博客中文翻译 2016~2018（二百七十六）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

多余假期完全指南

原文：https://towardsdatascience.com/the-complete-guide-to-superfluous-holidays-7be26f0a86db?source=collection_archive---------6-----------------------

从全国鸡翅日到全国打扮你的宠物日到全国清理你的虚拟桌面 日，我不禁想知道到底有多少——其中一半听起来像是由你十几岁的表弟建立的，但同时它们听起来都是隐约必要的，甚至可能对一群特殊的人很重要。因此，今天我踏上了探索这些场合的旅程——公共假日的失败者。

数据收集

为了获得这些数据，我使用 rvest 礼貌地删除了一个名为 National Today 的网站,该网站主要收集美国和一些全球的日期。这种场合被分为从活动到流行文化到职业生涯的广泛话题。

可视化覆盖范围

有了数据，我想看看一年有多少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Color indicate number of occasions on a day

365 天中有 300 天被标记。这涵盖了一年的 82%!一月/十一月/十二月是平静期，三月/六月/九月每天都有事情发生。十二天中的每一天有多达三个场合，例如 3 月 6 日是国家牙医日、着装日和冷冻食品日。

食物上的天数&饮料上的天数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

活动天数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一步

一个可能的下一步是提取这些场合的社交媒体聊天，以了解人们这些天是如何观察的。

另一个方向是研究这些日子里某些物品的消费增加或相关的财务收益。中国 11 月 11 日的光棍节是近年来最热门的购物活动之一，去年的交易额达到 178 亿美元。值得研究一下某些场合是如何变得比其他场合更受欢迎的。

如果你想知道今天是什么日子，可以总结一下:今天是 day☕国际咖啡日，世界素食日🍅以及全国自制饼干日🍪。

这是我关于数据科学和视觉故事的# 100 日项目的第 63 天。数据集在 Kaggle 上可用，代码部分在我的 github 上。感谢阅读。如果喜欢，请分享。欢迎新主题的建议和反馈。

凹形船体

原文：https://towardsdatascience.com/the-concave-hull-c649795c0f0f?source=collection_archive---------5-----------------------

使用一种 K 最近邻方法创建聚类边界

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“white boat on green grass field under gray sky” by Daniel Ian on Unsplash

一个几个月前，我在 Medium 上写了一篇文章描绘了英国的交通事故热点。我最关心的是演示地理数据上的 DBSCAN 聚类算法的使用。在文章中，我使用了英国政府公布的交通事故地理信息。我的目的是运行一个基于密度的聚类过程来找到交通事故报告最频繁的区域。最终结果是创建了一组代表这些事故热点的地理围栏。

通过收集给定聚类中的所有点，您可以了解该聚类在地图上的样子，但是您将缺少一条重要的信息:聚类的外部形状。在这种情况下，我们讨论的是一个可以在地图上表示为地理围栏的闭合多边形。地理围栏内的任何点都可以被假设为属于该聚类，这使得该形状成为一条有趣的信息:您可以将它用作鉴别器函数。所有落在多边形内的新采样点都可以被认为属于相应的聚类。正如我在文章中暗示的那样，您可以使用这样的多边形来断言您的驾驶风险，通过使用它们来对您自己的采样 GPS 位置进行分类。

从云到多边形

现在的问题是，如何从构成特定集群的点云中创建一个有意义的多边形。我在第一篇文章中的方法有些天真，反映了我已经在生产代码中使用的解决方案。这个解决方案需要放置一个以每个聚类点为中心的圆，然后将所有的圆合并在一起，形成一个云状的多边形。结果不是很好，也不现实。此外，通过使用圆形作为构建最终多边形的基础形状，这些多边形将比更流线型的形状具有更多的点，从而增加了存储成本并使得包含检测算法运行更慢。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cloud-shaped polygons

另一方面，这种方法具有计算简单的优点(至少从开发人员的角度来看)，因为它使用 Shapely 的cascaded_union函数将所有的圆合并在一起。另一个优点是多边形的形状是使用集群中的所有点隐式定义的。

对于更复杂的方法，我们需要以某种方式识别集群的边界点，这些点似乎定义了点云的形状。有趣的是，对于一些 DBSCAN 实现[1]，您实际上可以恢复边界点，作为聚类过程的副产品。不幸的是，这个信息(显然)在 SciKit Learn 的[2] 实现上是不可用的，所以我们不得不凑合。

首先想到的方法是计算点集的凸包。这是一个很好理解的算法，但是存在不能处理凹形的问题，就像这个:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The convex hull of a concave set of points

这种形状没有正确地抓住潜在点的本质。如果将其用作鉴别器，一些点会被错误地分类为在聚类内，而实际上它们并不在聚类内。我们需要另一种方法。

凹面外壳备选方案

幸运的是，除了这种情况还有其他选择:我们可以计算出一个凹壳。以下是凹面外壳应用于与上一幅图像中相同的一组点时的外观:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Concave Hull

或者这个:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A less concave hull

正如你所看到的，与凸包相反，点集的凹包并没有单一的定义。使用我在这里介绍的算法，你希望你的船体有多凹的选择是通过一个参数来完成的:k——在船体计算过程中考虑的最近邻居的数量。让我们看看这是如何工作的。

该算法

我在这里展示的算法是十多年前由葡萄牙米尼奥大学的阿德里亚诺·莫雷拉和玛丽贝尔·亚斯米娜·桑托斯描述的。从摘要来看:

本文描述了一种计算平面上一组点的包络的算法，该算法在非凸包上生成凸包，表示给定点所占据的区域。所提出的算法基于 k-最近邻方法，其中唯一的算法参数 k 的值用于控制最终解的“平滑度”。[…]

因为我将把这个算法应用于地理信息，所以必须做一些改变，即在计算角度和距离时[4]。但是这些并没有以任何方式改变算法的要点，该要点可以通过以下步骤来概括描述:

找到具有最低 y (纬度)坐标的点，并使其成为当前点。
找到距离当前点最近的第 k 个点。
从 k 最近的点中，选择与前一角度最大右转相对应的点。这里我们将使用方位的概念，从 270 度的角度(正西)开始。
通过将新的点添加到增长线字符串，检查它是否不与自身相交。如果是这样，从 k 中选择另一个最近的点，或者用更大的 k 值重新开始。
使新点成为当前点，并将其从列表中删除。
在 k 次迭代之后，将第一个点添加回列表。
循环到 2 号。

这个算法看起来很简单，但是有一些细节必须注意，特别是因为我们处理的是地理坐标。距离和角度的测量方法不同。

代码

这里我发布的是前一篇文章代码的改编版本。您仍然会发现相同的聚类代码和相同的云形聚类生成器。更新后的版本现在包含一个名为geomath.hulls的包，在这里可以找到ConcaveHull类。要创建凹面外壳，请执行以下操作:

在上面的代码中，points是一个维数为(N，2)的数组，其中行包含观察点，列包含地理坐标(经度，纬度)。生成的数组具有完全相同的结构，但只包含属于簇的多边形形状的点。某种过滤器。

因为我们将处理数组，所以将 NumPy 加入争论是很自然的。只要有可能，所有的计算都进行了适当的矢量化，并且在从数组中添加和删除项目时努力提高性能(剧透:它们根本没有移动)。缺失的改进之一是代码并行化。但那可以等。

虽然在翻译过程中做了一些优化，但我还是按照论文中公开的算法组织了代码。该算法是围绕许多子程序构建的，这些子程序已在论文中明确指出，所以我们现在就把它们放在一边。为了方便阅读，我将使用与论文中相同的名称。

clean list[list of points]—清理点列表在类构造函数中执行:

如您所见，出于性能原因，点列表被实现为 NumPy 数组。列表的清理在第 10 行执行，这里只保留唯一的点。数据集阵列由行中的观察值和两列中的地理坐标组成。请注意，我还在第 13 行创建了一个布尔数组，它将用于主数据集数组的索引，减轻了删除项目和偶尔添加项目的负担。我在 NumPy 文档中看到过这种叫做“mask”的技术，它非常强大。至于质数，我以后再讨论。

FindMinYPoint【list of points】—这需要一个小函数:

调用此函数时将数据集数组作为参数，并返回纬度最低的点的索引。注意，行是用第一列中的经度和第二列中的纬度编码的。

RemovePoint[vector，e]
AddPoint[vector，e] —由于使用了indices数组，这些都是无需动脑的。这个数组用于存储主数据集数组中的活动索引，因此从数据集中删除项目非常容易。

尽管论文中描述的算法要求在构成外壳的数组中添加一个点，但这实际上是通过以下方式实现的:

稍后，当线串被认为不相交时，test_hull变量将被赋回hull。但是我已经领先了。从数据集数组中移除一个点非常简单:

self.indices[current_point] = **False**

把它加回去只是把相同索引处的数组值变回 true。但是，所有这些便利都伴随着必须密切关注索引的代价。稍后将详细介绍。

NearestPoints[listOfPoints，point，k] —这里的事情开始变得有趣，因为我们不是在处理平面坐标，所以不用毕达哥拉斯，而用哈弗辛:

注意，第二个和第三个参数是数据集格式的数组:第一列是经度，第二列是纬度。如您所见，该函数返回第二个参数中的点和第三个参数中的点之间的距离(以米为单位)数组。一旦我们有了这些，我们就可以用最简单的方法得到最近的邻居。但是有一个专门的功能，值得解释一下:

该函数首先创建一个包含基本索引的数组。这些是尚未从数据集数组中移除的点的索引。例如，如果在一个十点集群上，我们从移除第一个点开始，基本索引数组将是[1，2，3，4，5，6，7，8，9]。接下来，我们计算距离并对结果数组索引进行排序。第一个 k 个被提取，然后被用作检索基本索引的掩码。这有点扭曲，但很管用。如您所见，该函数返回的不是坐标数组，而是数据集数组的索引数组。

SortByAngle[listOfPoints，point，angle]——这里有更多的麻烦，因为我们不是在计算简单的角度，我们是在计算方位。这些被测量为正北零度，角度顺时针增加。以下是计算方位的核心代码:

该函数返回一个方位角数组，该数组从索引位于第一个参数中的点开始测量，直到索引位于第三个参数中的点为止。排序很简单:

此时，候选数组包含按方位降序排序的第 k 个最近点的索引。

IntersectQ[lineSegment1，lineSegment2] —我没有使用自己的线相交函数，而是求助于 Shapely 。事实上，在构建多边形时，我们实际上是在处理一个线串，即追加与前面的线不相交的线段。对此的测试很简单:我们选择正在构建的外壳数组，将其转换为形状良好的线串对象，并测试它是否简单(非自相交)。

简而言之，如果一个形状良好的行字符串自交叉，它就会变得复杂，因此is_simple谓词会变为 false。简单。

PointInPolygon[point，listOfPoints] —这是最难实现的一个。请允许我通过查看执行最终外壳多边形验证的代码来解释(检查是否所有的聚类点都包含在多边形中):

Shapely 用于测试相交和包含的函数应该足以检查最终的外壳多边形是否与所有聚类的点重叠，但事实并非如此。为什么？Shapely 是坐标不可知的，因此它将以与笛卡尔平面上的坐标完全相同的方式处理以纬度和经度表示的地理坐标。但是当你生活在一个球体上时，世界会有不同的表现，而且沿测地线的角度(或方位)不是恒定的。参考文献[4]中连接巴格达和大阪的测地线的例子很好地说明了这一点。碰巧的是，在某些情况下，该算法可以基于方位角标准包括一个点，但是后来，使用 Shapely 的平面算法，该点被认为稍微超出了多边形。这就是小距离修正的作用。

我花了一段时间才想明白。我的调试帮助是 QGIS ，一个伟大的自由软件。在可疑计算的每一步，我都会将 WKT 格式的数据输出到一个 CSV 文件中，作为一个层读入。真正的救命恩人！

最后，如果多边形未能覆盖所有聚类的点，唯一的选择是增加 k 并重试。这里我补充了一点自己的直觉。

质数 k

该文章建议将 k 的值增加 1，并从头开始再次执行该算法。我对这个选项的早期测试不是很令人满意:在有问题的集群上运行时间会很慢。这是由于 k 的缓慢增长，所以我决定使用另一个增长计划:质数表。该算法已经从 k = 3 开始，所以很容易扩展到一系列素数。这是您在递归调用中看到的情况:

我对质数情有独钟，你知道…

爆炸

由该算法生成的凹壳多边形仍然需要一些进一步的处理，因为它们将仅辨别壳内部的点，而不是接近壳的点。解决方案是给这些瘦的簇添加一些填充。这里我使用了和以前完全一样的技术，看起来是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Buffered concave hull

在这里，我使用了 Shapely 的buffer函数来完成这个技巧。

该函数接受一个形状良好的多边形，并返回其自身的放大版本。第二个参数是添加的填充半径，单位为米。

运行代码

首先将代码从 GitHub 库中提取到您的本地机器中。你要执行的文件在主目录下的ShowHotSpots.py。首次执行时，该代码将读入 2013 年至 2016 年英国交通事故数据，并对其进行聚类。然后将结果缓存为 CSV 文件，供后续运行使用。

然后，您将看到两个地图:第一个是使用云状聚类生成的，而第二个使用这里讨论的凹形聚类算法。当多边形生成代码执行时，您可能会看到一些失败的报告。为了帮助理解为什么算法不能创建凹面外壳，代码将集群写到 CSV 文件的data/out/failed/目录中。通常，您可以使用 QGIS 将这些文件作为图层导入。

本质上，当该算法没有找到足够的点来“环绕”该形状而不自交时，该算法会失败。这意味着您必须准备好丢弃这些簇，或者对它们应用不同的处理(凸包或合并的气泡)。

凹度

它是一个包裹。在本文中，我提出了一种后处理 DBSCAN 生成的地理聚类成凹形的方法。与其他方法相比，该方法可以为聚类提供更好的外部多边形拟合。

感谢您的阅读，并享受修改代码的乐趣！

参考

[1] Kryszkiewicz M .，Lasek P. (2010) TI-DBSCAN:通过三角形不等式使用 DBSCAN 进行聚类。载于:Szczuka M .、Kryszkiewicz M .、Ramanna S .、Jensen R .、Hu Q .(编辑)粗集和计算的当前趋势。RSCTC 2010。计算机科学讲义，第 6086 卷。施普林格，柏林，海德堡[ 施普林格链接

[2]sci kit-learn:Python 中的机器学习，Pedregosa 等人，JMLR 12，第 2825–2830 页，2011 年

[3] Moreira，A .和 Santos，M.Y .，2007 年,《凹壳:计算一组点所占据区域的最近邻法》K

【4】计算经纬度点之间的距离、方位等

[5] GitHub 资源库

概念的概念算法

原文：https://towardsdatascience.com/the-conceptual-arithmetics-of-concepts-9f3e16d18f90?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我最近读的最喜欢的一本书是道格拉斯·霍夫斯塔德的《表面和本质:类比是思维的燃料和火焰》。在这本书里，作者的中心论点是范畴化是思维的核心，而类比是认知的核心。霍夫施塔特的主要论点是，概念不是僵化的，而不是流动和模糊的，也不能严格地分等级。他认为，认知的发生得益于持续不断的分类，这与分类(旨在将所有事物放入固定和僵化的精神盒子中)形成对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

What is the essence of the concept of letter “A”? What makes the letter “A”؟

概念不像嵌套的盒子，任何给定的概念都被严格定义为一组精确的先前获得的概念，并且概念总是以固定的顺序获得。(…) 依赖关系是模糊和阴影的，而不是精确的，在层级结构中没有严格意义上的“更高”或“更低”，因为依赖关系可以是相互的。新概念改变了在它们之前就存在的概念，并使它们得以产生；以这种方式，新的概念被结合到它们的“父母”中，反之亦然。(引自表面和本质:类比是思维的燃料和火焰)

霍夫施塔特还批评说，许多人使用“类比”这个词作为某个非常狭窄的句子类别的名称，看似精确到数学程度，属于以下类别:***“8 对 4 等于 10 对 5”***或 “西对东，如同左对右。”如果用一种准形式的符号来写，这看起来更像是一个数学陈述:

西:东::左:右

智力测验经常使用用这种符号表示的谜题。例如，他们可能会提出这样的问题:“番茄:红色::花椰菜:X”，或者可能是“球体:圆形::立方体:X”，或者“脚:袜子::手:X”，或者“土星:光环::木星:X”，或者“法国:巴黎::美国:X”——等等。这种形式的陈述被认为构成了比例类比，这个术语本身是基于单词和数字之间的类比——也就是说，表达一对数字与另一对数字具有相同比率的等式 (A/B = C/D) 可以直接用于单词和概念的世界。因此，人们可以用自己的话来总结这个类比:类比对于概念就像比例对于数量一样

比例:数量::类比:概念

尽管我们距离智能的一般定义和以流体非刚性方式操纵概念的能力还非常远，但我们仍然可以用一种对解决比例类比有用的方式对概念进行编码吗？

自动编码器是由两部分组成的算法家族:编码器和解码器。编码器将高维数据转换为通常更容易处理的低维表示。解码器将较低的表示转换回原始的高维度。理想情况下，我们会让解码器完全重建原始数据，而不会丢失信息。

理想情况下，我们希望有:解码器(编码器(x)) =x

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Auto-encoder schema. Ideally we would have: Output = Decoder(Encoder(Input)) = Input

我们很容易在自动编码器和调制解调器技术(调制解调器的缩写)之间进行类比。调制器接收数字数据，并在传输前产生具有特定物理属性的信号。另一方面，解调器对接收到的信号进行解码，以再现原始数字数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以清楚地看到，解调器的工作与调制器完全相反。那么，为什么要费心去创造它们呢？

答案依赖于在中间发送特定信号而不是直接发送原始信号的优点(例如，如果中间的调制信号具有更好的抗噪声能力)。

噪声(调制器)+噪声(远距离调制信号)+噪声(解调器)< < <噪声(远距离原始信号)

这个类比也适用于电力领域，在电力领域，电压在被长距离输送之前首先被转换，然后在消耗之前被降低。

这种明显无意义且浪费的双重转换(先升压后降压)背后的理由是，由于高压下的电力转换和传输所产生的总损耗远低于直接发送低压所产生的损耗。

损耗(升压)+损耗(高电压)+损耗(降压)< < <损耗(低电压)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Electricity is transformed up before being sent over long distances then transformed down for consumption

回到我们的自动编码器，它们遵循相同的逻辑。处理高维数据通常成本很高。这就是为什么我们可以通过训练编码器将数据转换为更容易处理的低维表示来获得好处。当我们完成处理后，我们可以用一种总体处理成本更低的方式恢复到原始表示:

编码(高维数据)+处理(表示)+解码(表示)< < <处理(高维数据)

Word2Vec 是一种有趣的技术，可以将自然语言单词转换为密集的矢量表示，同时试图以某种抽象的方式保留单词的“含义”。Word2Vec 通过在多维空间中搜索与每个单词相关联的权重来实现这一点，其方式是保持出现在彼此相同上下文中的单词之间的距离。

Word2Vec 是一个自动编码器，因为我们可以将一种语言中数百万个单词中的每一个编码和解码成几百维的向量。例如，谷歌设法将 300 万个单词训练成每个单词只有 300 个特征的编码！这意味着维数减少了 10 000 倍，处理 300 维的向量比处理 300 万维的向量要有利得多！！！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

How every word is encoded by a vector that represents higher meaning

这种矢量表示非常适合回答比例类比问题，其形式为 a 之于 b 如同 c 之于*？。比如男之于女就像叔之于？* ( 姑姑)。我们可以通过使用基于余弦距离的简单矢量偏移方法来实现这一点。Word2Vec 能够以一种令人惊讶的表达方式捕捉单词之间的关系。

例如，如果我们将单词 i 的向量表示为 vec(i) ，并关注单/复数关系，我们观察到: vec(苹果)-vec(苹果)≈ vec(汽车)-vec(汽车)≈ vec(汽车)≈ vec(家庭)-vec(家庭)≈vec(汽车)-vec(汽车)等等。

它允许我们对概念执行一些算术运算！我们需要做的就是将单词编码成向量，在向量空间中执行运算(加法、减法)，然后将结果解码回最接近的原始单词等。例如，以下是说明性别关系的三个单词对的向量偏移量:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Vectorial relationship between concepts

这篇博文更详细地展示了 word2vec 的强大，并提供了 word2vec 如何解决许多比例类比问题的进一步解释和示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example of arithmetics on concepts thanks to word2vec

也许在图像处理领域中，自然语言的 word2vec 的类似算法是生成对抗网络。这些网络根据(去)卷积矩阵捕获图像中编码的概念。这些神经网络能够捕捉和学习诸如“夏天”或“冬天”等概念的本质，然后可以用于将夏天的图像转换成冬天的图像，反之亦然。

GANs 也是图像处理领域中一种特殊类型的自动编码器。它们由发生器和鉴别器网络组成。生成器的目标是学习如何通过生成我们试图编码的概念的看似令人信服的图片来欺骗鉴别者。鉴别器的目标是学习如何检测真实图像和生成的图像。在训练过程结束时，生成器在其解卷积矩阵中保存成功表示某一视觉概念(根据概率分布)所需的知识。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Generative adversarial network- a different form of auto-encoder

以下是甘力量的一些神奇展示:

GAN 实现冬夏图像转换

另一个很酷的视频展示了甘把一匹马变成了斑马

GANs 能够创建软件，可以从绘画中生成照片，将马变成斑马，进行风格转换，等等。(检查:【https://hardikbansal.github.io/CycleGANBlog/】T2)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A different level of image processing: conceptual processing. Image courtesy of https://github.com/junyanz/CycleGAN

机器学习领域是一个令人惊叹且发展非常迅速的领域。然而，由于其成本和复杂性，在目前的状态下仍然很难使用它。随着时间的推移，我们将拥有越来越多易于使用和预先训练的模型和库，这些模型和库将我们从每次处理大型数据集的负担、复杂性和成本中抽象出来，只是为了捕捉完全相同的概念。

我们可以很容易地想象未来数据和概念之间，以及概念和应用之间的抽象分离。就像石油一样(这将是本文最后一个概念类比)，没有必要让每个行业都建立自己的炼油厂，他们可以购买预精炼油，然后专注于将其直接转化为更高价值的材料。随着时间的推移，机器学习应该从原始数据处理转向更抽象和更高级的概念处理，这种处理依赖于预先训练的数据到概念模型。也许模型动物园是朝着这个方向迈出的第一步。

原载于 2018 年 11 月 21 日【medium.com】。

哥白尼原理以及如何使用统计学来计算任何事物持续的时间

原文：https://towardsdatascience.com/the-copernican-principle-and-how-to-use-statistics-to-figure-out-how-long-anything-will-last-9cceb7aba20a?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source)

统计学、生命周期方程以及数据科学何时终结

对天文学的追求是一个逐渐发现人类渺小的过程。我们从宇宙的中心出发，宇宙确实围绕着我们旋转。然后我们被粗暴地归为围绕太阳运行的 8 颗行星中的颗，后来发现太阳只是我们银河系中数十亿颗恒星中的颗(而不是甚至不是一颗大恒星)。

这个星系，雄伟的银河系，看起来令人印象深刻，直到哈勃发现天空中所有那些模糊的物体都是数十亿个其他星系，每个星系都有数十亿颗恒星(潜在地拥有它们自己的智慧生命)。随着数学家和物理学家得出结论宇宙是统称为多元宇宙的无限宇宙 中的一个，这种降级在 21 世纪还在继续。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Go here to be blown away

除了被降级到宇宙中越来越小的部分之外，现在一些思想家声称我们生活在一个模拟世界，并且很快将创造我们自己的模拟世界。所有这些都很难说我们 并不特别。地球，乃至人类，在宇宙中并不占据优势地位的观点被称为哥白尼原理。

虽然哥白尼原理首次用于我们的物理位置——x、y 和 z 坐标——1993 年，J·理查德·戈特应用了我们不是宇宙第四维*、、时间的特殊观察者的概念。在“哥白尼原理对我们未来前景的影响”(200 美元这里或免费通过有争议的法律科学中心这里)中，戈特解释说，如果我们假设我们没有占据历史上一个独特的时刻*，我们可以使用一个基本方程来预测任何现象的寿命。

哥白尼寿命方程

这个等式简单明了(推导见文章末尾),就是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 t_current 是某物已经存在的时间量， t_future 是它从现在开始将持续的预期时间量，置信区间表示我们在估计中有多确定。这个等式是基于一个简单的想法:我们不存在于一个独特的时刻，因此，当我们观察一个事件时，我们最有可能看的是中间，而不是开始或结束。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

You are most likely not at the beginning or end of an event but in the middle (Source).

和任何方程一样，弄清楚它是如何工作的最好方法是输入一些数字。让我们把这个应用到一些简单的事情上，比如说人类的一生。我们将使用 95%的置信区间，并假设现代人类已经存在了 20 万年。输入数字，我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关于人类将存在多久的经典晚宴问题(好吧，只有我参加的晚宴)的答案是 5130 到 780 万年，有 95%的把握。这与的实际证据非常吻合，该证据显示哺乳动物物种的平均寿命约为 200 万年，尼安德特人的平均寿命为 30 万年，直立人的平均寿命为 160 万年。

这个等式的巧妙之处在于，它可以应用于任何事情，而仅仅依靠统计数据，而不是试图解开复杂的潜在原因网。一个电视节目持续多长时间，一项技术的生命周期，或者一家公司存在的时间长度，都受到许多因素的影响，这些因素是不可能区分开来的。我们可以利用时间(时间的别称)哥白尼原理，对任何现象的寿命做出合理的估计，而不是挖掘所有的原因。

为了将这个等式应用于离家更近的东西，数据科学，我们首先需要找到该领域当前的生命周期，根据《哈佛商业评论》发布的文章“数据科学家:21 世纪最性感的工作”，我们将它定为 6 年。然后，我们使用这个等式找到我们可以预期的，有 95%的信心，数据科学至少还会存在 8 周，最多 234 年。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们想要一个更窄的估计，我们减少我们的置信区间:在 50%，我们得到 2 到 18 年。

这说明了统计学中的一个重要观点:如果我们想提高精度，就必须牺牲准确性。较小的置信区间不太可能是正确的，但它为我们的答案提供了一个较窄的范围。

如果你想玩数字游戏，这里有一个 Jupyter 笔记本。

正确、原子弹和外卖

你可能会反对这个等式的答案过于宽泛，这一点我承认。然而，我们的目标并不是得到一个单一的数字——几乎没有任何情况下，即使使用最好的算法，我们也能找到一个确定的数字——而是找到一个合理的范围。

我喜欢把哥白尼寿命方程想象成费米估算，一种以物理学家恩利克·费密命名的信封式计算的背面。1945 年，费米仅仅用一些纸片估算了三位一体原子弹试验的当量，误差在 2 以内！同样，我们可以用这个等式来得到一个现象寿命的合理估计值。

使用哥白尼原理来发现某物存在的时间有两个重要的教训，一个是技术上的，一个是哲学上的:

我们可以利用统计学快速获得不受人为因素影响的客观估计。(还有，统计也能过瘾！)
一个很好的事物持续时间的第一近似值是它已经持续了多长时间

关于第一点，如果你想知道一场百老汇秀会持续多长时间，你从哪里开始收集数据呢？你可以看看评论，演员的名声，甚至剧本中的对话来决定吸引力，并计算出这部剧还会持续多久。或者，你可以像 Gott 那样，应用他的简单等式，正确预测百老汇 44 场秀中 42 场的运行时间。

当我们考虑单个数据点时，很容易迷失在细节中，并误解人类行为的某些方面。有时候，我们需要退一步，抽象出所有的细节，应用基本的统计学，而不是试图弄清楚人类的心理。

关于后一点，正如纳西姆·塔勒布在他的书《抗脆弱》中指出的，要想知道一个不易腐烂的东西——比如一个想法或者一件艺术品——会存在多久，最简单的方法就是看看它目前的寿命。换句话说，一项技术的未来寿命与其过去寿命成正比。

这被称为“林迪效应”,稍加思考就会明白:一个已经存在了很长时间的概念——书籍作为交换信息的媒介——一定有其存在如此之久的原因，而且我们可以预计它将持续到很久以后。另一方面，一个新想法——谷歌眼镜——在统计上不太可能存活，因为每天都有大量的新概念出现。

此外，已经有 100 年历史的公司——卡特彼勒(T0)公司(T1)——肯定在做正确的事情，我们可以预计它们比初创公司(T2)公司(Theranos)公司(T3)存在的时间更长，后者没有证明它们满足了需求。

再举一个更能说明哥白尼生命方程的例子，想想你一小时前发的精彩推特。统计数据告诉我们，这将在 90 秒到不到 2 天之间。另一方面，最古老的英语故事，贝奥武夫 ，至少从现在起 26 年后，直到未来 39000 年后，仍然会被无聊的学生阅读。更重要的是，这个故事不会在虚拟现实中体验到——消费者虚拟现实还有 73 天到 311 年——而是在最持久的媒体形式上，书籍，它还有 29.5 到 45000 年的统治期。

有些人可能认为哥白尼原理——时间和空间——是一场悲剧，但我觉得它令人兴奋。就像我们只有在抛弃了地心说模型之后才意识到宇宙的惊人壮观一样，一旦我们放弃了我们的时代是特殊的、我们处于人类顶峰的神话，可能性是巨大的。是的，我们现在在宇宙尺度上可能是微不足道的，但是 5000 年后，我们的祖先——或者可能是我们——将会扩展到整个银河系，甚至从根本上改变银河系。

正如大卫·多伊奇在他的书《现实的结构》中指出的那样，只要有足够的时间，任何不被物理定律所禁止的事情都会被人类实现。与其担心你现在应该做的工作毫无意义，不如把它看作是对人类已经开始的伟大努力的贡献。我们目前受制于哥白尼原理，但也许人类真的不同:毕竟，我们是进化出思考我们在宇宙中的位置的能力的恒星。

来源:

衍生物

哥白尼寿命方程的推导如下。任何事物的总寿命是当前寿命加上未来寿命:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们不相信我们的时间位置是有特权的，那么我们对一个现象的观察既不发生在开始也不发生在结束:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对 z 进行如下替换:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

插入总寿命的定义，得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后求解未来有生之年的任何现象:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在置信区间为 95%的情况下，我们得到乘法因子 1/39 和 39；置信区间为 50%时，因子为 1/3 和 3；对于 99%的置信度，我们的因子变成 1/199 和 199。

你可以在这个 Jupyter 笔记本里摆弄方程式。另外，看看 Gott 的原始论文了解更多细节。

一如既往，我欢迎建设性的批评和反馈。可以在 Twitter @koehrsen_will 上找到我。

汽车融资成本(汽车贷款)

原文：https://towardsdatascience.com/the-cost-of-financing-a-new-car-car-loans-c00997f1aee?source=collection_archive---------7-----------------------

了解如何计算每月汽车付款(相当于每月分期付款)。了解利率/年利率如何影响每月还款额，以及贷款期限如何影响支付的总利息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This tutorial gets into more than how the length of a loan affects monthly payments.

本教程将包括:

如何计算每月付款(相当于每月分期付款)。
利率/年利率如何影响月供。
贷款期限如何影响支付的总利息

和往常一样，本教程中使用的代码位于我的 GitHub 上。就这样，让我们开始吧！

如何计算每月付款(相当于每月分期付款)

Investopedia 将您的月还款额(也称为您的等值月分期付款(EMI ))定义为借款人在每个日历月的特定日期向贷款人支付的固定金额。等额月供用于每月还清利息和本金，这样在一定年限内，贷款全部还清。

每月付款可以使用类似于下面的 EMI 公式计算。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

示例:计算每月付款(简化)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

I want to upgrade my car from a 2002 Toyota Sienna to a 2019 Toyota Sienna.

说我买想买一辆 2019 款丰田 Sienna 31115 美元。我很好奇，如果我决定贷款购买这辆新车，每个月要花多少钱。一家汽车经销商向我提供 60 个月的固定利率 7.02%。假设销售税率为 7.5%，每月汽车付款将是多少？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Note that I rounded up to the nearest cent.

虽然这是一个简化且相对准确的计算(除了销售税是一个假设)，但在下一个示例中有一个更准确的计算。

示例:计算每月付款(包括一些费用)

比方说我买我想从洛杉矶一家总销售税率为 9.75%的汽车经销商那里花 31115 美元买一辆 2019 款丰田 Sienna(来源)。在经销商通过 1500 美元的折扣降低价格之前，价格最初是 32，615 美元。我很好奇，如果我决定贷款购买这辆新车，每个月要花多少钱。一家汽车经销商向我提供 60 个月的固定利率 7.02%。每月汽车付款是多少？

除了计算贷款的本金实际上更复杂之外，这可以通过与上一个示例相同的方式来解决。换句话说，税费需要加在购买价格上。大多数州对购车征税**，然后将折扣或奖励**应用于汽车价格来源。虽然费用可能因地而异，但此示例计算的费用如下

排放测试费:50 美元

注册费:200 美元

盘子转让费:65 美元

加州文件费:80 美元(记住有些州收取的文件费要高得多

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个月付款比前一个例子中显示的要高 24.59 美元(687.23 — 662.64)。

利率/年利率如何影响月供

在进入这一部分之前，了解一下术语年化利率(APR)是很重要的。对于汽车贷款，年利率是你支付的利息费用加上所有其他费用，你必须支付你的贷款，而利率只占利息费用。虽然你可以在这里了解年利率，但年利率比你的利率高(希望只是稍微高一点)。请注意，尽管 APR 比利率高(假设费用少，通常不会高很多)，但从数学上来说，它们是相同的，因为它们都给你相同的付款。出于本教程的目的，让我们在数学上更简单些，假设年利率和利率相同。

通过查看下表，很明显你的 FICO 分数会影响你的 APR，从而影响你的月供。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: The Simple Dollar

如果你想知道简单的美元是如何计算出支付的总利息的，请阅读下一部分。它详细说明了你每月支付多少利息。

如何计算支付的总利息

贷款的一个重要部分是知道在贷款过程中你将支付多少利息。这有点复杂，因为用于偿还贷款本金的月供(EMI)的百分比会随着时间的推移而增加。使用来自**计算月供(包括一些费用)**部分的相同本金(34689.96 美元)和利率(7.02%)，下图显示，对于每个后续月供，支付的本金持续上升，而支付的利息持续下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Dollars that go towards interest and principal each month from a monthly payment (EMI) of 687.23 with an interest rate of 7.02%

现在，让我们通过生成一个类似于下面的表来计算支付的总利息，然后对支付的利息列求和。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Notice how much interest and principal are paid each month.

虽然我会用 Python 来做，但也可以用电子表格或任何你觉得舒服的东西来做。

1-)第一件事是计算每月付款中有多少钱将在一个月内支付给利息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2-)每个月，月供的一部分用于支付本金，一部分用于支付利息。随着本金的降低，为了计算出你接下来几个月要支付的利息，你需要先计算出你的新本金。你可以在下面看到如何计算这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.重复步骤 1 和 2，直到主体达到 0。您可以在下面的 Python 代码中看到这样的例子。

Python Code to Create Payment Table

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Notice how much interest and principal are paid each month.

4.得到每个月支付的利息后，对支付的利息列求和。

np.round(payment_table['Interest Paid'].sum(),2)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向较低利率再融资

这个例子看的是一个人在低利率贷款过程中可以少付多少利息(支付的总利息)。特别是，在 60 个月的期限内，3.59%的利率与 7.02%的利率之间的差异。

Code to generate tables of total interest paid for different interest rates

通过使用与上一节相同的计算方法，较低的利率将节省 3285.63 美元的总利息。此外，由于利率较低，月供将减少 54.76 美元(687.23 — 632.47)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你可以选择以较低的利率再融资，重要的是要注意，你目前的贷款可能会有提前还款罚款，或者你的新贷款可能会有发起费。换句话说，如果你决定重新贷款，尽你所能去了解你签约的是什么。我应该注意到，Credit Karma 有一个关于为你的汽车贷款再融资的指南，NerdWallet 有几个方法来避免为你的汽车贷款多付。

贷款期限如何影响支付的总利息

**一般来说，在利率相同的情况下，你贷款的时间越长，总利息越多。**比较下面两笔贷款。两者的利率都是 7.02%，但一个期限是 60 个月，另一个期限是 72 个月。虽然 72 个月的贷款月供(EMI)低于 60 个月的贷款(591.76 比 687.23)，但贷款的总利息支付成本会更高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图显示，72 个月的贷款总利息成本为 7916.58 美元，而 60 个月的贷款成本为 6543.51 美元(72 个月的贷款成本为 1373.07 美元)。如果你想了解更多关于汽车贷款期限的决定，埃德蒙兹有一篇很好的文章。

结论

我希望你喜欢这个教程，并获得了汽车贷款如何工作更好的理解。如果你对本教程有任何问题或想法，欢迎在下面的评论中或通过 Twitter 联系我们。如果你想学习如何使用 Pandas、Matplotlib 或 Seaborn 库，请考虑参加我的数据可视化 LinkedIn 学习课程。

解决分析过载的方法

原文：https://towardsdatascience.com/the-cure-for-analytics-overload-fefeb7529ea3?source=collection_archive---------10-----------------------

你知道你花了多少时间试图在你的指标中找到意义吗？如果有更好的方法呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

早上你坐在办公桌前，手里拿着咖啡，准备开始工作。你用仪表板开始你的一天，检查事情进展如何。实际上，您可以查看一些仪表板，因为一个仪表板无法涵盖您的全部业务。和一些电子表格。你看着它们——然后你做了很多思考。你问自己，这个指标看起来对吗？你将它与你认为它应该是什么样子的，以及你认为它去年是什么样子的进行比较。你上周不是开展了一场新的营销活动吗？这肯定会改变数字。你强调正在发生什么事情，以及该向谁询问。

听起来熟悉吗？如果是这样，你并不孤单。事实上，你的经历和今天的大多数商业领袖是一样的。

您使用几十种不同的软件工具，每一种都会产生无数的度量标准，其中任何一种都可能在任何时候指出问题或机会。这些仪表板有些是电子表格，有些是图表，但所有这些都需要研究才能提取价值。试图从数字中获得洞察力所浪费的时间是惊人的。如果您每天浏览 4 到 5 个仪表盘，然后花几个小时参加仪表盘驱动状态/规划会议，那么您每周大约要花 6 个小时来检查指标。这占了你一周时间的 15%,只是想弄清楚到底发生了什么！在一年的时间里，加起来超过 300 个小时，几乎是你两个月的时间。

有更好的方法。机器学习正在开启一种新形式的商业智能，称为商业分析自动化。您无需从仪表板、电子表格和数字中开始一天的工作，只需一次更新，您就可以将所有重要的业务见解发送到收件箱中。在花五分钟阅读你的更新后，你会知道当天你需要改善业务的一切。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

想象一下这将如何加速您的业务。不要试图找出哪些营销活动有效或无效，你会立即知道你应该在哪些方面加大投入或减少投入。如果您的客户行为发生变化，您不必试图找出原因，您将实时了解原因和影响。不要等着你的收入下降并试图找出原因，只要出现收入问题，你就会知道，并在它变成危机之前采取行动阻止它。

你可能认为这项技术还需要几年的时间，但这个世界已经到来，公司今天已经在利用自动化分析。像 Outlier 这样的软件应用程序将公司从试图从数据中提取洞察力的负担中解放出来，从而节省了时间和金钱。相反，他们利用这些见解在很短的时间内推动更好的业务决策。

您准备好看到自动化分析每周为您节省 6 个小时了吗？让我们知道。

人工智能的当前趋势

原文：https://towardsdatascience.com/the-current-trends-in-artificial-intelligence-198a80e820c5?source=collection_archive---------5-----------------------

除非你生活在岩石下，否则你会看到过多的文章，让你相信人工智能革命已经到来，而且会持续下去。当我们试图理解这些说法背后的一些理论时，会有更多的文章试图通过阴谋末日理论在非专业观众中制造恐慌。当对人工智能不能做什么缺乏理解时，就会对人工智能能做什么产生恐惧。我认为了解人工智能领域的技术现状很重要。

最近，我有机会参加在澳大利亚悉尼举行的 2017 年机器学习国际会议(ICML)。作为一个著名的人工智能会议，有几个令人惊讶的演讲者介绍了人工智能各个子领域的最新进展。在本文的其余部分，我将讨论一些研究论文，这些论文突出了这些子领域中的一个主题。鉴于我参加会谈的时间有限，这些主题是基于我的观察。然而，为了这篇文章的简洁，在回顾这些趋势之前，我没有提到任何子领域的基础知识。因此，需要熟悉这些子领域的概念才能理解。

1)强化学习及其现实应用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://www.mdpi.com/robotics/robotics-02-00122/article_deploy/html/images/robotics-02-00122-g009.png

当一个代理被部署在现实世界中时，它可能热衷于探索它的环境，但是它需要遵循某些约束，以便服从该环境的限制。来自 Berkeley AI Research (BAIR)的一个团队展示了他们名为的受限策略优化(CPO) 的工作，该工作为策略搜索引入了由安全驱动的约束。它有许多应用，在探索时可以确保安全。此外，BAIR 发表了一篇文章解释他们在 CPO 上的工作。

如果代理/机器人被非技术所有者购买，她应该能够通过提供反馈来培训代理。麦格拉申等人。al 提出了人类的收敛行动者批评(蔻驰)，这是一种从依赖于政策的反馈中学习的算法，用于利用非技术用户提供的反馈来训练代理/机器人。他们证明，蔻驰也可以在有噪声图像的物理机器人上学习多种行为。

以便进行任何人类活动，如烹饪、家务等。RL 代理需要执行长指令序列，并对新的看不见的子任务进行归纳。有时，会有其他意想不到的指示，如电池电量不足等。，它需要一个偏差来完成剩下的子任务。为了实现这些目标。al 已经提出了一种通用的方法，它采用自然语言的任务序列，并且主要是顺序地执行子任务。他们分两步解决了这个问题:1)学习执行子任务的技能和基于类比的概括框架。2)确定子任务执行顺序的元控制器。与现有的工作不同，他们的架构通用性很好，还能处理意想不到的子任务。

为了完成多组任务，我们需要一个策略，既能理解子任务，又能在完成任务的同时优化整体回报。通常，代理不会因为完成子任务而立即获得奖励。安德里亚斯等人。al 提出了一个在多任务环境中学习深度子策略的框架。该算法仅由高层行为的抽象草图指导。

2)深度学习优化

为了正则化深度神经网络，使用了几种方法，如批量归一化、白化神经网络(WNN)。为了应用白化，构建协方差矩阵和求解 SVD 的计算开销成为瓶颈。平罗提出的工作试图通过一种称为广义白化神经网络(GWNN)的新方法来克服 WNN 的局限性，这种方法通过紧凑的表示来减少计算开销。

Budden 等人研究了硬件实现 ConvNets 的高维张量核的局限性。al 。他们提出了一种 Winograd 风格的更快的计算，用于为 CPU 优化的更高维度。他们将自己的算法与支持 AVX 和英特尔 MKL 优化库的流行框架(如 Caffe、Tensorflow)进行了基准测试，并得出了一个有趣的结论，即当前的 CPU 限制主要是由于软件而不是硬件。

扩展快速计算类，如 FFT、Winograd、 Cho 和 Brand 提出了一种内存高效计算(MEC ),它降低了内存需求并改进了卷积过程。MEC 采用滚动的列子集，并将其扩展为行，以形成一个更小的矩阵。这个过程与核矩阵乘法一起重复，以产生有效的计算。

随着特征映射数量的增加，冗余增加，导致低效的存储器使用。王等人。al 提出了一种称为 RedCNN 的方法，该方法试图通过保留固有信息并降低特征图之间的相关性来降低特征图的维度。他们使用循环矩阵进行投影，从而提高了训练速度和映射速度。

梯度之间的相关性随着网络中的深度缓慢衰减，导致梯度表现为白噪声。这些粉碎梯度主要在前馈网络中观察到，然而跳跃连接网络是有抵抗力的。作者提出了 Looks 线性(LL)初始化，它解决了前馈网络中的粉碎梯度，而不增加任何跳跃连接。

3)深度学习应用

识别睡眠模式将有助于诊断睡眠障碍，从而提供更好的医疗保健。然而，现有的识别睡眠模式的方法涉及使用大量附着在患者身体上的传感器，并且通常在医院或实验室中进行。实验设置本身会使患者经历睡眠困难，从而导致测量不可靠。麻省理工学院的一个团队进行了一项研究，在病人身上没有任何传感器的情况下，使用无线射频(RF)信号来识别睡眠模式。他们使用 CNN-RNN 组合来识别睡眠阶段预测的模式。然而，RF 信号会受到环境中任何附近源反射的噪声的影响。因此，他们增加了一种对抗性训练，这种训练会丢弃任何个体特有的无关信息，但保留预测睡眠阶段所需的有用信息。他们已经取得了明显好于使用手工制作的信号特征的现有最先进水平(大约 64%)的结果(大约 80%)。

来自百度的团队展示了他们在深度语音方面的工作，这是一种端到端的神经语音合成。他们详细介绍了五个主要的构建模块，包括使用 Wavenet 的变体将音素转换为音频合成。由于他们的整个架构是由神经网络驱动的，因此他们的系统比现有的文本到语音转换系统更加灵活。他们还描述了优化的 Wavenet 推断，与现有实现相比，可以实现高达 400 倍的加速。

4)元学习

模型不可知元学习(MAML)由芬恩等人提出。al 创建了一个元学习模型，其参数是从任务分布的随机抽样中学习到的。这种模型可以使用少量的训练样本和迭代快速适应新的任务，这通常被称为少镜头学习。作者还演示了 MAML 在分类、回归和强化学习任务中的应用。

Cortes 等人提出了一篇关于学习网络结构和权重的有趣论文。al 。这种被称为 AdaNet 的方法通过增加网络的深度来学习网络结构。新网络的 k^th 层连接到现有网络的 k^th 和 k-1^th 层。通过比较它们在经验损耗函数和正则化参数上的性能来选择网络架构。

威奇罗夫斯卡等人。al 介绍了一种学习型梯度下降优化器，它可以在减少内存和计算需求的情况下推广到新任务。他们在定义优化器时使用了分层的 RNN 架构，它在 MNIST 数据集上的表现优于 RMSprop/Adam。

5)顺序建模

音段结构是许多序列中的一种自然模式，如人类语言中的短语或字母组，用于识别音位规则。王等人。al 提出了一种通过分段的序列建模方法。他们已经使用 LSTM 学习了片段结构，并且通过限制搜索空间和进一步探索片段的结构来搜索可能片段的空间。

脸书人工智能研究所(FAIR)使用卷积进行序列到序列学习的流行实现在 ICML 2017 上吸引了很多关注。他们使用多层卷积创建了分层结构，从而复制了在传统的基于 LSTM 的架构中捕获的长程相关性。他们还在每个解码层使用门控线性单元、剩余连接和注意力。

Bamler 等人研究了单词嵌入的时间演化。al 在他们题为“动态单词嵌入”的论文中。在他们的方法中，他们将跳跃图扩展到概率动态跳跃图，以模拟具有潜在时间序列的连续文本数据。他们的方法的主要贡献是使用卡尔曼滤波器作为潜在嵌入的先验。这允许他们在任何时候都可以共享信息，同时允许嵌入内容自由移动。

6)机器学习优化

来自微软印度研究院的一个团队已经提出了强大的基于树的模型，可以帮助在像物联网这样的资源受限设备中运行机器学习，只有 2 KB RAM

对于分类问题，通常梯度增强决策树(GBDT)表现相对较好。然而，当多标记分类的输出空间变得高维和稀疏时，GBDT 算法会遇到内存问题和长运行时间。以便具有更好的预测时间和减小的模型尺寸。al 提出了 GBDT 稀疏算法来处理高维稀疏数据。

7)创成式模型应用

来自 Google Brain 的团队提交了一篇关于使用 Wavenet 自动编码器进行音频合成的论文。他们的主要贡献是 Wavenet 自动编码器架构，该架构包括建立在扩展卷积上的时间编码器，该编码器利用时间和信道的独立维度对隐藏码序列进行编码。此外，他们还引入了 NSynth 数据集，该数据集包含来自约 1k 种乐器的约 300k 个带注释的音符。

对像用户浏览历史这样的顺序数据建模具有很大的动作空间，其中许多动作具有相似的意图或主题。像 LSTM 这样的递归神经网络需要许多参数来模拟这样的数据，使得模型非常难以解释。然而，像 LDA 这样的模型可以模拟这种顺序数据，并且是可解释的，但是性能并不比 LSTMs 好。为了克服这些限制，Zaheer 等人。a l 提出了一种结合层次贝叶斯模型和 LSTMs 的用户建模潜在 LSTM 分配(LLA)。

由 Rippel 和 Bourdev 提出的图像压缩算法使用 GANs 代替自动编码器。提出的解决方案包括金字塔分解编码器，提取不同尺度的图像特征。使用量化、位平面分解、算术编码和码长正则化将提取的特征分解成相等大小的仓。接下来是通过对抗训练进行现实重建。

8)自然语言生成架构

为了克服判别模型在自然语言文本生成中的局限性，Wen 等。al 提出了一个潜在意图对话模型，用于使用潜在变量学习意图，然后组成适当的机器响应。本文背后的关键思想是将潜在意图分布表示为反映人类决策的内在策略，并使用基于策略梯度的强化学习来学习。

胡等人提出了一种使用潜在语义结构的自然语言生成方法。他们使用 VAEs 生成基于潜在属性代码的文本样本。使用每个代码的单独鉴别器来学习属性代码，该鉴别器使用 softmax 近似来测量生成的样本和期望属性之间的匹配。

9)高效的在线学习

对于在线多类 bandit 算法，Banditron 以前的工作虽然计算效率高，但只实现了 O(T^2/3 预期的遗憾。这是次优的，因为 Exp4 算法对于 0-1 的损失实现了 O(T^1/2 遗憾。贝格尔齐默等人。al 曾用 O(T^1/2 提出了一个高效的在线强盗多类学习)遗憾。

多武装匪徒的环境评估是一个棘手的问题，因为在线评估的成本太高，无法评估不同的政策，而非政策评估方法在估计中存在差异。虽然存在诸如逆倾向分数(IPS)的方法，其给出了对 MSE 的良好估计，但是它们在选择行动时没有考虑背景信息。作者王等人。al 提出了一个算法开关，它有效地使用了奖励模型和 IPS，与之前的工作相比，方差减少了。

10)基于图形的算法

许多现有的从数据生成知识图的方法认为该图是静态快照。在由特里维迪等人发表的作品中。al 他们已经证明了知识图是随时间演化的，并且他们已经开发了一个多维点流程来为演化的知识图建模。

仅从节点访问计数识别转移概率可以帮助理解用户的导航行为。梅斯特雷等人。al 提出了 ChoiceRank，这是一种迭代算法，可以通过只观察节点级流量来学习边缘转移概率。

在 ICML 2017 年会上还有很多有趣的论文和海报，我不可能用一篇文章来概括。我与一些来自工业界和学术界的顶尖人物会面，度过了一段美好的时光。

如果有任何需要修改的地方，请务必通知我。另外，我很乐意谈论这些研究论文中的任何一篇。如果你想进一步讨论，请给我发邮件到 gsk.krishna@gmail.com。

数据科学中“直觉”的诅咒

原文：https://towardsdatascience.com/the-curse-of-intuition-in-data-science-552bc28c55e5?source=collection_archive---------5-----------------------

我们习惯很快就下结论，而不分析所有方面。因此，当试图理解世界时，直觉经常失败。在这里，我提出了一个不同的系统来做数据科学，而不是“相信你的直觉”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

免责声明:我不是以常识或直觉专家的身份在这里说话。我只是说，它并不总是适用于数据科学。

我们的常识

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们有常识:一种基于对我们人类“有益”的事物来看待和理解事物的方式。这可能是一个定义，我们可以扩展到一些更技术性的东西:

关于日常事务的合理的实际判断，或者几乎所有人都具有的感知、理解和判断的基本能力。

按照这个定义，如果要遵循常识，就需要基于与“大多数人”共有的东西来理解和判断。

好吧，别误会，这在生活的某些方面很重要。我的意思是，如果一只危险的动物正在接近你，逃跑或者只是做一些让自己活下来的事情是常识。不吃这种杀死了半个村子的植物也是常识。那太好了。

但是正如我在之前所说的，可悲的是，主导我们文化的常识是亚里士多德式的和中世纪式的。这意味着直觉在试图理解世界时失败了很多次(想象一下科学家仍然认为石头掉到地上是因为那是他们的自然位置！).“常识”有时伴随着糟糕的判断，使我们看待事物的方式产生偏见。

我们习惯于只看到眼前的东西，并且“相信我们的直觉”。

我们的直觉

我的意思是，我试图在这里写点什么，但我只是让三个定义和三张图片来说话。

在没有证明、证据或有意识的推理的情况下获得知识的能力**，或者在不了解知识是如何获得的情况下获得知识的能力**。****

哇。

凭直觉而非有意识的推理知道或认为可能的事情。

哦，我的……

不需要有意识的推理就能立即理解某事的能力。

好的……

斯科特·亚当斯的《伟大的图像》:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://dilbert.com/strip/2014-07-22

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://dilbert.com/strip/2011-08-17

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://dilbert.com/strip/2013-04-24

无可奉告。

数据世界中的常识和直觉

显然，正如所料，我们将我们的常识和“做事”方式融入到了我们的公司和工作生活中。虽然前阵子常识和直觉都造就了百万富翁，但现在世界变了。现在，相信自己无知直觉的人不太可能打败那些通过对世界和我们拥有的数据的深入研究和分析做出决策的人。

此时此刻，值得思考的一件有趣的事情是，知识不在我们体内，而是在我们之间的空间里。它就在那里，等着我们去解释它要说的话。

好吧，我知道这听起来有点奇怪，但是在判断之前(或者相信你的直觉，谁在尖叫，“胡说！”)，先详细了解一下:

[## 伊曼努尔·列维纳斯(斯坦福大学哲学百科全书)

话语和博爱的主体间性起源只有通过现象学描述才能达到。否则…

plato.stanford.edu](https://plato.stanford.edu/entries/levinas/) [## 雅克·拉康(斯坦福大学哲学百科全书)

雅克·拉康(1901 年 4 月 13 日至 1981 年 9 月 9 日)是巴黎知识界的重要人物

plato.stanford.edu](https://plato.stanford.edu/entries/lacan/)

那么数据科学和这些有什么关系呢？超越常识和直觉是解决复杂商业问题的唯一途径。在一个充满直觉模型的世界里，颠覆和进步来自于更进一步，用数据去理解肉眼或“专家的眼光”看不到的东西。

正如 Russell Jurney 在 T2 的“敏捷数据科学宣言”中所说

在软件应用开发中，有三个视角需要考虑:客户的视角，开发者的视角，以及商业的视角。在分析应用开发中，这里有另一个视角:数据视角。如果不了解数据对任何特性的“说明”，产品负责人就无法做好工作。产品讨论中必须始终包含数据的观点，这意味着它们必须通过内部应用程序中的探索性数据分析以可视化为基础，这成为我们工作的重点。

再次强调:数据的观点必须始终包含在产品讨论中。

在脑子里重复一遍。这很重要。

我们需要听听数据是怎么说的。不要再相信我们总是比数据知道得更多。如果我们在该领域的“专家”可以解决所有问题，那么还需要什么数据科学家呢？模型要么来自数据(不是轶事“经验”或直觉)，要么根本不是模型。

我认为，打造数据驱动型组织的第一步是向团队、董事、经理和董事会证明,“倾听”、使用和理解数据远胜于使用我们的感觉。换句话说，他们需要知道这是可行的，并且只有在整个分析和数据科学周期结束后才能做出明智的决策。

我很想听听你对此有什么看法，并分享你对这个问题的想法。

感谢你阅读这篇文章。希望你在这里发现了一些有趣的东西:)

如果你有问题，就在推特上加我

[## 法维奥·巴斯克斯(@法维奥·巴斯克斯)|推特

Favio Vázquez 的最新推文(@FavioVaz)。数据科学家。物理学家和计算工程师。我有一个…

twitter.com](https://twitter.com/faviovaz)

还有 LinkedIn。

[## Favio Vázquez —首席数据科学家— OXXO | LinkedIn

查看 Favio Vázquez 在世界上最大的职业社区 LinkedIn 上的个人资料。Favio 有 15 个工作职位列在…

linkedin.com](http://linkedin.com/in/faviovazquez/)

那里见:)

助长网络攻击的“网络安全营销骗局”

原文：https://towardsdatascience.com/the-cybersecurity-marketing-scam-that-is-contributing-to-cyber-attacks-4cfc8c580812?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The “Cybersecurity Marketing Scam” that is contributing to Cyber-attacks and destroying the industry

澳大利亚墨尔本，2017 年 7 月 5 日——eve stigator 的西蒙·史密斯警告世界注意最新的威胁，即“江湖骗子”。

“自称即时‘网络专家’是新的‘网络骗子’。他们绕过了 20 年的多个专家领域”，网络安全专家西蒙·史密斯警告全世界。流行语:“新兴创新”、“人工智能”、“物联网”、“神经网络”、“认知计算”、“认知安全”、“增强网络现实”、“云”、“网络神经元”都不是新的、创新的、新兴的相关、现实或相关技术。

一个人所需要做的就是上网、读报或听新闻，听到关于所谓“网络安全解决方案”的离奇故事。拥有 21 年经验的网络安全大师史密斯先生解释道。

“他们应该是在与一个充满欺骗的行业作斗争，然而他们的欺骗是最大的网络风险”，史密斯先生说。

“事实上，正是写这些文章的人立即让真正的专家知道他们是网络安全的风险。几乎所有的上述词汇要么是几十年前的，而且一直存在”，史密斯先生说。“‘云’就是互联网，自从 26 年前我对编程感兴趣以来，远程执行就一直存在。简单地通过瘦客户机应用程序托管、Citrix、VMWare 和远程存储，这些是我开始工作时作为 avid 软件工程师开发的应用程序的一部分”，他说。

“我 11 岁，18 岁就从事商业，现在已经有 21 年的行业经验，看到这个行业因为一些甚至连软件公司都不采用的词语而分崩离析，我感到不安。“物联网”是另一个被滥用的词，因为互联网总是连接到我创造的硬件设备，从来没有“网络安全问题”。这是江湖骗子编造的神话和销售虚张声势，他们只是想利用他们“希望成为新兴的创新市场”来赚钱。事实是，他们造成了问题，而不是缓解了问题。

一些公司的研讨会提出了“最佳实践”、“想法”和“产品”，但绝对没有在网络犯罪、网络安全或任何相关领域有经验的演讲者。“他们正在摧毁这个行业。这些业余爱好者试图跳上 20 年的楼梯，寻找捷径，但这是许多专业的学科，他们的无知建议是最大的网络安全风险”，史密斯先生说。

Smith 先生是一位经验丰富的软件工程大师、网络安全培训师、一线网络危机维护者、导师、专家证人、一线缓解专家和网络取证调查员。他还是一名计算机数字取证专家，在整个安全和软件工程领域拥有丰富的行业经验，拥有超过 21 年的行业实践经验，ISO 首席信息系统审核员资格，完成了 8 门美国国土安全部认可的课程，在澳大利亚拥有 10 多项研究生证书/文凭，以及 100 多项高级及以下文凭，涉及 CISO、CCFE、CCP、ITSM、PMP、GCertITSM、GCertITS、ms、MC、Dip 等多个学科。SD，NW，SA，MCSD，PMP，等等。完整的名单可以在他的 LinkedIn 个人资料上找到。www.linkedin/in/simonsmithinvestigator

“在最近的一个论坛上，我看到有人写了技能短缺的解决方案。那就是“简单地雇佣外行人”。我回应说，你愿意让护士给你做心脏直视手术吗？似乎上市热潮已经变得比传统的 SDLC 和测试更加重要。公司宁愿把一个产品送上货架，让没有方法论的青少年业余黑客也许在 SDLC 下找到一些东西，而不是经过验证的方法论。难怪它们是可以被黑客攻击的”，史密斯先生说。

“思想家们跳上维基百科，寻找最新的‘流行语’，开始营销。我见过他们引用半定义，比如维基百科中的’认知计算技术。史密斯先生说，如果他们正确地复制和粘贴，你会在第一行读到“目前，无论是学术界还是工业界，对于认知计算都没有一个广泛认同的定义”。

“所有这些荒谬的词语所指的以及它们试图描述的软件仅仅是复制‘自动化机器学习’，我和许多其他人已经编写了 21 年以上的程序，是的，如果做得正确，会有所不同。没有一件计算机能做的事是人类没有指示它去做的。它可以做得更快，它可以用我们告诉它如何做的方法来学习，但有一个风险，如果我们做错了，我们就会犯一个大的“快”错误。唯一的例外是算法。人类仍然有可能进行数学运算，所有这些所谓的“新兴恶意软件检测”认知人类替代品(即使它们存在并确实工作)所能做的就是发现一种趋势，这种趋势可以帮助人类发现现实。然而，这仍然是‘自动机器学习’，”史密斯先生说，他作为专家证人在法庭上对‘IT 专家’进行审计。

他说，“然而，如果这还不够‘时髦的话’，史密斯先生超越了人工智能的发现声明，并说“对于人工智能，我们求助于逻辑、科学和定义。首先，你认为它的意思是不可能的，并记录为 AI(完成)。这意味着逻辑上也不可能依赖和管理诸如推理之类的任务，即预测我们人类与生俱来的’先验意识’的行动。在其他任何意义上，它都是’机器学习’。众所周知，人工智能不同于机器学习，因为它需要’常识’，类似于’先验意识’。根据定义，常识性知识“一般来说是不可能的，除非机器熟悉一个普通人熟悉的所有相同概念”。

他接着说，“现在，模式识别在它的上下文中被定义为一种形式的机器学习，因为它必须让人类知道什么构成了一个模式。史密斯先生说，模式识别的定义是“给一个给定的输入值分配一个标签”。

史密斯先生将这种欺骗性比作他遇到网络犯罪时遇到的欺骗，那些人因为我们对现实和无知的转移而嘲笑我们所有人。史密斯先生上周抓获了一名重要的网络骗子，他是一个价值 3000 万至 4000 万美元的犯罪集团的成员，他说:“当我发现现实生活中的网络骗子、网络跟踪者和网络罪犯时，我看到了真实的自杀、真实的邪教绑架、真实的黑客攻击、真实的企业被摧毁、真实的人面临牢狱之灾、真实的儿童剥削和真实的枪口下的恐怖故事。这不是游戏，对受害者来说一点也不好笑，所以我的建议是，网络营销骗子们在人们受到伤害之前赶紧离开。

最后，史密斯先生谈到了新一代“网络营销骗子”正在使用的新“流行语”。正是这个话题让史密斯先生警告该行业，如果它不采取立场，它就注定要失败。他们倾向于使用单词“认知能力”和现在的“神经网络”。

史密斯先生说，“公众现在应该知道，只有‘自动化机器学习’，但在这种情况下，是由一种数学算法辅助的。有些数学趋势是可以预测的，有些是不可能的。我们再次转向维基百科，它说，“像其他机器学习方法一样，神经网络已被用于解决各种各样的任务，如计算机视觉和语音识别，这些任务使用普通的基于规则的编程很难解决”。还值得一提的是，所有这些引用都可以追溯到 20 世纪 80-90 年代。当我说我在谈论“物联网”、“云”和所有所谓的 新兴创新 。”

什么变化导致了网络犯罪的增加？

“除了懒惰、市场开发、大量涌入市场和违反 SDLC/消除适当的测试方法和维护之外，什么都没有。这些文章的作者和这些研讨会的主持人引起了关注。程序员和产品开发人员需要开始变得更聪明，正确地完成他们的工作和测试。然后，营销人员需要等待适当的 SDLC 开始。成为网络安全专家没有捷径可走。史密斯先生说:“花 20 年时间学习各种职业，然后你就会自然而然地了解各种学科。

免责声明

如果真相伤人，就去面对它。这必须是来自某个在第一线有专业经验的人对世界的警告。不是每个人都有意这样做，但这是真的，它正在发生，史密斯先生提供这种情报没有金钱上的好处。决策者(包括政府)应对发布这些声明、产品或事件的人进行尽职调查。其次，史密斯指出，网络缓解和阻止内部威胁和人类思维黑客(社会工程)是答案。

他提供有限的社会工程师内部测试和合同。他作为专家证人参与，表演 R&D 和/或寻找下一个网络罪犯。需要他的服务和时间。

他提醒读者，基于软件的网络攻击只占 10%，一般公司在攻击发生 300 天后才知道。他说 90%是社会工程。你必须从内部看”，史密斯先生总结道。

座右铭——你不能取代人类的优秀——你可以帮助它

请记住，人类是任何网络攻击中最薄弱的环节，技术次之！

Simon Smith，eVestigator Cyber Forensic IT & Expert Witness Services，网络安全负责人(APAC)，21 岁以上的首席高级程序员、导师、国际顾问、法医调查员、社会工程师、专家证人、MBA 导师、媒体倡导者、国际警察特种部队网络犯罪顾问。

连线领英上的见解和媒体请求:
https://www.linkedin.com/in/simonsmithinvestigator
http://www.cybersecurity.com.au
http://www.evestigator.com.au，http://www.cyberblog.com.au，
http://www.evestigatortestimonials.com.au

点击这里通过我的 YouTube 频道订阅所有媒体采访:https://www.youtube.com/c/evestigatorAu/?sub_confirmation=1

透过单一视角看问题的危险

原文：https://towardsdatascience.com/the-danger-of-looking-at-problems-through-a-single-lens-98d494796d73?source=collection_archive---------6-----------------------

30 天写作挑战

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我 30 天写作挑战的第四天，我遇到了阻碍。在本月晚些时候开始新工作之前，我一直在学习机器学习的新技术。到目前为止，我已经介绍了 tf-idf(用于查找文档中的重要单词)和贝叶斯分类(用于根据重要单词对文档进行分类)。

我想到有很多不同的词应该被同等对待。比如“摩托车”和“摩托车”是直接等价的。我们不想训练我们模型以不同的方式处理这些单词。如果我们能够简化输入的数量，随着我们收集的文档不断增加，我们的计算将更容易管理。

今天我想探索将相似的单词分组的方法，这样我们可以为一个组选择一个规范的单词。

在谷歌上搜索“分组相似词算法”，会有很多结果。栈溢出有一堆答案，暗示了像 Levenshtein 距离和 Jaccard 索引这样的东西。这太棒了，我们发现了很多相当简单的算法，它们可以给单词一个相似度分数。

不过，这些技术并不是我们想要的。它们基本上是测量你需要增加、减少或转置多少个字符来把一个单词变成另一个单词。它们是你对作品进行拼写检查时使用的算法。你输入“mororbike ”,你的电脑知道这个词不在字典里，但你可能指的是“摩托车”。只有一个字符不同。

这不是我们想要的相似性度量。事实上，这将给我们带来次优的结果。“摩托车”和“摩托车”这两个词比“摩托车”和“摩托车”更相似。我们最终会将想要分别对待的单词分组，而不会将想要同等对待的单词分组。

我花了过去 24 小时的大部分时间试图找到答案。

终于，我想通了，就在我最没想到的时候。我正在开车，没有真正注意任何事情，突然意识到这不是机器学习的问题！

称之为灵感的闪现。称之为恢复理智。管它叫什么。我离问题太近了。我 4 天前开始写道“我将研究不同的[机器学习]算法和技术”，所以我处理这个问题，就好像它需要用机器学习来解决一样。

这里不需要机器学习。自从 1805 年第一本同义词词典问世以来，我们就可以查找类似的单词。事后看来，这是一个如此微不足道的问题。一旦我们在文档中挑选出了重要的单词，我们只需在词典中查找一个规范的单词。

我很恼火，我花了这么长时间试图解决这个问题，但我学到了宝贵的一课。以开放的心态处理问题。在确定问题的性质之前，不要运用你的偏见。我没有任何正式的软件工程，但我特别成功，因为我总是用新鲜的眼光处理问题。

这是一个及时的提醒。通过说“我是 xyz 方面的专家”来确立你的地位，这将使你带着 xyz 的想法来处理问题。把你的先入之见留在门口。从头开始。每次都是。

这是我 30 天写作挑战 中的一个帖子。我是一名软件工程师，试图理解机器学习。我没有博士学位，所以我将用简单的语言和大量的例子来解释事情。

关注我的Twitter查看我的最新帖子。如果你喜欢这篇文章，请点击下面的心形按钮来分享——这将有助于其他人看到它。

人工智能在医疗保健中的危险:风险内稳态和自动化偏差

原文：https://towardsdatascience.com/the-dangers-of-ai-in-health-care-risk-homeostasis-and-automation-bias-148477a9080f?source=collection_archive---------2-----------------------

伦敦肯辛顿和切尔西区的展览路是一些世界上最伟大的博物馆的所在地。但这也是最近城市设计实验的一部分，叫做共享空间。沿着街道的长度，道路和人行道之间的界限已经消失:汽车和行人共享同一空间，道路标记，交通灯和人行横道已经消失。通过增加不确定性和感知风险，这种想法是司机将降低他们的速度，从而为行人和车辆创造一个更安全的环境。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Exhibition Road. Image Credit: La Citta Vita, via Creative Commons

这种方法基于由荷兰心理学家 Gerald Wilde 在 20 世纪 80 年代首次提出的风险内稳态理论。该理论基于这样的观察:当一项活动变得更安全时，事故率通常保持不变。强制性安全带降低了事故中受伤的可能性，但是并没有降低人均死亡率。带防抱死刹车的司机更靠近前面的车。当 1967 年瑞典转向右侧驾驶时，死亡率明显下降，一年半后又回到了原来的水平。人类的冒险行为似乎与感知到的危险程度紧密相关。降低活动的风险感，人们会更大胆。

“处方数量越多，人们的个人责任感就越弱。”(汉斯·蒙德曼)

风险稳态从一开始就有争议，但是在过去的几十年里，行为适应感知风险的想法已经被科学界所接受。

在某些情况下，将其付诸实践似乎是可行的。在高街肯辛顿的展览路拐角处实施了共享空间方案。对改革前两年和改革后两年的公开数据的分析显示，交通相关伤害减少了 43%。

人-人风险稳态

临床实践中的风险经常被科学的复杂性所混淆。但是临床医生之间风险平衡的证据已经被发现，例如，在最近对英国重症监护室护士的研究中。在药物分配期间实施的安全措施包括在将药物给予患者之前由不同的同事进行多次交叉检查。虽然护士们接受过双重检查的训练，但是安全措施降低了感知的风险水平，并且在这项研究中，护士们认为不太可能犯错误。

“我认为在检查药物时，工作人员非常信任彼此，而不是像他们应该做的那样仔细查看处方。嗯，因为他们认为你不会犯错误是理所当然的。(桑赫拉等人。阿尔，2007)

在他的书《数字医生》中，鲍勃·沃希特讲述了帕布罗·加西亚(Pablo Garcia)的故事，一个年轻的病人服用了过量的 38 倍的抗癫痫药。他描述了尽管在配药前经过了 50 个不同的步骤和多次检查，工作人员还是没能发现处方错误。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image credit: Liu Tao, via Creative Commons

处方错误会带来一种动力。错误通过的检查越多，在后续检查中被怀疑的可能性就越小。同样，诊断错误可以表现为 诊断动量 *。*一旦诊断结果在护理团队中传播开来，它就不太可能被质疑，一旦被发现是错误的，就更难被推翻。

人机交互:自动化偏差

人类在与执行自动化任务的机器互动时表现出类似的行为，称为自动化偏见:

自动化偏差:“倾向于忽视或不去寻找矛盾的信息，因为计算机生成的解决方案被认为是正确的”(Parasuraman & Riley，1997)

医学中自动化偏差的研究有着丰富的历史，但随着新的机器学习方法进入临床决策支持，这一研究变得尤为重要。在这些模型如何做出决定方面缺乏透明度，这将对赢得临床医生的信任和避免自动化偏差提出挑战。

自动化系统存在于一个范围内，从那些需要人类参与的系统，到人类被排除在任何决策之外的全自动化系统。

完全自动化适用于不需要决策灵活性、失败概率低且风险低的任务。但是对于决策涉及许多变化的变量的动态环境，例如医疗保健，完全自动化很难实现。

当应用于混乱的真实世界临床实践时，系统的性能无疑将具有小于 100%的准确性，因此人类操作员必须知道何时信任，何时不信任系统。我们如何设计人和机器之间的交互变得至关重要，以防止引入新的偏差和错误。

风险内稳态表明，临床实践的过度自动化可能会导致自满以及错误和事故的增加。来自其他领域的研究表明，当人类的任务被机器接管时，人类确实会遭受自动化偏见和个人责任的减少。

错误行动与不行动

对不完善的自动化系统的过度信任会导致两种特定类型的错误:委托错误和遗漏错误。当一个人错误地行动时，就发生了犯错误，当这个人在应该行动的时候没有行动时，就发生了不作为的错误。**

最近的一项研究使用决策支持系统调查了任务中的这两个错误。当系统提供正确的决策支持建议时，参与者的决策更快、更准确，并且需要更低的认知负荷。但是当系统给出一个错误的建议(“自动化错误”)时，参与者的决策表现下降到接近零。参与者假设系统是正确的，并且犯了委员会的错误——他们错误地执行了* 。当系统根本没有给出任何建议(“自动化消失”)时，参与者更有可能犯遗漏的错误——他们没有在应该采取*行动的时候采取行动。**

有趣的是，与“自动化消失”条件相比，参与者在“自动化错误”条件下的准确性下降幅度更大。与决策支持系统出现故障并任由我们自生自灭(这里的错误是由于“自动化自满”)相比，我们在使用错误的决策支持系统时会犯更多的错误(自动化偏差)。作者建议，为了避免自动化偏差，决策支持系统应该向用户揭示他们不确定时的低置信度。

这种透明度对于设计智能临床决策支持工具至关重要。尽管对机器学习方法傲慢自大，但这些技术仍然会受到误差和偏差(例如数据集移位)的影响，这种必须传达给临床医生，以避免自动化偏差。

自动化医疗保健的一个特殊挑战是错误经常不被报告，并且它们的影响很难测量。随着基于价值的医疗保健的出现，护理事件的健康结果也才刚刚开始被跟踪。这意味着，一旦纳入临床实践，智能决策支持系统的正面和潜在负面影响都可能难以识别。这使得我们提前得到正确的设计变得更加重要。

基于索赔的索赔的危险性

原文：https://towardsdatascience.com/the-dangers-of-claims-based-on-claims-142fd2c9f7cd?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗保健因缺乏采用的数据格式而臭名昭著。一个例外是付款人和供应商之间交换的账单信息。这些文件通常被称为“索赔”由于无处不在，今天的许多分析方法——从流行病学到公共卫生、精算科学、商业智能和风险评分——都严重依赖(有时完全依赖)索赔文件。

索赔文件对于理解所提供服务的数量和金额来说是足够可靠的。然而，人们应该警惕依赖声称来理解某事为什么发生，它是否起作用，或者应该发生什么——事实上，声称不适合回答改进的基本问题。

首先，关于索赔文件的高级入门知识:

程序代码代表医疗专业人员采取的特定健康干预措施。对所提供服务的单位或类型的补偿主要来自这些编码。
诊断代码(通常称为疾病代码)记录了困扰每个人的疾病、失调或症状。这些代码会影响所执行程序的报销率。
药品代码显示开给患者的药品。这些必须是准确的帐单，但它们不能跟踪病人是否实际服用了处方药物。

索赔文件旨在支持帐单和随后的报销。他们捕捉什么、如何捕捉，以及这些信息的价值完全是基于这些预期用途而精心设计的。为了获得补偿，索赔文件必须包含证据，证明做了什么以及对谁做的。服务的单元和复杂性也被捕获。不完整地获取这些信息会导致支付困难。虚假陈述会导致审计和法律风险。因此，从事务的角度来看，我们应该对依靠索赔数据来告诉我们发生了什么感到非常放心。

理解事情发生的原因或它是否起作用是另一回事。

没有一个临床医生会求助于索赔文件来理解这些问题。他们知道声明中包含的信息既不可靠也不完整，不足以开始解决这些问题。除了大量关于声明缺陷的研究，每个流行病学家或健康服务研究者都有“声明有问题”的轶事。我第一次感受到主张和现实之间的差距是在我刚获得博士学位时，当时我正与 6 个学术医疗中心合作进行一个结肠直肠癌质量改善项目。像许多改进努力一样，我们的第一步是找到患有目标疾病的人——在这个例子中，是结肠直肠癌。该项目从查询索赔数据中的疾病代码开始。然后，为了验证他们的结果，我们进行了一项图表审查，将病历中的内容与每个患者的 ICD 代码进行比较。

我们发现 80%的代码指示结肠直肠癌的患者并没有癌症。他们都做过结肠镜检查。

接下来的几年证实，这种令人恐惧的不准确疾病编码模式更像是常规而非例外。就在最近，我们发现约 50%的心脏病代码是错误的。这并不是改善我们对医疗保健理解的坚实基础。

也有理由相信事情在好转之前会变得更糟。随着人们(和软件)采用国际疾病分类编码第 9 版标准(ICD-9)，疾病编码不正确的问题已经流行了多年，该标准有大约 12，000 个不同的编码。2015 年，CMS 将 ICD-10 作为强制性标准，将可能的代码扩展到 65，000 多个。不用说，我们并不期望因此而提高准确性或一致性。

那么如何利用索赔来进行改进呢？

大多数分析方法只是为其他客户重用现有模型。为了使模型可以转移，他们依赖于只索赔的方法，因为这是医疗保健中唯一一致的数据。幸运的是，从技术角度来看，我们已经超越了这一点。或者至少，我们应该是。在大约 20 年的研究中，有几千项研究表明，机器学习+自然语言处理等高级分析方法能够提供更好的能力，最终从所有可用的数据源中获得洞察力。

现在的挑战是，没有人知道如何将这些技术应用到医疗保健的复杂现实中，并从中获得真正的价值。这就是我们开始 Cyft 的原因——帮助医疗保健组织最终开始从大量尚未开发的数据中学习，并在正确的时间将这些见解应用于正确的人。这是一项棘手的工作，我觉得经过 10 多年的研究和现在的工业应用，我们才刚刚开始触及可能的表面。但我们确实学到了很多，并将通过更多这样的帖子分享真实世界的经验。

我们接下来的几个主题是风险分层，如何评估不同的预测方法，以及如何在复杂的护理管理世界中进行预测。如果你有你认为我们应该涉及的话题或问题，请给我发邮件至 ldavolio@cyft.io 或 @ldavolio 。

谢谢，莱恩

媒体和娱乐的数据驱动未来

原文：https://towardsdatascience.com/the-data-driven-future-of-media-and-entertainment-c30ce60d7aa4?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

未来将是数据驱动的。但是，对于创意产业来说，数据将走向什么样的未来？

技术应该增强创造力，而不是压制它。幸运的是，通过创意产业的技术整合，越来越多的信息变成了有用的信息。智能数据分析是一种前沿工具，不仅有利于媒体企业的底线，还能帮助企业优化这些信息的使用，从而超越竞争对手。数据驱动的道路引领媒体和娱乐公司走向一个崭新而激动人心的未来。

出版和数字媒体

近年来，出版业经历了多次大规模的颠覆，包括在线出版和电子书的兴起。阅读体验的数字化威胁着传统的出版模式。然而，重要的是，它开辟了一个新的领域，出版商正越来越多地开始利用这一优势。

随着数字出版市场在过去几年的增长，出版商可用的数据量也在增长。收集和智能合成正确的数据有助于出版商了解现有和潜在的消费者行为模式，让作者和出版商保持相关性，更好地预测图书销售，并更好地营销他们的图书。

下一步是什么？写“按需”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

利用预测分析(包括分析与消费者对各种主题的兴趣相关的信号)的概念首先在互联网内容的出版和推广方面流行起来。随着数据分析的改进，出版商现在也开始尝试评估关键绩效指标(KPI)，以帮助从提交的手稿和提案中决定出版哪些书籍，甚至根据对消费者兴趣、需求和购买特定流派和书籍的倾向的日益成熟的理解，指导作者写哪些书籍。

这场革命仍处于早期，但结果似乎是不可避免的。图书出版商，像他们的数字媒体同行一样，正在以前所未有的方式利用数据来弄清楚读者真正想要的是什么。简而言之，大数据和机器学习不仅被用来加强与忠实粉丝和订户的联系，还被用来确定当前和潜在的未来读者明天想要阅读的内容。最终，数据可以成为增加出版收入和以复杂、智能的方式为读者提供超级服务的驱动力。

音乐

经过十年的奋斗，音乐生态系统似乎已经摆脱了技术破坏的冲击，现在正在积极拥抱技术进步。随着移动、流媒体、社交媒体和互联设备的兴起，音乐家从未如此接近他们的观众。消费者信息的流动也从未如此广泛。数据分析使所有流入的用户信息都具有可操作性。过去基于个人经验和关于如何更好地营销和销售音乐的假设的商业决策现在正通过人工智能和大数据的使用实现自动化。

例如，Gracenote 帮助音乐爱好者根据他们的音乐品味、喜爱的艺术家和收听偏好建立电台和播放列表。Pandora、Spotify、Apple Music 最近都收购了音乐分析公司，如 Next Big Sound 、 The Echo Nest 、Semetric。每周都有新的人工智能初创公司推出。这是一个充满活力的空间，将继续以有趣的方式转变。

下一步是什么？预测音乐发现

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Spotify Discover Weekly 成为音乐领域最具影响力的创新之一是有原因的。截至 2016 年 5 月，超过 4000 万人使用了它，在不到一年的时间里播放了不到 50 亿首歌曲。这些都是大数字；它们反映了用户对个性化音乐发现的积极参与，随着人工智能个性化变得更加有效，这种参与可能会增加。

相关的、个性化的参与对音乐行业来说比以往任何时候都更加重要。预测分析将是合乎逻辑的下一个前沿领域——智能数据算法可以洞察消费者的偏好，并帮助音乐生态系统中的玩家发现新的潜在热门歌曲。例如，英国华纳音乐(Warner Music UK)的“流媒体优先”(streaming-first)子标签“观看唱片的艺术家”(Artists To Watch Records)已经在使用复杂的算法来早期检测和发现开始升温的歌曲。

机器学习和人工智能，以及其他创新技术(如 Shazam 用于将声音转化为数据的音频指纹识别)将为发现艺术家的唱片公司和发现新音乐的粉丝提供越来越精确的推荐服务。

电影和电视

与此同时，电视正在从线性的消费性观看演变为类似网络的互动体验。对于许多传统行业参与者来说，这种变化并不容易。

来自 TDG 和风头网络的最新报告表明，越来越多的消费者正在切断线缆，转向 OTT &视频流媒体服务。在订购宽带的 1 亿家庭中，大约有 22%没有付费电视服务。拥有至少一个 OTT 流媒体视频的消费者数量增长了 15%。一些消费者甚至愿意为不止一个流媒体视频服务付费。这表明，购买流媒体电视的消费者可能会购买符合他们口味偏好的额外 OTT 服务，因为这些服务已经可用。

这可能会导致激烈的竞争。“内容”，正所谓“为王”。拥有合适的内容是赢得当今高度分散、一心多用的受众分散注意力的关键。在这场持续的战斗中，关于消费者偏好、观看习惯和个人兴趣的信息的确是力量。从流媒体服务到好莱坞工作室，各种视频创作者都在使用智能数据科学，从项目绿色照明到开发(包括预算)，到视频娱乐营销，再到分发，智能数据科学改变了沿途每个阶段的业务。

下一步是什么？预测分析和个性化编程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

提供数百个频道的昂贵电视捆绑的日子屈指可数了。数据表明，未来的观众将抛弃这种捆绑，转而选择订阅算法驱动的以用户为中心的服务，提供精心策划的个性化观看体验。

网飞和亚马逊等娱乐巨头将数据作为其公司战略和旗舰产品的重要组成部分，他们正在通过高度复杂的预测技术解决方案引领潮流，使他们能够提供原创的优质内容。例如，网飞已经将其内容切割成超过 70，000 个微流派。类似的分类可能很快会通过视频基因组项目提供给网飞的竞争对手，该项目由一家名为结构化数据智能的公司创建，最近被 Hulu 收购。

与此同时，内容所有者正在意识到他们自己的内容的价值，以及他们可以通过个人平台赚钱的所有方式。内容交易正在获得动力。

然而，对于数据驱动的编程有一些保留意见。虽然它肯定会影响关于播出哪些故事、增加哪些人物的播出时间，甚至向不同的订户显示不同结局的决定，但目前尚不清楚这种变化是否会带来更好的内容，也不清楚这种变化的更广泛影响可能是什么——无论是艺术/创意、商业，甚至是社会。我们必须等等看。

小数据？

随着大数据成为一个家喻户晓的短语并渗透到创意产业的商业领域，另一个概念开始产生影响— 小数据。这里的想法相当简单:虽然大数据提供顶级趋势，但小数据有助于公司在更亲密的层面上与消费者联系，包括在更本地化和个性化的层面上向他们营销。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从更专业的角度来看，大数据本质上是海量的结构化和非结构化信息，无论是来自商业交易、社交网络还是机器对机器的交互。相比之下，小数据是一组非常具体的属性，可以通过分析较小的适当大小的数据块来创建。它信息量更大、更及时，并以一种容易理解的方式带来有意义的见解，帮助公司找到特定问题的解决方案，并取得可操作的结果。

在媒体和娱乐领域，小型数据收集方法可能包括智能结构化的采访问题、帮助论坛交互的详细分析以及其他不太依赖于海量数据集的数据分析。这种方法可以帮助公司避免处理大数据的费用。因此，小数据可以帮助在公司内部建立可操作的、现实的目标；例如，创建定制的“产品”或 UX，让最终用户感觉周到和有吸引力。

行业准备好了吗？

去年 MarkLogic 和 Marketforce 委托对媒体娱乐领域的 100 多名高管进行了一项调查，以了解该行业对数字时代的适应程度，以及它是否准备好面对下一波颠覆。

他们的发现既令人鼓舞又令人担忧。

一方面，令人鼓舞的是，该调查证明，该行业已经应对了数字化的最初冲击，能够快速适应新业务模式的组织能够找到新的更好的方法来利用显而易见和意想不到的机会。另一方面，令人担忧的是，调查显示，媒体和娱乐领域的许多公司还没有准备好(或感觉没有准备好)提供敏捷、数据驱动的服务，这些服务对于接触新的分散消费者至关重要。

无论是在出版、音乐还是广播领域，交付个性化创意的能力已经从理论走向实践，同样也正在从不可想象走向数字受众的期望。为了在未来取得成功并保持相关性，创作者和提供者都需要回顾今天他们如何存储、管理、合成和利用数据。做好这些事情可以让公司利用新技术，让他们的业务适应未来(包括准备好适应不可避免的下一轮不可预见和破坏性的变化)，并最终提供让受众满意的服务。

由 谢尔盖·布多夫 媒体与娱乐实践高级副总裁 数据艺术

原载于www.hypebot.com。

Twitter 表情符号分析:Airbnb 的故事

原文：https://towardsdatascience.com/the-data-files-twitter-emoji-analysis-987093f9c1ee?source=collection_archive---------4-----------------------

表情符号和数据是我最喜欢的东西，我一直渴望将它们结合在一个有趣的项目中。几周前，当我滚动浏览我的 twitter 信息时，突然有了灵感:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Describe your dream trip in three emojis.

此处见项目。

该过程

1.收集数据:

起初我认为抓取会很简单，因为我需要做的只是查询 twitter API。当然，有一个端点会给我一条特定推文的回复。但是，唉，事实并非如此。经过几个小时的谷歌搜索和堆栈溢出，我找到了一些可能的解决方案。但是我最后使用了下面的 rscript(在@PRISMOJI 的@HamdanAzhar 的帮助下)

解决方法基本上是获得原始帐户的所有提及。然后用原始的 tweet id 过滤这些提及。最好尽快这样做，因为对于流行的账户，你可能需要收集成千上万的回复才能得到完整的回复。另一个警告是免费的 API 账户目前只允许 7 天前的查询。因此，请务必在一周内收集回复。

2.将表情符号翻译成英语:

一旦有了数据，我必须将 unicode 转换成英语，这样我才能更好地过滤和分析数据。虽然有一些 unicode <>英语词典，但我碰巧是在 R 语言和 windows 机器上工作的(所以我要使用一些相当晦涩的编码)。经过几个小时的挫折，我终于找到了一个可行的解决方案。我首先从评论中提取表情符号，因为其中一些也有无关的文字。从那里，我做了一些字符串操作来获得我需要的格式，并使用这本字典来翻译我的表情符号。

2.分析和清理数据:

在我翻译完表情符号后，我终于准备好进行分析了。我主要使用 tidytext 库来处理数据集。

我还想对不同的表情符号进行分类。在考虑过写一个分类器(hi scipy)或者使用普林斯顿的 Wordnet(T6)之后，我最终坚决反对这两种方式。这两个解决方案都没有提供我想要的东西，因为我的数据集只有大约 150 个独特的表情符号(按数据集标准来看很小)，我决定咬紧牙关，打开我最喜欢的 Spotify 播放列表，并手工编码我想要的类别。

3.将数据可视化

从一开始，我们的主要目标之一就是构建一个自定义的 d3 和弦来可视化表情符号的不同组合。因为这是我第一次建立这种 d3 图表，我有一点需要学习。特别是定位的径向比例，如何将自定义图像(表情符号)附加到 svg，以及如何创建完美的弧线。

在弄清楚所有这些之后，我得出了这个结论(tada！):点击此处为互动版。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Airbnb Twitter Emoji Chord. See interactive version here: https://christinequan.github.io/airtweets/

感谢阅读！如果你对我是如何制作的有任何反馈或问题，请告诉我。请关注我，阅读更多关于数据可视化、迷你教程和我正在从事的各种数据项目的信息。😃

婷

数据游戏:在国际教育中建立分析能力

原文：https://towardsdatascience.com/the-data-game-building-analytics-capability-in-international-education-b940f24b13a4?source=collection_archive---------7-----------------------

[ 原载于IEAA Vista 杂志(2016/17 年夏季)——如果你对澳大利亚国际教育感兴趣，我强烈推荐你在线关注他们，阅读他们的出版物！]

Darragh Murray 写道:接受分析思维模式并利用大数据时代的技术是实现澳大利亚战略性国际教育目标的关键。

预言和少女怀孕的故事

2012 年，记者查尔斯·杜希格偶然发现了一个关于预测的力量和少女怀孕的有趣故事。杜希格在为《纽约时报》撰写的文章中讲述了一名愤怒的男子如何与美国一家百货商店的经理对峙，要求知道为什么这家零售商一直给他十几岁的女儿送婴儿服装和乳液的优惠券。

“你是想鼓励我女儿怀孕吗？!"愤怒的父亲抱怨道，并向这位不幸的经理赠送了一捆捆与婴儿相关的用品。经理不知道这是怎么发生的，并承诺会跟进此事。然而，当父亲几天后打电话道歉时，调查中断了。他十几岁的女儿确实怀孕了，不知何故塔吉特比她的家人更早知道。

塔吉特怎么可能知道这些？答案是通过精确使用数据和分析。Target 一直在大力投资分析能力，这是一项将数据置于知识发现和交流中心的专业。通过使用预测模型，商店可以根据历史购物模式准确识别潜在的怀孕顾客。

虽然这个轶事既有趣又令人毛骨悚然，但它提醒我们现代行业如何利用大量数据来追求战略商业目标。无论是瞄准期待中的客户，还是使用数据评估国际学生市场的潜力，熟练使用数据正迅速成为企业和组织竞争的资源。

数据革命

利用数据解决问题并不是最近才出现的。自 20 世纪 70 年代以来，我们现在所说的数据科学已被广泛用于科学和工程领域，通常用于风险管理和工作场所健康与安全。在 20 世纪 90 年代，当银行和金融越来越多地使用数据监控来打击欺诈和信用卡盗窃时，该领域变得更加活跃。

巨大的计算能力、廉价的数据存储以及现代数据挖掘和机器学习技术的发展最近的融合导致了数据作为一种有价值的日常商业资源的主流化。这一切都以“大数据”的出现为高潮，成为这个国家最新的时髦词汇。

这场数据和分析革命现在被视为现代全球经济持续发展的关键。在他们的优秀作品Competing on Analytics*，*中，研究人员达文波特和哈里斯认为，数据现在是组织必须用来发现保持竞争力的独特能力的关键资源(参见达文波特 2006 年撰写的这篇 HBR 文章，了解这本巨著的摘要)。

如图 1(第 18 页)所示，Davenport 和 Harris 提出了组织分析能力的概念，范围从基本的标准报告到高级预测模型，允许数据驱动的预测和风险管理优化。如果您的组织仍然使用简单的标准报告来监控关键指标，您可能已经落后了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么，分析革命是如何与澳大利亚国际教育部门交叉的呢？考虑到越来越多的国际流动学生，以及拥有先进教育系统的现代经济体对教授这些学生越来越感兴趣，在分析和数据上竞争的想法非常重要。如果澳大利亚想继续吸引最优质的国际学生，那么在竞争对手之前了解更多潜在的国际学生是有意义的。

在数据和分析方面最具竞争力的教育提供商将在未来获益。澳大利亚的国际教育部门幸运地拥有一个比较优势:我们有大量高质量的学生数据，而其他市场似乎没有。

澳大利亚的比较数据优势

澳大利亚拥有世界级的国际学生数据。移民和边境保护部(T1)(DIBP)等政府机构定期发布关于 T2 学生签证申请和批准率(T3)的详细而及时的统计数据，以便对未来的需求进行分析。同样，教育和培训部 (DET)提供了关于国际学生注册和毕业典礼的有价值的信息，这些信息可以通过国际教育所有部门的众多指标进行细分。

在线数据门户，如 uCube 允许进行详细的本地竞争对手分析和基准测试。澳大利亚市场信息包 (MIP)是国际学生数据可视化领域的全球领导者，它提供了一个集成的商业智能平台(见图 2)，使机构和企业能够在不进行大规模 IT 基础设施投资的情况下分析澳大利亚国际学生市场。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些例子甚至没有考虑到澳大利亚国际学生群体的无数其他私人组织信息来源，这些信息可以整合到这些强大的公共来源中。

这种最新的综合数据来源在其他国际学生竞争市场中并不明显。例如，美国依赖于国际教育研究所发布的“开放门户”,而英国的高等教育统计机构(HESA)提供了一些关于全体学生的广泛细节。

虽然这些服务无疑是方便的，但它们似乎没有澳大利亚行业所享有的专业、集成或灵活的数据分析平台。他们还可能缺乏及时的更新或难以提取和分析的数据。

声称澳大利亚是国际学生数据的市场领导者不是没有道理的。问题是，我们如何利用这些数据集来推进澳大利亚的国际教育部门？

构建分析能力:数据驱动的思维模式

可靠的数据和全面的分析支持良好的商业决策。正如达文波特和哈里斯所断言的，在竞争对手连枷的特定市场中取得成功的组织，几乎肯定是通过使用分析和数据来推动其战略商业决策而取得胜利的。

鉴于澳大利亚令人羡慕的国际学生数据资源，改变心态和一些创造力可能是开始取得巨大竞争优势所需的一切。让我们看几个例子。假设你正试图决定是否进入国际学生市场。“直觉”反应可能是根据你在媒体上读到的内容、你信任的同事的推荐或你的组织以前的经验来证明你的决定是正确的。

分析、数据驱动的思维模式要求更多。一个好的起点是测试相关数据集中的关键影响变量。你能仅凭数据找出其他成熟市场中历史上影响增长的因素吗？在这种情况下，国内生产总值或奖学金等变量有影响吗？在可用的数据中找到这些问题的答案有助于增强对某项建议的信心，也有助于制定更好的战略计划。

此外，数据熟悉对于构建分析能力至关重要。IBM SPSS、Tableau 或 TIBCO Spotfire 等数据挖掘和可视化工具有助于理解支撑数据集的自然关系。聚类是一种根据自然属性将数据组织成不同组的技术，在揭示洞察力方面非常有用。

这种高级别的分析能力意味着进入预测模型领域。这包括检查数据集中的历史模式，以帮助对未来做出明智的预测。预测建模利用机器学习技术，如分类、神经网络和逻辑回归。

使用这些技术可以让国际教育机构有能力计算国际申请结果概率，甚至是当前学生第一年是否会通过或失败。在澳大利亚的国际教育领域，预测模型具有难以置信的价值和无数的用途。

这里要传达的信息是，紧迫的业务问题应该通过从直觉转向分析来解决。拥抱分析思维，利用大数据时代的技术，可能是推进澳大利亚战略性国际教育目标的关键。

信号和噪音

澳大利亚在其“2025国家国际教育战略”中制定了一个大胆的三大支柱议程。该战略中设定的许多目标，尤其是支柱三“全球竞争”中设定的目标，可以通过提高我们的集体分析能力和接受数据驱动的决策思维模式来进一步实现。具有竞争力的现代组织投资于先进的分析能力，使用数据挖掘、聚类和预测模型等技术和方法来更好地理解和解决关键的战略问题。

澳大利亚国际教育部门也不能幸免于这些发展，总有一天，我们将需要依靠我们的比较数据优势来保持领先于竞争的国际教育中心。我们有原材料，这只是一个建立在这些基础上的案例，以提高行业的集体分析能力，并在竞争中保持领先地位。

给它你最好的数据集

增强组织分析和构建数据知识并不仅仅是获取数据集并希望得到最好的结果。以下是关于分析职位上的人如何帮助他们的组织利用数据做更多事情的三点建议。

关注过程和最终目标

正确地做数据需要时间、精度和目的。同事可能没有意识到组织和操作数据可能有多复杂，并且在请求他们做出决策所需的数据时，不会主动满足他们的所有业务需求。在任何基于分析的项目之前，你越严格地收集需求，对你和你的组织就越有利。如果你被要求做数据分析而没有一个可靠的战略理由，你只是在浪费时间。

一些核心技能可以走很长的路

基本的统计技巧对理解数据的形态很有帮助。学习如何编制五个数字的统计摘要，了解不同的平均值测量方法，如中位数和平均数，并掌握离群值的概念。这些都是理解数据的关键技能。将数据转化为有意义的见解需要时间，并且需要良好的数据处理技能。能够使用关系数据库甚至良好的电子表格技能来组织信息，可以让你在数据游戏中走得更远。

沟通是关键

即使你是人类已知的最伟大的统计学家或数据科学家，如果你不能正确地传达洞察力，它也毫无价值。能够简洁而有目的地书写数据——以及熟练地使用有意义的数据可视化——将为增加高管支持和提高组织分析能力做出更多贡献。通常，在交流数据时，越少越好。

数据来源

【www.education.gov.au/higher-education-statistics 号

【www.education.gov.au/ucube-higher-education-data-cube

www . austrade . gov . au/Australia n/Education/Services/Market-Information-Package

www . border . gov . au/about/reports-publications/research-statistics/statistics/留学澳大利亚

其他链接

数据-产品-科学家-管理者

原文：https://towardsdatascience.com/the-data-product-scientist-manager-469cc1d21f9?source=collection_archive---------8-----------------------

机器学习、人工智能、深度学习、数据科学有什么区别？近年来，围绕这些概念的巨大讨论使得它们似乎可以互换使用。

几个月前，我在 meetup 上做了一次演讲，从游戏学习算法的角度回顾了机器学习算法的历史。因为这个演讲不需要预先的知识，所以我先简单介绍了一下人工智能(AI)和机器学习(ML)

人工智能是制造机器的科学，模仿我们人类感知的智能行为
ML 是人工智能的一个分支，涉及从数据中学习“智能”的算法(而不是显式编码)
深度学习是 ML 中非常特殊的方法，它使用人工神经网络和海量数据

在准备演讲的时候，我也在努力参考数据科学(DS ),以帮助我的听众理解当前所有的宣传术语。但是 DS 是 AI 内部的学科吗？ML 内？这难道不仅仅是统计学的一个花哨名称吗？…我最后把它漏掉了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几天前，我偶然发现了一集精彩的 ML 播客会说话的机器，尼尔·劳伦斯做了一个观察，让我明白了一切。劳伦斯认为，数据挖掘产生于我们在这个时代收集的新数据流，这些数据流是由传感器和交互产生的海量数据，其使命是从中提取价值。换句话说——“在这里，我们有所有这些数据，我们能用它们做什么？”

寻找假说

这可能看起来像一个小的技术细节，但它使所有的差异。在经典的实验中，科学家会提出一个假设，收集数据来验证或否定它，然后进行必要的统计分析。对于 DS，没有这样的先验假设。所以 DS 的核心变成了提出这些假设，然后在我们已经有的数据中验证它们。但是提出假设是谁的工作呢？

有几个相关的角色需要考虑:

数据(和业务)分析师非常了解如何争论数据和查询数据，并将根据明确的业务目标运行分析(按需或自行)。但他们的角色和心态并不是去寻找新的目标，或者找到破坏性的新方法来实现这些目标
数据和 ML 工程师构建了收集和处理数据的技术和库。他们喜欢看到自己的系统被用来产生强大的洞察力和能力，但把自己视为产生和验证这些假设的基础设施，而不是用户
数据科学家将他们强大的统计学和 ML 技能应用于上述数据基础设施，以构建模型，从经过验证的假设中实现新的功能和用户价值。但是模型不是在真空中建立的；他们需要一个明确的使命，源自一个经过验证的假设(甚至是一个有待验证的假设)
产品经理是典型的假设创造者类型。他们分析市场，会见客户，深入分析和业务数据，然后他们创建产品假设，收集到路线图中。但是他们很少使用上述“大”数据基础设施来产生假设，主要是由于技术知识的差距

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个新的角色出现了

为了让数据得到充分利用，我们需要的是一个新角色，后两者的混合体。数据科学产品经理是具有产品经理的直觉和以用户为中心的思维的数据科学家，或者是具有数据科学家的数据探索直觉的产品经理。这需要哪些技能？

强烈的数据直觉，探索数据的能力和愿望，包括在有帮助和无帮助的情况下，运用直觉识别特定模式和趋势
以用户为中心的思维，看到数据背后的用户和真实生活场景，就像黑客帝国中的 Neo
技术敏锐，虽然不一定是编码。今天的 DS 和 ML 工具变得越来越商品化，从头开始编写的需求越来越少
非常强的优先排序能力；从数据中创建假设可能很容易，几乎太容易了。因此，需要进一步探索最有前途的，把它们变成一个潜在的路线图。
能够与数据团队密切合作，并“说他们的语言”来快速验证、理解产品化成本，并估计大量此类假设的 ROI

虽然这一角色仍然可以由两个协同工作的个人(项目经理和数据科学家)之间的强大合作伙伴关系来完成，但很明显，拥有所有这些技能的单个个人将更高效地取得成果。事实上，在 LinkedIn 上快速搜索一下就会发现，这种综合角色正在涌现，需求也在激增。

(原帖发布于:https://alteregozi . com/2017/10/05/the-data-product-scientist-manager/)

数据问题

原文：https://towardsdatascience.com/the-data-question-b6a8b60dc934?source=collection_archive---------19-----------------------

我们需要多少数据来构建这个计算机视觉分类器？这是数据问题。根据我的经验，数据问题几乎出现在我们接手的每个计算机视觉项目中，答案通常是“视情况而定”和其他人一起，State Farm 数据科学界一直在研究数据量对深度神经网络的影响，今年我们取得了一些重大进展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Chris Ried on Unsplash

数据问题

第一次有人问我，“我们需要多少数据？“早在 2014 年，我就在研究一种通过照片评估车辆损坏的图像分类器。这是一项艰巨的任务，因为相关的标记数据短缺，因此，分类器的整体性能很好，但不如业务领域所希望的那样好。在讨论这个令人乏味的结果时，我发现我不知道建立这种深度神经网络需要多少数据。

在接下来的几年里，我们开发了一些试探法，试图回答这个持续的数据量难题。然而，数据问题从未消失。在为计算机视觉构建深度神经网络时，大多数数据科学家和机器学习工程师都同意，标记良好的高质量数据往往供不应求。我们希望更全面地了解数据量和深度神经网络错误之间的关系，尤其是在使用迁移学习时。

数据量案例研究

谷歌研究院和卡耐基梅隆大学的孙辰、阿比纳夫·什里瓦斯塔瓦、绍拉布·辛格和阿比纳夫·古普塔最近进行了一项联合案例研究，他们在测量网络误差的同时，用越来越多的数据增量训练了一个深度神经网络。他们发现，网络的性能随着训练数据量的对数而线性提高。换句话说，数据越多，网络性能越好。

这项研究的结果表明，更多的数据总是有助于减少深度神经网络的错误。我们提出了自己的疑问:如果更多的数据有助于深度学习，迁移学习会发生什么？从这一点出发，我们借此机会调查了数据量对迁移学习的影响。

迁移学习

在计算机视觉的实际商业应用中，我们很少从零开始训练一个深度神经网络；相反，我们使用一种叫做迁移学习的技术。通过迁移学习，我们可以将在一般图像识别任务上训练的深度神经网络应用于新的问题领域。深度神经网络只需要学习新的分类任务，而不是图像识别的基础知识。我们这样做是因为它在目标域中需要的数据要少得多。虽然源域数据集可能需要数百万幅图像，但目标域数据集只需要数千幅相关图像。例如，我们可能会从另一名研究人员在 ImageNet 上训练的深度神经网络开始，ImageNet 是一个使用一百万张图像的 1000 类分类器，然后将该网络应用于识别猫和狗之间差异的任务。在这样做的时候，我们可能只需要目标域中的几百张图片就足够了，而从头开始我们可能需要几百万张。

数据量和迁移学习

我们的机器学习研究人员受到了孙等人的工作和发现的启发。这引发了我们的好奇心。如果我们把他们研究中的实验扩展到学习应用中会怎么样？我们想知道目标域中的数据量如何影响深度神经网络的性能。具体来说，我们想知道网络是否会随着数据量的增加而不断改进。迁移学习的应用产生了第二个重要问题。源域和目标域之间的相似性会影响您需要的数据量吗？例如，如果你从一个接受过架构培训的网络开始，并试图转移到一个完全不同的领域，如人脸，这是否需要比源和目标领域更相似的更多的数据？

这些问题引导我们进行自己的实验，并在 2017 年 12 月撰写我们的第一篇论文。结果，我们的工作发表在斯普林格的《智能系统和计算进展》上。我们被要求在 2018 年 10 月温哥华的未来技术大会上分享我们的发现。

关于迁移学习，我们学到了什么

我们的结果与 Sun 等人的结果一致。在目标领域中，在多个问题中，网络性能随着数据量的日志而增加，直到我们用完数据。更多相关的训练数据似乎总是有帮助的，而且据我们所知，永远没有“足够的数据”。正如我们提到的，这种关系是对数级的，因此每单位网络性能似乎需要指数级的更多数据。

我们还发现在源/目标分布相似性和数据量之间存在关系。随着源/目标相似性的偏离，数据量似乎变得更加重要。这种关系不太清楚，需要做更多的工作。

那么，我们回答了“数据问题”了吗？

也许吧。如果今天有人问我“数据问题”，我会回答说，更多相关的训练数据似乎总是有助于减少深度神经网络错误；但是我不能告诉你需要多少数据来实现一个特定的目标指标。

从我前面提到的那些启发中，我们可以猜测，对于一个简单的二进制分类问题，我们可以使用跨类似源和目标域的迁移学习，从每类 1000 个图像中获得足够的性能。即使我们从这些数据中获得的性能并不足够，我们也可以肯定地说，更多的数据将改善深度神经网络。我们可能永远也不会明确回答“数据问题”我们相信这里还有更多工作要做，我们当然希望我们的工作能激励其他研究人员继续阐明这种关系。

要了解更多关于迁移学习的信息，请查看我们来自 AnacondaCon 的名为“只有少量数据的深度学习”的演示文稿

数据革命公式

原文：https://towardsdatascience.com/the-data-revolution-formula-c59453b946f6?source=collection_archive---------8-----------------------

数据不代表钱。数据意味着赚钱的机会。钱不代表数据。金钱意味着购买数据的机会。

今天，有许多用户和应用程序产生大量数据。让我们称他们为“数据生产者”。另一方面，一些公司使用数据来改善业务，而其他许多公司则渴望获得这些资产。让我们称他们为“数据消费者”。在中间，一大群人正在从原始和无意义的数据中提取价值。我们称他们为“数据科学家”。

关于当今数据生态系统的一些统计数据:

25 亿活跃智能手机用户
500 万可用的移动应用
690 万机器学习开发人员和数据科学家
每年在数据上花费 2500 亿美元

它看起来很有前途，感觉这是一个坚实的行业，但…

用户无法控制他们的数据，包括他们的私人信息
应用程序不使用数据来赚钱(除了“幸运的”1%以外的其他人)
数据科学家无法访问开放和多样化的数据集
只有一群巨大的公司(有着巨大的钱包)才能获得这种宝贵的资源

数据科学家和数据消费者需要能够在他们收集的数据和这些数据的用途方面具有创造性。今天，由大公司决定收集什么和不收集什么。

我们正处于数据革命的早期，我们有很好的机会做正确的事情——连接参与者并释放资产以创造一个更美好的世界……而不是将这个庞大的业务留在少数几家公司手中，这些公司控制着从用户隐私到开发者信仰的一切。

应用程序使用情况

大多数应用程序用户在一个月内访问 20 个不同的应用程序，每天使用它们的时间超过 2 小时。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

comScore Mobile Matrix Report

这意味着在数字媒体上投入了数十亿小时，因此这些应用程序产生了数万亿字节。但这仅仅是开始。智能物体(又名“物联网”)大规模集成到我们的日常生活中，将大大增加应用程序的使用，从而产生字节数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ericsson Report

正如您所看到的，数据量正在以惊人的速度增长，但我们还需要讨论正在收集哪些数据点，以及倾斜数据集可能会产生什么后果。

数据偏差问题

最近有几个公开案例，其中人工智能系统犯了愚蠢的错误，对公众舆论产生了巨大影响，促使媒体关注诸如人工智能的偏见问题等问题。

但问题不在于这些复杂软件的智能，而在于用来供给它们的数据。这些原始数据是实现学习和得出兴趣、行为和趋势结论的机制。

众所周知，可用于训练机器学习模型的数据越多越好。有了更多的数据，就可以实现更高的准确性，并且可以将异常与所描述的“现实”分开。但是准确不代表客观。微软的 Tay bot 非常迅速、精确、准确地了解到“里奇·格威斯从无神论的发明者阿道夫·希特勒那里学到了极权主义”。

问题不在于 Tay 和她的人工智能实现，而在于提供给她的数据。在处理数据时，尤其是在深度学习模型中，您可能会有一个存在本质缺陷的大型数据集，因为数据不完整，不包含关于特定群体的数据，无意或有意地强化了刻板印象，或者包含导致模型获得“错误”知识的其他问题。

数据经纪业务

数据经纪人是收集、分析和出售用户信息的公司。这可能包括个人信息以及人口统计数据、预期行为、兴趣和购买意向。这些公司是中介机构，他们从跟踪公司、调查营销人员和零售商那里购买你的数据，应用一些剖析智能；然后将结果卖给广告商、保险公司、银行或其他有兴趣更多了解你的实体——甚至试图操纵你。

如果你，作为一个普通公民，想获得他们关于你的数据，你可以试试这些被描述得很漂亮的方法(祝你好运！).但是如果你想知道到底是谁在购买你的数据，那么即使是好运也帮不了你。

如果你，作为一名自由职业者、应用程序开发人员、出版商或小公司，想要获取用户数据，比如说，了解你的应用程序的访问者并改善用户体验，你只能选择从诸如 Pipl 、 DataFinder 、 TowerData 或 ClearBit 等网站购买人口统计数据和静态数据。因为如果你想接触 Acxiom、Lotame、Nielsen、Oracle Cloud Data 或 Equifax…祝你好运！他们忙着一年赚 2500 亿美元，没时间接你的电话。

个人数据资产

您的个人数据具有价值。句号。公司付钱给你——或者你的“同类”——来做特定的广告。其他人付费是为了更多地了解你的购买记录，以评估向你提供信用卡等产品的风险。

如果你想对你的数据价值有一个粗略的概念，试试《金融时报》发明的这个计算器。

早在 2011 年，世界经济论坛就宣布个人数据是一种新资产类别，称其为“21 世纪的宝贵资源，将触及社会的方方面面。”他们制作了这张伟大的表格来展示经济价值链:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个盒子里都有许多公司，它们通过生产你的个人数据并从中获利，创造了一个富裕的生态系统。让我们同意经济学家的观点，把你的数据称为‘新石油’。所以我们应该说，有一个完整的行业提炼、分离、转化和处理你的原油，然后作为燃料出售。但是，当然，在这种情况下，作为原油供应，你什么也得不到。

公式

所以我们希望人们能够控制他们产生的数据。我们希望应用程序所有者在不损害用户体验或隐私的情况下从他们的应用程序中赚钱。我们需要数据科学家来处理从应用程序中提取的数据资产；我们需要数据消费者透明、公平地访问这些原始或处理过的资产。

但我们也要看到这个流程:(用户->应用->DS->DC)反过来(DC->DS->应用->用户)。如果数据消费者或数据科学家可以提交请求，从应用程序/用户那里收集或生成特定类型的数据，会怎么样？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们停止这种集中的数据经纪业务，允许任何人公开购买和请求数据，会发生什么？如果这种请求出现在数百万应用程序所有者和发布者的视野中，并且他们与他们的用户一起共同制作所请求的数据，会发生什么？

通过在应用程序开发人员和数据消费者(以及他们的科学家)之间建立直接联系，可以释放数据收集方面的创造力——既来自应用程序开发人员(“等一下，我也可以跟踪这个东西！”)和数据消费者(“如果我能找到这个用户子集就好了……”)。

我们谈论的是全球数百万数据消费者，他们与数百万数据科学家合作，连接到数百万应用程序，访问数十亿用户。这是我们改变这个行业的公式。

大团圆结局

我是一个应用程序，我从与我的用户(伟大的普通公民)共同制作的数据中获得报酬。

我是一名数据科学家，可以访问全球数百万数据集，这些数据来自多个用户，他们知道我在使用他们的数据作为无偏见的来源，来支持我的机器学习模型。如果我还需要什么，我可以要求它(甜！).

我是数据消费者，无论是小型、中型还是大型(谁在乎？)并且我可以访问多个数据集、见解、原始数据或任何其他形式的可用数据。

我是一名普通公民，我拥有并控制我生成的数据。

富有数据的人越来越富有——人工智能的现状(第一部分)

原文：https://towardsdatascience.com/the-data-rich-are-getting-richer-the-current-state-of-artificial-intelligence-part-1-c7a26400f1a5?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可能还没错过最近关于人工智能(AI)和机器学习的讨论。在一个两部分的博客中，我们看看什么是人工智能，以及它的影响，然后探索人工智能在北欧的状态。

人工智能将在未来几年对经济、公司和个人产生重大影响，并在“富人”(数据、软件、资本、资源、人才)和“穷人”之间形成新的、日益扩大的数字鸿沟。简而言之，数据丰富的人越来越富有，在这篇博客文章中，我们旨在解释其中的原因。

每个人都使用人工智能和大数据这样的时髦词汇，但它到底是什么？从基础开始，我们邀请了总部位于伦敦和斯德哥尔摩的人工智能公司 Augify 的 Jay Solomon，坐下来谈谈人工智能和机器学习。

人工智能是关于创造具有智能行为能力的计算机和软件。我们用这个术语来描述模仿人类认知功能的机器，比如学习、听觉和视觉。近年来，深度学习已经帮助我们极大地提高了计算机视觉、语言和语音理解能力。深度学习是一套算法，其灵感来自大脑的工作方式和我们的学习方式。它真正的含义是什么？自学成才的机器新世界。我们不是像我们习惯的那样给计算机编程来执行特定的任务，而是给计算机编程来知道如何学习。这就是我们所说的机器学习。

深度学习的核心是神经网络，这基本上是一种计算方法，也反映了大脑。由于近年来的两项进步，人工智能和神经网络变得非常强大。1)更好地理解如何在网络学习时对其进行微调，这在一定程度上要归功于速度更快的计算机，以及 2)大规模数据库(大数据)的可用性来训练网络。人工智能以数据为食，系统能够消化的数据越多，它们学习和改进的就越多。

简单来说，数据和计算能力的原始结合，让 AI 一天比一天强。这激发了流行的末日未来场景，当由“天网”运行的类似终结者的机器接管地球时，我们已经失去了对我们创造的控制。

如果你没有进一步阅读，让我们用五个基本概念来总结一下上面的概述，这至少会让你在任何晚餐谈话中看起来更聪明。

人工智能(当机器模仿人类智能行为时)
机器学习(编程机器学习如何学习)
深度学习(受大脑功能启发的网络和算法)
神经网络(互联网络，也基于人脑)
算法(定义计算操作的一组规则)

这五个概念都是相关的，因为人工智能是机器智能的高级通用术语，机器学习是关于获取这种智能，即自学、自主机器、深度学习和神经网络是由人脑启发的用于机器学习的算法和架构，而算法本身，在最细粒度的操作计算级别上，是代码、软件。

从另一个角度来看，人工智能就是软件。这种“人工智能软件”现在被用来增强其他现有软件的智能。一个典型的例子是，像脸书这样拥有海量数据的社交平台，部署数字助理来为平台上的消费者更多地利用这些数据。例如，参见我们之前的博客机器人的含义。人工智能只是数据和软件，尽管非常强大和改变模式，这激发了短语“软件正在吞噬世界”，由马克·安德里森使之流行。

正如我们所知，我们的世界已经运行在人工智能之上。Siri 管理我们的日历，脸书为我们的朋友提供建议，电脑管理我们的养老基金，汽车现在可以自动泊车，空中交通管制几乎完全自动化。人工智能正变得无处不在。人工智能被用于许多不同的领域，如语音理解、机器翻译、计算机视觉、手写识别、人脸识别、自然语言理解、自动文案、自动生成的广告活动，以及我们已经看到的智能(和不那么智能的)机器人。

人们也开始意识到算法的负面副作用，这些算法根据我们在社交网络和搜索引擎上的自动配置文件向我们提供信息，甚至无法区分真实和 T2 假新闻。这反过来引发了一场关于这些算法实际上有多好的讨论，引发了一些观点，例如，脸书在机器学习方面真的很烂。但是毫无疑问，全球数字巨头在人工智能竞赛中积极投资以获得优势。

由于人工智能现在无处不在，引发了另一个想法——人工智能是“新的电力”。这个概念正由阿里巴巴的创始人马云推动，凯文·凯利在他关于塑造我们未来的科技力量的书《不可避免的未来》中也探讨了这个概念。其中一个大趋势是“认知”，或者说是向软件添加认知的、类似人类的技能的进化。

正如凯文·凯利所说，“即将出现的人工智能看起来更像亚马逊网络服务——廉价、可靠、工业级的数字智能运行在一切事物的背后，除了闪烁之外几乎看不见。这个普通的工具将为你提供你想要的智商，但不会超过你的需要。像所有的公用事业一样，人工智能将会非常无聊，即使它改变了互联网、全球经济和文明。它将使无生气的物体活跃起来，就像一个多世纪前电所做的那样。我们以前电气化的一切我们现在将认知。这种新的功利主义人工智能也将增强我们作为人的个体(加深我们的记忆，加快我们的识别)和作为物种的集体。我们能想到的几乎没有什么东西不能通过注入一些额外的智商而变得新颖、不同或有趣。其实接下来一万家创业公司的商业计划书很好预测:取 X 加 AI 。这是一件大事，现在它来了。”

拿个牙刷加个电机=电动牙刷。拿个房子加 AI =智能家居。拿企业软件来说，像 HR 工具，加上 AI =机器人招聘人员。例如， Mya 是一个人工智能工具，旨在自动化大部分招聘过程。

果然，谷歌云已经宣布了面向企业使用的新机器学习功能，提供“随时可用的人工智能”,让你可以租用自己的机器学习计算机，包括用于翻译、工作匹配和分析等任务的 API。谷歌首席执行官桑德尔·皮帅最近因声明他们正在从一个“移动优先”的公司转变为人工智能优先公司而备受关注，为他们所有的核心产品添加更多的智能功能。

然而，世界领先的人工智能专家之一、斯坦福大学教授、硅谷百度研究院首席科学家吴恩达建议人工智能现在能为公司做些什么。“尽管人工智能的影响范围很广”，吴恩达说，“它被部署的类型仍然非常有限。AI 最近的进展几乎都是通过一种类型，在这种类型中，一些输入数据(A)被用来快速生成一些简单的响应(B)”。比如:输入 A(图片)，响应 B(“有人脸吗？”)，应用(照片标注)，或者输入 A(车载摄像头)，响应 B(“其他车的位置？”)、应用(自动驾驶汽车)。

人工智能领域已经有 60 年的历史了，但直到现在，它才真正在更广泛的范围内发生，并进入我们的生活。我们可以问为什么吗？在硅谷投资者安德森·霍洛维茨(Andre essen Horowitz)(当人类遇到人工智能)最近的播客中，斯坦福大学副教授费-李非(谷歌聘请的另一位人工智能专家)解释说，我们现在正处于“人工智能的一个历史时刻”。三种力量结合在一起触发了开关。首先，人工智能技术(上面提到的深度学习和神经网络)已经成熟，第二，支持该技术的大数据现在已经可用，第三，计算硬件(处理器和深度学习芯片)近年来发展迅速。人工智能的下一个大领域之一将是芯片。

那么，AI 行业到底是怎么回事？要回答这个问题，我们必须先看看美国发生了什么。最近，Sam DeBrule(每周 Machinelearnings 时事通讯的策展人)发布了一份关于美国人工智能状况的“人类非技术指南”。这个关于机器智能领域(如上图)的总结包括了大约 320 家人工智能&人工智能公司，活跃在企业智能(视觉、传感器)、企业功能(销售、招聘)、自主系统(导航、机器人)、代理(个人、专业)、行业(教育、投资)、医疗保健(病人、图像)和技术栈(自然语言、数据科学)等领域。该名单还包括大约 80 名有影响力的人，其中最著名的可能是发起 OpenAI 倡议的埃隆·马斯克和大约 30 个人工智能新闻来源。此外，美国政府发布了一份雄心勃勃的报告和一份战略计划来支持人工智能。

但最激烈的人工智能竞赛正在全球最大的软件公司中进行。当今全球市值最大的三家公司是苹果、谷歌(Alphabet)和微软。脸书和亚马逊都在前 10 名之列(有时是前 5 名)，它们的总价值目前接近 2.5 万亿美元。他们有大量的现金可以花。这些公司通过全球数十亿人每天使用的产品和服务，在全球数字网络上建立了自己的价值。他们现在正在迅速吸收人工智能和人工智能领域的初创公司、资源和专家，以保持领先地位。人工智能的许多研究和实际应用现在都发生在这些公司内部，进一步确立了它们已经占据的主导地位。他们有能力使用人工智能作为他们海量数据的一个极其强大的杠杆，随着数据量的增长，系统会变得更加强大。人工智能是一种不断升级的优势的催化剂，这种优势将其他公司和国家甩在了后面。

总之，我们认为上述人工智能和人工智能的发展将对社会、行业和消费者产生深远的影响。至少有四点，长期影响非常明显。

随着人工智能利用数据，已经拥有海量数据的公司将变得更加强大(谷歌、苹果、脸书等)
我们将看到更多的人工智能初创公司，通过获得更强的计算能力、第三方数据、廉价的云存储和开源人工智能软件来实现
随着人工智能添加到现有软件中，面向消费者的人工智能商业化将提供新的智能服务和产品的爆炸式供应
有人工智能政治议程(研究、投资、基础设施、立法、教育等)的国家将获得优势

然而，我们不确定行动缓慢的老牌公司将如何收获人工智能的好处，或者它们将如何在竞争中保持领先。此外，已经落后的国家将会看到与最先进的人工智能国家的差距越来越大。

人工智能与大数据相结合的性质，为已经拥有先进人工智能技术、研究、数据和资本的公司和国家(如美国和中国)带来了越来越大的优势。人工智能和大数据的动态将我们推向一个新的全球数字世界秩序，进一步将力量平衡转移到硅谷和上海等已经占据主导地位的科技地区。

因此，在一个潜在的新的或强化的数字世界秩序中，已经拥有丰富数据的人会变得更富有，欧洲会怎样？北欧人会跟上人工智能的新机遇并取得成功吗？我们现在转向我们自己的地区，想知道加速的人工智能发展对这里的公司和投资意味着什么。在我们的下一篇博客中，“人工智能的现状，第二部分——北欧有智能吗？”我们探索发生了什么，也许没有发生。

《纽约时报》方言测验背后的数据科学，第 1 部分

原文：https://towardsdatascience.com/the-data-science-behind-the-new-york-times-dialect-quiz-part-1-4935ff06069a?source=collection_archive---------8-----------------------

2013 年,《纽约时报》发表了约什·卡茨的《你们，你们和你们这些家伙是怎么说话的》你可能记得服用过，或者至少听说过。它会问你一些问题，比如“在十字路口与你隔着两条街的东西叫什么？”你可以选择的答案包括“猫眼”和“猫眼”(后者显然是正确的选择)。我认识的每个人都对它的准确性印象深刻。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在回答了 25 个旨在梳理你的语言特质的问题后，你被归类为在美国的某个特定地区长大(从技术上来说，这个测试向你展示了哪个地区的人最有可能像你一样说话*，所以它可能表面上向你展示了你的父母是在哪里长大的，而不是你是在哪里长大的，正如瑞安·格拉夫指出的。令我惊讶的是，每次我参加测验，它都把我归类为来自某个城镇，离我实际长大的地方不超过 15 英里。我的经历并不是独一无二的——尽管它的出版日期是 12 月 21 日，但它却是《纽约时报》当年最受欢迎的文章。它是如此的成功，以至于三年后 Katz 出版了一本关于它的书。*

Yes, I’m from the Yonkers area.

除了是 2013 年的全国现象，为什么现在还要关心卡茨的方言竞猜？我非常关心它，因为我是一个语言和信息科学的书呆子。但是你应该关心它，因为它是将数据科学带入数百万美国家庭的成功尝试，而不考虑技术技能或智力。

重要的事情先来:测验的简史。

(以下大部分信息基于 Katz 在纽约数据科学院的演讲。)

卡茨测验中的问题是基于一个更大的研究项目，名为“哈佛方言调查”，由哈佛大学语言学系的伯特·沃克斯和斯科特·戈德于 2003 年发表(你可以在这里找到沃克斯关于 NPR 的精彩访谈)。
沃克斯和戈德在网上分发了他们的 122 个问题的测验，它集中在三个方面:发音、词汇和句法。
最初的测验产生了大约 50k 个观察结果，所有这些观察结果都是由邮政编码编码的。
2013 年，Katz 在北卡罗来纳州立大学(North Carolina State University)学习统计学期间，以研究生实习生的身份撰写了时报版的这个测试。(在他们发现了他对沃克斯和高达原始数据的可视化后，他被邀请去纽约时报实习。)
时报测验中涉及的技术包括 R 和 D3，后者是一个 JavaScript 库，用于将数据绑定到页面的 DOM 进行操作和分析，类似于 jQuery。

数据科学

那么这个测验实际上是如何进行的呢？它的基础是监督机器学习算法K-最近邻 (K-NN)，正如我的研究生院助教告诉我们的，这是一种机器学习算法，用于“根据参数空间中新数据点周围点的值来预测新数据点的类别。”我们将在后面的帖子中深入研究机器学习的思想以及特定 K-NN 算法的来龙去脉。现在，让我们来解决我的助教定义中的一些术语。

什么是“参数空间”？

根据维基百科，参数空间是“特定数学模型中包含的所有不同参数的所有可能值组合的集合。”虽然听起来令人印象深刻，但这个定义对于外行人来说并不是特别有帮助。因为我是视觉学习者，也许涂鸦会更有启发性:

Personal doodle.

本质上，如果您有可以绘制的参数(即自变量或变量)，那么绘制它们的空间就是参数空间。对于 K-NN，参数空间将是两个轴之间的一切，我们试图分类的点是星。(暂时忽略 k 值。)

http://bdewilde.github.io/blog/blogger/2012/10/26/classification-of-hand-written-digits-3/

在上图中，有两种类型的圆圈:黄色圆圈和紫色圆圈。在这样的数据集上执行 K-NN 的目的是根据它与周围圆圈的接近程度来预测我们的新输入恒星是属于黄色圆圈类别还是紫色圆圈类别。

所以参数空间。检查。

在深入 K-NN 背后的思想和数学之前，我们还需要解决一件事。这个术语在我的助教上面的定义中没有，但是理解它将帮助我们理解当我们运行 K-NN 分析时到底发生了什么。，而那个术语就是算法懒惰* 。*

https://www.theodysseyonline.com/im-secretly-lazy

K-NN 是一种“懒惰”算法。

但是一个算法怎么可能偷懒呢？算法会不会累？他们会有糟糕的日子吗？遗憾的是，没有。在这里，懒惰意味着算法不使用训练数据点进行任何推广，正如阿迪·布朗什坦写的。

我们还没有解决训练一个算法的想法，但是我们仍然可以理解 Bronshtein 的意思。本质上，所有受监督的机器学习算法都需要一些数据作为其预测的基础。在 K-NN 的情况下，它需要像上面图表中黄色和紫色圆圈这样的数据，以便知道如何对恒星进行分类。与急切的算法(例如决策树)相反，懒惰的算法存储他们将需要的所有训练数据，以便对某样东西进行分类，并且直到他们被给予某样东西进行分类的确切时刻才使用它。

懒惰算法的另一个术语是“基于实例的学习”，它可能传达更多的功能顾名思义，这种类型的算法(通常)接受一个数据实例，并将其与内存中的所有实例进行比较。

Cathy O’Neil，又名“mathbabe”，给出了一个基于实例的学习的好例子，使用了一个杂货店场景:

当然，你真正想要的是在新用户购买任何东西之前，根据他们到达时你对他们的了解，即他们的属性，预测他们的类别。所以问题是，给定一个用户的属性，你对该用户的类别的最佳猜测是什么？

让我们使用 k-最近邻。设 k 为 5，说有一个新顾客叫莫妮卡。然后，该算法搜索与 Monica 最接近的 5 个客户，即在属性方面与 Monica 最相似的客户，并查看这 5 个客户属于哪个类别。如果他们中的 4 个是“中等支出者”，1 个是“小支出者”，那么你对莫妮卡的最佳猜测是“中等支出者”。

我靠，这太简单了！

当然，事情没有那么简单，但是我们将把 K-NN 的复杂性留到以后的文章中讨论。目前，K-NN =一种惰性算法=存储它需要进行分类的数据，直到它被要求进行分类。

就是这样！现在我们有了继续讨论的基础，比如训练，K-NN 实际上是如何工作的，最重要的是，Katz 如何在他的方言测验中使用它。请继续关注第 2 部分中的所有内容！

与此同时，我鼓励你们所有人，如果你们还没有参加方言测验的话，参加一次(即使你们已经参加了，也要再参加一次)。稍后你会需要你的答案！

纽约时报方言测验背后的数据科学，第 2 部分

原文：https://towardsdatascience.com/the-data-science-behind-the-new-york-times-dialect-quiz-part-2-5c60216b7503?source=collection_archive---------19-----------------------

本系列的第一个部分探讨了 Josh Katz 的 NYT 方言测验，并触及了一些数据科学主题，如参数空间和“懒惰”算法。在这一部分，我们将首先定义一些常见的机器学习(ML)术语，然后探讨 Katz 如何在测验中使用 ML。

**一个警告:**我是数据科学的新手。如果你在下面的帖子中看到任何不准确的地方，请评论并告诉我。我喜欢加深对这个领域的理解。此外，这篇文章只是对我喜欢数据科学项目进行逆向工程的一次高级尝试。(我试图联系 Josh Katz 并找到他的项目代码，但没有成功。)

一些额外的方言测验背景

通过听 Katz 在纽约数据科学院的演讲和阅读他对 Ryan Graff 的采访，我得到了以下信息:

Katz 创建了一个有 142 个问题的试点方言测验，其中有 Vaux 和 Golder 在他们的调查中使用的最初的 122 个问题，加上 Katz 通过来自 RStudio 社区的输入提出的另外 20 个问题(他在同一个社区发布了他最初的方言地图可视化，这使他受到了《纽约时报》的注意)。
除了回答这 142 个问题，用户还可以为每个问题选择“其他”答案，并填写自定义答案。
在试点研究中，除了语言和位置问题，Katz 还调查了人们的年龄和性别。
总共有 35 万人参加了试点测试。
卡茨用来自试点的数据为 NYT 版本建立了最终模型。
Katz 根据他发现的最具启发性的问题，将最终方言测验的问题从 142 个减少到 35 个(其中只有 25 个在一次会议中提供给用户，使得每次测试都略有不同)。

监督与非监督 ML

正如在本系列的第一部分中提到的，Katz 在他的方言测验中使用的算法 K-Nearest Neighbors (K-NN)是一种监督的 ML 算法。这意味着 K-NN 通过输入既有问题又有答案的数据来学习如何工作。与 un 有监督的 ML、K-NN 以及类似的算法相反，给它们一组问题以及它们的解决方案，以便它们可以很容易地看到未来期望它们产生什么类型的输出。

Claudio Masolo 在他的博客文章“有监督的、无监督的和深度学习”中很好地描述了这两种类型的人工智能之间的区别:

使用监督学习，在训练阶段将一组示例(训练集)作为输入提交给系统。每个输入都标有一个期望的输出值，这样系统就知道[输出应该如何，取决于输入]。。。另一方面，在无人监督的学习中，系统提供的训练样本并不被标上所属的类别。因此，系统开发和组织数据，寻找它们之间的共同特征，并根据内部知识进行改变

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Supervised learning schema from Masolo’s post “Supervised, Unsupervised, and Deep Learning”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsupervised learning schema from Masolo’s post “Supervised, Unsupervised, and Deep Learning”

总而言之:

监督 ML(例如 K-NN) =向你的模型输入包含问题和答案的数据，以便它能够做出准确的预测。
无监督 ML =输入包含问题的模型数据，并要求它从这些问题中梳理出模式，然后它可以使用这些模式做出准确的预测。

最后，让我们开始吧

好了，现在我们都在一些关键的 ML 术语上达成一致，我们可以开始探索 Katz 实际上是如何使用 K-NN 来产生他的方言测验的。从他的数据科学院演讲中，我找到了下面这张幻灯片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，这张幻灯片中有很多内容，其中大部分必须保持抽象，不能探究他的代码。

从顶部开始，我将在这篇文章的剩余部分(简要地)探索两个信息块:

选择 K 值
内核平滑

所以，开始疯狂吧！

选择 K 值

在上面的幻灯片中，Katz 似乎在说，他想使用他选择的 k 值和一个点的 k 最近邻( t) 之间的差值(比例)来估计一个人来自某个位置的概率。那么，一个人如何选择这个难以捉摸的 k 值，k 是什么*？*

k 是一个“超参数，这只是一个花哨的词，用来描述你的模型的一些属性，你可以独立于你的数据进行调整。例如，如果你是一个专业的快速吃热狗者，你可能关心的一个超参数是你一次放进嘴里的热狗的数量。也许你想试着一次吃 3 个，也许一次吃 1 个。无论你吃的是希伯来民族热狗还是格雷的木瓜热狗，你都可以改变你策略的这一总体属性。

在 K-NN 中，您的超参数 k 基本上是您希望您的模型关心的最近邻居的数量。实际上，不同的 k 值导致不同的“决策边界”由您选择最适合您的数据的。下面是 Kevin Zakka 在 K-NN 上发表的伟大博客中的插图，展示了不同的 K 值可能是什么样子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如 Zakka 指出的，更小的 k 值(例如 1)将导致更灵活的拟合(具有低偏差，但高方差，在本文中我们没有时间讨论其平衡)。较大的 k 值(例如 20)会产生更平滑的边界，因为它更能抵抗异常值(具有高偏差和低方差)。

Katz 可能使用的一个策略是交叉验证。交叉验证是估计泛化误差的一种方式。通过交叉验证和 K-NN ，您可以将样本数据分成随机段，并将 K-NN 模型应用于每个段，其中 KK的值各不相同。然后分析每个片段的SSR或其“回归平方和”用回归的话来说，SSR 代表你从数据的实际平均值到预测值的移动。在对分段数据使用不同的 KK值运行 K-NN 后，对每个 SSR 进行平均，然后选择产生最小误差的 K 值。

Flatiron School slide from Linear Regression deck created by Sean-Abu Wilson.

无论你为 k 选择什么值，都会改变你的模型的输出。

虽然我们不知道 Katz 为他的模型选择了哪一个，但我们至少可以理解它的重要性。

内核平滑

卡茨似乎也在他的模型中使用了一种叫做内核平滑器的东西。维基百科告诉我们，内核平滑器是一个

将实值函数估计为相邻观测数据的加权平均值的统计技术。权重由内核定义，这样更近的点被赋予更高的权重。

因此，核帮助我们在 K-NN 模型中对 K 值进行加权。

在他们的论文《关于核差分加权 K-最近邻分类的 T2》中，左等人写道，加权度量(【在我们的情况下是】k )被定义为“未分类样本 x 和训练样本 x 之间的距离……”(248)。这似乎与卡茨在我们之前查看的幻灯片中描述的非常相似，他的策略是使用未知值 t 与其最近邻居之间的差异比例，因此我们似乎走上了正确的轨道。

在他们的论文中，左等人提到了另一篇可能对我们有所帮助的论文:“学习加权度量来最小化最近邻分类错误”。在本文中，Roberto Paredes 和 Enrique Vidal 讨论了通过最小化“遗漏一项”( LOOCV )分类错误交叉验证技术来优化其 K-NN 模型的策略。

在我从他在纽约数据科学学院的演讲中发现的另一张幻灯片上，卡茨特别指出，他利用 LOOCV 来选择他的模型参数，其中之一是 k 。虽然我们不会在这篇文章中讨论西格玛和阿尔法参数，但让我们简要地谈谈 LOOCV，了解一下这里发生了什么。

Slide from Katz’s NYC Data Science Academy talk

在 LOOCV，您选择 1 个数据点进行测试。这是“被忽略”的一点。然后，您构建没有这 1 个数据点的 K-NN 模型(T19)，并评估您的模型与这一遗漏数据点之间的误差值。对所有训练数据点重复此操作，并对结果取平均值。众所周知，LOOCV 非常“计算昂贵”，因为你必须创建和运行这么多模型。正因为如此，正如您在上面的幻灯片中所看到的，卡茨选择将其可能的 k 值限制为 20 人一组。**

因此，通过使用交叉验证策略，如加权核和 LOOCV，卡茨得到了他的完美 k 值。

这是大量的信息。正如我之前所说的，请在这篇文章的评论中提出任何更正、澄清或我应该探索的其他资源，以加深我对 K-NN 和 ML 的理解。

在我们结束之前，关于方言测验，还有几件事要知道:

在你进行方言测验时，出现在每个问题旁边的迷你热图只是用 r 语言预先渲染的静态图像。
与小地图不同，用户在测验结束时得到的大地图是在 D3.js 中动态生成的，因为每个问题的答案组合超出了 Katz 事先可以生成的数量。
模型计算是在服务器端完成的——每次计算完成后，服务器都会生成一个代表每个答案的向量。在此基础上，完成向量矩阵乘法，然后服务器返回每个答案的值，然后呈现在用户的屏幕上。
卡茨在一个名为“闪亮 T5”的 R 包中建立了这个测验。

我们做到了！我们现在知道了著名的 NYT 方言测验的大部分内容。

数据科学泡沫

原文：https://towardsdatascience.com/the-data-science-bubble-99fff9821abb?source=collection_archive---------5-----------------------

为什么数据科学需要企业家精神

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pixabay

恐怕我有一些坏消息要告诉我的数据科学家同事；数据科学是当今公司最糟糕的投资之一。

虽然单个项目可以获得 1000 倍的投资回报，但你的公司的下一个项目做到这一点的可能性几乎为零，事实上，它完全失败的可能性相当高。去年，Gartner 估计多达 85%的数据计划失败。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Real Data Science Workflow

对于远离公司董事会的幸运儿来说，可能很难想象说服一家财富 500 强公司的高管为某个只有 15%成功机会的项目投资 1000-1000 万美元，但这种情况经常发生。

有些人会说，是时候结束了，挂起我们的神经网络，让我们的 GPU 退休，回到我们来自的物理实验室或数学大楼。

我，我不确定。问题不在于数据科学是假的，而是数据科学本身就有风险。当处理真正尖端的问题时，在项目开始时很难说它是否会成功。

好消息是有人已经找到了解决这个问题的方法，进入创业公司。

“初创公司是一个人类机构，旨在极端不确定的条件下创造一种新产品或服务。”— Eric Reis 精益创业

如果这不是你的普通数据科学项目，我不知道什么是。从创业的角度研究数据科学的意义是直接而深远的。为了让这篇文章不超过五分钟，我将简要强调三大要点。

1.构建最小可行模型

“如果你不为你产品的第一个版本感到尴尬，那你推出的太晚了”——雷德·霍夫曼联合创始人 LinkedIn

霍夫曼的评论完全适用于模特。

第一个模型应该很糟糕，把它看作是最低可行的模型。

不幸的是，现实往往是相反的。数据科学项目通常是资金涌入的黑洞，有一天一个原始的模型出现了，有不错的分数和漂亮的基础数据。团队总是震惊地发现模型没有解决客户的真正问题。

这正是问题所在，尽管数据科学一直在谈论实验和科学，但它可能是软件中最不敏捷的分支。

与其将数据科学项目视为博士论文，不如将它们视为创业软件项目。构建一个 MVM，让它出现在用户面前，并不断迭代。

2.通过融资降低风险

创业融资模式的天才之处很简单。

通过重复项目评估降低风险。

众所周知，数据科学项目很难评估，部分原因是它们经常承诺一些非常创新的东西，以至于以前从来没有做过。资助这样的项目与资助一家声称拥有改变行业的技术的初创公司没有什么不同。

值得注意的是，最具破坏性的失败不是一个提议的项目没有得到资助，而是一个完全资助的项目花费了全部预算，交付了一个非运营模型，并且在这个过程中没有学到任何有意义的东西。这意味着在企业家的思维模式中，风险不是通过接近完成来降低的，而是通过降低围绕提议解决方案有效性的不确定性来降低的。有人可能会半开玩笑地把企业家精神描述为寻找使系统熵减少某个因子所需的局部最小工作。

一个项目通过证明或反证有效性来反复展示它是如何降低风险的，并根据该证明如何为项目展示更大的预期价值来获得资金。如果项目开始不稳定，考虑旋转，也许这个项目不能解决它要解决的问题，但是对其他事情来说是一个理想的解决方案。

3.通过竞争实现增长

大多数数据科学组织声称是扁平化的，但却极其层级化。资金和项目想法是自上而下的，而不是由头脑设计出来的。

数据科学发展太快，自上而下的组织跟不上。

创造一个开放的环境，让项目可以在任何级别上发起，这是一个组织能够跟上这个领域令人眼花缭乱的步伐的唯一方法。组织间的竞争不应被视为一种威胁，而应被视为一种必要的适应功能，它能让最佳创意脱颖而出。

“和平时期你流汗越多，战争时期你流血就越少。”乔治。巴顿将军

虽然 Patton 将军不是传统的创业领袖，但他关于竞争的观点在数据科学的竞争领域听起来确实如此。现实是，不管一个组织是扼杀竞争还是接受竞争，从它的产品离开它的前提开始，竞争就是一件非常真实的事情。

摘要

数据科学在过去十年中产生了一些最伟大的技术创新，但正如许多组织所实践的那样，它也是完全不可持续的。生产更相关的模型、降低风险并跟上该领域的步伐将要求组织重新思考他们如何进行数据科学。将数据科学构建为企业家精神使其再次成为一项伟大的投资。

数据科学生态系统:工业版

原文：https://towardsdatascience.com/the-data-science-ecosystem-industrial-edition-938582427466?source=collection_archive---------1-----------------------

在之前的一篇文章中，我研究了数据科学生态系统及其在科学界的参与者、激励和挑战。在这里，我尝试将这种分析移植到工业数据科学生态系统中。这两种生态系统及其参与者的动机在几个方面有所不同，因此高管们在构建和管理它们时面临着非常不同的挑战。然而，场景的结构、演员和角色都非常相似。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The schematic data science ecosystem in a company

业务和 IT 是几乎所有公司的既定职能部门，当然也包括那些考虑使用数据的公司。在这里我将分析剩下的三个新角色，他们做什么，他们的动机是什么。正如在之前的文章中，角色是角色，而不是人:任何给定的人都可以担任多个角色，并且可以在任职期间多次转换角色。

数据科学家“T”:技术大师

这些技术专家出现在流行的数据挑战网站上，他们中的许多人在那里对各种工业和科学数据集进行最直观的拍摄，就像在多人视频游戏中一样。最好的是最先进的数据科学工具包的大师，他们可以深度学习和远视，他们可以提升、交叉验证和融合。然而，他们不是魔术师:他们不会从原始数据中发明商业解决方案(这是他们的老板希望他们做的)。他们的输入是定义良好的业务问题和相对干净的数据源。他们构建和调整原型工作流，但很少关注原型之外的管道。最重要的是，他们 80-90%的时间真正做的是数据清理、连接、格式化、扩充，然后再清理。所以他们最好擅长这个。在一些高端 IT 公司，他们做研究(例如，见 FAIR —脸书人工智能研究)，但是，与科学生态系统不同，这种情况很少见。

数据科学家“B”:形式化者

如果这个图中有人是魔术师，那么形式化者就是。有时他们来自业务部门，学习数据科学，有时他们是前技术大师，学习业务专业知识。无论是哪种情况，都掌握了数据科学方面的可能和业务方面的需要什么。至少他们可以流利地与领域专家交流。没有他们就没有创新。他们的技术贡献是将业务目标转化为损失指标。他们形式化数据科学原型工作流(但他们不一定构建它们)。他们可以定义和确定数据收集工作的规模，并估计其成本。他们还可以估计构建和调整工作流并将其投入生产所需的工作量。简而言之，他们拥有做出关于构建以数据为中心的产品的明智决策的所有要素。下图说明了他们的心态(从到)，混合了数据科学概念(可预测性)和业务概念(每错误的成本)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The mindset of a formalizer. Mixing business and data science concepts.

高端 IT 公司通常建立他们的形式化团队:例如，参见脸书的核心数据科学，这至少同样重要，当然对于短期和中期业务目标而言，也同样重要。

数据工程师

数据工程师的角色是将原型工作流转化为产品。他们了解最新的数据工程系统和架构，并且对现有的 IT 基础设施有深入的了解。他们可以确定生产工作流程的规模并估计其成本。如果形式化者没有这些元素的信息，数据工程师应该从一开始就参与项目定义。他们还知道构建数据科学工作流的基础知识，并且能够通过提取并可能清理和管理足够的数据来为原型制作过程提供支持。

如果你在一家围绕以数据为中心的产品而建立的 IT 公司，我的分析可能看起来相当琐碎、简单。尽管如此，它对非 It 公司还是很有用的，这些公司通常有很好的理由，但也受到大数据宣传的压力，正试图转变他们的组织，以适应数据科学工作流的构建。他们的核心业务不是以数据为中心的，但他们希望使用数据来预测机器的故障，留住他们的客户，或减少内部采购欺诈。他们构建产品和生态系统的最佳策略是什么？

IT 驱动的数据科学生态系统的构建

大多数大中型非 IT 公司的 IT 基础设施中都有数据仓库。他们通常将存储数据作为满足法律或业务需求的副作用。聪明的 IT 工程师的自下而上的计划通常会遇到自上而下的指令，这是由大数据热引发的，他们会做出决定:

“让我们安装 Hadoop，购买基础架构，构建一个数据湖”。

为了利用新打造的基础设施，公司然后雇佣数据科学家。这是一段艰难的时期:数据科学家，尤其是形式化者，稀缺而昂贵，他们更喜欢在以数据为中心的公司中为更令人兴奋的项目工作。但是主要问题是到业务单元(核心或非核心)的连接来得太晚。这个问题

利用现有的数据科学团队和我们购买的基础架构，我们可以解决哪些业务问题？

应该早点问的。有可能基础设施不足、规模过大或过小，并且数据科学家不是合适的类型，与业务案例脱节。

数据科学家驱动的数据科学生态系统的构建

一个稍微不常见的情况是，数据科学项目是由技术数据科学家发起的。这些技术大师大多都有自己喜欢的技术。他们可能专注于 15 年前在课堂上学到的工具，或者他们可能刚刚走出学校，在深度学习的浪潮中冲浪。说，第二种类型的大师到来，并说服它:

我是深度学习的忠实粉丝，我们买个 GPU 集群吧。

然后他去见业务部门:

嘿，我能建造和训练这些整洁的网，我能为你做什么？

可能性是:什么都没有。业务案例可以通过十行代码和一个调优的随机森林来解决，并且可以在现有的 CPU 园区上运行。或者更糟:项目因为缺乏数据而受阻。你应该投资一个注释界面或者更多的传感器。

业务驱动的数据科学生态系统构建

到目前为止，您应该已经猜到了构建数据科学生态系统的正确方法。第一步是确定公司应该改进的 KPI 以及为建立管道需要收集或注释的数据。主动性应该来自业务单位，可能在一个好的形式化者的帮助下。然后可以雇佣数据科学家(或者更安全的说法:顾问)来建立一个原型，并且应该开始与它讨论数据提取和原型生产化的准备工作。迭代是这里的关键:在开始原型制作之前，成本和收益都不容易估计。迭代越快，成本越低，你冒的风险就越小。这个过程一点也不新，只是稍加修改，IBM 的CRISP-DM(1996 年的！)完全正确。

主要的困难当然是找到形式化者。找到技术大师相对容易(即使他们很贵)，但他们大多数都是
不是那种能帮你定义你的数据科学项目的人。其次， 很少有 **甚至没有为业务主管提供的非技术课程，**向他们解释数据科学过程(管道的迭代构建和管道本身)，数据科学家做什么，以及他们在迭代构建以数据为中心的产品时需要做出什么类型的决策。

如果你喜欢你所阅读的内容，请在媒体、 LinkedIn 、&、 Twitter 上关注我。

数据科学差距

原文：https://towardsdatascience.com/the-data-science-gap-5cc4e0d19ee3?source=collection_archive---------1-----------------------

似乎每隔一天就有一篇关于数据科学如何成为就业前景最佳领域的新文章。

无论是需求还是高薪，它看起来都是寻找工作保障的学生和寻求更高工资的工人的理想选择。获得数据科学技能的建议并没有被忽视——在世界各地，成千上万的学生现在在大学和网络上注册了分析课程。

尽管如此，人们还是注意到了市场上的工作数量和可供选择的候选人之间的差距。毕业生是否应该担心这种数据科学的差距，他们可以做些什么来提高他们找到工作的机会？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是的，对数据科学家的需求仍然很高…

有一些关于数据科学已经达到全盛时期的错误信息流传开来。自 2012 年以来，该领域的角色数量增长了超过 650%。此外， LinkedIn 的 2017 年新兴工作报告关于美国增长最快的工作(基于他们的用户数据)强调，“技术为王”，该平台指出，机器学习工程师、数据科学家和大数据工程师等头衔的工作在一系列行业中都非常受欢迎。

这份报告分析了五年来 LinkedIn 上发布的职位数据，指出今天发布的数据科学家职位是 2012 年的 6.5 倍。更好的是，在他们列出的 10 项“新兴工作中最常见的技能”中，有 3 项与数据科学直接相关(Python、软件开发、分析)。

…但是没有足够多的人有合适的经验

三年前，SAS 的执行副总裁吉姆·戴维斯和 CMO 说:“如果你想快速找到工作，就想办法成为一名数据科学家”(来源)。或者去正确的地方提升自己的技能——比如 DataScienceGO2018。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

问题是这个领域发展得太快了:现在有太多缺乏经验的数据科学家进入了一个几乎没有专家的就业市场，给我们留下了一个“底部沉重”的候选人池。这意味着，尽管数据科学领域仍有机会，但希望充分利用这一差距的个人需要聪明地开辟职业道路并取得成功。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

…对最好工作的竞争更加激烈

时代变了。当这个术语还是相对较新的时候，公司接受只有基本数据知识的候选人，并让他们在工作中学习。现在，公司通常不会雇佣数据科学家，除非他们有更深层次的知识，比如编码和统计。需求仍然很高，但现在门槛更高了。Umbel 公司的高级工程总监凯文·萨福德说:

“每年，统计学、计量经济学、硬科学和计算机科学的博士毕业生——许多人专门研究机器学习——发现他们对学术界毫无兴趣，并进入了劳动力市场。”(来源)

这意味着候选人现在不得不面对一个竞争异常激烈的市场。一个五年前看起来很有吸引力的应用程序今天可能会被拒绝。

但是……这真的是全部情况吗？

《赫芬顿邮报》声称，目前世界上大约有150 万到 300 万数据科学家——真的没有具备合适经验的候选人吗？

如果我告诉你，造成这种“差距”的人并不是真正的数据科学家；而是不同公司的主管、人力资源部门甚至招聘人员。

为什么？

事实是，数据科学已经成为一个时髦词，一种炒作。五年来，这份工作一直被《哈佛商业评论》评为【市场上最性感的工作】，现在许多公司都争相将数据专家纳入他们的行列。但真正的问题是，他们不知道什么是真正的数据科学家，他们做什么，一个团队是如何配置的，是什么让一个伟大的数据科学家真正“伟大”——对这个职业本身的知识存在巨大的差距。

有很多数据科学家，有成千上万有才华的专业人士可以轻松地颠覆一个前数据业务，但他们很少有机会证明自己。大多数公司急于“雇佣数据专家”，认为他们需要一个有 5-8 年经验的人来解决他们的所有问题(尽管讽刺的是，这个领域已经不存在很多年了)，并且他们得出结论，没有这种经验的每个数据科学家都不是好东西。

幸运的是，这意味着机会

推诿责任并说一切都是因为对专业的无知是不公平的——我们数据科学家也有责任。人力资源部门可能一直在以传统方式工作，这并不奇怪，因此他们为这些新的工作岗位而挣扎是完全正常的。他们在我们的数据科学职业生涯中寻找尚不存在的学位，他们想要没有领域可以获得的经验，他们想要他们还不清楚的技能。

这取决于我们展示我们的优势、能力和我们真正能带来的东西。数据是商业的未来，这是不可避免的，我们知道这一点，所以让我们向其他人展示我们是由什么组成的。

但是我们如何做到这一点呢？

我们应该努力缩小数据科学的差距。

填补数据科学空白的 6 种方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么我们应该如何定位自己，才能保证得到自己想要的工作呢？我们应该变得擅长视觉吗？我们应该获得分析软件的全面知识吗？现在放下水晶球，考虑一下你的雇主:所有公司都希望从他们的数据科学家那里获得解决实际问题的能力，更好的是:能够交流他们的发现。如果我们可以用数据来回答真正的商业问题，那么我们将有更好的机会获得我们想要的工作。

但为此我们需要经验和专业知识；成为受欢迎的数据科学家没有捷径可走。这里有六种方法可以提高我们的机会:

1.了解该领域

从制药到体育，各个领域都需要数据科学家。一家销售公司可能想知道如何针对正确的客户群定制营销活动。一家金融集团可能希望利用他们的历史数据来帮助他们降低风险。一家视频游戏出版社可能想知道他们可以采取哪些措施来增加忠实玩家的数量。一个政府机构可能想看看他们如何开始在他们的城市实施智能技术。

你越了解一个领域，你就越有可能成功地管理它的数据。如果你不了解金融行业是如何运作的，那么在银行担任数据科学职位是没有意义的。你必须仔细了解它的实践和方法，以便回答那些至关重要的实际商业问题。

2.学一门课程

在一个像数据科学一样快速发展的领域中，你需要能够变得敏捷。明天，你会发现今天重要的一些话题不再重要；因此，在这个领域保持相关性的最佳方式是保持对知识的渴望，并提升自己的技能。Morning Future 建议，最好的准备方式是参加有针对性的课程，因为“十家公司中有四家会去那里寻找未来的数据分析师。”

无论是在网上还是在校园里，拥有良好声誉的数据科学课程都是至少初步了解数据工作的最佳方式。许多在线课程都附有学习证书，以证明你已经关注并完成了课程——目前它们可能不是最受欢迎的(相信我，我知道),但将来会是。

3.找一个导师

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

导师是寻求建议和明确工作前景和职业的好方法。许多数据科学家乐于开发有前途的新候选人，以我的经验来看，他们欢迎给别人提建议的想法。我们是一个分享信息和最佳实践的团体。这毕竟是最好的提高方法！

4.阅读新闻

如果你没有听说过数据=速度，那么你就落后了一步。

数据移动得很快，成百上千的人在从事成千上万的项目，谁知道呢？也许你一直在努力解决的那个问题的缺失部分，今天早上可能已经被其他人解决了！

作为一个建立在成员间协作前提上的领域，数据科学不断受益于他人的工作，让每个人都能构建更宏大、更有影响力的东西。

跟上新闻，订阅正确的博客，听完美的播客或接收正确的时事通讯可能是你可能忽略的解决方案。

5.申请合适的公司

数据科学吸引了很多媒体的关注，因为它可以解决公司及其收集的越来越多的信息，但这是一把双刃剑——大多数公司最终仍然不知道他们在候选人身上寻找什么。

如果你想保护自己不为那些不了解他们想要什么的公司工作， Robert Chang 建议避开曲折的工作规范。明智的建议:列出一长串你需要了解的方法和软件的潜在工作，只能显示出一家公司对其数据战略、数据需求的了解有多么少，更不用说“他们会雇佣任何人，因为他们认为雇佣任何数据人员都会解决他们所有的数据问题。”

6.网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不喜欢认识新朋友？如果你真的想成为一名数据科学家，请重新考虑。记住上面的第三点:数据科学最终是一个社会领域。人脉不一定要面对面；可以从自己客厅的舒适度开始。在 Twitter 上与其他数据科学家交谈，在 LinkedIn 上与他们联系，或者在 Reddit 上加入讨论。

如果你想提高你的游戏水平，有一个超级友好、信息丰富和轻松的活动可以让你开始建立你的社交技能:data science ego，一个以职业为重点的数据科学会议。

新数据科学家比以往任何时候都更需要学习如何创建实现职业目标的可靠途径。这正是我们在设计 DSGO 的个体元素时所想的:以职业为中心的数据科学方法。DSGO 将参与者与适合其技能水平、经验和兴趣的客户、导师和合作伙伴联系起来。该活动将举办技术讨论、知名行业演讲人、实践活动和激励会议，让参与者开始了解数据科学，并给予他们在该领域前进的灵感。

关于数据科学大会 2018 的最新确认发言人名单，请访问我们的会议网站。订阅我们的时事通讯，了解最新的演讲者和预定活动。快点，我们的早鸟票很快就卖光了！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Get your Ticket here!

现在不要退出！

最终，作为优秀的数据科学家，我们必须看到证据，而不是专注于猜测。

事实是，数据为公司提供了他们在竞争中领先所需的信息，因此他们解决了商业中最重要的一个需求:赚钱。我们使用的技术并不比五年前少。智能设备、积分卡、社交网络平台、互联网搜索，所有这些东西每年都会产生更多的数据。人们总是需要管理不断增长的信息量。证据表明，数据科学领域的工作仍将增长，而且该领域相对安全，不会受到自动化的影响。

是的，这个领域的竞争变得更加激烈，但是不要让竞争在你试图有所作为之前就击败了你。有很多工作在进行，只要付出一点努力，努力工作，态度端正，即使没有工作经验，你也很有可能成功。

K-Pop 的数据科学:通过数据和人工智能理解 BTS。

原文：https://towardsdatascience.com/the-data-science-of-k-pop-understanding-bts-through-data-and-a-i-part-1-50783b198ac2?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过数据科学理解 BTS 热潮。

介绍

BTS (Bangtan Boys)是一个毫无疑问是国际轰动的 K-Pop 组合。一周前，成员们的脸被登上了《时代》杂志的封面，其他著名的媒体机构如艾伦和英国广播公司也一起受到了关注。

随着这一群体的突然崛起，自然产生了理解这一切的愿望，尤其是在西方。是什么让这个团体如此值得关注？鉴于韩国有数百名歌手(更不用说西方歌手)，是什么让他们与竞争对手相比如此独特呢？

同样的媒体也试图回答这些令人困惑的问题。提供的答案包括:

成员“完全理解团队的价值观”——时间
“高品质的音乐”——Kpopmap
努力工作的儒家价值观— 心理学家手表
“情感共鸣，真心诚意，粉丝大军。”— Vox

问题是

这些解释的问题在于，它们中的大多数并不真正令人信服。他们可以很容易地应用于另一个著名的韩国男孩乐队 say BigBang，该乐队也被认为是“音乐多样性[和]不符合规定”，同时“仍然保持独特的身份”(Mithunonthe，2012 年)。此外，这些说法没有任何科学调查的支持，仍然只是没有任何真正的批判性验证的话。

这是本文旨在解决的问题，通过使用机器学习和人工智能中最新的数据科学技术，科学地回答群体的真实身份问题。

这是关于 K-Pop 和数据科学的两部分系列的第一部分。在第二篇文章中，我将研究 K-pop 的歌词，探索数据科学技术如何对 BTS 歌词进行定量分析。

重要说明:本文面向更广泛的读者。因此，我不会花时间解释我使用的工具的技术细节，而是直接进入可解释的结果。整个作品可以在我的 Github 上找到。

方法论

数据分析:获取和分析数据

在第一部分，我探索了 BTS 的一个明显的方面:他们的音乐。我进入 Spotify 的 API，它给了我每首 BTS 原声带的 11 种音质。这些品质从数学上衡量了每首歌的音质、舞蹈性、乐器性等的数值水平。这些计算不是我自己的，而是 Spotify 的内部算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

numeric breakdown of every single BTS song.

基于这张20 大艺人排行榜，我收集了 BigBang 和 Twice 等其他 K-Pop 组合的数据。总的来说，我总共有 2673 首 K-Pop 原声。用几行代码，我提取了一些关于 BTS 音乐的有趣的数学特性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些数字代表了我们数据集中每首 K-pop 歌曲的每个音乐特征的平均值。我们在这里看到，平均来说，BTS 的歌曲的speechiness水平最高，几乎是其他艺人的三倍。Speechiness是检测音轨中的口语单词，与instrumentalness相反:衡量音轨是否包含人声。难怪 BTS 的歌在后一项指标上相对较低。事实上，看看下面的图表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们在这里看到，自 2013 年(该集团首次亮相)以来，liveness danceability、speechiness和acousticness的测量值都逐渐下降，直到 2016 年，这些数字开始回升。匡威，energy在他们的跟踪中增加，直到 2016 年的同一年，数量开始下降。

单看speechiness，BTS 的更不用说了，有 0.90 的最高等级之一！如果你看看下面的音乐视频，你会发现这首歌是流行、嘻哈和说唱的混合，导致歌曲中的人声比例很高。

艺术家之间的视觉比较对于我们解决群体身份和独特性的问题也是有用的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的分布图展示了一条有趣的信息。BigBang 和 iKon 的音乐通常围绕特定的节奏(分别为 125 和~90)，而 BTS 的音乐则更多地分布在节拍中。这表明 BTS 的音乐在节奏和速度上是多样化的，包括节奏极快和极慢的歌曲。

我想听听自己的感受，速度有多大的不同。节奏最慢的 BTS 曲目是 Butterfly ，这是一首民谣-EDM 混合曲目。包含最快节奏的曲目之一是 MAMA，它倾向于直上嘻哈。

Not the original for ‘MAMA’. Couldn’t find it on Soundcloud.

iKon 与 BTS 的比较尤其相关，因为他们也是一个流行/嘻哈混合组合(BigBang 也是)。但是他们的歌曲平均来说要慢得多，像欢迎回来就徘徊在 90 度的节奏线上。我的数据显示，他们最快的音乐要么是混音，要么是原版的现场演唱会版本。

数据建模:计算数据(通过人工智能)

有了这些数据中不可预测性较低的确定性数字(不像用户行为数据)，机器学习算法就可以相对容易地了解哪些音乐属性对于区分一个 K-Pop 团体和另一个团体是重要的。因此，我建立了一个简单的分类器，机器学习模型将学习这 11 个音乐特征，并尝试预测这些歌曲是否来自 BTS。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于更具技术性的观众，我使用了 LightGBM、梯度增强和随机森林的集合模型，采用一个 v-all 方法，其中当特征对应于 BTS 歌曲时，目标标签为 1，否则为 0。在没有任何模型优化或特征工程的情况下，三款都在 AUC 的 0.9 附近。过采样被用来对抗阶级不平衡。

这些机器的输出与我们了解 BTS 区别于其他 K-pop 艺人的重要特征非常相关。因此，下面的图表是我们最初问题的答案！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何阅读 SHAP 值图表:SHAP 值是一个数学计算，根据 11 个特征，计算每个特征对我们的机器预测一个音轨是否是 BTS 的贡献。

这些特征在左侧 y 轴上的等级越高，它们对模型预测的影响就越大。对模型输出的正面和负面影响的大小通过点从中心的分散程度来显示。正面影响是指对 BTS 预测的影响，负面影响是指对其他方面的影响。

图表中的蓝色和红色表示特性的值。例如，红点代表speechiness 的较高等级，蓝色代表该特性的较低值。

综合这些信息，上图显示speechiness是模型预测最重要的特征。speechiness水平越高，宋对我们机器预测 BTS 的影响就越大。

美国艺术家呢？BTS 对布鲁诺·马斯

我决定通过比较 BTS 和欧美流行音乐人来进一步分析。在收集了凯莉·克莱森、单向乐队和布鲁诺·马斯等艺术家的音乐数据后，我让我的模特们试着从 BTS 的音乐中辨别出他们的音乐。我收到了以下结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

再次在特性重要性上排名第一，尽管影响的大小似乎比以前的结果更加平衡。有趣的是，energy并不像活性一样是一个重要的预测因素。然而下面的图表显示 BTS 的歌曲在他们的能量水平上排名更高。同样值得注意的是，与其他西方艺术家相比，BTS 歌曲在acousticness排名倒数第二。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

通过数据科学中的技术，我们发现了 BTS 特有的音乐品质，以及它们如何影响我们的机器学习算法提供的结果。

我们发现了一些东西:

与其他男性流行歌手相比，BTS 的歌曲非常多样化，节奏分布也很均匀，尤其是那些融合了流行和嘻哈的歌手。
平均而言，BTS 歌曲的音轨中人声比例较高，乐器比例较低。
平均而言，BTS 的歌曲比西方流行歌手更有活力。他们的音乐在声学测量方面也相当低。

如果你喜欢《韩国流行音乐与数据科学》的第一部分，请继续关注第二部分，在第二部分，我将研究韩国流行音乐的歌词，看看我们是否能得出与 BTS 相关的同样有趣的见解。

与此同时，请随意查看我关于流行音乐和人工智能的另一篇文章。在那里，我展示了我如何制作一台可以自己创作流行音乐的机器！

[## 制作音乐:当简单概率胜过深度学习

概述:我如何发现一个使用深度学习制作音乐的问题，并通过创作自己的原创来解决它…

towardsdatascience.com](/making-music-when-simple-probabilities-outperform-deep-learning-75f4ee1b8e69)

数据科学过程

原文：https://towardsdatascience.com/the-data-science-process-a09c5bc0cc4?source=collection_archive---------11-----------------------

对于我最近在大会数据科学沉浸式课程中的项目，我遇到了相当多的障碍。虽然我在过去的四周里已经讨论了大量的材料，并为我的敏锐度增加了不少技能，但爱荷华州的白酒销售项目向我揭示了我对数据科学以及进行彻底分析的相关最佳实践有太多的不了解。我很乐观，但有很多事情我希望我能以不同的方式去做。

我发现这个领域最具挑战性的事情是阅读和解释文档。从熊猫，到 Numpy，到 scikit-learn，到 Seaborn，尽管导师提供了看似简单的例子，但事情并不容易。这门课程是为我们设计的，让我们超越讲座中所涵盖的内容，这也是我意识到自己最大的困难所在。这需要时间。人们很容易迷失在几个小时的 YouTube 教学视频和由经验丰富的程序员为经验丰富的程序员编写的神秘格式中。面对如此丰富的资源，寻找解决方案可能会很困难，每一个小小的成功都会遇到至少两个障碍。

这篇文章不是发泄，而是要具体展示什么有效。希望我能够利用一些辛苦学到的洞察力来简化未来的事情。

EDA 和清洗

导入 csv 时，将列名改为小写，并在出现空格的地方插入下划线。

dataframe_cols = [‘col_1 ‘，’ col_n’]

我们需要使用 dataframe 函数对日期进行转换，使其成为 python 易于阅读的格式。

data frame[" date “]= PD . to _ datetime(data frame[” date "])

哪里出了问题

缺失值和数据类型至关重要。我天真地认为我不应该担心那些不影响我的变量的列。

此外，许多数据确实需要修改。字符串需要转换成浮点数。货币值需要去掉美元符号和逗号。不早点这么做最终会浪费时间，让我感到沮丧。

data frame . sales = data frame . state . sales . str . replace(’ $ ‘，’ ')

data frame . sales = data frame . sales . str . replace(‘，’，’ ')

剩下的 EDA 步骤进展顺利，但是我仍然对最佳实践有疑问。例如，在不同的列中有相当多的重复项，而我没有按县划分销售额这一事实将需要相当多的额外步骤，例如创建虚拟变量和考虑人为错误。

我遇到的另一个问题是自我诱导的。出于某种原因，我认为这项任务要求我们包含多个独立变量，所以我查看了各种因素，如瓶容量、州瓶成本、州瓶零售等与销售相关的因素。这不仅是错误的，整个要点是使用 2015 年 Q1 销售额和 2015 年剩余 9 个月之间的线性回归进行交叉验证，以创建一个可以帮助我们预测 2016 年最后 9 个月的模型。尽管有这些缺点，我还是学会了如何利用一个特定的函数来查看独立变量之间的相关系数(皮尔逊系数)。虽然它不适用于这个特定的作业，但我知道它在将来会有用，我们在课堂上也讨论过它的一般概念。

dataframe.corr(method='pearson '，min_periods=1)

总的来说，这项作业似乎是为了让学生熟悉 groupby 函数而设计的。因为我想按商店查看销售额，所以我使用了下面的代码并创建了一个新的数据框。

stores _ sales = dict(data frame . group by([’ store _ number ']). sales . agg(sum))

因为有两种不同用途的数据，所以我在 pandas 中使用布尔方法来创建新的数据帧。

year 2015 = data frame[data frame . date< ‘2016–01–01’]
year 2016 = data frame[data frame . date>= ’ 2016–01–01 ']

然后，我使用 more dataframe 函数按季度对酒类销售进行排序，这将创建一个单独的列。

dataframe[‘季度’]=dataframe[‘日期’].dt.quarter

q1 =数据帧。quarter == 1

sales _ per _ store _ Q1 _ 15 = year 2015[Q1]。group by([’ store _ number ']). sales . agg(sum)

sales _ per _ store _ r _ 15 = year 2015[reminder 15]。group by([’ store _ number ']). sales . agg(sum)

虽然事情似乎进展顺利，但我的关键错误(以及其他一些错误)是没有考虑到开店数量的变化。通过使用 sales_per_store_q1_15.shape 和 sales_per_store_r_15.shape，我了解到我无法创建模型。意识到这一点后，我非常心烦意乱，尤其是当时间是至关重要的时候。

这个项目不仅是时间管理上的一堂艰难的课，它还留下了几个没有答案的问题。出于这个原因，这将不会是最后一次与爱荷华州的酒数据集会合。敬请关注稍后发布的更新。

数据科学金字塔

原文：https://towardsdatascience.com/the-data-science-pyramid-8a018013c490?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

pexels.com

这次先不要从数据科学说起。先说心理学。我在这方面没有任何能力，但我记得在高中时，有人向我介绍了马斯洛的需求层次理论。我能描述得最好的是人类寻找幸福所必须经历的不同阶段。为了更好地了解它，你可以看看这里的。

这里是著名的金字塔。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://www.simplypsychology.org/maslow.html

摆脱这种情况的关键是你需要经历所有的步骤，你可以跳过任何一步，永远不要。

在个人能够关注更高层次的需求之前，必须先满足较低层次的需求。

https://www.simplypsychology.org/maslow.html

好的，等一下，这是一个关于技术的博客吗？是的，你是对的，开始吧。

新工作

你可能知道，我最近改变职业。我去了 Shopify 做数据科学家。像任何其他职业变化一样，通过在一个新的环境中工作，与新的人、新的老板、新的一切，你会发现新的做事方式、看待世界的新方式。

就像一位导师有一天告诉我的，“你会发现，通过换工作，在原来的工作中看起来很困难的事情在新的地方一点也不会变得困难。在新的地方，你从来不知道会成为一个问题的东西将会是一个严峻的挑战。”像很多次一样，他是对的。

在之前的一个角色中，我发现自己作为一个机器学习“专家”或者随便你怎么称呼它都有点与世隔绝。我会做一些很酷的事情，但是有时候很难看到全貌。

当我加入 Shopify 时，我被介绍到了需求的数据科学层级。这里可以看完整篇，我觉得真的很值得。但是 TLDR 如果你没有合适的基础，雇佣顶尖的数据科学家是没有用的。

为了更具体，这是著名的金字塔。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

我花了一段时间才真正理解它，但就像做疯狂的多级-卷积-神经网络-深度-随机-森林-其他-酷-流行语-也许-甚至-微服务一样酷，在底层阶段完成之前，你不能跳到这个阶段。

不仅仅是在个人技能方面，我的意思是，作为一个公司，甚至作为一个项目。当你在做一个项目时，这个项目需要跨越这些阶段。最有可能的是(就像马斯洛的金字塔一样),你永远也不会到达大多数项目的最后一步。

就像马斯洛金字塔中解释的那样。你绝对不可能走得太远。如果你跳得太快到了后期，那就不是一个坚固的金字塔，失败的几率很高。此外，为了正确地完成每一步，您必须使用前一步的输出。在金字塔的底部，输出是数据、流程和数据库，在流程的后面，更多的是洞察力、答案等。

前一步的每一个组成部分对下一步的成功都至关重要。

利益

我在 Shopify 的新角色与过去略有不同。我参与了项目的几乎所有阶段。我可以告诉你一些疯狂的事情，大部分价值($)来自对业务问题、产品和数据的良好理解。不是因为使用时髦的算法，不是因为使用超级先进的工具。

不要误解我，这些花哨的算法是有用的，超级昂贵的工具是有用的(看情况，但这是另一个话题)但它不应该是首先要做的事情。它从来都不是唾手可得的果实，也很少是高价发电机。

除非你完成了剩下的部分，否则你不应该在这上面浪费时间。

整个金字塔

我发现的另一件事是个人拥有一个项目(或项目的一部分)的所有金字塔的力量。

因为我为这些数据编写了 ETL，因为当我们决定产生什么数据以及如何包装它时，我与开发人员坐在一起，因为当我们决定项目的关键指标以及我们将 A/B 测试什么时，我与项目经理在一起。我前所未有地了解数据，我真正了解数据来自哪里，如何转换以及如何使用。

当我有时间获得任何洞察力时，这让我的生活变得容易多了。我不依赖任何人花时间来解释我。如果我发现奇怪的行为。我要么解释它们，要么纠正它们。我可以处理数据。

结论

当你太快跳到更高的阶段时，你在撒谎。欺骗自己，欺骗你的团队，欺骗数据科学这门伟大的学科。我知道这听起来不酷，但要谦虚，把精力投入到该投入的地方。但是数据值得拥有。

原载于 2018 年 9 月 27 日coffeeanddata . ca。

数据科学复兴

原文：https://towardsdatascience.com/the-data-science-renaissance-166cddde898f?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“如果人们知道我是多么努力才掌握这门技能，那就一点也不美妙了。”——米开朗基罗

复兴意味着重生。多种因素同时出现，可以引发重生。在分析领域，我们正面临着一系列因素的叠加:经济混乱、大规模再培训，以及前所未有的数据访问。这些因素的结合正在引发数据科学的重生，专家主导的模式已经成为过去。历史是一位伟大的老师，它证明了文艺复兴与最初的文艺复兴并没有太大的不同。

文艺复兴是 15 世纪初发生在意大利的一个发展。文艺复兴时期的艺术家们打破了常规(简单的风格),开创了表现主义的新时代。归根结底，文艺复兴是一种新的思维方式，这引发了一段时间的艺术创新。

17 世纪晚期，佛罗伦萨成为一个富裕的城市，富人用他们的财富雇佣当地的工匠。正如通常发生的那样，这场运动导致了竞争，而竞争反过来又激发了创造力。这种情况一直持续到 14 世纪美第奇家族在佛罗伦萨掌权，并利用他们的金钱和影响力继续这场运动。在 15 世纪，文艺复兴从它的发源地佛罗伦萨迅速传播到意大利的其他地方，然后传播到欧洲的其他地方。

虽然这一时期创作了许多艺术杰作，但与文艺复兴联系最紧密的可能是《维特鲁威人的素描》。结合了一个圆形和一个正方形，中间是人，这件作品象征着两个事物的结合:天上的和地上的。这个想法是由作家维特鲁威首次提出的，并以此命名。但是，达芬奇被认为是第一个以解剖学上正确的方式阐述了这个观点。这提醒我们，那些有独到见解的人，并不总是那些在历史上留下印记的人。

数据科学的现代复兴也是一种新的思维方式，与多年前意大利的文艺复兴有许多相似之处:

1)它是经济驱动的，因为计算、存储和数据的成本使得新工匠启蒙运动的资金成为可能。

2)新的工匠可以是任何人，而不仅仅是少数富人或受过某种训练的人。数据科学的专家模式正在终结。

3)数据和科学的应用和融合正在结合成现代的未来愿景:通过机器学习和深度学习的应用实现持续智能。

如果没有一系列预先存在的条件，意大利的文艺复兴和数据科学的文艺复兴都不会存在。在这两种情况下，市场条件激发了创造力，并成为未来创新的起点。就佛罗伦萨的工匠而言，当他们开始理解科学及其应用时，新技术可能会超出他们的想象(想想列奥纳多早期的直升机图纸)。同样，今天的数据科学复兴正在决定每个行业的赢家和输家，在新技术应用的推动下，那些适应的人将生存下来。

今天，旨在利用数据科学的组织本能地知道他们需要做什么，只是有一个指示性的路线图，这将导致成功和领导地位。大多数公司会跳到模型构建和算法选择。对一些公司来说，这是正确的起点。但对另一些人来说，这可能有点过了。

查理·芒格讲述了一个故事，一架飞机正飞越地中海，朝着一个充满异国情调的地方飞去。飞行员的声音通过对讲机传来，说道:“刚刚发生了一件可怕的事情，我们将不得不进行水上迫降。飞机将在水上停留足够长的时间，以便打开舱门，让所有人都出去。我们必须有序地做这件事。所有会游泳的人都去右翼站着，所有不会游泳的人都去左翼站着。”

飞行员继续说道，“右翼的人，你们会发现两英里外有一个小岛。飞机沉下去了，游到岛上就没事了。对于左翼人士，我们要感谢你们今天与我们一起飞行。”

大多数组织感觉他们被飞机的左翼抛弃了。没有指导，没有帮助。只是一系列明显的挑战。机器学习问题是数据问题。数据科学将从根本上改变、自动化和优化所有行业。但是，它从基础开始:数据和分析的基本元素。

数据策略是数据科学的推动者，因为在将数据输入模型之前，所有数据都是脏的。数据和分析的 5 个基本要素为数据科学的复兴创造了适当的先决条件。

这 5 个基本要素是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

开源是全面分析战略的关键促成因素。开放确保创新和速度，同时链接到位于开放平台之上的创新。开源是一个永恒的创新社区。

统一治理对于洞察力和合规性是必要的。统一治理对数据的作用就像图书馆对书籍的作用一样。组织、编目、屏蔽、保护、归档任何资产，并使其能够立即被找到。数据库提供了洞察力，但也提供了对关键法规的遵从性(如 GDPR)。

混合数据管理让组织做好应对多云世界的准备。它使内部和私有云数据投资与公共云部署保持一致。无论关注的是非结构化数据还是结构化数据，数据管理的未来都是私有/公共的，两者之间无缝集成。

可视化是关于数据发现的。理解数据资产，以用户期望的形式呈现它们，并使数据能够被操作和浏览。这是动态的、实时的，不是静态的。

机器学习和数据科学是所有分析要素的组成部分。这是“哈哈”时刻的来源，因为一个组织增强并自动化了决策制定和运营。构建、部署和训练模型。不断学习新的数据。机器学习和数据科学必须驻留在数据驻留的位置，以实现最大影响。

每个人、每个部门、每个组织的起点都不一样。但是，这五个要素是一致的。它们是成功复兴的先决条件。虽然许多组织已经在这些领域中的每一个领域做了一些事情，但是大多数都是在前一个时代完成的。

我们正在进入一个简约的新时代。分析和数据科学方法必须简单:在 15 分钟或更短时间内安装并运行。在以前漫长而昂贵的项目时代，IT 部门是替罪羊。在这个新时代，它不再是业务转型的受害者。相反，就像 1400 年意大利的美第奇家族一样，它领导并促成了这场文艺复兴。

数据科学正在形成，机器学习用例引领了方向。公司开始通过机器学习取得胜利，并且有可重复的模式来推动结果。以一家制药公司为例，该公司习惯于新药需要 12-14 年才能上市的市场，平均成本为 26 亿美元。在这个案例中，应用了数据科学和机器学习，将成本降低了 70%。该算法在两个不同的数据集上进行训练，一个是各种化学品的毒性，另一个是已批准药物的已知副作用。根据这两个数据集，该算法能够以合理的准确度预测药物的毒性。

出现了许多用例。以下是我今天看到的前 10 名:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里唯一不变的就是变化。我预计前 10 名将每 6-12 个月出现一次。

如前所述，虽然达芬奇是第一个正确画出维特鲁威人的人，但历史表明他并不是自己想出这个主意的。秘诀是让几何图形偏离中心，这归功于贾科莫·安德里亚·达·费拉拉。贾科莫·安德里亚的版本充满了反复，最终取得了成功。他和达芬奇是同事，一起吃饭，还被看到在一起。然而，历史只记得达芬奇的版本。

不同之处在于对行动的偏好。达芬奇付诸行动，其他人只是迭代，停留在实验模式。复兴是对行动的呼唤，而不是对反思的呼唤。现在是数据科学的时代了。

订阅阅读更多关于数据科学和领导力的信息点击这里。

点击这里开始学习数据科学。

数据科学思维过程

原文：https://towardsdatascience.com/the-data-science-thought-process-df386ee7930a?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在我上一篇关于准备您的数据科学简历和项目组合的帖子中，我讨论了展示一个人的思维过程，因为除了数学&统计背景之外，这对我评估一个人是否适合接受进一步培训或接受数据科学家角色非常重要。

从某种角度来说，数据科学家最有价值的技能是利用数据提供商业价值。它可以提供相关的见解来解决业务挑战或实现业务目标，或者使用机器学习模型来进行更好的业务决策等。总而言之，data scientist 是一个使用组织数据作为原材料的解决方案提供商。在我看来，作为一个有效的解决方案提供商，寻找和引入不同资源的思考过程非常重要(当然还有执行部分，但这可能是另一个讨论)。

因此，我想我会提供一些关于加强这种思维过程的技巧，以便有抱负的和当前的数据科学家可以为他们的雇主提供更多价值，并带来更好的回报(希望如此)。

博览群书

我是一个狂热的读者(或者至少我认为我是)。技术论文，尤其是 arxiv 中的那些，肯定是阅读食谱的一部分，但我也阅读各种主题的书籍，如社会学、心理学、经济学、领导力、传记等。我发现，广泛阅读和绘制不同知识和领域之间的关系，有助于加强思维过程。

通过广泛阅读，获得的一些知识可以用在项目中，比如理解 EDA 期间在数据中发现的某些细微差别。这也有助于创建某些假设(需要进一步测试)，这有助于构建一个可行的业务战略。

广泛阅读，有助于激发新的想法(创新！)解决业务挑战，将不同书籍中的想法整合在一起，创造新的协同效应！

主要思想是通过阅读获得和联系知识，并将它们带入思维过程。

了解领域

我喜欢阅读彭博商业周刊、经济学人或类似的期刊。这些都是了解不同行业(如制药、电信、技术、银行)正在发生什么的好地方，对于国家来说，也是了解政治和经济气候的好地方。它可以是一个关于主要趋势如何影响制药行业变化的故事，例如专利期限的变化或 FRS 39/Basel III 如何影响银行业。

所有这些都有助于数据科学家，尤其是在相关行业工作的数据科学家，考虑到影响行业的主要趋势，为他们应该如何处理数据和机器学习模型做好准备。

联网

网络如何帮助强化思考过程？嗯，这是从许多人那里收集的，他们是如何解决他们雇主的业务挑战的。了解在处理项目时有哪些特定于技术、数据和组织的挑战，如果可能的话，还要了解如何应对这些挑战。

也要试着理解他们如何进行探索性的数据分析，并把他们的最佳实践融入到你自己的数据分析中。

很少有人能在一个项目中不出任何差错。所以最好“借鉴”别人的经验，做好准备甚至未雨绸缪。

同样，这里的主要思想是学习和更广泛地了解其他人如何应对他们的挑战，因为你永远不知道什么时候你可能会遇到类似的事情，并且你可以将解决方案应用到你自己的项目中。

结论

广泛的想法是向尽可能多的人学习，博客(当然是媒体！)、期刊、书籍和网站，了解如何应对不同的挑战。从事数据科学项目涉及许多领域、组件和团队，因此挑战可能来自任何地方，最重要的是做好准备，以便我们能够在挑战到来时解决它们，并能够通过组织的数据持续提供价值。

祝所有读者在数据科学之旅中一切顺利！继续学习！

请访问我的其他博客文章和 LinkedIn 个人资料。

数据科学工作流程

原文：https://towardsdatascience.com/the-data-science-workflow-43859db0415?source=collection_archive---------4-----------------------

假设您正在开始一个新的数据科学项目(可能是一个数据集的简短分析，也可能是一个复杂的多年合作)。你应该如何组织你的工作流程？你把数据和代码放在哪里？你用什么工具，为什么？一般来说，在一头扎进你的数据之前，你应该考虑什么？在软件工程行业中，这样的问题有一些众所周知的答案。尽管每个软件公司都有其独特的特点和怪癖，但大多数公司的核心流程都是基于相同的既定原则、实践和工具。这些原则在教科书和大学里都有描述。

数据科学是一个不太成熟的行业，事情不一样。虽然你可以找到各种各样的模板项目、文章、blogposts、讨论，或者专门的平台(开源 1 、 2 、 3 、 4 、 5 、) 商业[ 11 ， 12 ， 13 ， 14 ， 15 ， 16 ， 17 和内部[ 18 ， 19 ， 20 ]帮助您组织工作流程的各个部分每个数据科学家最终都会形成自己的个人偏好，这些偏好大多是从经验和错误中获得的。我也不例外。随着时间的推移，我逐渐理解了什么是典型的“数据科学项目”，它应该如何构建，应该使用什么工具，以及应该考虑什么。我想在这篇文章中分享我的观点。

工作流程

尽管数据科学项目在目标、规模和使用的技术方面可能有很大差异，但在一定的抽象级别上，大多数项目都可以按照以下工作流来实现:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

彩色方框表示关键过程，而图标分别表示输入和输出。根据项目的不同，关注点可能在某个过程上。其中一些可能相当复杂，而另一些则微不足道或缺失。例如，科学数据分析项目通常缺少“部署”和“监控”组件。现在让我们逐一考虑每一步。

源数据访问

无论你是在研究人类基因组还是在玩[iris.csv](https://en.wikipedia.org/wiki/Iris_flower_data_set)，你通常都有一些“原始源数据”的概念来开始你的项目。它可能是一个包含*.csv文件的目录，一个 SQL 服务器或 HDFS 集群中的一个表。数据可以是固定的、不断变化的、自动生成的或流式的。它可以存储在本地或云中。无论如何，您的第一步是定义对源数据的访问。以下是这种情况的一些例子:

您的源数据以一组*.csv文件的形式提供。您遵循cookiecutter-data-science方法，在项目的根文件夹中创建一个data/raw子目录，并将所有文件放在那里。您创建了docs/data.rst文件，在这里您描述了源数据的含义。(注:Cookiecutter-DataScience 模板实际上推荐references/作为数据字典的位置，而我个人更喜欢docs。不是说关系很大)。
您的源数据以一组*.csv文件的形式提供。您设置了一个 SQL server，创建了一个名为raw的模式，并将所有 CSV 文件作为单独的表导入。您创建了docs/data.rst文件，其中描述了源数据的含义以及 SQL server 的位置和访问过程。
您的源数据是基因组序列文件、患者记录、Excel 文件和 Word 文档的杂乱集合，这些数据可能会以不可预测的方式增长。此外，您知道您将需要查询几个外部网站来接收额外的信息。您在云中创建一个 SQL 数据库服务器，并从那里的 Excel 文件中导入大多数表。您在项目中创建了data/raw目录，将所有巨大的基因组序列文件放入 dna 子目录中。有些 Excel 文件太脏，无法导入到数据库表中，所以您将它们与 Word 文件一起存储在data/raw/unprocessed目录中。你创建一个亚马逊 S3 桶，并使用 DVC 将你的整个data/raw目录推到那里。您创建了一个用于查询外部网站的 Python 包。您创建了docs/data.rst文件，其中指定了 SQL server、S3 桶、外部网站的位置，描述了如何使用 DVC 从 S3 下载数据，以及如何使用 Python 包来查询网站。您还应尽可能描述所有 Excel 和 Word 文件的含义和内容，以及添加新数据时应采取的步骤。
您的源数据由不断更新的网站日志组成。您设置了 ELK stack 并配置了网站以在那里传输所有新日志。您创建了docs/data.rst，在这里您描述了日志记录的内容以及访问和配置 ELK 堆栈所需的信息。
您的源数据由 100，000 幅大小为 128x128 的彩色图像组成。你将所有的图像放入一个大小为 100，000 x 128 x 128 x 3 的张量中，并保存在一个 HDF5 文件images.h5中。您创建一个 Quilt 数据包，并将其推送到您的私有 Quilt 存储库中。您创建了docs/data.rst文件，在这里您描述了为了使用数据，必须首先通过quilt install mypkg/images将数据拉入工作区，然后通过from quilt.data.mypkg import images导入代码。
您的源数据是模拟数据集。您将数据集生成实现为一个 Python 类，并在一个README.txt文件中记录它的使用。

通常，在设置源数据时，请记住以下经验法则:

每当你能够以方便查询/索引的形式(SQL 数据库、ELK 堆栈、HDF5 文件或栅格数据库)有意义地存储你的源数据时，你应该去做。即使您的源数据是一个单独的csv并且您不愿意建立一个服务器，也可以帮自己一个忙，将它导入到一个 SQLite 文件中。如果您的数据很好而且干净，它可以简单到:
如果你在团队中工作，确保数据易于共享。使用 NFS 分区、S3 桶、Git-LFS 库、被子包等等。
确保您的源数据始终是只读的，并且您有一个备份副本。
花点时间记录您所有数据的含义及其位置和访问程序。
总的来说，要非常认真地对待这一步。您在这里犯的任何错误，不管是无效的源文件、被误解的特性名称还是配置错误的服务器，都可能会浪费您大量的时间和精力。

数据处理

数据处理步骤的目的是将源数据转换成“干净”的形式，适用于随后的建模阶段。在大多数情况下，这种“干净”的形式是一个特征表，因此“数据处理”的要点通常可以归结为特征工程的各种形式。这里的核心需求是确保特征工程逻辑是可维护的，目标数据集是可再现的，有时，整个管道是可追踪的，否则你将无法部署模型。如果在明确描述的计算图中组织处理，则可以满足所有这些要求。然而，实现该图有不同的可能性。以下是一些例子:

您遵循cookiecutter-data-science路线，而使用 Makefiles 来描述计算图。每个步骤都在一个脚本中实现，该脚本将一些数据文件作为输入，并生成一个新的数据文件作为输出，该文件存储在项目的data/interim或data/processed子目录中。您可以通过make -j <njobs>享受简单的并行计算。
你依靠 DVC 而不是 Makefiles 来描述和执行计算图。整个过程在很大程度上类似于上面的解决方案，但是您获得了一些额外的便利特性，比如结果文件的轻松共享。
你用路易吉、气流或任何其他专用工作流管理系统代替 Makefiles 来描述和执行计算图。除了其他方面，这通常会让您在一个基于 web 的仪表板上观察您的计算进度，与计算集群的作业队列集成，或者提供一些其他特定于工具的好处。
所有的源数据都作为一组表存储在 SQL 数据库中。您根据 SQL 视图实现所有的特征提取逻辑。此外，您使用 SQL 视图来描述对象的样本。然后，您可以使用这些特征视图和样本视图，通过自动生成的查询来创建最终的建模数据集，例如

这种特殊的方法非常通用，所以让我稍微扩展一下。首先，它让您可以轻松地跟踪所有当前定义的特性，而不必将它们存储在庞大的数据表中——特性定义只作为代码保存，直到您实际查询它们。其次，将模型部署到生产环境变得相当简单——假设动态数据库使用相同的模式，您只需要复制各自的视图。此外，您甚至可以使用一系列 CTE 语句将所有特征定义与最终模型预测计算一起编译到单个查询中:

这项技术已经在我设计的一个内部数据科学工作台工具中实现了(不幸的是，目前还没有公开提供)，并提供了一个非常简化的工作流。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example of an SQL-based feature engineering pipeline

无论您选择哪种方式，请记住以下几点:

始终以计算图的形式组织加工，并牢记再现性。
这是您必须考虑您可能需要的计算基础架构的地方。你打算进行长时间的计算吗？您需要并行化还是租用集群？使用带有管理 UI 的作业队列来跟踪任务执行，您会从中受益吗？
如果您计划稍后将模型部署到生产中，请确保您的系统将支持这个开箱即用的用例。例如，如果你正在开发一个包含在 Java Android 应用程序中的模型，但你更喜欢用 Python 来做你的数据科学，一个避免未来许多麻烦的可能性是用一个特别设计的 DSL 而不是免费的 Python 来表达你所有的数据处理。然后，这个 DSL 可以被翻译成 Java 或者像 PMML 这样的中间格式。
考虑存储一些关于你设计的特性或临时计算的元数据*。*这并不复杂——例如，您可以将每个特征列保存到一个单独的文件中，或者使用 Python 函数注释，用输出列表来注释每个特征生成函数。如果你的项目很长，并且涉及到几个人设计特性，拥有这样一个注册表可能会非常有用。

建模

一旦你完成了清理数据、选择合适的样本和设计有用的特征，你就进入了建模的领域。在一些项目中，所有的建模都归结为一个简单的m.fit(X,y)命令或者一个按钮的点击。在其他情况下，可能需要数周的重复和实验。通常，您会在“特性工程”阶段就开始建模，当您决定一个模型的输出有助于伟大的特性本身时，所以这一步和前一步之间的实际界限是模糊的。这两个步骤都应该是可重复的，并且必须成为你的计算图的一部分。两者都围绕计算，有时涉及作业队列或集群。尽管如此，单独考虑建模步骤仍然是有意义的，因为它有一个特殊的需求:实验管理。像以前一样，让我用例子来解释我的意思。

您正在训练用于在iris.csv数据集中对虹膜进行分类的模型。你需要尝试十个左右的标准sklearn模型，对每个模型应用一些不同的参数值，并测试你手工制作的特征的不同子集。你没有一个合适的计算图或计算基础设施——你只是在一个 Jupyter 笔记本上工作。但是，您要确保所有训练运行的结果都保存在单独的 pickle 文件中，您可以在以后分析这些文件以选择最佳模型。
您正在设计一个基于神经网络的图像分类模型。你用 ModelDB (或者替代的实验管理工具，比如 TensorBoard 、神圣、 FGLab 、 Hyperdash 、 FloydHub 、 Comet。ML ， DatMo ， MLFlow ，…)记录所有实验的学习曲线和结果，以便以后选择最好的一个。
您使用 Makefiles(或 DVC，或工作流引擎)来实现整个管道。模型训练只是计算图中的一个步骤，它输出一个model-<id>.pkl文件，将模型最终 AUC 分数附加到一个 CSV 文件，并创建一个model-<id>.html报告，其中包含一系列有用的模型性能图表，供以后评估。
这是实验管理/模型版本化在上面提到的定制工作台的 UI 中的样子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要点是:决定如何计划用不同的超参数拟合多个模型，然后选择最佳结果。您不必依赖复杂的工具——如果使用一致，有时甚至手动更新的 Excel 表格也能很好地工作。然而，如果你计划进行冗长的神经网络训练，请考虑使用基于网络的仪表板。所有酷小孩都这么做。

模型部署

除非您的项目纯粹是探索性的，否则您可能需要将您的最终模型部署到生产中。根据具体情况，这可能会是一个相当痛苦的步骤，但是仔细的计划会减轻痛苦。以下是一些例子:

您的建模管道用训练好的模型吐出一个 pickle 文件。所有的数据访问和特征工程代码都是作为一组 Python 函数实现的。您需要将您的模型部署到 Python 应用程序中。您创建一个 Python 包，其中包含必要的函数和模型 pickle 文件，作为里面的文件资源。你记得测试你的代码。部署过程是一个简单的包安装，然后运行集成测试。
您的管道用训练好的模型吐出一个 pickle 文件。为了部署这个模型，您使用 Flask 创建一个 REST 服务，将其打包成 docker 容器，并通过您公司的 Kubernetes 云提供服务。或者，你将保存的模型上传到一个 S3 桶，然后通过亚马逊λ提供服务。您要确保您的部署已经过测试。
你的训练管道产生一个张量流模型。您使用 Tensorflow Serving (或任何一个备选方案)作为 REST 服务。您不要忘记创建测试，并在每次更新模型时运行它们。
你的管道产生一个 PMML 文件。您的 Java 应用程序可以使用 JPMML 库来读取它。您确保您的 PMML 出口商在 PMML 文件中包含模型验证测试。
您的管道以定制的 JSON 格式保存模型和预处理步骤的描述。为了将它部署到您的 C#应用程序中，您开发了一个知道如何加载和执行这些 JSON 编码的模型的专用组件。确保对 Python 中的模型导出代码、C#中的模型导入代码以及您部署的每个新模型的预测进行 100%的测试。
您的管道使用 SKompiler 将模型编译成 SQL 查询。将这个查询硬编码到应用程序中。你记得关于测试的事。
你通过付费服务训练你的模型，这也提供了一种将它们发布为 REST 的方式(例如 Azure ML Studio ， YHat ScienceOps )。你付了很多钱，但你仍然测试部署。

总结一下:

有许多方法可以部署一个模型。确保你了解你的情况并提前计划。您是否需要将模型部署到用不同于您用来训练它的语言编写的代码库中？如果您决定通过 REST 为其提供服务，那么该服务期望什么样的负载，它应该能够批量预测吗？如果你打算购买一项服务，估计一下它会花你多少钱。如果您决定使用 PMML，请确保它能够支持您预期的预处理逻辑和您计划使用的奇特的随机森林实现。如果您在培训期间使用了第三方数据源，请考虑您是否需要在生产中与它们集成，以及您将如何在从您的管道导出的模型中编码这些访问信息。
一旦您将您的模型部署到生产中，它就从数据科学的人工制品变成了实际的代码，因此应该符合应用程序代码的所有要求。这意味着测试。理想情况下，您的部署管道应该生成用于部署的模型包以及测试该模型所需的一切(例如，样本数据)。模型从它的诞生地转移到生产环境后，停止正确工作的情况并不少见。可能是导出代码的 bug，可能是pickle版本不匹配，可能是 REST 调用中输入转换错误。除非您显式地测试已部署模型的预测的正确性，否则您将冒着在不知道的情况下运行无效模型的风险。一切看起来都很好，因为它会继续预测一些值，只是一些错误的值。

模型监控

当您将模型部署到生产中时，您的数据科学项目并没有结束。热度还在。也许在你的训练集中输入的分布与真实生活不同。也许这种分布漂移缓慢，模型需要重新训练或重新校准。也许这个系统没有像你预期的那样工作。也许你对 A-B 测试感兴趣。在任何情况下，您都应该设置基础设施来持续收集关于模型性能的数据并对其进行监控。这通常意味着设置可视化仪表板，因此主要示例如下:

对于你的模型的每个请求，你将输入和模型的输出保存到 logstash 或者一个数据库表(确保你以某种方式保持 GDPR 兼容)。您设置元数据库(或表格、 MyDBR 、 Grafana 、等)并创建可视化您的模型的性能和校准指标的报告。

勘探和报告

在数据科学项目的整个生命周期中，为了探索数据、尝试各种假设、制作图表或报告，您必须不断地避开主要的建模管道。这些任务在两个重要方面不同于主要管道。

首先，它们中的大多数没有具有可再现性。也就是说，您不一定需要像处理数据预处理和模型拟合逻辑那样将它们包含在计算图中。当然，您应该总是尝试坚持可再现性——当您拥有从原始数据重新生成给定报告的所有代码时，这是非常好的，但是在许多情况下，这种争论是不必要的。有时在 Jupyter 中手工制作一些图表，然后粘贴到 Powerpoint 演示文稿中就可以了，不需要过度设计。

第二，实际上这些“探索”任务有问题的特殊性在于，它们往往有些杂乱无章和不可预测。有一天，您可能需要分析性能监控日志中一个奇怪的异常值。第二天你想测试一个新的算法，等等。如果您没有决定一个合适的文件夹结构，很快您的项目目录将充满了奇怪名称的笔记本，团队中没有人会明白什么是什么。这些年来，对于这个问题，我差不多只找到了一个可行的解决方案:按日期给子项目排序。即:

您在项目文件夹中创建一个projects目录。您同意每个“探索性”项目必须创建一个名为projects/YYYY-MM-DD - Subproject title的文件夹，其中YYYY-MM-DD是子项目开始的日期。经过一年的工作，你的projects文件夹看起来如下:

./2017-01-19 - Training prototype/
                (README, unsorted files)
./2017-01-25 - Planning slides/
                (README, slides, images, notebook)
./2017-02-03 - LTV estimates/
                 README
                 tasks/
                   (another set of 
                    date-ordered subfolders)
./2017-02-10 - Cleanup script/
                 README
                 script.py
./... 50 folders more ...

请注意，您可以根据需要自由组织每个子项目的内部结构。特别是，它本身甚至可能是一个“数据科学项目”，有自己的raw/processed数据子文件夹，自己的基于 Makefile 的计算图，以及自己的子项目(在这种情况下，我倾向于将其命名为tasks)。在任何情况下，总是记录每个子项目(至少有一个README文件)。有时有一个根文件projects/README.txt会有所帮助，它简要地列出了每个子项目目录的含义。

最终您可能会发现项目列表变得太长，并决定重新组织projects目录。你压缩了其中的一些文件，并移动到一个archive文件夹中。您重组了一些相关的项目，并将它们移动到某个父项目的tasks子目录中。

探索任务有两种风格。有些任务是真正的一次性分析，可以使用 Jupyter 笔记本解决，永远不会再次执行。其他的目标是产生可重用的代码(不要与可重复的输出混淆)。我发现为如何保存可重用代码建立一些约定是很重要的。例如，惯例可能是在子项目的根中有一个名为script.py的文件，它在执行时输出一个基于argparse的帮助消息。或者您可能决定要求提供一个run函数，配置为一个芹菜任务，这样它可以很容易地提交到作业队列。也可能是别的——什么都可以，只要一致。

服务清单

对于数据科学工作流，还有另外一个正交的视角，我觉得很有用。也就是说，我们可以讨论数据科学项目通常依赖的关键服务而不是按照流程的管道来谈论它。通过这种方式，您可以具体说明以下 9 项关键服务的具体提供方式，从而描述您的特定(或所需)设置:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文件存储。你的项目必须有一个家。通常这个家必须由团队共享。它是网络驱动器上的文件夹吗？它是 Git 存储库的工作文件夹吗？你如何组织它的内容？
数据服务。你如何存储和访问你的数据？这里的“数据”包括您的源数据、中间结果、对第三方数据集的访问、元数据、模型和报告——实质上是由计算机读取或写入的一切。是的，保存一堆 HDF5 文件也是“数据服务”的一个例子。
版本化。代码、数据、模型、报告和文档——一切都应该在某种形式的版本控制下保存。Git 换代码？被子换数据？模特的 DVC？报表的 Dropbox？文档维基？一旦我们做到了，不要忘记为每件事建立常规备份。
元数据和文档。你如何记录你的项目或子项目？您是否维护关于您的要素、脚本、数据集或模型的任何机器可读元数据？
交互计算。交互式计算是数据科学中大多数艰苦工作的完成方式。你用 JupyterLab，RStudio，ROOT，Octave 还是 Matlab？您是否为交互式并行计算设置了集群(例如 ipyparallel 或 dask)？
作业队列&调度器。你如何运行你的代码？您使用作业处理队列吗？您有能力(或需要)安排定期维护任务吗？
计算图。你如何描述计算图并建立再现性？Makefiles？DVC？气流？
实验经理。你如何收集、查看和分析模型训练进度和结果？ModelDB？超破折号？FloydHub？
监控仪表板。你如何收集和跟踪模型在生产中的表现？元数据库？画面？PowerBI？格拉夫纳？

工具

这里有一个小的电子表格，列出了这篇文章中提到的工具(以及一些我添加或稍后将添加的额外工具)，根据它们旨在支持数据科学工作流的哪个阶段(按照这篇文章中定义的术语)对它们进行分类。免责声明——我确实尝试了大部分，但不是全部。特别是，我对列表中的非免费解决方案的能力的理解，到目前为止只是基于他们的在线演示或网站上的描述。

原载于 2018 年 11 月 29 日four years . eu。

没有数据的数据科学家！

原文：https://towardsdatascience.com/the-data-scientist-with-no-data-2750896fb559?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: unsplash.com

摘要

统计学家/护士的历史。
一个当今数据科学家工作生活的故事。
对未来数据科学家的猜测。

首先，一个历史故事:

1854 年 11 月，佛罗伦萨·南丁格尔在克里米亚战争期间来到斯库塔里当护士。她从小就有数学天赋。在战地医院，她面临着苦难、痛苦和混乱。

“受伤的士兵往往带着伤寒、霍乱和痢疾等疾病抵达。死于这些疾病的人比死于受伤的人多。”( 1

白天她是一名护士，晚上她有另一项任务——她被称为“拿灯的女士”。她正在收集数据，分析士兵死亡的原因。当她回到伦敦时，她将数据可视化，并开始了提高意识的活动。她根据数据表明，士兵受伤并不是死亡的主要原因。她于 1859 年在查塔姆建立了陆军医学院，并继续为她的事业做出贡献。她个人的痛苦和苦难是可以想象的，但她通过利用数据为人类服务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: researchgate.net

第二，今天的一个故事:

今天的数据科学家的故事有点像夜莺的工作——特别是在迫切需要了解士兵情况的同时缺乏数据。今天，并不是所有的数据科学家都拯救生命，但实际上很多人都这样做了！

今天的许多数据科学家很可能会欢迎更多的数据、数据流、数据源、数据基础设施和数据工程支持。然而，他们被要求提供更好的见解、模型、推论、可视化，并提供决策咨询。

数据科学家常常感到沮丧，不是因为模型在生产中不起作用，而是因为数据源不可用——尤其是在现在的 GDPR 时代，这种情况会变得更糟。

这种情况有一个共同点，即缺乏对数据科学的理解。决策者不理解数据科学不仅仅是软件编程(还没有！)和模型不仅仅是生产中的源代码管道。

许多公司希望变得数据驱动、现代化和敏捷。因此，他们雇佣了一名数据科学家，或许还有一名数据工程师。这是在收集数据、准备数据基础设施、启用数据工程以及了解未来的数据驱动型业务问题和策略之前完成的。压力的螺旋上升最终落在了数据科学家身上，他的手被束缚住了，而期望值却在继续增长。一个简单的谷歌搜索“为什么数据科学家”会建议你用“离开”这个词来完成句子。有希望看到有一天这个建议变成积极的东西。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source: timoelliott.com

对于有抱负的数据驱动型公司，成功实现数据驱动型转型的建议步骤如下:

成熟，还是拥抱，DevOps 转型( DevOps:做还是不做？先关注文化！ ) —这是文化、管道、数据管理使然！
推出符合 GDPR 标准的数据湖—用于存储和实验！
集成数据工程能力—雇佣数据工程师或数据运营！
收集数据时要考虑合规性和 GDPR —这是显而易见的，但也是全新的！
雇一个数据科学家！

第三，对未来的猜测:

随着计算能力和服务通过云提供商成为商品，有理由认为数据科学也将商品化。这个百万美元的问题是:在什么样的法律平衡数据约束下，数据科学将成为 DSaaS(数据科学即服务)？

这种平衡需要考虑以下因素:

数据收集 GDPR 影响(目前在美国更容易处理，在欧盟更难)。
数据匿名化最佳点(最终，数据科学并不致力于完全匿名化的数据，尽管它适用于一些用例，例如基于家庭人口统计的洞察，同时匿名化人们的 UID、姓名和姓氏)。
机器学习模型(甚至统计模型)的合法更新，以跟进用户 GDPR 的同意。这是指 GDPR 后来同意退出(在最初同意之后)。并非每个退出案例都会影响您的模型，但是，有一个点，过多的退出会影响模型，需要以反映法律要求的频率进行更新。
数据所有权和信任(您在云和应用数据科学上的原始数据会发生什么？服务提供商会为了自己的利益从你的数据中推断和学习吗？您的数据会成为提供商方面更广泛的数据科学活动的一部分吗？等等。)

虽然目前许多组织内部都有数据科学家，但将来可能就不是这样了。有可能，名字会改成机器学习工程师(或者类似！)知道如何使用 DSaaS，并对算法有足够的理解，能够知道输入什么和如何解释输出。核心数据科学家将在 DSaaS 公司工作，那里有大量数据科学进展。

好消息是，数据科学家将处于大量数据可用的情况，云基础设施将会成熟。他们的主要工作将是扩展算法，挑战技术上可能的边界。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传