TowardsDataScience 博客中文翻译 2016~2018(三百二十四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

谁在椭圆形办公室发微博?

原文:https://towardsdatascience.com/whos-tweeting-from-the-oval-office-building-a-twitter-bot-9c602edf91dd?source=collection_archive---------8-----------------------

建造一个推特机器人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Look my Twitter bot!

在我的最后一篇帖子中,我描述了我如何使用机器学习建立一个模型,该模型可以预测川普本人或他的一名助手是否在他的账户上发推文。在这篇文章中,我将详细介绍我如何用 Twitter bot 部署这个模型。

我是 Greg Rafferty,湾区的数据科学家。你可以在我的 github 上查看这个项目的代码。

谁在椭圆形办公室发微博?

我开发了一个推特机器人@ who sintheeval,它转发唐纳德·特朗普的每一条推文,并预测这条推文是由特朗普本人还是他的一名助手写的。如果你对这个小项目的起源感到好奇,请继续阅读本系列中的上一篇文章,或者继续阅读以了解我是如何构建 Twitter bot 的!

模型部署

如果不能以其他人可以理解的格式打包,世界上最好的数据科学模型就一文不值。在这篇文章中,我将展示如何通过 Twitter 上的机器人部署我的模型。网上有很多教程讨论我在模型中使用的各种机器学习模型,这就是为什么我在以前的帖子中没有详细介绍它们。然而,当我开始构建这个机器人时,我发现网上缺乏关于如何构建 Twitter 机器人的明确信息,所以这篇文章将比以前的文章更具技术性,并将包括您需要的启动和运行机器人的代码。

在本教程中,我们将创建一个机器人,它会监视 @realDonaldTrump 的任何推文,一旦有东西发布,机器人就会询问@ who sintheval是谁发布的,是特朗普本人还是他的一名助手。

先决条件

  1. 一个推特账户(去 https://twitter.com/signup 创建了一个)
  2. 计算机编程语言
  3. Tweepy,一个使用 Twitter 的有用库(pip install tweepy)

从 Twitter 获取 API 访问权限

如果你正在构建一个 Twitter 机器人,你需要做的第一件事就是访问 Twitter 的 API。访问apps.twitter.com,用机器人将要发布的 Twitter 账户登录。填写表格并选中所有必要的复选框。登录后,访问“密钥和访问令牌”选项卡,生成一个新的访问令牌,您将需要使用它来验证您的应用程序。

存储凭据

你应该永远不要分享这些私钥,所以最好将它们隐藏起来,不要让任何你公开发布的代码看到。我在项目的根文件夹中创建了一个名为.env的文件夹,在本教程中,我假设你也是这样做的。在名为twitter_credentials.json的文件夹中创建一个新文件,并按照以下格式粘贴您的密钥和访问令牌(将所有大写单词替换为您的应用程序在 twitter 上的仪表板中的值):

Twitter 提供了一个下载数据的 REST API,但是对于实时数据来说,它不是你的最佳选择。如果你经常查看新的推文,你会很快达到速率限制。所以对于这个机器人,我们将使用流式 API。

初始设置

现在在你的项目文件夹中创建一个twitterbot.py文件(这个文件夹包含我们刚刚创建的.env文件夹)。在你喜欢的文本编辑器中打开twitterbot.py,导入 Tweepy 和 json。当然,Tweepy 是我们用来与 Twitter 交互的工具,json 将允许我们读取这些密钥并访问令牌。我们还将导入睡眠,这样如果达到 Twitter 的速率限制,我们可以暂时暂停我们的机器人:

OAuth 认证

现在,让我们加载这些凭据,并设置 Tweepy 进行身份验证并连接到 Twitter:

识别要观察的用户

下一步,我们需要知道我们将监视的用户的 Twitter ID,在本例中是 @realDonaldTrumpGettwitterid.com是一个做一件事的简单网站,我认为从它的 URL 就足够明显了。输入 Twitter 用户名,它会输出相应的用户 ID。对于‘realDonaldTrump’,这是25073877。让我们把它赋给代码中的一个变量(作为一个字符串!).

使用 Tweepy 流式传输

Tweepy 有一个对我们来说超级有用的类叫做StreamListener。我们将从它继承并重新定义on_status函数来执行我们想要的动作。让我们把我们的新类叫做TrumpStreamListener,因为稍后当我们开始流过程时,我们将指示这个类监视我们在上面的realDonaldTrump变量中指定的帐户。当我们这样做的时候,让我们也重新定义一下on_error函数。这个函数可以在 Twitter 返回错误时执行一个操作。在这种情况下,我们将注意错误420,这意味着我们已经达到了速率限制。每当你的机器人达到速度限制,Twitter 允许你重新进入的时间就会成倍增加,所以我们希望暂停在420上,并尝试在一分钟内重新连接,而不是不停地敲打 Twitter。

让我们浏览一下这个on_status函数。当我们开始流式传输时,我们将指示机器人监视由 realDonaldTrump 变量指定的帐户,但这也会捕捉任何关于他的转发或提及。我们只想要来自 Trump 的帖子,所以我们需要在函数的开头有一个if子句。我们发布的实际 tweet 将包含一个到 Trump tweet 的链接,因此我们分配了url变量,该变量根据流监听器抓取的 tweet 数据创建链接,并在status变量中定义。接下来,我们将编写实际的推文,它将是“这是谁发的推文,@ Who sintheval?特朗普还是幕僚?”后面是特朗普的原推文,比如:

最后,我们将使用 Tweepy 的update_status函数,该函数将该 tweet 发布到我们的提要中。

为了让我的 Twitter 机器人预测@realDonaldTrump 推文的作者,我没有立即调用api.update_status,而是定义了一个新的post_tweet函数,它打开了我的机器学习模型的一个保存的 pickle 文件,调用了.predict.predict_proba方法,然后编写并发布了推文。如果你想做一些比发布脚本化的 tweet 更复杂的事情,这就是你要编码的逻辑。如果你想了解更多细节,你可以在我的 GitHub 上找到我的完整代码。

开始流

现在,我们需要定义一个函数,确保在出现错误或暂时失去互联网连接的情况下,流不会死亡。如果由于任何原因中断,这个函数将自动重新开始流。它还指示流监听器对象遵循由变量realDonaldTrump25073877定义的帐户。

开始做事

最后,让我们开始行动吧!最后这些命令将实例化该类,并调用start_stream函数来打开机器人。

最后,这些片段组合成了一个完整的程序:

你有它!如果你运行这个程序,它将持续监控 Twitter 上任何关于@realDonaldTrump 的活动。如果该活动是特朗普的账户发布的,那么你的机器人会向你自己的账户发布一条推文,询问@ who sintheeval账户是否是特朗普本人或助手发布的。

为什么机器永远不会爱你

原文:https://towardsdatascience.com/why-a-machine-will-never-love-you-cb2c0f2fd0ef?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然也许这并不重要

爱情方程式的解决方案有能力为价值数十亿美元的在线婚介行业创造数万亿美元的利润,重新定义人工智能研究的方向,并可能改变人类的长期生存统计数据。

为了理解如此基本的东西是如何成为如此多不同努力和事业的核心,我们只需要问一个看似简单的问题:“爱是什么?”

网上媒人认为他们知道。这是外表,再加上化学通过一个心理算法运行。他们认为这是一个神秘的公式,在这个公式中,大脑在寻找配偶的过程中会随着原始节奏摇摆。这种说法很好地配合了他们自己标榜的“配对算法”,该算法旨在帮助减少他们数据库中潜在伴侣的选择,以选出几个比平均水平更有可能联系上的人(这是赌客愿意花大价钱购买的)。

当简单的答案包含复杂的问题,而这些问题的性质取决于我们向谁提问时,暗示着这个主题对我们作为人类的运作是如此重要,以至于它渗透到我们的大部分活动中,并影响我们的动机

心理学家和生物学家认为,这只不过是性欲、依恋和社会关系的有力结合,它源于这样一个事实,即我们的神经系统不是独立的,需要与周围的人密切协调。他们指出了哺乳动物表现出配对结合行为的边缘共振的大量证据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

神经科学家指出血液中的复杂相互作用,如皮质醇、血清素、多巴胺和催产素,它们在血/脑屏障上以影响认知和大脑执行决策过程的方式产生显著影响。

当简单的答案包含复杂的问题,而这些问题的性质取决于我们向谁提问时,暗示着这个主题对于我们作为人类的运作是如此重要,以至于它渗透到我们的大部分活动中,并影响我们的动机。

爱因斯坦能够在第四维时空中想象出时间和空间的扭曲,他是这样描述爱情的:“你究竟如何用化学和物理学来解释像初恋这样重要的生物现象?”

然而,在他去世后的 60 年里,我们对身体、大脑和思想如何工作的理解已经取得了足够的进展,可以说,感觉来自于情绪,情绪来自于感官数据

情感芯片

这种简化的理解爱的方法打开了研究的大门,将爱从形而上学的领域转移到实验室的仪器下。我们的期望是,分析、测量以及最终的复制将为我们人类经历的最基本的驱动力之一提供解决方案。

这与剑桥大学的彼得·罗宾逊等计算机科学家的观点一致,他的团队正忙于建造一台能够理解人类情感并以同样方式回应的情感计算机。

他的“情感计算机”回避了机器智能和意识的问题。如果情绪是“人类和动物中调节复杂行为的进化功能状态,以应对实例化重复出现的环境主题的挑战,”正如一篇研究论文所说的那样,那么情感计算,创造有感觉的机器是可能的,这意味着我们也可以拥有人类意义上的智能计算机,并进而拥有自我意识。

具有代理意识的机器也将拥有权利,正如最近欧盟立法提案所建议的那样。但是形而上学并不是一个容易摆脱的学科,它不需要很长时间就可以用约翰·塞尔的“中文室”思想实验来搅浑水,该实验基本上说,如果某样东西在每次你需要它的时候都表现得像是智能的和有意识的,那么它与智能的和有意识的是没有区别的。

然而,这种区别很重要。从人类学的角度来看,男人选择女性机器人而不是人类伴侣的趋势可能是淫秽的,当然也是令人担忧的,这已经超出了这个范围,并引发了关于智力的辩论。

具身认知

感觉的机器让我们关注这样一个问题:它们感觉到底是什么?当它们经常缺少身体时,我们如何确定它们情感的真实性?即使它们有,也不会受到和我们一样的限制、约束和机遇。

感情不仅决定了我们是谁,也决定了我们的决策和身份感,这意味着它们是我们在这个世界上的目的感的背后。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当身体作为包裹大脑的感觉器官,成为我们运作方式不可或缺的一部分。情感、认知和执行功能成为千变万化的复杂舞蹈的一部分。

从计算的角度来看,这使得爱本身成为一个无法解决的 NP 完全问题,这个问题可以被人脑解决,但不能被任何计算机解决。

未来学家雷·库兹韦尔曾说过一句名言:“人类将会在未来的 15 年(T3)内爱上电脑”。他实际上的意思是,在这段时间内,人工智能将足够先进,能够真正感受情感,并做出自己的选择、决定和计算,从而能够回报人类的爱,这样配对就可以发生。

我们早就知道我们是有缺陷的,进化的,不断变化的生物机器。我们是谁,我们想什么,我们成为谁,我们做出什么决定,我们如何做出这些决定,以及这些决定最终将我们引向何方,都受到对管理每个生物系统的熵定律的有意识和潜意识理解的支配。

机器不受此限制。一个真正有意识的机器实际上可能会感觉到足够的同情,但除非它生活在一种早上起床时会疼痛的身体中,中午时会感到饥饿,直到它对上厕所的物理信号做出反应时才能形成连贯的思想,否则它不太可能以与我们完全相同的方式感受到爱。

我的新书: 《狙击思维:消除恐惧,应对不确定性,做出更好的决策》是一项神经科学研究,探讨如何运用实际步骤做出更好的决策。

为什么 AdamW 如此重要

原文:https://towardsdatascience.com/why-adamw-matters-736223f31b5d?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

When you find yourself in a rocky terrain, take small steps 😉 [Mount Sinai, Egypt]

像 Adam 这样的自适应优化器已经成为训练神经网络的默认选择。然而,当以最先进的结果为目标时,研究人员通常更喜欢带动量的随机梯度下降(SGD ),因为已经观察到用 Adam 训练的模型也不会泛化。

来自德国弗赖堡大学的 Ilya Loshchilov 和 Frank Hutter 最近发表了他们的文章“在 Adam 中固定权重衰减正则化”,其中他们证明了 L2 正则化对于自适应算法的效果明显不如 SGD。他们提出了 Adam 的一个改进版本,称为 AdamW,它产生的模型概括得更好,因此能够与 SGD 竞争,同时训练得更快。

读完这篇文章的摘要,你会理解 1) Adam 是如何工作的,2)什么是 L2 正则化,为什么使用它,以及 3)为什么改进版 AdamW 比标准 Adam 产生更好的概化模型。

①亚当

试着想象最小化一个神经网络的成本函数 f 就像在山上走下山坡:你随机初始化你的网络的权重,这意味着从山上的一个随机点开始。你的目标是尽可能快地达到成本函数的最小值(谷值)。在每一步之前,你计算梯度 ∇ f (确定山坡最向哪个方向倾斜)并向相反方向走一步:新的权重 x(t) (按照文章的注释)等于旧的权重 x(t-1) 减去梯度乘以学习速率α:

x(t)= x(t-1) — α ∇ f

按照这个步骤,你最终会到达山谷(或至少是当地的最小值),然而,当你走在坡度变化不大的草地上时,你可能想迈出更大、更大胆的步伐,或者当你爬下坡度不断变化的岩石时,迈出更小的步伐。Adams 为您做到了这一点:当梯度变化不大时大步前进,当梯度变化很快时小步前进(单独调整每种重量的步长)。

让我们了解亚当是如何工作的(暂时忽略彩色部分):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Taken from “Fixing Weight Decay Regularization in Adam” by Ilya Loshchilov, Frank Hutter.

Adam 跟踪梯度的(指数移动)平均值(称为一阶矩,从现在开始表示为 m )和梯度的平方(称为原始二阶矩,从现在开始表示为 v )

在每个时间步中,计算梯度g=∇f【x(t-1)】,然后计算移动平均值:

m(t) = β1 m(t-1) + (1-β1) g(t)

v(t) = β2 v(t-1) + (1-β2) g(t)

参数β1(即 0.9)和β2(即 0.999)控制平均值衰减的速度,即“过去多长时间内对梯度(平方)进行平均”。按以下方式阅读方程式:“新平均值等于旧平均值的 0.9 倍(或梯度平方的 0.999 倍)加上当前梯度的 0.1 倍”。对于每一个时间步长,旧的梯度再乘以 0.9,这意味着它们对移动平均值的贡献越来越小。

请注意,在第 9 行和第 10 行中,平均值由 (1-β^t) 重新调整,其中 t 是时间步长。为了理解为什么这是必要的,考虑第一个时间步长并记住 m(0)v(0) 被初始化为 0。这意味着第一个时间步长后的平均值为m(1)= 0.9 0+0.1g(1)= 0.1g(1)。但是,第一个时间步长之后的平均值应该正好是 g(1),这是将 m(1) 除以(1–0.9)= 0.1 得到的结果。

为简单起见,我们设置 η=1 (学习率计划乘数),并将所有内容放在第 12 行:

当向下“下山”一步时,步长通过将学习速率α乘以 m(t) 并除以 v(t) 的根来调整(此时我们忽略帽子^)。

x(t)= x(t-1)-αm(t)/[sqrt(v(t))+ϵ]

记住一个随机变量 x 的方差定义为*Var(x)=-*其中 < > 为期望值。梯度平方的指数移动平均值被称为无中心方差,因为我们没有减去梯度平均值的平方。

方差量化了梯度围绕其平均值变化的程度。如果梯度保持近似恒定,因为我们“走在草地上”,梯度的方差近似为 0,无中心方差 v(t) 近似等于 m(t) 。这就意味着 m(t) / sqrt(v(t)) 在 1 左右,步长“下山”的顺序是 α

另一方面,如果梯度快速变化, sqrt(v(t))m(t) 大得多,因此“下山”的步长比 α 小得多。

总之,这意味着 Adam 能够通过估计梯度的一阶和二阶矩来为每个个体权重调整步长。当梯度变化不大且“我们在下山时不必小心”时,步长为 *α、*的数量级,如果它们发生变化且“我们需要小心不要走错方向”,则步长要小得多。

在下一节中,我将解释什么是 L2 正则化,在最后一节中,我将总结作者的研究结果,即为什么使用 L2 正则化的 Adam 产生的模型比使用 SGD 训练的模型更差,以及他们如何解决这个问题。

2) L2 正则化和权重衰减

L2 正则化或权重衰减背后的思想是,观察到具有较小权重的网络(所有其他条件相同)过拟合较少且泛化能力较好。如果你不熟悉这个概念,我建议你读一读迈克尔·尼尔森的伟大的电子书。

当然,大重量仍然是可能的,但前提是它们能显著减少损失。每步的权重衰减率 w 定义了最小化原始损失函数(如果选择小的 w 则更重要)和找到小权重(如果选择大的 w 则更重要)的相对重要性。如果如前所述比较权重的更新(新权重等于旧权重减去学习率乘以梯度)

x(t) = x(t-1) — α ∇ f[x(t-1)]

重量衰减的版本

x(t) = (1-w) x(t-1) — α ∇ f[x(t-1)]

您会注意到附加项 -w x(t-1) ,它指数衰减权重 x ,从而迫使网络学习更小的权重。

通常,不是执行权重衰减,而是定义正则化损失函数( L2 正则化):

f _ reg[x(t-1)]= f[x(t-1)]+w '/2x(t-1)

如果你计算这个正则化损失函数的梯度

∇f _ reg[x(t-1)]=∇f[x(t-1)]+w ’ x(t-1)

并更新权重

x(t) = x(t-1) — α ∇ f_reg[x(t-1)]

x(t)= x(t-1)—α∇f[x(t-1)]—αw ’ x(t-1)

如果定义 w’ = w/α,你会发现这相当于重量衰减。

常见的深度学习库通常实现后者的 L2 正则化。然而, 文章 显示,这种等价只适用于 SGD,不适用于 Adam 这样的自适应优化器!

在这篇文章的最后一部分,我将解释为什么 L2 正则化不等同于 Adam 的权重衰减,Adam 和 AdamW 之间的区别是什么,以及为什么使用 AdamW 可以给出更好的概化模型。

3)阿达姆

让我们再来看看亚当算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Taken from “Fixing Weight Decay Regularization in Adam” by Ilya Loshchilov, Frank Hutter.

第 6 行中的紫色项显示了 Adam(不是 AdamW)中的 L2 正则化,因为它通常在深度学习库中实现。正则化项被添加到成本函数中,然后该成本函数被导出以计算梯度 g 。然而,如果在这一点上添加权重衰减项,梯度及其平方的移动平均值( mv )不仅跟踪损失函数的梯度,还跟踪正则化项

如果我们将第 6、7 和 8 行插入第 12 行(现在忽略帽子^,因为 t 被假定为大,因此 β^t=0 ),权重的更新如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如您所见,重量衰减也通过 sqrt(v) 进行归一化。如果某个重量的梯度很大(或变化很大),则相应的 v 也很大,并且重量比梯度小且变化缓慢的重量调整得少!这意味着 L2 正则化不能像预期的那样工作,也不如 SGD 有效,这就是为什么 SGD 产生的模型概括得更好,并且已经用于大多数最新的结果。

因此,作者提出了 Adam 的改进版本,称为 AdamW,其中权重衰减仅在控制参数式步长之后执行(参见第 12 行中的绿色项)。权重衰减或正则化项不会在移动平均值中结束,因此仅与权重本身成比例。作者通过实验表明,AdamW 产生更好的训练损失,并且模型比用 Adam 训练的模型概括得更好,从而允许新版本与具有动量的随机梯度下降竞争。这意味着在未来,研究人员和工程师可能不必经常在 SGD 和 Adam 之间切换。请记住这一点,下次您训练模型时:)

为什么人工智能正在增强人类解决问题的能力

原文:https://towardsdatascience.com/why-ai-is-supercharging-mankinds-ability-to-solve-problems-3d778c941ee6?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Chinese Oracle Bones (CC-BY-SA 3.0), Isaac Newton, (Public Domain) and R.A. Fisher (Public Domain)

在这篇文章中,我想带你进行一次人类发展的时间旅行。让我们扪心自问:*人类是如何学会解决问题的?我们如何保存这些知识并与他人分享?*我们将把答案放在历史背景中。我们还会发现为什么人工智能在解决问题方面是一个非凡的新概念。

开端

生活在石器时代的尼克是怎么知道应该避开熊的?他的基因里有解决这个问题的方法。我们的本能是基因编码的行为模式。它们指导我们在危及生命和繁殖的情况下做出正确的决定。

这种解决问题的方式是自然界帮助生物解决问题的一般方式。许多物种的 DNA 中都有这种基因。人们甚至可以在植物中观察到这种行为。植物利用挥发性有机化合物来保护自己。它们要么毒死敌人,要么向其他掠食者求救。

不死是好的第一步:但是尼克怎么知道吃什么?这个问题的解决方法是不断尝试。他可以尝试不同的浆果,并希望从他的反应中了解这是否是一个好的选择。尼克可以把这些知识教给他的朋友和家人。发现的知识可以转移给其他人。

这也不是人类独有的。其他高级物种也能够将行为从一代传给下一代。我们开始不同于这个星球上任何其他生命形式的地方是的社会方面。人类学会了在复杂的社会组织中生活,并向其他个体传授知识。

口头教学

随着文明的开始,人类群居在一起。在某个时候,这些变成了村庄和城市。在文明中,有可能有专门保存知识的人——学者和牧师。

尼克生活在这样一个早期文明中,能够比他的石器时代同伴学到更多的东西。尼克需要保存多少种子才能在明年有足够的小麦?他怎么知道什么时候播种?这些问题都是用他所在社会的集体知识来回答的,这些知识都保存在口头传统中。

口头传统是长期保存信息的第一种方式。这种方法的缺点是容易出错。很难在几十年甚至几个世纪的时间里不改变信息。

书面教导

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ox scapula recording divinations by Zhēng 爭 in the reign of King Wu Ding. One of the first scriptures. (CC-BY-SA 3.0)

随着美索不达米亚、中国、印度和埃及早期高级文化的兴起,我们看到了第一部经文的兴起。从某种程度上来说,经文是保存知识的一个很好的方式,也是一个更防错的方式。

现在生活在古埃及的尼克是能够阅读的幸运儿之一。有了这种能力,尼克能够向他从来不认识的人学习。他能够与他的文明中最优秀的学者交流和学习,而不用直接与他们交谈。

通过这种方式,人类能够将如何解决问题的信息从一个人传递给另一个人。也有可能将信息添加到人类共享的知识中。

自 1450 年以来——印刷书籍

15 世纪 50 年代,约翰内斯·古腾堡发明了第一台机械活字印刷术。这项发明使得人类可以大量复制书籍。在这项发明之前,书籍需要手工抄写。在活字印刷的帮助下,人类有机会保存和分享比以往更多的书籍。

值得注意的是,书面和口头的教导大多被用来保存解决问题的方法。他们没有自己解决问题。

科学和数学的兴起

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Alhazen (965–1040), one of the first scientist who ever lived. (Public Domain)

在文艺复兴重新发明科学之前,知识是用自然语言保存的。像数学、物理和化学这样的学科引入了一种新的语言来描述世界的基础。通过使用数学,我们能够描述和理解物理定律。

这导致了一种有趣的解决问题的新方法。以前,一个人需要知道如何解决问题。随着科学的兴起,人类能够从自然法则中找到一个好的解决方案。这是一种全新的解决问题的方式。男人知道学到了事物如何运作的原理,然后从中总结出其他知识。

我们的老朋友尼克刚刚在拿破仑的炮兵部队里升职了。他负责瞄准目标。他能够预测正确的角度等。通过了解牛顿定律。

科学的发明从根本上改变了人类学习的方式,以及他们需要保存什么样的知识来解决任何问题。

算法和计算机的兴起

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Replica of Conrad Zuse’s Z1. The Z1 is the first programmable computer and was built in 1936–1938. (CC-BY-SA 3.0)

算法的发明展示了人类解决问题的新途径。算法是一种方法,不是写下特定问题的解决方案,而是写下如何解决它。

1920 年,尼克在一家街角商店的收银台工作。他应该总是分发尽可能少的硬币。他学会了一个很好的算法来做这件事。他总是把尽可能多的硬币加到剩余的总数中。这种贪婪的算法总是让出最少数量的硬币来找零。

人类更进了一步,开发了能够使用这些算法的机器。在我们的例子中,这些是自动寄存器,它们自己返回变化。

这彻底改变了人类解决问题的方式。Nick 不再需要知道算法来找到他的变化问题的最佳解决方案。他也不需要从基本定律中推导出这些知识。他只是要求一台机器来解决他的问题。它使人们不仅能分享解决方案,还能与每个人分享解决问题的能力。使用这种方法的人不一定需要有自己解决问题的能力。他只需要知道如何提问。

使用算法的一个更复杂的例子是热力学定律与有限元法的结合。这使得人类可以对机器部件进行复杂的热力学模拟。你不需要自己去解方程,而是得到问题的解。

人工智能和模式识别

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

R.A. Fisher the father of modern statistics. (Public Domain)

我们终于到达了人类发展出某种可以称之为人工智能的阶段。老实说,我不确定现代深度学习算法是否应该被称为 AI。我个人更愿意坚持使用术语模式识别。它精确地告诉我们这些算法做什么——它们自动检测数据中的模式。现代深度学习系统只能获得观察结果。他们能够自己从数据中提取知识。模式识别的本质比以前的任何算法都更具普遍性。

尼克操作收银机时,我们的机器在观察他。从这些观察中,该算法能够提取一种模式。他们知道他们需要付出多少改变,以及付出的最佳方式。

这多少有些进化了人类的知识发现能力。之前的所有阶段都需要人来解决问题。我们刚刚发现了保存和分享这些知识的非常好的方法。

我们现在进入了一个不需要自己去发现知识的世界。机器正在为我们做这些。我们需要制定问题,然后机器检测模式。

所以有人可能会问,如果 R.A .费希尔是有史以来最重要的科学家。

为什么人工智能模型非常需要人类来保持令人敬畏?

原文:https://towardsdatascience.com/why-ai-models-absolutely-need-humans-to-stay-awesome-8fce149a8bf?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by rawpixel on Unsplash

公司通常期望人工智能模型一旦实现,将保持智能并神奇地工作

没有什么比这更偏离事实了。

那么自我修复算法或自我维护的人工智能平台呢”你可能会问。好吧,没有一个接近今天的生产级实现。而且,他们还需要一段时间才能做到不需要任何人工干预。

商业领袖通常会失望地发现,机器学习(ML)模型在消耗了宝贵的时间和投资后,仍然需要人类进行日常维护。让我们来看看为什么这是今天的现实,以及公司可以如何为此进行规划。

人工智能世界中勤杂工的相关性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Todd Quackenbush on Unsplash

让我们理解为什么算法仍然需要人类,并对 ML 模型的内部进行超级简单的解释。不,你不需要任何数学。是的,这篇文章的其余部分将以英语继续。

然后,我们将根据我们在格拉米纳的工作经验,讲述模特通常会寻求人类帮助的 4 个关键场景。最后,我们将列出企业为保持其模型健全和成功而必须采取的具体步骤。

一瞥典型的 ML 模型是如何工作的

假设你是一家电信公司,想要解决客户流失的大问题。你希望对那些将在未来一个月离开你的客户发出早期预测性警告。

您煞费苦心地提取了十几个关于客户人口统计、购买、订阅计划和服务交互的数据源。当你收集这些数据几年后,这 100 多个属性会变成数百万个数据点。

数据科学家日以继夜地分析和理解所有这些数据。然后,他们建立并设计模型来预测,比方说 10 个客户中有 8 个最终会离开。当试验时,这个工作非常漂亮。你现在可以专注于留住这些客户的任务。到目前为止,一切都很好。

现在让我们暂停一下,打开这个神奇的模型来检查它的内部。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Pierrick VAN-TROOST on Unsplash

从您提供的 100 多个客户属性因素中,您会找到模型使用的 3 到 5 个关键因素。例如,这些可以是,'合同期限’,‘电影是否是流式的’,‘报告的服务投诉种类’,或者更非直观的因素,如’*付款方式’,*或’家属人数’

在研究了所有参数之后,数据科学团队可能会决定只使用其中的几个(或者只有 1 个!)对客户流失影响最大。所有其他属性都将被丢弃。

这样的模型可以概括为:“只要给我‘a’、‘b’、‘c’参数,我就告诉你‘z’事件发生的几率。”

这就是一个模型所需要的,并且它完成了所描述的工作。

不,它并不总是处理一百万个数据点。不,它不模拟客户的大脑,也不了解人类的心理。深度学习模型等先进技术也不例外。

不幸的是,人们经常假设机器对地面情况有一个扎实、全面的了解。

机器学习的整个学科是关于识别那几个因素(预测值,然后弄清楚它们与结果(想象一个公式)之间的关系(目标)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Models — Expectations vs Reality

动摇模型基础的四种情况

现在,你可以感觉到一个模型的内部是多么的脆弱,尽管它有着复杂的外表。

公平地说,我们人类也将复杂的决定建立在一组看似很小的因素上。然而,大脑有更强的能力来权衡这些因素以及它们对决策的相对重要性。模特们有大量的工作要做。

以下是四种需要模特重返课堂的场景:

1。数据结构的变化

随着应用程序升级、新工具购买和流程变更,每个组织的技术环境都在不断发展。这些会影响数据格式和供给模型的管道。这种变化需要定期维护。

2。新情报的可用性

企业通常会发现新的信息来源,如客户的在线行为、社交信息来源或其他背景情报。该模型必须重新评估,以检查这些新的投入可能是更强的预测。

3。业务动态的变化

商业策略可能会改变。客户现在可能会被你公司丰富的产品特性所吸引,而不再是价格经济。难道不应该向模型传授这种新的动态以保持相关性吗?

4。持续刷新和验证

假设上述情况都没有改变,模型仍然需要健康检查,比如说每几个月检查一次。该模型必须用新数据重新训练,以避免过时。否则,准确性可能会随着时间的推移而下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Business Scenarios that call for a retooling of Machine Learning models in production

怎样才能让模特们保持聪明?

既然我们已经确定了干预的必要性,那么公司可以通过以下方式计划保持其 ML 模型的更新和运行:

  • **变更预算:**我们已经看到,模型的衰变和翻新就像生物的生长周期一样自然。通过对模型拥有的总成本进行预算,预先留出维护费用。
  • **规划合适的人才:**虽然发现和模型开发得到了数据科学家的欢呼,但维护往往被视为一种拖累。确保数月后有合适的人才来调整和修补模型。
  • 提防 技术债 : 如软件开发中所见,模型往往背负着过去包袱的重量。虽然有些是不可避免的,但还是要实施模型流程责任来最小化其影响。
  • 创造一种 感知 ML 的文化 : 模特越来越被视为企业的数字化工作者。公司应该创造一种文化,让人们可以与机器人共存,知道他们可以在哪里相互支持。

Source: Giphy

对自动化程度更高的未来的总结

今天,相对于模型维护,模型创建和工程阶段受到了过多的关注。可以理解,这是因为数据科学行业仍处于起步阶段。

即将到来的 ML 进展可能有助于解决这些挑战。像 AutoML神经架构搜索这样的技术,虽然适合今天的模型创建,但也可以很好地适用于保持模型的适应性。

企业领导人必须采取长远的观点,为模型的维护和健康制定计划,以避免数据科学幻灭。对于那些刚接触机器学习的人来说,我希望这篇介绍澄清了一些围绕 AI 和 ML 模型世界的困惑或感知的神奇光环。

对数据科学充满热情?随意加我在LinkedIn或者Twitter

[## Ganes Kesari | LinkedIn

在其他网站上包含此 LinkedIn 个人资料

www.linkedin.com](https://www.linkedin.com/in/ganes-kesari/)

为什么人工智能不会取代放射科医生

原文:https://towardsdatascience.com/why-ai-will-not-replace-radiologists-c7736f2c7d80?source=collection_archive---------1-----------------------

2016 年末,神经网络教父杰弗里·辛顿教授表示,“很明显,我们应该停止培训放射科医生”,因为图像感知算法很快就会明显优于人类。他说,放射学家是“已经越过悬崖边缘但还没有往下看的郊狼”。

这引发了一场圣经比例的炒作浪潮,这一浪潮至今仍在持续,而且还没有打破的迹象。在我看来,尽管这股热情和乐观的浪潮成功地将放射学人工智能带到了人们想象的最前沿,并带来了大量的资金,但它也通过过度膨胀政策和决策者的期望造成了无尽的伤害,并对招聘产生了切实的连锁反应,因为失望的初级医生开始相信机器确实在取代人类,所以他们不应该申请成为放射科医生。很难想象还有比这更具破坏性的言论出现在放射科员工危机(尤其是在英国)威胁到整个医院系统稳定的时候。

你看,没有放射科医生,医院根本无法运作。据我保守估计,进入医院的 95%以上的患者都会有某种形式的医学成像,随着患者数量的增长,对成像服务的需求也在增长。不仅如此,随着成像被认为是大多数诊断、大多数治疗途径和大多数结果测量的关键,我们已经看到对医学成像和放射学家的需求几乎呈指数级增长。这与耸人听闻的标题“机器击败放射科医生”形成了鲜明的对比,这只会进一步误导公众对人工智能目前真实状态的认识,误导他们认为放射科医生的日子屈指可数。

无论你对人工智能和自动化的可能性多么着迷或深信不疑,期望它在不久的将来完全取代人类放射科医生都是不现实的。我的估计是 10 年后我们才能在 NHS 的常规实践中看到人工智能——我的观点现在是关于 T2 议会记录的问题!我知道这可能会引起争议,因为目前有太多的希望和炒作,甚至可能会让像我这样基本上将自己的职业生涯奉献给放射学人工智能的人感到惊讶,但我相信,就该职业的未来进行明智的讨论绝对至关重要,而不是只听硅谷福音传道者和媒体的话,让我们承认,他们对放射科医生实际上做什么一无所知,只是喜欢夸大他们所兜售的东西的力量。

在这篇文章中,我将试图分解为什么诊断放射科医生是安全的三个主要原因(只要他们随着技术的发展而改变),甚至讨论为什么我们需要更多的培训。

原因 1。放射科医生不只是看影像。

如果有一件事我想对任何说人工智能将取代放射科医生的人尖叫,那就是这个——放射科医生不只是看图片!所有关于放射学中人工智能的媒体炒作都只涉及图像感知,正如我下面的图表中清楚显示的那样,图像感知并不是人类放射科医生日常工作的全部。此外,上图仅描绘了一个诊断工作流程,完全忽略了面向患者的工作(超声波、荧光透视、活检、引流等)、多学科工作,如肿瘤委员会、教学和培训、审计和差异审查,这些工作也是诊断放射科医生定期进行的。据我所知,没有一个放射科医生会将诊断报告作为全职工作。(甚至还有独立的介入放射学职业,更类似于外科手术而不是图像感知,也是一个遭受劳动力危机的职业,不太可能受益于人工智能系统)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Simplified schematic of the diagnostic radiology workflow, with examples of where AI systems can be implemented. Image copyright @drhughharvey.

诊断放射学工作流程可以简化为如上所述的组成步骤:从导致决定是否成像以及执行何种类型成像的患者陈述和病史,到安排成像,以及自动化或标准化图像采集。一旦成像完成,算法将越来越多地对图像进行后处理,以便其他算法进行解释,跨纵向时间框架注册数据集,提高图像质量,分割解剖结构,并对生物标记进行检测和量化。目前,诊断推理似乎是最难啃的骨头,也是人类将保持最多存在感的领域。这将得益于智能报告软件、标准化模板和机器可读输出的引入,使数据能够服从进一步的算法训练,从而更好地为未来的决策软件提供信息。最后,可以通过语言翻译或外行翻译来半自动地传递报告,并且还可以实现以有意义的形式向其他临床医生或患者增强呈现结果。这只是开始…

虽然人工智能绝对可以在这个诊断工作流程的每一个步骤中发挥作用,甚至可以在某些步骤中取代人类(如调度),但它根本无法完全取代放射科医生。除非我们奇迹般地开发出一个完整的端到端系统,对整个诊断路径进行监督和控制。对我来说,这是一个白日梦,特别是考虑到目前最先进的人工智能系统,这些系统目前只是勉强进入临床工作流程,没有一个在任何重要意义上接近取代放射科医生的图像感知工作。

原因二。人类将永远保持最终的责任

2017 年没有一个人死于商业飞机事故。这一惊人的成功故事部分归功于高科技系统的实施,这些系统将许多通常由人类工作人员执行的安全监督任务自动化,包括但不限于防撞系统、高级近地警告系统和改进的空中交通管制系统。这在很大程度上也是由于更好的培训、对安全问题的意识以及人类飞行员和其他辅助航空工作人员的警告/担忧升级。

随着自动化在过去几十年中的发展,人类在交流安全问题方面有了更多的自由,有了更多的时间来对越来越多的有用信息做出反应,所有这些都得到行业主导的安全意识的凝聚环境的支持。然而,最重要的事实是,商业飞行员的数量零下降——事实上,恰恰相反。航空公司报告训练有素的飞行员短缺,人们越来越担心预计全球数量需要增加一倍以上。你看,随着安全性的提高,成本的降低,飞行变得更加流行,乘客数量的增加,有理由认为需要更多的飞机。

医学常被比作航空,有时不恰当,有时也不准确。然而,我觉得这两个行业有一些重叠的关键特征。首先,两者都主要集中在维护人类的安全,同时让他们从 A 点到 B 点,无论是地理上还是系统上。传统上,两者都依赖于人类的专业知识和高水平的培训来监督所涉及的过程。过去十年,两者都在自动化方面取得了巨大进步,当然,两者都将从人工智能系统中受益匪浅,人工智能系统将越来越多的认知工作量和日常任务从人类手中夺走。但最重要的是——在这两个行业中,人类绝对不会被取代*。*

原因很简单——法律责任。当人类的生命危在旦夕时,想象人工智能系统的所有者选择承担机器输出的全部法律责任几乎是不可思议的。没有一家航空公司能够完全在没有飞行员的情况下驾驶商业飞机,如果真的如此,我敢打赌,保险金额将会如此之大,以至于对于一般的商业飞行来说可能不值得(然而,我承认可能会在私人或军事航班上看到)。我们可能会看到商业航班的“无人机”驾驶——飞行员端端正正地坐在陆地上,但在飞机飞越全球时远程监控飞机上发生的一切。事实上,远程驾驶的实验已经在计划中,公众对此反应不一。

在医学领域,目前简单地将人工智能系统限制为提供“决策支持”并将所有最终“决策”留给合格的人类要容易得多。没有一个现有的人工智能系统已经获得医疗监管机构的批准,还没有人声称自己是“决策者”,我真诚地怀疑是否会有人这样做,除非所做的决定是次要的,不太可能是致命的。这是因为人工智能系统不可能 100%准确地解决医疗诊断问题,因为,正如我之前讨论的那样,医学在某种程度上仍然是一门艺术,永远无法完全量化或解决。总会有一个离群值,总会有一个利基案例,总会有混杂因素。仅仅因为这个原因,我们总是需要某种形式的人为监督。

原因三。生产率的提高将推动需求

“如果你建造了它,他们就会来”是经常被错误引用的来自电影《梦想的领域》(或韦恩的《世界 2》,取决于你这一代)的说法。如果我们建立系统,大规模改善放射学工作流程和诊断周转,我们几乎肯定会看到医疗成像需求的大规模增长。

我亲眼看到了这一点——当我还是一名实习生时,我们部门开始了一项新举措,试图减少超声检查的等待时间。我们开放了一个晚上的名单,有三四个额外的位置,供急诊病人或已经等了三周以上的病人使用。起初,这个工作进行得很顺利,每天都有一个受训者被分配到这个额外的列表中。毕竟最多只花了一个小时。然而,很快,我们开始注意到请求进来说“请给额外的清单”,在我们知道之前,我们不得不开始打开额外的额外清单,额外的额外的额外清单,这反过来成为新的常态。我在这里的观点是,在放射学中,如果你给医生一个扫描病人的位置,他们会找到一个病人来填补这个位置!

随着人工智能成为放射学的新常态,随着扫描时间和等候名单的减少,以及随着放射学报告变得更加准确和有用,我们将继续看到对我们服务的需求增加。再加上不断增长的人口年龄和复杂性,对我来说,100%的需求增长是不可避免的,这可能是我仍然看好放射学作为职业选择的主要原因。

我们将需要培训更多的放射科医生,以应对要求成像和产生数据的浪潮,甚至可以考虑在病理学和基因组学等其他数据产生专业进行双重或三重认证。在遥远的未来,“放射科医生”甚至可能不被称为放射科医生——至少这是我去年在 RSNA 听到的一个理论,但这并不能否认这样一个事实,即某人人类仍将控制数据流。

那时放射科医生会做什么?

未来几十年的放射科医生将越来越多地从过去的世俗任务中解放出来,并大量使用华丽的预填充报告进行验证,以及时髦的分析工具来处理大量迷人的“放射”数据。这不太像《少数派报告》,但如果你想把自己想象成汤姆·克鲁斯(Tom Cruise ),对着一个未来的可延展实时数据屏幕滑动手指,那就来吧。

放射科人工智能的发展方向是放射科医生的数字化增强,他们的工作将变成监控和评估机器输出,而不是像现在一样手动检查每一个可能的平凡发现。就我个人而言,我张开双臂欢迎这一点——我已经浪费了太多的工作时间,在多次 CT 扫描中测量淋巴结,或者数椎骨来报告转移的水平。我更愿意检查系统是否测量了正确的淋巴结,识别了所有需要的椎骨,并在结果上签字。放射科医生将从使用原始工具的“lumpologists”转变为处理更加复杂的量化输出的“data wranglers”。

放射科医生也将变得比以往任何时候都更“医生”,生产力的提高使他们有更多的时间与临床医生和患者交流结果。我当然可以设想放射科医生作为数据交流者,直接与查房的临床团队和肿瘤委员会交流,甚至直接向患者提供信息。目前,这个行业只是因为过多地躲在黑暗的房间里而受到伤害,如果有什么不同的话,人工智能有能力让放射科医生回到光明中来。这才是真正的力量所在。

如果你和我一样对放射学人工智能的未来感到兴奋,并想讨论这些想法,请保持联系。我在推特上 @drhughharvey

如果你喜欢这篇文章,点击推荐并分享它会很有帮助。

关于作者:

Harvey 博士是一名委员会认证的放射科医生和临床学者,在英国国民医疗服务体系和欧洲领先的癌症研究机构 ICR 接受过培训,并两次获得年度科学作家奖。他曾在 Babylon Health 工作,领导监管事务团队,在人工智能支持的分诊服务中获得了世界第一的 CE 标记,现在是顾问放射科医生,皇家放射学家学会信息学委员会成员,以及人工智能初创公司的顾问,包括 Algomedica 和 Kheiron Medical。

为什么 Alphabet 的 AI 无法识别仇恨言论

原文:https://towardsdatascience.com/why-alphabets-ai-cannot-fix-hate-speech-8d352892cdba?source=collection_archive---------8-----------------------

最近,Alphabet(谷歌的母公司)一直在开发一种基于人工智能的解决方案,以检测仇恨言论。这个解决方案(被称为 Perspective )正在作为一种打击社区中的在线钓鱼和恶意攻击的方式进行营销,并且已经开放给公众在他们自己的网站上使用。

然而,尽管这个系统很有趣,但它有一个重大缺陷:

它真的不起作用。事实上,尽管谷歌和它的合作伙伴都在谈论它的品质,但这个系统实际上似乎无法决定一篇帖子是否真的是一次可恶的人身攻击。例如,正如《技术评论》的大卫·奥尔巴奇发现的,像这样的短语:

  1. “垃圾车”
  2. “你不是种族主义者”
  3. “很少有穆斯林是恐怖分子的威胁”
  4. 和“我他妈的爱你,伙计。生日快乐"

被标记为有毒。此外,后者实际上被标记为比“唐纳德·特朗普是一个俗气的小丑”和“现在是种族战争”等明显的侮辱更具毒性。当你试图阻止仇恨而不仅仅是人们在互联网上骂人时,这不是很好。

那么为什么会这样呢?谷歌怎么会犯这么大的错误?

我认为这可以归结为人类和机器都会犯的一个简单的错误。那个错误?

假设一个论点的措辞方式足以告诉你它是一种侮辱还是一种无害的信息。或者换句话说,假设一个论点的有效性与它的文明程度有关。

然而,事实并非如此。一个巨魔非常有礼貌,但仍然让许多人感到不安,这是完全合理的,就像有意义的批评以极其简洁的咆哮的形式出现一样。

但是机器很难检测到。对于像这样的系统来说,真正理解内容和它被使用的上下文是非常困难的,可能超出了当今许多机器学习系统的能力。

因此,Alphabet 和合作伙伴基本上回到了情绪分析,并认为这对于检测在线恶霸和巨魔来说“足够好了”。显然不是。

尽管如此,如果你需要一些例子呢?这是 YouTube 上游戏视频世界中的两个。

第一种显然是建设性的批评,措辞非常礼貌,非常正式。这是马克·布朗“老板钥匙”系列的一部分,显然会被每个人,无论是人还是机器,视为“建设性的批评”:

据推测,这里提到的人工智能会意识到它不是“有毒”的,并让它去吧。很公平。

另一方面,虽然有一些很好的关于游戏或游戏事件的建设性视频,但它们的设置并不那么礼貌。比如,典型的愤怒的电子游戏书呆子评论:

他不文明,他的视频充满了脏话,但这是他性格的一部分。这是一种行为,视频的实际内容通常是对游戏或相关配件的有意义的批评。

但我怀疑这个人工智能不会明白。它会看到所有的脏话和侮辱,并立即使用它的“仇恨言论”或“trolling”或“非建设性”。同样的事情可能会发生在大礼帽游戏人和他关于 WatchMojo 肮脏行为的视频上:

这是一个关于一家窃取他人作品的公司的刻薄但有建设性的视频。对于一个正常人来说,这对于像 YouTube、脸书或 Twitter 这样的频道来说是再好不过了。

但对于这种人工智能,我怀疑它会被标记为“有毒”。因为人工智能无法知道它的好内容,只知道视频主持人使用的语气“不礼貌”。

信息发送的方式并不是人工智能出错的唯一原因。它也无法确定某人是种族主义者/性别主义者/什么的,以及某人保护某人(或他们自己)免受这样的攻击。

例如,回到脸书上发布的列表。许多被标记的词并不是对某人的攻击,但是试图说像新纳粹攻击这样的话是不好的。“我认为你是种族主义者”怎么会有毒呢?

它不是。但是机器人系统不(也不能)在乎。这就像学校的零容忍政策。在那里,他们不是真正调查欺凌行为或弄清楚谁在攻击谁,而是立即暂停或驱逐任何被发现“打架”的人,不管这是否是自卫。

所以,是的,这个人工智能不起作用,它不起作用是因为它既不能理解消极语气和非建设性论点之间的区别,也不能理解人身攻击和某人防御攻击之间的区别。

先别用,以现在的形式基本上比没用还不如。

为什么我放弃了基于 Tensorflow 队列的数据输入管道

原文:https://towardsdatascience.com/why-am-i-chucking-the-tensorflow-queue-based-data-input-pipeline-5b4427735a0d?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Post 假设对 Tensorflow 有一些基本的了解。主要是我在抱怨输入管道的问题😆

我最近在使用基于 Tensorflow 数据输入管道的 队列时遇到了困难。没什么大不了的,但从设计的角度来看,这似乎不太对。Tensorflow 团队确实意识到了其旧设计的问题,并提出了一个问题( Issue #7951 )以进行彻底的设计更改(事实上,问题描述中说的是“从头开始”)。当我开始学习/使用输入管道时,新的设计还没有出现(尽管这个问题已经提出来了)。).鉴于我已经在学习和实验方面投入了一些时间,我想继续使用旧的设计。

我决定用在我的 TrafficSignSense (嗯,现在报废了)项目中。我创建了一个抽象,因为基于队列的管道本身非常分散。我决定将它放在“创建-启动-清理”抽象中(供参考):

回到这个问题,train 程序看起来像这样:

当我需要定期验证我的模型时,问题就出现了。

eval_list = [train_optimizer, merged_summary, model_loss,              train_accuracy, valid_accuracy]        
for i in range(NUM_EPOCHS):            
    _, summary, loss, accuracy_t, accuracy_v = sess.run(eval_list)                       
    train_writer.add_summary(summary)

当我们试图评估valid_accuracy时,毫不奇怪你得到的是错误的结果。它基本上是随机选择权重。请注意,我正在重新创建模型(model_v = model.CTrafficModel(batch_valid_input, NUM_CLASSES),这正是主要问题所在。我必须为验证数据重新创建模型,因为这是我使用输入管道输入数据的唯一方式。我“也许”可以用检查站来解决这个问题。但是,这似乎不对。我认为检查点是训练验证过程的输出,在推理时间或训练恢复的情况下使用。训练和验证是紧密耦合的,我不喜欢为了验证而每隔几个迭代就抛弃权重并重新加载的想法。我也不喜欢仅仅因为数据改变就重新创建模型的想法(假设模型保持不变)。

以上只是输入管道的旧设计的几个问题。归档的问题描述了许多其他相关的问题。我最终决定永远放弃它。

那么,接下来呢?

作为替代,Tensorflow 拥有DatasetIteratorAPI,可以轻松创建输入管道(他们是这么说的)。我还没看完。Tensorflow 也有这些EstimatorExperiment高级抽象。我打算和Dataset-Iterator一起使用。希望他们让手头的任务变得容易!!!

为什么以及如何交叉验证模型?

原文:https://towardsdatascience.com/why-and-how-to-cross-validate-a-model-d6424b45261f?source=collection_archive---------1-----------------------

交叉验证技术的重要性和类型…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一旦我们完成了对模型的训练,我们就不能假设它会在以前没有见过的数据上很好地工作。换句话说,我们不能确定模型在生产环境中会有期望的准确性和变化。我们需要对我们的模型做出的预测的准确性有某种保证。为此,我们需要验证我们的模型。确定量化变量之间假设关系的数值结果是否可接受作为数据描述的过程称为验证…

为了评估任何机器学习模型的性能,我们需要在一些看不见的数据上测试它。基于模型对未知数据的表现,我们可以说我们的模型是否欠拟合/过拟合/良好概括。交叉验证(CV)是一种用于测试机器学习模型有效性的技术,它也是一种用于在数据有限的情况下评估模型的重新采样过程。为了执行 CV,我们需要保留未用于训练模型的样本/部分数据,稍后使用该样本进行测试/验证。

下面是一些常用于 CV 的技巧。

  1. 列车 _ 测试分流方法

在这种方法中,我们将完整的数据随机分为训练集和测试集。然后对训练集执行模型训练,并使用测试集进行验证,理想情况下将数据分成 70:30 或 80:20。使用这种方法,如果我们的数据有限,就有可能出现较高的偏差,因为我们会错过一些没有用于训练的数据信息。如果我们的数据很大,并且我们的测试样本和训练样本具有相同的分布,那么这种方法是可以接受的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以使用切片将数据手动分割成训练集和测试集,或者我们可以使用 scikit-learn 方法的 train_test_split 来完成这项任务。完整的文档可在这里获得。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2。k 重交叉验证:

K-Folds 技术是一种流行且易于理解的技术,与其他方法相比,它通常会产生一个偏差较小的模型。因为它确保了原始数据集中的每个观察值都有机会出现在训练集和测试集中。如果我们的输入数据有限,这是最好的方法之一。该方法遵循以下步骤。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image Sourced From Wikipedia

  1. 将整个数据随机分成 K 份(K 的值不应该太小或太高,理想情况下我们根据数据大小选择 5 到 10)。K 值越高,模型偏差越小(但较大的方差可能会导致过度拟合),而 K 值越低,则类似于我们之前看到的训练测试分割方法。
  2. 然后使用 K-1 (K 减 1)个折叠来拟合模型,并使用剩余的第 K 个折叠来验证模型。记下分数/错误。
  3. 重复这个过程,直到每个 K 倍作为测试集。然后取你记录分数的平均值。这将是该模型的性能指标。

我们可以手动编写一个逻辑来执行此操作,或者我们可以使用 scikit_learn 库中内置的 cross_val_score (返回每个测试折叠的分数)/ corss_val_predict (返回输入数据集中每个观察值的预测分数,当它是测试集的一部分时)。

如果 esitmator(模型)是一个分类器,且’ y ‘(目标变量)是二进制/多进制,则默认使用’ StratifiedKfold ‘技术。在所有其他情况下,默认使用’ K_Fold '技术来分割和训练模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

类似于 K_Fold 交叉验证器,StratifiedKfold 返回分层的折叠,即在进行折叠时,它保持每个折叠中每个类的样本百分比。因此该模型为训练/测试折叠获得均匀分布的数据。

我们可以使用 K-Fold 中的折叠作为迭代器,并在 for 循环中使用它来对 pandas 数据帧进行训练。下面是例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完整的代码可在这里获得。

就这些了,非常感谢你的阅读。如果有任何更正/建议,请告诉我。请吧👏如果你喜欢邮报。提前感谢…😉

为什么以及如何摆脱维数灾难(乳腺癌数据集可视化)

原文:https://towardsdatascience.com/why-and-how-to-get-rid-of-the-curse-of-dimensionality-right-with-breast-cancer-dataset-7d528fb5f6c0?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这篇文章的主题已经在我的脑海中漂浮了很长一段时间,但是正如我的博客活动向我们展示的那样,我在几个多月的时间里都找不到灵感来将我所知道的信息转换成结构化的文字。我希望自从我的上一篇文章以来,我写博客的技巧没有变得很差,并且你会喜欢这里描述的主题;一如既往,我们欢迎任何类型的反馈。

非正式定义和直觉

维数灾难和降维本身是很少被谈论的话题;然而,对于几乎每个数据科学家(无论他/她是从事机器学习还是自然语言处理)来说,总有一天,专家会直面这个问题。

给维数灾难下一个有效的定义是相当困难的,但是简单地说,它是一个

算法的低性能及其与具有大量维度/特征的数据帧相关联的高复杂性,这经常使得目标函数非常复杂,并且只要数据集经常位于较低维度的流形上,就可能导致模型过拟合。

只要大多数机器学习/自然语言处理算法是基于处理一个数字数据集(来自现实生活或在进行一些数据预处理后生成),那么很常见的情况是每个观察值都是一个实值向量,大小为 N×1 ,其中 N 可能是 200、500 或 10000 以上。然而,正如前面提到的,许多 ML/NLP 方法不能以适当的方式处理给定数量的特征(尤其是在处理经典机器学习模型时)。

在现实生活中的一些情况下,大量的变量会导致模型的准确性和召回率大幅下降;适当减小数据集大小有助于实现模型泛化和良好的交叉验证结果。

选择合适的降维算法的问题高度依赖于我们正在处理的数据集的类型和我们准备数据的目标函数;例如,在一些情况下,保持低维空间内的距离是重要的,而在其他情况下,观测值的条件概率分布获得了在高维特征空间中编码的绝大多数信息。

手动特征选择

如果数据科学家非常熟悉数据集及其数字特征的含义,那么就很容易确定我们是否需要某些变量。例如,当预测某个地区的温度时,有关于湿度、云量、日出时间等的数据。只要目标变量不依赖于给定区域的人口数据和交通数据,这些数据就不充分。然而,只有在数据集易于解释并且变量之间的依赖关系易于确定的情况下,才可能执行这种方法。

去除无用变量的另一个好主意是查看它们的相关性(皮尔逊相关系数)并去除两个特征中的一个,这两个特征高度相关,只要它们都包含相似的信息。

人口的皮尔逊相关系数计算如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个公式的分子是两个变量的协方差,分母是它们的标准差的乘积。

主成分分析和奇异值分解(P 主成分分析

我认为主成分分析是机器学习中最流行的降维算法;一些数据科学家将它作为降维方法论的同义词(当然这是错误的),因为它在许多论文、研究等中被广泛使用。

主成分分析 PCA 背后的思想是矩阵分解方法:我们将输入数据集表示为两个矩阵 TP 转置的乘积(还添加了残差和均值向量,这将在后面观察到)。

将数据集投影到矩阵 T 中等同于为每一行分配一个标量;它的列表示主要的对象模式(这些列也称为“得分向量”)。将数据集投影到矩阵*P’中等同于为每一列分配一个标量;它的行代表主导变量模式(这些行也被称为“加载向量”)。 T 中的矢量和P’*中的矢量正交。

事实上,PCA 可以用最小二乘模型来表示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ε代表残差,它是原始坐标和投影之间的导数;平均向量可以包括在模型公式中,或者用数学方法确定。

这是乳腺癌数据集(分类任务),数据被投影到二维空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

奇异值分解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

矩阵 UT 相同,但对于归一化向量,如前所述, D 为对角矩阵,以协方差矩阵*XX’*的特征值平方根为其值,*V’P’*完全相同。

SVD 也是其他流行算法的基础,例如,在自然语言处理任务方面的潜在语义索引。矩阵 D 的值通常被称为分量的“解释方差”;它们代表了每个变量的重要性。

多维标度(映射感知观察的流形)

多维缩放算法背后的直觉是通过计算对象之间的测地线(局部最短)距离并将这些路径映射到缩减的特征空间中的直线来保持对象的内在度量结构。

MDS 的主要组成部分是 isomap 过程,它以一种非常简单的方式进行表述:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Isomap 假设观察空间中的点之间的距离仅是低维空间中局部距离的精确度量,并且必须对流形上的路径进行积分以获得全局距离。这个非线性函数的两个主要特性是:

  • 本质上相似的观察值应该映射到特征空间中的附近点;
  • 流形中的测地线路径应该映射到所获得的特征空间中的直线上。

isomap 程序由 3 个关键步骤组成:

  1. 流形的离散表示。我们从数据集中随机选择 r 个点作为拓扑保持网络的节点,并且仅当整个数据集中存在至少一个观察值,并且其两个最近的节点是这些前面提到的节点时,才连接这些节点。创建的图形 G 清楚地考虑了流形的拓扑结构;
  2. 流形距离度量。我们应该给图 G 中的每个链接分配一个权重,这个权重等于数据点之间的欧几里德距离:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

路径 G 的长度等于沿着该路径的链接权重的总和。下一步,我们将从欧几里德距离转移到测地线距离,公式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

之后,对于每个节点 k,我们将测地线距离设置为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用动态编程算法进行计算;

3.等距欧氏嵌入。有序多维标度(“非度量 MDS”)用于找到对应于高维观察值的用 Y 表示的 k 维特征向量的配置,使得图形距离尽可能地保持不变。序数 MDS 对数据集中的噪声和异常值也不太敏感:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们正在最小化关于欧几里德图距离的成本函数;带有帽子符号的图距离表示应用了一些单调变换的距离。总的来说,多维标度的主要思想是通过将测地线距离变成低维空间中的直线来尽可能地保持和简化高维空间中的现有距离,并且仍然获得结果流形中的数据点的正确位置,这些数据点彼此关联良好。

相同的数据集被投影到 2 维中:很明显,现在聚类更密集,数据的趋势清晰可见,这可以解释为线性回归线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

局部线性嵌入(通过局部线性嵌入进行非线性降维

先前描述的降维技术基于处理观测值之间的距离,并在低维空间中适当地保存它们;局部线性嵌入思想是基于这样一个事实,即流形的局部线性片上的每个数据点及其邻域都位于其上或与之接近。这些面片以线性系数为特征,这些系数根据相邻数据点重建每个数据点。

重建误差通过以下方式测量:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重建有索引j;我们最小化的成本函数有两个主要约束:首先,我们只从它的邻居重建每个数据点。其次,我们的权重矩阵的行总和为 1。我们需要这些约束来使权重获得必要的对称性。通过最小化最小二乘问题找到解决该函数的最佳权重;事实上,最佳权重是第 j 个数据点对第 i 次重建的贡献。

LLE 背后的核心概念是,在高维空间中重建数据点的相同权重也应该在低维空间中重建其嵌入的流形坐标。重建权重反映了数据固有的几何属性,这些属性对于诸如平移、旋转、重新缩放等变换是不变的。

全局内部坐标用高维邻域保持映射表示,代价函数如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里,我们固定了之前计算的权重,并优化了嵌入坐标 Y 的成本函数。

正如我们在图上看到的,数据点之间的距离和相对观察位置没有很好地保留,但样本之间的邻域显示得很清楚。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SNE 和 t-SNE ( 使用 t-SNE 可视化数据)

随机邻居嵌入和 t 分布随机邻居嵌入是本文描述的最后两种方法,但只要它们使用表示相似性的概率信息作为模型的核心,它们在降维任务方面仍然非常重要。SNE 和 t-SNE 背后的主要思想是利用观察相似性将高维数据点转换为低维数据点,并很好地捕捉高维数据的大部分局部结构。

随机邻居嵌入
如前所述,在将观测值嵌入低维空间时,保持邻居身份是我们试图解决的主要任务。

对于每个对象 i 和每个潜在邻居 j 来说,如果邻居在以 x 为中心的高斯分布下与其概率密度成比例地被挑选,则 i 将挑选 j 作为邻居的不对称概率被定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

两个高维点之间的欧几里德距离(相似性)通过使用概率分布方差以如下方式来表示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

适马平方是以索引为 i 的数据点 x 为中心的高斯方差。

相似性具有以下属性:

  • k 是有效邻居数(困惑数);
  • sigma 平方的值使得邻居分布的熵等于 log k

i 选取点 j 在低维空间中的诱导困惑度不使用概率密度定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

只要我们想尽可能好地模拟这两种分布,我们正在构建的成本函数是使用梯度下降法通过所有数据点上的 Kullback-Leibler 散度之和得出的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为 Kullback-Leibler 散度是不对称的,所以低维映射中成对距离中不同类型的误差的权重不同。先前定义的成本函数的最小化导致将观察值嵌入到流形中,该流形具有在低维空间中计算的条件概率,该条件概率等于或几乎等于在高维空间中计算的条件概率,使得两个概率分布之间的失配最小化。

t 分布随机邻居嵌入 t 分布随机邻居嵌入与简单随机邻居嵌入的唯一区别在于,我们使用对称概率而不是不对称条件概率来计算高维空间中的相似性。此外,在低维空间中使用学生 t 分布来缓解 SNE 的拥挤问题和优化问题。

当两个高维数据点之间的距离很大时,对称 SNE 有助于计算成对的相似性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

拥挤问题被公式化为“可用于容纳中等距离的数据点的二维图的区域与可用于容纳附近的数据点的区域相比不够大”的事实。结果,数据点之间的距离没有被充分保留,并且由于到低维空间的投影的高方差,自然数据集聚类没有被正确形成。为了解决拥挤问题,我们使用 Student t 分布,它使得对于相距较远的地图点,地图的联合概率表示对于地图比例的变化(几乎)不变:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在执行 t-SNE 后,低维空间中的球形数据表示是相当常见的结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

本文没有提到所描述的方法的优缺点、它们适用的方法、最常见的使用案例等。只要这个主题高度依赖于输入数据、其中存在的噪声、维数等。实际上,由于与单词嵌入模型相同的原因,降维技术不能被充分地测量:它们的有效性高度依赖于随后应用的算法和传递到方法中的数据类型。

表示的可视化提供了对降维技术保存的信息类型的很好的洞察,例如,它是否很好地反映了邻居关系、趋势或聚类位置。

为什么以及如何使用大数据的熊猫

原文:https://towardsdatascience.com/why-and-how-to-use-pandas-with-large-data-9594dda2ea4c?source=collection_archive---------0-----------------------

但不是大数据…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pandas 已经成为在 Python 编程语言中用于数据争论和分析的最受欢迎和喜爱的数据科学工具之一。

在现实世界中,数据不可避免地是杂乱的。在清理、转换、操作和分析数据方面,熊猫真的是游戏规则的改变者。简单来说,熊猫帮助收拾残局。

我的熊猫故事

刚开始学 Python 的时候,很自然的就接触到了 NumPy (数值 Python)。它是使用 Python 进行科学计算的基础包,为 Python 中的 n 数组和矩阵运算提供了丰富的有用特性。

此外,该库提供了对 NumPy 数组类型的数学运算的向量化,这极大地优化了计算,提高了性能和执行速度。

NumPy 很酷。

但是仍然存在对更高层次的数据分析工具的潜在需求。这就是熊猫来拯救我的地方。

从根本上说,Pandas 的功能是建立在 NumPy 之上的,两个库都属于 SciPy 栈。这意味着 Pandas 在很大程度上依赖 NumPy 数组来实现它的操作和计算对象——但是使用起来更方便。

实际上,NumPy 和 Pandas 仍然可以互换使用。高水平的功能和它的方便使用决定了我对熊猫的偏爱。

为什么用熊猫大数据——而不是大数据?

大数据和大数据有着鲜明的区别。随着围绕大数据的炒作,我们很容易把一切都当成“大数据”而只是随波逐流。

丹·艾瑞里教授的一个著名笑话:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source)

“大”和“大”这两个词本身是“相对的”,以我的拙见,大数据是指小于 100GB 的数据集。

Pandas 处理小数据(通常从 100MB 到 1GB)非常有效,性能很少成为问题。

然而,如果你在数据科学或大数据领域,当你处理大型数据集时,你迟早会遇到使用 Pandas 时的一个常见问题——低性能和长运行时间最终导致内存使用不足。

事实上,由于其算法和本地内存限制,Pandas 在大数据方面有自己的局限性。因此,大数据通常存储在计算集群中,以获得更高的可扩展性和容错能力。并且经常可以通过大数据生态系统( AWS EC2Hadoop 等)进行访问。)使用火花许多其他工具

最后,在本地机器上使用 Pandas 处理大量数据的方法之一(有一定的内存限制)是减少数据的内存使用。

数据大的熊猫怎么用?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source)

那么问题来了:如何使用熊猫减少数据的内存占用?

以下解释将基于我对一个匿名大型数据集(40–50gb)的体验,该数据集要求我减少内存使用以适应本地内存进行分析(甚至在将数据集读取到数据帧之前)。

1.以区块大小读取 CSV 文件数据

老实说,当我遇到一个错误,我不能从 CSV 文件中读取数据时,我很困惑,只意识到我的本地机器的内存对于 16GB 的 RAM 的数据来说太小了。

好消息来了,熊猫的美:我意识到 pandas.read_csv 有一个参数叫 chunksize

该参数实际上是指为了适应本地内存,在任何时候都要读入数据帧的行数。由于数据包含 7000 多万行,所以每次将大数据集分成许多小块时,我都将 chunksize 指定为 100 万行。

Read CSV file data in chunksize

上面的操作产生了用于迭代的 TextFileReader 对象。严格来说, df_chunk 不是数据帧,而是下一步进一步操作的对象。

一旦我准备好了对象,基本的工作流程就是对每个数据块执行操作,最后将它们连接起来形成一个数据帧(如下所示)。通过迭代每个块,在将每个块附加到一个列表之前,我使用函数 chunk_preprocessing 执行数据过滤/预处理。最后,我将这个列表连接成一个最终的数据帧,以适合本地内存。

Workflow to perform operation on each chunk

2.过滤掉不重要的列以节省内存

太好了。在这个阶段,我已经有了一个数据框架来做所有需要的分析。

为了节省更多的时间用于数据操作和计算,我进一步过滤掉了一些不重要的列,以节省更多的内存。

Filter out unimportant columns

3.更改列的数据类型

将 pandas 列数据转换成不同类型的最简单方法是使用astype().

我可以说,在 Pandas 中更改数据类型对节省内存非常有帮助,特别是如果您有大量数据要进行密集的分析或计算(例如,将数据输入到您的机器学习模型中进行训练)。

通过减少存储数据所需的位数,我将数据占用的总内存减少了 50%!

试试看。我相信您也会发现这很有用!让我知道进展如何。😊

Change data types to save memory

最后的想法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Source)

这就是了。感谢您的阅读。

我希望分享我使用 Pandas 处理大数据的经验可以帮助您探索 Pandas 中的另一个有用特性,通过减少内存使用并最终提高计算效率来处理大数据。

通常情况下,熊猫拥有我们进行数据辩论和分析所需的的大部分特征。我强烈建议你去看看,因为下次它们会派上用场。

此外,如果你真的想学习如何用 Python 进行数据分析,那么这本书就是为你准备的—Python for Data Analysis。该书提供了使用 Pandas 在 Python 中操作、处理、清理和处理数据集的完整说明,为在分析中有效使用 Pandas 提供了全面的分步指南。

希望这有所帮助!

一如既往,如果您有任何问题或意见,请随时在下面留下您的反馈,或者您可以随时通过 LinkedIn 联系我。在那之前,下一篇文章再见!😄

关于作者

Admond Lee 目前是东南亚排名第一的商业银行 API 平台Staq**—**的联合创始人/首席技术官。

想要获得免费的每周数据科学和创业见解吗?

加入 Admond 的电子邮件简讯——Hustle Hub,每周他都会在那里分享可行的数据科学职业技巧、错误&以及从创建他的初创公司 Staq 中学到的东西。

你可以在 LinkedInMediumTwitter脸书上和他联系。

[## 阿德蒙德·李

让每个人都能接触到数据科学。Admond 正在通过先进的社交分析和机器学习,利用可操作的见解帮助公司和数字营销机构实现营销投资回报。

www.admondlee.com](https://www.admondlee.com/)

机器学习的目的和内容是什么?

原文:https://towardsdatascience.com/why-and-what-of-machine-learning-c0eda6ebe5b0?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“three person pointing the silver laptop computer” by John Schnobrich on Unsplash

随着机器变得越来越智能,我们周围的世界正在快速变化。机器从我们多年来收集的数据和我们每天产生的数据中学习。机器学习并不是一个新概念,实际上是亚瑟·塞缪尔在 1959 年创造的。今天,我们看到几乎每个人都在追求采用机器学习的方式。这主要是因为,今天,我们有必要的资源,可以用来得出有意义的结论的大量数据,以及从数据中学习和做出预测的处理能力。

机器学习不仅仅是一个时髦词,而是一个全新的知识维度。谁能想到机器可以获得无人知晓的洞察力。你在亚马逊、Flipkart 等热门电子商务网站上获得的推荐。正在使用机器学习来推荐你可能会购买的商品。像谷歌助理、Siri 和 Alexa 这样的数字助理都在使用机器学习向你展示你可能会有的问题的无限组合的答案。特斯拉已经开发出自动电动汽车,它具有基于机器学习的自动驾驶仪,可以在没有人类干预的情况下在道路上行驶。

随着机器学习被认为是几乎所有领域的重要突破,理解它到底是什么变得很重要。但是首先,让我们理解为什么这样一个概念对任何一个有垃圾邮件和非垃圾邮件的例子的人都有用。

为什么是机器学习?

每当您通过 Gmail 或 Outlook 等电子邮件客户端访问您的电子邮件时,您一定会注意到有些电子邮件在您的收件箱中,而其他电子邮件则被移至垃圾邮件文件夹,而您没有明确告知客户端或电子邮件服务提供商某些电子邮件对您来说是垃圾邮件。这不是一个奇迹,而是一个机器学习应用。这些系统在大量以前被识别为垃圾邮件的电子邮件上进行训练。这种训练使他们能够在收到任何新邮件时对其进行区分和分类。

这个应用程序看起来很简单,但是想象一下如果每个用户每天都要做这样的分类会是什么情况;就是这么厉害。假设没有这样的系统,每天你的收件箱都塞满了不相关的邮件。你必须每天花 15-20 分钟整理相关的邮件,删除不相关的。每天重复同样的任务真的很乏味而且浪费时间。这时,一台机器可以介入,创造一个不同的世界。这会节省你更多的时间和精力。

同样的原则被复制到企业中,使用每天生成的大量数据来解决现实生活中的问题。事实上,每天我们都会产生大约 250 亿字节的数据。企业可以利用所有这些潜力巨大的数据,并从中提取有意义的信息。

定义

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“person drawing black robot with stars on paper” by rawpixel on Unsplash

没有一个单一的定义可以完全解释什么是机器学习。所以,下面是一个解释其症结的定义。

机器学习可以定义为机器从数据中学习的能力,这种能力使得它们能够做出准确的预测(在一定程度上),而无需程序员实际为机器编程新的数据点。

让我们把这个定义分解一下,以便更好地理解它。它指出,给定一个数据集(大量数据通常被证明是更好的),我们可以使用一种算法来学习数据,并尝试识别其中的任何模式。例如,在垃圾邮件/火腿的例子中,算法将试图理解在被认为是垃圾邮件或火腿的电子邮件中遵循什么词或风格。一旦算法理解了这些模式,它就可以预测新的数据点(在这个例子中,新的电子邮件)是否可能是垃圾邮件或具有一定准确性的火腿。

机器学习是一个多学科领域,它包括计算机科学、统计学和数学的并列,这些学科一起使用数据来解决问题。有几种机器学习算法,如支持向量机、随机森林、K-Means 聚类算法和许多其他在全球范围内使用的算法。

机器学习的分类

机器学习分为三种不同的类型,即有监督的机器学习、无监督的机器学习和强化学习。

S **监督机器学习:**当你有一个数据集,其中你知道可以影响你的预测以及输出的各种因素,我们使用监督机器学习。这里,对于我们放入算法的每个输入 X ,我们得到一个输出 y 。输入的真实输出值已经为我们所知。如果预测是错误的,就进行修正,改进我们的模型并提高其准确性。这个过程一直持续到可以从数据中检索出最大限度的信息。这些算法旨在尽可能精确地将输入映射到相应的输出。例子包括逻辑回归,朴素贝叶斯等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“aerial photography of rural” by Breno Assis on Unsplash

预测房价: 假设我们有一个包含面积、位置、房间和销售价格等特征的房屋数据集。我们可以使用有监督的机器学习来训练一种算法,以找到特征中的模式以及它们与房价的关系。因此,每当我们给出一栋新房子的详细信息时,我们的算法就能很好地估计出它的售价。

U **无监督机器学习:**有时我们会遇到这样的问题,我们有数据,但不知道输出会是什么样子。这些数据包含机器学习可以理解和揭示的隐藏信息,但由于缺乏正确的标签,监督学习无法应用。在这种情况下,无监督的机器学习可以证明是有帮助的。无监督学习将对数据进行分类,并根据数据中存在的相似性产生类别。常见的示例算法包括主成分分析(PCA)、K 均值聚类等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“person holding remote pointing at TV” by freestocks.org on Unsplash

推荐系统: 假设我们有一个电影的数据集和几个用户。一旦用户开始看电影,他们的喜好就会被记录下来。即使数据集中先前没有类,现在也可以使用无监督的机器学习将用户分类到组(集群)中,其中给定组中的用户共享共同的电影兴趣。现在,考虑到用户 A 和用户 B 属于同一个组,如果用户 A 看了一部电影并且喜欢它,那么同样的电影也可以推荐给用户 B

R**ein enforced Learning:**在这类机器学习中,机器学习并试图适应给定环境中的理想行为。该算法了解环境,并采取可用的行动,采取导致奖励的行动。该算法使用基于奖励的系统来提高其性能。这种反复试验的方法有助于算法随着时间的推移逐渐改进,并自行训练。例子包括 Q 学习,蒙特卡罗等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“person playing board game” by Damian Patkowski on Unsplash

游戏: 强化学习在训练能学会玩游戏的模型上真的很有用。AlphaGo Zero 是一个人工智能系统,它已经成功地从零开始玩围棋,与自己玩游戏,并作为老师给予奖励和惩罚。它使用强化学习,本身变得如此有经验,以至于它现在有可能战胜最好的人类围棋选手。

结论

机器学习是一个非常美好的概念,它使用数据解决现实生活中的问题。这只是一个时代的开始,在这个时代里,还有很多东西有待探索,谁知道我们的数据还能为我们提供更多的信息。

请随时分享您的想法并联系我。

为什么人们这么害怕 AI?

原文:https://towardsdatascience.com/why-are-people-so-scared-of-ai-956ca2fb2c7f?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

@kaaps

今天,围绕人工智能(AI)的辩论并不缺乏,它已经渗透到社会的几乎每一个媒体,使其成为社会中与政治、性、战争(恐怖主义)、健康和生态并列的主要讨论之一。但令人惊讶的是,这个新来者在相对处于婴儿期的时候却遭到如此多的反对。为什么人们如此烦恼——或者像一些末世论者所说的那样——如此害怕?!

我认为答案的一部分在于,作为一个物种,我们担心,如果我们把一些认知属性交给机器,我们相对于地球上其他动物的相对优势将会丧失。但是,仅仅因为我们更高的进化而变得越来越聪明,并不局限于解决问题。诸如生成计算、自我反思、思想的混杂组合、抽象思维和精神符号(通常被称为思维的组成部分)等主题都属于人类,并且是我们被赋予创造力的原因之一。因此,卸下大量完全没有价值的大脑活动,专注于只有人类思维才能解决的事情,是促进公共利益的一个很好的动力。

这种“思维”(智能)形式也是人类与机器不可估量的不同之处。这就引出了下一个问题,什么是“智力”。

人工智能领域只研究了思维光谱的最高端,尽管它渴望尝试“逆向工程”人类智能,并且它显然抓住了大众的想象力,但手头的问题是我们尚未对人类智能有深刻而彻底的理解。

如果我们不知道人类智能是由什么组成的,为什么我们还要谈论人工智能?

所有这些噪音都来自忧虑,我们是焦虑的物种。人工智能的不确定性首先与时间尺度有关,而我们人类在一个短期最重要的环境中进化。此外,今天公众舆论中明显的偏见(反对人工智能)显然有利于可能产生适度短期利益(可能有利于就业的技术限制)的战略,但同时几乎没有对更有效的第二代方法(设计一个每周工作时间或一生工作时间都很少的世界)做出预测,同时受益于人工智能在人类几乎每个领域都能提供的巨大增长。

所以现在,大众不知道的是,为谷歌助手、Siri、Spotify、使命召唤、亚马逊、 X.ai蒙娜洛拉卢卡玛亚未来达米拉每个像素和其他人将继续努力,让我们的生活变得更简单,以便我们可以继续生活如果你保持开放的心态和对变化的反应,你甚至会享受这只援助之手。

与此同时,似乎周围最聪明的人都认为当今最大的威胁之一是机器智能。他们可能是对的,但是还有其他类型的人类活动有着更值得担忧的记录。

为什么我们要让特朗普的推文影响我们的心情?

原文:https://towardsdatascience.com/why-are-we-letting-trumps-tweet-affect-our-mood-7f9baafae3a7?source=collection_archive---------27-----------------------

如果你倾向于在推特上关注特朗普,那么你对他推文的反应可能会受到他语气的影响。由两个截然不同的群体划分的总体意见通常遵循原始推文的基调。

序言

基于我之前对在推特上的社交影响力的分析,来自唐纳德·特朗普(@realDonaldTrump) 的推文,美国总统的参与度相对较高。

我想知道特朗普先生的原创推特在多大程度上影响了人们的反应情绪。

对数据的洞察力

首先,我使用 Tweepy 从 Twitter 获取数据。我设计了我的实验,用 Twitter 句柄@ realDonaldTrump获取最近的 200 条推文,并为特朗普的每条推文从其他人获取多达 100 条相关推文

对检索到的每条推文使用 TextBlob 进行情感分析,以确定推文的极性

初步观察

特朗普的推文极性和人们相应回应的平均值的绘图显示了重叠。然而,特朗普的推特极性传播更广。

这可能是由于人们的推文极性平均高于单个特朗普推文的极性。

所以我把特朗普推文的极性缩小到 70%。但是结果仍然是非结论性的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一个合乎逻辑的步骤是更深入地挖掘特朗普的每一条推文及其来自其他人的相应回应。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人们对积极极化的特朗普推文和消极极化的特朗普推文的响应分布似乎类似。尽管结果仍不确定,但我发现了一个有趣的模式。

与消极回应相比,积极极化的特朗普推特从其他人那里获得更多积极极化的回应。类似地,与积极极化的回应相比,消极极化的特朗普推文从其他人那里获得更多消极极化的回应。

推文时间线分析

我想确定这种新发现的人们在特朗普的推文情绪后的反应模式是反复出现的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人们回应的平均极性的转变似乎是在特朗普推特的突然极性转换之后发生的。有时在几分钟内。

单个 tweet 集合的时间线图有很多尖峰,肉眼看起来大部分都很嘈杂。为了更好的可视化,我汇总了每天推特极性的总和。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

从上面的分析来看,人们对特朗普推文的回应在很大程度上遵循了原始推文的语气。

这一分析是基于最近几周获取特朗普的推特数据,并考虑到所用 API 的限制。TextBlob 不考虑被分析文本的讽刺,也不考虑 Twitter 对使用标准搜索 API 获取的记录数量的限制。

源代码:

*【https://github.com/ShreyasJothish/tweetsentimenttimeline *

参考资料:

* [## llSourcell/Twitter _ 情操 _ 挑战

Youtube 上@Sirajology 为学习 Python for Data Science 举办的 Twitter 情绪分析挑战# 2…

github.com](https://github.com/llSourcell/twitter_sentiment_challenge/blob/master/demo.py) [## 使用 Twitter 流 API 和 Python // Adil Moujahid // Data 的文本挖掘介绍…

Adil Moujahid,数据分析等

adilmoujahid](http://adilmoujahid.com/posts/2014/07/twitter-analytics/)*

为什么自动化特征工程将改变你进行机器学习的方式

原文:https://towardsdatascience.com/why-automated-feature-engineering-will-change-the-way-you-do-machine-learning-5c15bf188b96?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自动化特征工程将节省您的时间,构建更好的预测模型,创建有意义的特征,并防止数据泄漏

数据科学中很少有确定性——随着更好方法的开发,库、工具和算法不断变化。然而,一个不会消失的趋势是自动化水平的提高。

近年来,在自动化模型选择超参数调整方面取得了进展,但机器学习管道中最重要的方面特征工程在很大程度上被忽视了。这个关键领域最有能力的入口是 Featuretools ,一个开源的 Python 库。在本文中,我们将使用这个库来了解自动化特征工程将如何更好地改变您进行机器学习的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Featuretools is an open-source Python library for automated feature engineering.

自动化特征工程是一种相对较新的技术,但是,在使用它解决了许多使用真实世界数据集的数据科学问题之后,我确信它应该是任何机器学习工作流的一个标准部分。在这里,我们将通过 GitHub 上的 Jupyter 笔记本来看看这些项目中的两个项目的结果和结论。

每个项目都强调了自动化特征工程的一些好处:

  • **贷款偿还预测:**与手动特征工程相比,自动化特征工程可以将机器学习开发时间减少 10 倍,同时提供更好的建模性能。(笔记本)
  • **零售支出预测:**自动化特征工程通过内部处理时间序列过滤器来创建有意义的特征并防止数据泄漏,从而实现成功的模型部署。(笔记本)

请随意深入研究代码并试用 Featuretools!(完全披露:我在开发这个库的公司特性实验室工作。这些项目是用 Featuretools 的免费开源版本完成的。

特征工程:手动还是自动

特征工程是获取数据集并构建解释变量(特征)的过程,可用于为预测问题训练机器学习模型。通常,数据分布在多个表中,必须收集到一个表中,表中的行包含观察值,表中的列包含特征。

传统的特征工程方法是使用领域知识一次构建一个特征,这是一个乏味、耗时且容易出错的过程,称为手动特征工程。手动特征工程的代码是与问题相关的必须为每个新数据集重写。

自动化特征工程通过从一组相关数据表中自动提取有用且有意义的特征来改进这一标准工作流程,其框架可应用于*任何问题。*它不仅减少了特征工程所花费的时间,还创建了可解释的特征,并通过过滤与时间相关的数据来防止数据泄漏。

自动化特征工程比手动特征工程更高效且可重复,允许您更快地构建更好的预测模型。

贷款偿还:更快地构建更好的模型

数据科学家在处理家庭信用贷款问题时面临的主要困难是数据的大小和分布(这是目前正在 Kaggle 上进行的一项机器学习竞赛,目的是预测客户是否会偿还贷款)。看一下完整的数据集,你会发现有5800 万行数据分布在七个表中。机器学习需要单个表来进行训练,因此特征工程意味着将每个客户端的所有信息整合在一个表中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Feature engineering requires capturing all information from a set of related tables into one table.

我第一次尝试使用传统的手工特征工程:我总共花了 10 个小时手工创建一组特征。首先我阅读其他数据科学家的作品,探索数据,研究问题领域,以获取必要的领域知识。然后我把知识翻译成代码,一次构建一个特性。作为单个手动特性的一个例子,我找到了一个客户在以前贷款中的延期付款总数,这个操作需要使用 3 个不同的表。

最终手动设计的功能表现相当出色,比基准功能提高了 65%(相对于排行榜的最高分数),表明了适当功能设计的重要性

然而,低效甚至不能用来描述这个过程。对于手工特征工程,我最终在每个特征上花费了超过 15 分钟,因为我使用了一次制作一个特征的传统方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Manual Feature Engineering process.

除了乏味和耗时之外,手动特征工程还:

  • **特定问题:**我花了很多时间写的所有代码都不能应用于任何其他问题
  • **易错:**每一行代码都是犯错误的另一个机会

此外,最终手工设计的功能受到人类创造力和耐心的限制:我们能想到的功能只有这么多,我们能做的时间也只有这么多。

自动化特征工程的承诺是通过获取一组相关的表并使用可以应用于所有问题的代码自动构建数百个有用的特征来超越这些限制。

从手动到自动特征工程

正如在 Featuretools 中实现的那样,自动化特征工程甚至允许像我这样的领域新手从一组相关的数据表中创建数千个相关的特征。我们需要知道的只是我们的表的基本结构和它们之间的关系,我们在一个叫做实体集的单一数据结构中跟踪它们。一旦我们有了一个实体集,使用一种叫做深度特征合成 (DFS)的方法,我们能够在一个函数调用中构建数千个特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The Automated Feature Engineering process using Featuretools.

DFS 使用名为“原语”的函数来聚合和转换我们的数据。这些原语可以简单到取一列的平均值或最大值,也可以复杂到基于专业知识,因为 Featuretools 允许我们定义自己的自定义原语

特征原语包括许多我们已经手工完成的操作,但是使用 Featuretools,我们可以在任何关系数据库中使用完全相同的语法,而不是重新编写代码来对不同的数据集应用这些操作。此外,当我们将原语相互堆叠以创建深层功能时,DFS 的威力就显现出来了。(关于 DFS 的更多信息,请看该技术发明者之一的博客文章。)

深度特征合成非常灵活,可以应用于任何数据科学问题,而且功能强大,可以通过创建深度特征来揭示数据中的洞察力。

我将省去设置所需的几行代码,但是 DFS 的操作只需要一行代码。在这里,我们使用数据集中的所有 7 个表为每个客户端创建了数千个特征(T0 是导入的特征工具库) :

# Deep feature synthesis
feature_matrix, features = ft.dfs(entityset=es, 
                                  target_entity='clients',
                                  agg_primitives = agg_primitives,
                                trans_primitives = trans_primitives)

以下是我们从 Featuretools 自动获得的一些 1820 特性:

  • 客户以前贷款支付的最大总金额。这是跨 3 个表使用一个MAX和一个SUM原语创建的。
  • 客户以前平均信用卡债务的百分比排名。这使用了跨越两个表的PERCENTILEMEAN原语。
  • 客户在申请过程中是否提交了两份文件。这使用了一个AND转换原语和一个表。

这些特性中的每一个都是使用简单的聚合构建的,因此是人类可以理解的。Featuretools 创建了许多与我手动创建的功能相同的功能,但也有数以千计的功能是我从未想到过的——也没有时间去实现。并不是每一个特性都与问题相关,有些特性是高度相关的,尽管如此,拥有太多的特性比拥有太少的特性要好!

在进行了一些功能选择和模型优化后,这些功能在预测模型中的表现比手动功能稍好,总开发时间为 1 小时,比手动流程缩短了 10 倍。Featuretools 速度更快,因为它需要的领域知识更少,而且需要编写的代码行也更少。

我承认学习 Featuretools 需要一点时间,但这是一项值得的投资。花一个小时左右学习 Featuretools 后,你可以将它应用到任何机器学习问题上。

下面的图表总结了我对贷款偿还问题的经验:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison between automated and manual feature engineering on time, number of features, and performance.

  • 开发时间:考虑制作最终特征工程代码所需的一切: 10 小时手工对 1 小时自动化
  • 该方法产生的特征数量: 30 个特征手动 vs 1820 个自动
  • 相对于基线的改善是指使用基于以下功能训练的模型,与公共排行榜最高分数相比,基线上的百分比增益: 65%人工对 66%自动

我的观点是,自动化特征工程不会取代数据科学家,而是通过显著提高效率,将使她有更多时间花在机器学习管道的其他方面。

此外,我为第一个项目编写的 Featuretools 代码可以应用于任何数据集,而手动工程代码必须扔掉,并为下一个数据集完全重写!

零售支出:构建有意义的功能并防止数据泄露

对于第二个数据集,一个带有在线时间戳的客户交易记录(T10),预测问题是将客户分为两个部分,那些将在下个月花费超过 500 美元的人和那些不会的人。然而,不是对所有的标签使用一个月,而是每个客户是一个标签多次。我们可以用他们 5 月份的支出作为标签,然后是 6 月份,以此类推。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Each customer is used as a training example multiple times

多次使用每个客户作为观察结果给创建训练数据带来了困难:当为给定月份的客户制作特征时,我们不能使用来自未来月份的任何信息,即使我们可以访问这些数据。在部署中,我们永远不会有未来的数据,因此不能用它来训练模型。公司经常在这个问题上挣扎,经常部署一个在现实世界中比在开发中表现差得多的模型,因为它是使用无效数据训练的。

幸运的是,在 Featuretools 中,确保我们的数据在时序问题中是有效的在深度特征合成功能中,我们传入一个如上图所示的数据帧,其中截止时间代表一个点,超过该点我们就不能使用任何标签数据,Featuretools 自动在构建特征时将时间考虑在内。

给定月份中客户的功能是使用筛选到该月之前的数据构建的。注意,创建我们的特性集的调用与解决贷款偿还问题的调用相同,只是增加了cutoff_time.

# Deep feature synthesis
feature_matrix, features = ft.dfs(entityset=es, 
                                  target_entity='customers',
                                  agg_primitives = agg_primitives,
                                trans_primitives = trans_primitives,
                                  cutoff_time = cutoff_times)

运行深度特性合成的结果是一个特性表,每个月的每个客户一个特性表。我们可以使用这些特征,用我们的标签训练一个模型,然后对任何一个月进行预测。此外,我们可以放心,我们的模型中的特征不使用未来的信息,这将导致不公平的优势,并产生误导性的训练分数。

通过自动化功能,我能够建立一个机器学习模型,在预测一个月的客户支出类别时,与 0.69 的知情基线(猜测与上个月的支出水平相同)相比,该模型实现了 0.90 的 ROC AUC。

除了提供令人印象深刻的预测性能之外,Featuretools 实现还给了我同样有价值的东西:可解释的特性。看看随机森林模型的 15 个最重要的特征:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

15 most important Featuretools features from a random forest model.

功能的重要性告诉我们,客户下个月将花费多少的最重要的预测因素是他们之前已经花费了多少SUM(purchases.total),以及购买的次数SUM(purchases.quantity).,这些是我们可以手工构建的功能,但是我们将不得不担心泄露数据,并创建一个在开发中比在部署中做得更好的模型。

如果创建有意义特性的工具已经存在,而不需要担心特性的有效性,那么为什么还要手工实现呢?此外,自动化特征在问题的上下文中是完全清楚的,并且可以告知我们现实世界的推理。

自动化特征工程识别了最重要的信号,实现了数据科学的主要目标:揭示隐藏在海量数据中的洞察力。

即使在手动特性工程上花费了比使用 Featuretools 多得多的时间,我也无法开发出一组性能接近的特性。下图显示了使用在两个数据集上训练的模型对一个月的未来客户销售进行分类的 ROC 曲线。向左上方的曲线表示更好的预测:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ROC curves comparing automated and manual feature engineering results. A curve to the left and top indicates better performance.

我甚至不完全确定手动特性是否是使用有效数据制作的,但是有了 Featuretools 实现,我就不必担心时间相关问题中的数据泄漏。也许无法手动设计一组有用的有效功能说明了我作为数据科学家的失败,但是如果有工具可以安全地为我们做这件事,为什么不使用它呢?

我们在日常生活中使用自动安全系统,Featuretools 中的自动化特征工程是在时序问题中构建有意义的机器学习特征的安全方法,同时提供卓越的预测性能。

结论

我从这些项目中走出来,确信自动化特征工程应该是机器学习工作流程中不可或缺的一部分。这项技术并不完美,但仍能显著提高效率。

主要结论是自动化特征工程:

  • 将实施时间缩短了 10 倍
  • 达到同级 或更好的造型表现
  • 交付具有现实意义的可解释特性
  • 防止可能导致模型无效的不正确数据使用
  • 适应现有的工作流程和机器学习模型

“更聪明地工作,而不是更努力地工作”可能是老生常谈,但有时这种陈词滥调也有道理:如果有一种方法可以用更少的时间投入做同样的工作,那么显然这是一种值得学习的方法。

Featuretools 将永远免费使用和开源(欢迎投稿),有几个例子——这是我写的一篇文章——让你在 10 分钟内开始。作为一名数据科学家,你的工作是安全的,但是通过自动化特征工程,它可以变得简单得多。

如果构建有意义的高性能预测模型是您关心的事情,那么请联系我们的功能实验室。虽然这个项目是用开源的 Featuretools 完成的,但是商业产品为创建机器学习解决方案提供了额外的工具和支持。

为什么平均值经常是错误的

原文:https://towardsdatascience.com/why-averages-are-often-wrong-1ff08e409a5b?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1906 年,美国作家塞缪尔·兰霍恩·克莱门斯(更为人熟知的名字是马克·吐温)向英国首相本杰明·迪斯雷利推广了他关于人类如何使用数字来量化情景的思想:“有三种谎言:谎言、可恶的谎言和统计”(吐温,2010)。有太多的理由说明为什么这通常是真的:统计技能不足,已知的偏见,未知的偏见,或者只是传统的智力懒惰。在我的学术和数据科学生涯中,我多次遇到基于“平均值”的分析或合理化,或者像我们数据极客喜欢更准确地说的那样,“平均值”。然而,事实上,平均值往往是错误的,而且不止一种方式。

平均值是指一组不同样本的测量值,通常是一群个体。平均值的主要目的是测量同一样本组或组群随时间的变化。正是在这种应用中,或者更确切地说是在误用中,通过将平均值用于不同的目的,出现了三种最常见的错误。

首先,在任何数据集中,存在异常值是很常见的。这些通常在图表中最容易看到,其中大多数数据点聚集在一个区域或一条线周围,然后一个或几个数据点偏离了“永远不要”区域。这些异常值扭曲了数据集的平均值,将它“拉”向自己的方向。这给人一种错误的印象,即数据点聚集在比它们真正聚集的位置高或低的点周围。在这些情况下,通常最好使用中位数而不是平均值来表示集中趋势测量值,因为它受异常值的影响较小。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二,许多人倾向于认为“平均”是“典型的”这个假设在许多数据集中的问题是——当然是那些涉及人类的数据——有很多很多“典型”的例外人们甚至可以说没有“典型”这种东西。例如,一个经常被误用的统计数据是美国的平均离婚率,它经常被引用为“大约 50%”。如果研究一下这个问题,他们会发现平均离婚率因年龄、受教育程度、职业、种族、地理、宗教信仰等因素而有很大差异。因此,每个人都被这些因素不同地分类,导致许多不同的平均离婚率,这取决于哪些因素描述了那些被测量的人。

在美国劳工统计局发表的一项研究中,专业统计学家纵向跟踪了 7357 名随机选择的 1957 年至 1965 年出生的男性和女性,从 1979 年到 2010 年共 31 年(Aughinbaugh,2014)。虽然 31 年来这一群体的总体平均离婚率为 43.1%,但例如,拥有大学学位的人的离婚率仅为 29.6%。考虑到结婚年龄,平均离婚率差异更大。对于那些获得大学学位并在 22 岁前结婚的人来说,平均离婚率为 46.6%;然而,对于那些获得大学学位并在 35-40 岁之间结婚的人来说,平均离婚率仅为 13.4%。

在同一项研究中,这些差异可以通过不同的指标看到。虽然 88%获得大学学位的人在 46 岁前结婚,但只有 20.9%的人曾经离婚。类似地,对于 21%离婚并选择再婚的人来说,其中 85%的人保持再婚,这使得受过大学教育的人的平均二婚离婚率仅为 15% (Aughinbaugh,2014)。因此,对于那些拥有大学学位的人来说,在 31 年的研究中,96.9%的人最终拥有了可持续的婚姻。应用平均值的第二种错误的寓意是,人们只能比较相似和同等分类的组的平均值,否则,提供错误的信息。

平均数经常被错误使用的第三种方式是将它们应用于个别情况。将一组数据点的平均值应用于单个点并假设它是正确的,这是统计学上的错误。即使假设数据是正态分布的(“钟形曲线”),任何一个数据点与平均值相同的概率是 50% —与随机猜测相同。根据该数据点在数据点的归一化分布(“钟形曲线”)中的位置,当数据分布接近曲线尾部时,该组平均值准确描述或预测任何一个数据点的行为或结果的概率下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总之,均值有助于衡量一组受试者或数据点如何随时间变化。当用于比较不同的群体、将群体行为应用于个体场景时,或者当数据中有大量异常值时,平均值会产生误导。这些问题的根源似乎是过度简化和合理化——人们愿意相信的东西。我们从统计学及其更现代的兄弟机器学习中知道,结果是基于因果关联的,这些因果关联是复杂的,因为它们是多重的和动态的,并且它们在历史上比预测性地更容易测量。

那么,关于迪斯雷利首相早熟的观察,即统计数字是谎言的真相,与其说是在统计数字提供给我们的答案中找到的,不如说是因为我们常常不知道问题是什么,或者更糟的是,我们确实知道,而且是错误的问题。套用阿尔伯特·爱因斯坦(Albert Einstein)的话,当他被问及如果他有 48 小时来拯救世界,他会怎么做时,花 90%的时间分析问题,此时,答案变得不言自明。

引用的作品

aughinbaugh(2014 年)。按性别、种族和教育程度分类的模式。月度劳动评论,【https://doi.org/10.21916/mlr.2013.32.

m .吐温、H. E .史密斯和 b .格里芬(2010 年)。马克·吐温自传。伯克利:加州大学出版社。

为什么大企业应该主动建立隐私:安·卡沃金博士的观点

原文:https://towardsdatascience.com/why-big-business-should-proactively-build-for-privacy-perspectives-from-dr-ann-cavoukian-9b1d1a92c868?source=collection_archive---------11-----------------------

本文探讨了设计隐私(PbD)的兴起,从基本框架,到它在 GDPR 中的应用,再到它在商业实践和基础设施中的应用,尤其是在人工智能出现之后。

我们有幸与前三任安大略省隐私专员、现任加拿大多伦多瑞尔森大学卓越隐私设计中心杰出常驻专家 Ann Cavoukian 博士坐在一起,讨论这一将颠覆当前商业实践的巨大转变。我们还寻求人工智能初创企业和企业高管的回应,以解决设计隐私目前的障碍和未来的商业影响。本文包括 Scott Bennet 的贡献,他是一位研究隐私和 GDPR 对新兴技术和当前商业实践的影响的同事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Dr. Ann Cavoukian, Ph.D

我称自己为反营销者,尤其是这些天。我的背景主要来自数据库营销和数据的语境化,以做出更明智的决定,有效地向人们出售更多的东西。我看到的数据,无论是在银行、忠诚度计划、广告和社交平台——用户交易、数字行为、互动、对话和个人资料——都被缝合在一起,以创建关于个人和群体、他们的倾向、意图及其对业务的潜在风险的叙述。

虽然以我们这样的方式分析这些信息是一种既定的做法,但好处主要在企业,而对我们的客户不利。我们对人们的描述是基于他们创造的数据,基于我们自己的假设,这些假设反过来影响了分析,并最终创造了管理数据和决策的规则。这些规则中的一些在不知不觉中受到了来自经验和因素的非故意偏见的影响,这些经验和因素使特定集群或人群的主张永久化。

虽然多年来我没有质疑过我们用来理解和定义受众的方法,但很明显,商业仍然在很大程度上不受约束,自由使用这些信息,几乎没有责任和法律后果。

随着数据变得越来越重要,随着人工智能以更快的速度分析和表达意义,这些偏见永久化的危险变得更加严重,如果措施不到位并无情地执行,将造成更大的社会分裂。

最近,我遇到了我的创造者。就当是对我作为营销人员操纵数据多年的赎罪吧。我们有幸与一位我仰慕多年的人谈论隐私。在我看来,Ann Cavoukian 博士将推动整个行业的讨论,让企业站起来倾听。

还记得加拿大隐私专员对脸书采取的措施吗?

Ann Cavoukian 在传播隐私意识方面发挥了重要作用,这使她在 2008 年站在了世界舞台的中心,与脸书展开了直接的对抗。当时,联邦隐私专员声称 22 种做法违反了加拿大个人信息保护和电子文件法案(PIPEDA)。这最终导致 FTC 与脸书达成协议,要求增加对用户的透明度,要求在“实施覆盖其隐私设置的更改”之前获得用户的明确同意

Ann Cavoukian 在技术和商业领域是一个家喻户晓的名字。作为加拿大安大略省的三任隐私专员,她已经放弃了几十年的隐私讨论。如今,随着 2018 年 5 月 25 日生效的欧盟通用数据保护和法规(GDPR)包括 Cavoukian 长期倡导的创作“设计隐私”(PbD),这一讨论已经达到了白热化。这将大大提高门槛,任何与欧盟做生意的公司或平台都需要遵守这些标准。在收集、存储和处理个人消费者信息时,GDPR 的核心是这些指导原则:

  • 合法、公平和透明
  • 目的限制
  • 数据最小化
  • 准确(性)
  • 存储限制
  • 完整性和保密性(安全性)
  • 有责任

Privacy by Design 的前提是以公平和道德的方式在新产品或服务的每个阶段主动嵌入隐私。Cavoukian 认为,通过实施 PbD,公司实际上已经走上了遵守 GDPR 的道路。

是什么让这个时机成熟的隐私设计?

在 90 年代,网络呈指数级增长。商业、在线应用和平台正在引入一个新时代,这将极大地改变商业和社会。当时,Ann Cavoukian 是安大略省隐私专员的第一个任期。她目睹了这种现象,并担心它会急剧增长,在一个无处不在的计算、日益增加的在线连接和大规模社交媒体的时代,她推测隐私需要作为一种预防模式来发展,而不是简单地“以后请求原谅”

想象一下,你去看医生,他告诉你,你有一些癌症发展的迹象,并说,“我们会看看它是否恶化,如果恶化,我们会送你去做一些化疗”。多么不可思议的提议!我希望同样不可思议的是,你会让隐私损害发展,只是等待违反,而不是防止他们发生。这就是 PbD 的起源。

2010 年,在欧洲数据保护机构和隐私专员国际会议上,Cavoukian 提出了一项决议,即 PbD 应该补充监管合规性,以减轻潜在的危害。一致通过。原因?

每个人都看到这只是识别隐私危害的冰山一角,我们无法解决所有逃避我们检测的数据泄露和隐私危害,因为犯罪者的复杂性意味着大多数泄露仍然基本上不为人知、不受挑战和不受监管。因此,PbD 成为当前隐私法规的补充,作为确保未来隐私的唯一方法,它不再是可持续的。

如今,数据安全问题已经变得与 airplay 同等重要,如果不是更多的话。Cavoukian 认为:

当恐怖事件增多,比如巴黎的 【圣贝纳迪诺】【查理周刊】 袭击,以及曼彻斯特的袭击,钟摆又转回到:忘掉隐私——我们需要安全。当然,我们需要安全——但不排除隐私!

我总是说隐私就是控制——与使用你自己的数据有关的个人控制。这与保密无关。当人们说‘好吧,如果你没什么好隐瞒的,那有什么问题?’时,我快疯了。问题是这不是自由的意义所在。自由意味着,作为一名守法公民,你可以决定你想披露哪些数据,向谁披露——向政府、向公司、向雇主。

皮尤研究中心在斯诺登事件后开展了一项互联网研究,以了解消费者对个人隐私的看法。引用的主要发现:

人们普遍担心政府和企业的监控:
91%的成年人认为消费者已经失去了对其个人信息的控制;80%的社交网络用户担心第三方访问他们的数据;80%的成年人认为美国人应该关注政府监控。

背景是关键:

虽然有些人知道他们是在用自己的信息换取对价值的期望,但他们应该充分了解这种价值是如何从他们的数据中提取出来的。Cavoukian 警告说:

隐私不是宗教。如果你想泄露你的信息,请便,只要你决定这么做。背景是关键。对我来说敏感的东西对你来说可能毫无意义,反之亦然……在社交聚会上,连我的医生都不会承认自己是我的医生!他们就是这么保护我的隐私的。这真是太棒了!他们竭尽全力保护你的个人健康信息。

销售隐私需求的重要性包括持续的教育。除非人们个人受到影响,否则许多人不会把这两者联系起来。普通人知道物联网设备接收他们对配偶或子女说的“甜言蜜语”的含义吗?当他们意识到这一点时,他们通常会强烈反对。

背景凸显了选择的重要性。这不再是一个要么全有要么全无的游戏,包含在公司的条款和条件中,只需点击一下,“接受”就会自动给予完全的许可。那些日子已经过去了。

虽然有些人可能会反对出于保险目的进行分析和语境化,但他们可能会允许以匿名方式将他们的个人健康史纳入研究,以了解他们特定地区的癌症流行情况。

语境是选择的问题;选择的自由对维护我们的自由至关重要。

隐私不等于秘密

卡沃金强调,隐私并不是要隐藏什么。每个人都有对自己非常敏感的个人信息领域,他们可能希望也可能不希望公开这些信息。

你必须有选择。你必须是做决定的人。 这就是个人控制问题如此重要的原因。

我从 Ann Cavoukian 最近的演讲中摘录了这张幻灯片:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Privacy by Design by Dr. Ann Cavoukian

中国社会信用体系的建立是为了增加透明度,提高公民的可信度。这是我们不想要的反面乌托邦。中国是一个明显的监视社会,与自由社会的价值观相矛盾。Cavoukian 阐明了隐私是我们自由的基础这一概念。如果你重视自由,你就重视隐私。

看看德国。德国是世界上领先的隐私和数据保护国家,这不是偶然的。他们不得不忍受第三帝国的虐待,忍受他们的隐私和自由的完全丧失,这绝非偶然。当这一切结束时,他们说,“我们再也不会允许国家剥夺我们的隐私——我们的自由!”他们确实遵守了这一点。

在斯诺登事件后,我写了这样一段话:美国国家安全局,隐私和公然意识到:你在网上做的任何事情都不是隐私并引用了 Writynga 在 2012 年回应扎克伯格关于隐私不再是社会规范的观点时写的一段话:

我们喜欢说我们是伴随着互联网长大的,因此我们认为互联网是完全成熟的。但事实并非如此。没有隐私的亲密是什么?什么是没有隐私的民主?……科技让人变傻。它会让你看不到你的潜在价值是什么,需要什么。我们真的愿意放弃我们努力争取的宪法和公民自由吗?人们为此而流血,而不是生活在一个监视的社会里。我们看着史塔西说,‘那不是我们。

人民的意愿要求更大的透明度。

但是我们不想要一个让人感觉我们生活在警察国家的监视状态。在确保国家安全和遏制我们的公民自由之间必须有一个平衡。

人们将随时拥有完全的透明度…完全的控制权

自 2010 年通过隐私设计(PbD)作为补充隐私法规的国际标准以来,PbD 已被翻译成 40 种语言。该方法已被修改,以包括这样一个前提,即可以努力确保个人隐私,同时在正和范式内发展消费者信任并增加企业的收入机会。Cavoukian 相信这是商业发展的可行之路:

我们可以拥有隐私,满足商业利益、安全和公共安全……这不是一个非此即彼的命题。我认为这是最好的方式,以正和、双赢的方式进行,从而使各方都受益。

隐私设计的基本原则包括:

  1. 主动而非被动:预防性而非补救性
  2. 隐私作为默认设置
  3. 设计中嵌入隐私
  4. 完整的功能:正和,而不是零和
  5. 端到端安全性:全生命周期保护
  6. 可见性和透明度:保持开放
  7. 尊重用户隐私:以用户为中心

Cavoukian 认为,原则 2(默认隐私)至关重要,也是所有基本原则中最难的一条,因为它需要最大的投资和努力:明确要求改变数据的收集、使用和披露方式,并将导致数据政策和流程的改变,包括新的以用户为中心的隐私控制。

第 21 条还规定个人在任何时候都有“反对”处理其个人信息的“权利”。这包括在直接营销和档案中使用:

控制方将不再处理个人数据,除非控制方证明其处理数据有令人信服的合法理由,可以超越数据主体的利益、权利和自由

业务必须更明确,走得更远,超越传统的披露和服务条款。目的说明和使用限制要求组织明确说明它需要的信息、目的是什么,并且必须获得专门针对该目的且仅针对该目的的同意。稍后,如果发生二次使用,组织将再次要求用户同意。如果公开是透明度的关键,那么企业将需要找到一种方法来做到这一点,同时减轻同意疲劳。

第 17 条提出了一个更强的用户权利,它掩盖了当前的商业惯例:删除的权利(“被遗忘的权利”)

数据主体应有权在无不当延迟的情况下从控制者处获得删除与其相关的个人数据的权利,控制者有义务在无不当延迟的情况下删除个人数据。

虽然该法规将有例外,如将数据主体确定为实体的数据:通过健康记录和银行信息,行为、交易、未来分析和背景模型是“被遗忘权”的公平游戏。GDPR 的出现让企业看到了潜在的影响,对于那些没有明确选择加入的客户,公司的客户记录量平均下降了 20%。

这是真正以用户为中心的系统。毫无疑问,隐私设计将挑战当前的实践,颠覆当前的基础设施。

这个隐私 UI 模拟(IBM:Journey to Compliance)展示了潜在的用户控制将如何实时工作,以及用户可以根据不同的上下文授予同意的程度。这种级别的用户访问将需要一个数据存储库来清除用户信息,但如果用户决定恢复访问,必须灵活地将数据重新部署到系统中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

IBM: Journey Towards Compliance

隐私设计能为商业创造一个正和的存在吗?

如果你在一年前问我,我会说商业采用设计隐私是不现实的,更不用说接受了。它将颠覆流程、结构和政策。然而,在 GDPR 的职权范围内,这是不可避免的。

今天,我们请 Ann Cavoukian 考虑一下商业惯例。继 GDPR 事件之后,谷歌和脸书都收到了高达 93 亿美元的巨额罚款。由于最近的剑桥分析数据泄露,脸书正在投资数百万在工具和资源上,以尽量减少未来的事件发生。最近 Q2 股票暴跌让市场大吃一惊,但对于扎克伯格来说,他明确表示他们将在几个季度内遭受性能打击,以便为用户改善平台……而不是为股东。虽然它们是公司应该如何行事的灯塔,但这种明确的“以后再请求原谅”模式否定了这种策略完全是利他主义的任何表象。

脸书隐私政策经理 Emily Sharpe 认为,在准备 GDPR 时,他们特别关注第 29 条工作组的透明度指南:

在过去的 18 个月里,我们已经做好了准备,以确保满足 GDPR 的要求。我们已经使我们的政策更加清晰,我们的隐私设置更容易找到,并为人们提供了更好的工具来访问、下载和删除他们的信息。在 GDPR 之前,我们要求人们回顾用通俗易懂的语言写下的关键隐私信息,并对三个重要话题做出选择。我们的方法符合法律,遵循隐私和设计专家的建议,旨在帮助人们理解技术的工作方式和他们的选择。

Cavoukian 指出,IBM 与 Ponemon Institute 进行的一项研究让人们意识到了数据泄露的成本:该研究报告称,数据泄露的全球平均成本比上一年上升了 6.4%,达到每起事件 386 万美元。就每张唱片而言,每张唱片丢失的平均成本上升了 4.8%,达到 148 美元。正如 Cavoukian 指出的,如果你保持个人身份信息(PII)静止,这些成本将继续上升。

PbD 解决方案需要完整的端到端解决方案,包括隐私和安全性:

  1. 信息技术系统;
  2. 负责任的商业行为;和
  3. 网络化基础设施。

你如何应对如今成功利用数据赚钱的广告客户?

对于在这个、5600 亿美元的行业中打拼的广告主和发布平台,你有什么话要说?我们不能阻止进步。数据越多,有意愿的买家从中提取意义的需求就越多。另一方面,由于脸书事件的影响,一些广告商因为可疑的做法或内容而被列入该平台广告的灰色或黑色名单。平台的变化也极大地限制了当前广告客户的广告触达机会。现在,这种多米诺骨牌效应与 GDPR 要求获得明确同意并提高数据使用透明度的命令相结合。安·卡沃金说过:

数据的价值是巨大的。很抱歉,广告公司不能再认为他们可以对人们的数据为所欲为了。我同情他们。我真的爱你。他们的商业模式将发生巨大变化。这很难接受,所以我真的为他们感到难过。但我的建议是:这种商业模式正在消亡,所以你必须找到一种方法来转变这种模式,让你的客户参与进来,让他们参与到一种协商一致的模式中,让客户也能受益。背景是关键。让个人选择控制他们的信息,并获得他们的同意来交换他们对你有价值的东西。

玛丽·米克尔的“隐私悖论”指出了消费者对更快、更简单、更方便和更实惠的产品和服务的需求日益增长。这需要能够利用个人信息的系统来为消费者实现这一点。增加定制是一种期望,但随之而来的是商业风险的增加。根据 Cavoukian 的说法,只要当前的业务做法持续下去,他们的业务就很容易受到不断的数据泄露和网络攻击的影响,正如我们所目睹的那样。Equifax 和 Target 就是两个例子。

与数据主体的沟通需要双赢(正和)。企业能否提供必要的价值,同时尊重个人的选择?当人工智能变得更加普遍时,这将变得更加具有挑战性,因为流数据将需要更多实时接口和应用程序,以允许跨各种上下文和垂直用途访问和单独配置数据类型。

我邀请了一些来自各种数据初创企业和成熟企业的高管,他们在从广告到社交技术再到网络平台的商业和消费者体验方面有着丰富的经验,他们对隐私辩论发表了看法:

Josh Sutton, Agorai,的首席执行官,也是 Publicis.Sapient 的前数据和人工智能全球主管。在一个推动数亿收入的广告行业,寻求建立消费者相关性是有代价的。随着越来越多的公司寻求人工智能来提高精确度,这种情况越来越多:

数据显然是当今世界最有价值的资产之一——尤其是依赖于海量数据的人工智能(AI)的重要性日益增长。数据隐私需要纳入这些技术的工作架构中,以便社会从人工智能中获得最大利益。对我来说,数据隐私意味着有能力控制你所拥有的数据何时以及为何被使用——而不是保密,这是一项容易得多的任务。要做到这一点,需要有一个公开透明的市场,让个人和公司可以出售他们创造的数据,以及一套关于公司如何使用数据的一致法规。

Nitin Mayande 博士, Tellagence 的首席科学家,前耐克数据科学家同意 Josh Sutton 的观点。Nitin 多年来一直在研究社交网络行为,了解转变当前方法的必要性:

我设想迟早会有一个数据市场——供应方和需求方。如今,公司以用户为代价利用数据并将其货币化。最终用户没有体验到任何真正的经济利益。想象有一天,数据变得如此有价值,个人可以完全控制并成为自己信息的提供者。

对 Dana Toering 来说,他是 Yroo 的首席收入官,也是 Adobe Advertising Cloud 的前董事总经理,他的职业生涯见证了广告平台的出现,这些平台在很大程度上依赖于数据宝库来提高广告定位的粒度:

作为一个完整的生态系统,我觉得我们刚刚开始接受价值交换的演变,这种价值交换始于 1994 年 10 月,当时 Hotwired.com 运营了互联网的第一个横幅广告。通过广告和广泛收集相同受众的数据来换取“免费”内容或软件的受众货币化,使得互联网和围绕互联网建立的业务迅速增长,但也导致了大量的欺诈和邪恶活动。幸运的是,我们正处于一个转折点,企业/品牌和用户都在收回数据所有权,并要求透明,以及同意和问责。随着新技术和相关工具的兴起,定义和管理这种价值交换的核心原则在未来将变得更加重要(和复杂)。因此,现在是正确的时候了,这样企业和用户都可以长期受益。

我曾与苏坎特·库拉纳博士进行过有趣的讨论,他是印度 CSIR-CDRI 大学人工智能、数据科学和神经生理学实验室的负责人。作为一名也在从事各种颠覆性项目的企业家,他回应了上述观点:

隐私和安全之间的争论是一个误导,因为与私营公司和政府共享的数据的种类和数量不需要也不应该相同。人工智能在数据隐私问题上受到了诋毁,但同样的技术(特别是即将到来的元学习方法)可以用来确保安全,同时防止不必要的营销和监控。如果监控工具(通过设计)无法向当局报告数据,除非存在明显的安全威胁,否则这种情况就像拥有近乎完美的隐私。这在技术上是可能的。此外,我们需要将隐私与利润结合起来,这样,总的来说,公司不会与监管机构发生冲突。这意味着需要更智能的媒体和社交平台,为数据共享提供更多选择,这些选择在最终客户和平台之间都是可以接受的。

Alfredo C. Tan,行业教授,麦克马斯特大学德格鲁特商学院在 B2C 广告平台方面有着丰富的经验,并且了解公平交易的必要性,在信任中磨练:

如果对如何使用个人数据有更好的控制和理解,我相信人们会愿意更加开放。这种平衡确保了公平价值交换的发生。作为对我的数据的交换,我的经历变得更好,如果不是现在而是未来。只要这是一种信任的关系,并且人们理解价值交换,那么人们就会乐于分享越来越多的信息。我很高兴脸书、亚马逊和其他平台意识到我是一名 35-45 岁的男性,对旅行和宠物有特殊兴趣,但对曲棍球或滑板没有兴趣。或者,根据我看的某些电影,网飞会推荐我感兴趣的其他类型的内容,让我更加开心。也许这些数据被用在了其他地方,在我的许可下,可以在其他平台上提供更好的体验。在竞争日益激烈的消费者环境中,数据之战是利用他们收集的关于客户的个性化见解来增加参与度,最终创造更好的体验。我敢肯定,许多人不想回到匿名网络,在那里我们所有人都受到基本相同的对待,在体验上没有区别。

所有人都认为回归匿名既不合理也不可行。

隐私、安全、信任和可持续性

这是未来,企业和政府要形成一种立场,接受不同的思维方式,这一点至关重要。随着人工智能变得越来越普遍,算法的黑匣子将要求企业开发系统和政策,以警惕潜在的危害。Cavoukian 明白这是一场艰苦的战斗:

当我与首席执行官们进行这些对话时,起初他们认为我反对商业,我想做的就是让他们关门大吉。这是我最想不到的事。你必须让企业以一种能吸引顾客并保持其商业模式运转的方式运营。那是我认为你应该采取的观点。这必须是一个双赢的局面。

有资料图吗?我总是从那里开始。您需要绘制数据在整个组织中的流动方式,并确定您需要额外同意的位置。遵循组织内部的流程。这将确定可能需要修复的任何差距。

信任:需要多年来建立…和几天来失去…

也许这是公司应该持有的观点。Ann Cavoukian 坚持认为,那些实施了 PbD 的人说它建立了巨大的信任。当你与你的客户建立了可信赖的业务关系时,他们会很乐意在今后给予你额外的许可。他们只是不想让信息流向未知的第三方。

我告诉公司,如果你做 PbD,在屋顶上大声喊出来。以它为先导。告诉你的客户你会尽全力保护他们的隐私,以及你对他们的尊重。他们会以各种方式感谢你。你将获得他们持续的忠诚,你将吸引新的机会。

我对那些将隐私视为负面因素的公司说,隐私会扼杀创造力和创新,事实恰恰相反:隐私孕育创新和繁荣,它会给你带来竞争优势。它让你从信任的基础开始,这稳步提高了你的客户的增长和他们的忠诚度。让它成为一个双赢的提议!

Ann Cavoukian 最近推出了全球隐私和安全设计:GPSbyDesign.org,一个全球隐私和安全的国际委员会。想了解更多关于 Ann Cavoukian 的信息,请访问瑞尔森大学卓越设计中心

这篇文章最早出现在福布斯上:第一部分第二部分

为什么机器能打得过马里奥却打不过口袋妖怪?

原文:https://towardsdatascience.com/why-can-a-machine-beat-mario-but-not-pokemon-ff61313187e1?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

到现在为止,你可能已经听说过机器人以超人的水平玩视频游戏。这些机器人可以被显式编程,以设定的输出对设定的输入做出反应,或者 学习 进化 ,以不同的方式对相同的输入做出反应,以期找到最佳的反应。

几个著名的例子是:

  • AlphaZero ,一个经过 24 小时训练后成为地球上最伟大的棋手的国际象棋机器人
  • AlphaGo ,一个著名的围棋机器人,击败了世界级棋手李·塞多尔和柯洁
  • MarI/O ,一个超级马里奥机器人,它可以自己学习快速运行任何级别的马里奥

这些游戏很复杂,训练这些机器需要复杂算法、重复模拟和时间的巧妙结合。我想重点谈谈 MarI/O 以及为什么我们不能用类似的方法打败一个口袋妖怪的游戏(如果你不熟悉它的工作原理,请观看上面链接中的视频)。

马里奥和口袋妖怪在这方面有 3 个主要区别:

  1. 目标数量
  2. 分子因子
  3. 全局优化与局部优化

让我们用这些因素来比较这些游戏。

目标数量

机器学习 的方式是通过优化某种目标函数。无论是最大化一个奖励适应度函数(在强化学习和遗传算法中),还是最小化一个成本函数(在监督学习中),目标都是相似的:尽可能获得最好的分数。

马里奥有一个目标:到达关卡 的末尾。简单地说,你临死前得到的权利越多,你做得越好。这是你的单一目标函数,你的模型能力可以直接用这个数字来衡量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

口袋妖怪有…很多。让我们试着确定我们的目标。是为了打败精英 4 吗?去抓所有的口袋妖怪?培养最强团队?是以上所有的还是其他的?仅仅问这个问题就很奇怪,因为答案可能是所有这些问题的某种个人主观组合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们不仅要定义最终目标,还要定义进展是什么样的,所以每一个行动单元都对应着一个奖励或损失,这个奖励或损失是基于任何时候许多许多可能的选择。

这就引出了下一个话题。

分子因子

简单来说,分支因子就是你在任何一步可以做出多少选择。在国际象棋中,平均分支因子是 35;在围棋里是 250。对于未来的每一步,你都有(factor)^(steps 分行)数量的选择要评估。

在马里奥里,你要么向左,向右,跳,要么什么都不做。机器要评估的选择数量很少。而且,分支因子越小,机器人就能在计算上看得更远。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

口袋妖怪是一个开放的世界游戏,这意味着你在任何时候都有很多选择。简单地向上、向下、向左或向右移动并不是计算分支因子的有用方法。相反,我们着眼于下一个有意义的行动。下一个行动是去打仗,与 NPC 人交谈,还是去左、右、上、下的下一个地方?随着游戏的进行,可能的选择范围从大到非常大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

建造一台能够计算出最佳选择集的机器需要它考虑自己的短期和长期目标,这就引出了最后一个话题。

局部优化与全局优化

局部和全局优化可以从空间和时间上考虑。短期目标和直接的地理区域被认为是局部的,而长期目标和相对较大的区域如城市甚至整个地图被认为是全局的。

将每次运行分解成它的组成部分是一种将口袋妖怪问题分解成小块的方法。局部优化在一个区域内从 A 点到 B 点很容易,但是决定哪个目的地是最佳 B 点是一个困难得多的问题。贪婪算法在这里失败,因为局部最优决策步骤不一定导致全局最优。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马里奥地图很小,是线性的。口袋妖怪地图很大,错综复杂,并且是非线性的。为了追求更高的目标,你的最高优先级会随着时间而改变,将全局目标转化为优先的局部优化问题并不是一件容易的事情。这不是我们目前的型号所能处理的。

最后一件事

从机器人的角度来看,口袋妖怪不仅仅是一个游戏。机器人是专家,当你遇到想要战斗的 NPC 人时,帮助你在地图上移动的机器人无能为力。从他们的角度来看,这是两个完全不同的任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在战斗中,每一回合都有几十种选择。选择使用哪个动作,换哪个口袋妖怪,以及何时使用不同的物品本身就是一个复杂的优化问题。环顾四周,我找到了这篇文章,其中有人解释了他建造战斗模拟器的过程。这是经过深思熟虑的,非常复杂,甚至没有考虑到物品的使用,这是决定战斗结果的一个关键因素。

到目前为止,我们应该庆幸的是,我们可以建立比我们更擅长自己游戏的机器人。到目前为止,这些游戏在数学上很复杂,但在目标上很简单。随着人工智能的进步,我们将创造出能够解决越来越有影响力的现实世界问题的机器,所有这些都是通过它们自己对复杂优化问题的学习来实现的。请放心,我们仍然有更擅长的事情,包括我们童年的游戏——至少现在是这样。感谢阅读!

为什么“永远的数据”缺乏精确性。

原文:https://towardsdatascience.com/why-data-for-good-lacks-precision-87fb48e341f1?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我刚刚在斯德哥尔摩参加了 2018 年 ICML 国际机器学习大会,度过了美妙的一周。ICML 最活跃的非正式社区之一是“数据为善”社区。我们组织了几次自发的午餐,在那里我遇到了一些令人难以置信的研究人员和应用实践者。然而,作为一个小组,我们的讨论让我重新审视了一段时间以来我的直觉反应,即“数据为善”已经成为一个武断的术语,不利于运动的目标。

“数据为善”很少提到所使用的工具、努力的目标或我们服务的对象。类似于经常用“AI”来形容一切与机器学习模糊相关的事物。这两个术语的使用和普遍吸引力都令人兴奋,但是从技术从业者的角度来看,缺乏精确性。

我承认“数据为善”是与广大受众交谈的一个有用的捷径(我也在与普通受众交谈时使用它,就像在我的推特简历中一样)。我担心的是,当我们在自己之间谈论数据时,缺乏精确性。这篇文章的目标是那些选择加入“数据为善”保护伞的技术熟练的个人和组织。

我们需要更严谨的语言来描述我们正在做的工作,最重要的是**,这样我们也可以找出我们可以做得更好的地方。**在这篇文章中,我将描述经常用来将一个计划定义为“好的数据”的关键标准我将使用这个粗略的分类法来讨论一些公开的挑战。最后,我想说的是,最重要的一部分,机器学习教育项目,很少被讨论,并且很少被我们的社区所重视。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

什么是好的数据?

“永久数据”是一个非常新的术语。我是谷歌大脑的研究员。四年前,我创办了一个 501©3 非营利组织,名为 Delta Analytics 。当时,我只知道少数其他组织将自己归类在“数据为善”的保护伞下(例如: DataKindBayes ImpactData Science for Social Good)。

与此同时,人们对这一领域也非常感兴趣。我经常被邀请在等候名单很长的小组中发言,申请德尔塔奖学金的人数每年都在增长,许多新的组织也随之成立,如 AI4ALLhack4impact 和【uptake.org】T4。为了有效地利用这种令人难以置信的兴趣,我们需要一个更好的框架来讨论我们的工作和最值得关注的领域。

**首先,我们来问一下“数据”是什么意思?**我将把“数据”定义为从现有数据集中提取信息或收集新的/额外数据的项目,以此来限制我们的讨论范围。这通常需要数据收集、清理和/或应用统计工具和/或机器学习模型。这项工作还可能涉及构建数据收集或模型部署的技术工具。

“数据为善”是指数据项目的子集。“数据为善”是一个奇怪的描述符,因为它意味着一些数据没有被很好地使用,或者至少在应用的本质上是矛盾的。“好”这个词作为限定词的主观性意味着可能同时使用多个有效的定义。

我经常看到有四个标准被用来将一个项目归入“良好数据”的范畴:

1.数据产品的最终接收方是一家非营利机构或政府机构。

2.技术熟练的志愿者开发并交付数据产品。

3.数据工具免费或以高额补贴的方式提供给组织/个人。

4.教育培训提高服务不足社区的数据技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然这是一个粗略的分类,但它也是更严格地处理每个存储桶的一个有用的起点。在语言中,每当一个术语的含义不明确时,澄清所使用的定义是很重要的。除非我们清楚地说明这些定义,否则很难就我们是否以有价值的方式对计划进行优先级排序进行严格的讨论。作为一个社区,我们需要远离沾沾自喜的论坛,而是就这些权衡进行坦诚的对话,我将在下面的几个部分中对此进行讨论。

1。熟练的志愿者开发并交付数据产品(免费或按补贴费率)。

Delta Analytics 是一个自称为“数据为善”的组织的例子,部分原因是我们将免费志愿者的技术专家与世界各地的数据项目联系起来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

技术志愿者是一种强大的方式,可以弥合科技公司和大学的专业知识与世界其他地方之间存在的严重技术差距。理想情况下,志愿者致力于解决服务不足的问题。这可能是因为问题的性质,也可能是因为主机组织和/或地理区域内的技术专业知识不足。

虽然有技能的志愿服务是弥合技能差距的有力方式,但我们也必须注意到利用志愿者来促进数据发展的缺点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**依赖志愿者可能会导致零星的、通常不可预测的进展。**志愿者可能会忙于应付多项任务,必须优先考虑带薪工作/家庭/休息时间。志愿者可能只在有限的时间内可用,这可能需要在不同时间表的志愿者之间权衡项目。

**“尖端”问题备受青睐。**最容易让志愿者兴奋的项目都包含有趣的技术挑战。例如,去年我和其他三名德尔塔研究员志愿参与了一个名为雨林连接的项目,利用回收手机的音频流来检测链锯。这个问题很有趣,因为数据稀缺,我们部署的雨林的训练和测试分布之间的差异,以及所涉及的工程挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用深度学习很容易吸引高技能的志愿者来检测非法砍伐森林。然而,99%的数据问题并不那么耀眼,但仍然值得我们关注。大多数问题只涉及极少的数据,而是需要深入了解数据清理的最佳实践,并在样本量较小的情况下估计不确定性。事实上,通常最需要的是首先帮助确定要收集哪些数据。

为什么不解决这些问题呢?为这些问题中的任何一个提供解决方案都会产生深远的影响。然而,对于一周只能贡献几个小时的志愿者来说,解决这种性质的问题(例如收集正确的数据)所需的时间框架通常是不合适的。

**并非所有的志愿服务都是平等的。**周末或一日黑客马拉松旨在将时间有限的志愿者与需要他们帮助的非营利组织联系起来。达美航空从未举办过为期一天的黑客马拉松;我们更倾向于关注 6 个月的非盈利项目。我们不做一天的黑客马拉松,因为这需要付出难以置信的努力,才能让数据产品的最终接收者觉得这是一项值得的努力。

通常,为黑客马拉松做准备会给非营利组织带来巨大的开销,周末出现的数据原型无法证明这一点。非营利组织和黑客马拉松主办方必须投入大量时间来准备数据文档和数据集清理,这是参与者快速适应新数据库所必需的。

非营利组织资源有限,很少有专门的“数据”人员。除非对黑客马拉松进行仔细的研究和精心的计划,否则产生的数据产品很少能证明投入的时间是值得的。也就是说,黑客马拉松的目标通常是为有技能的志愿者提供体验活动,这些志愿者可能会决定更经常地参与其中。在这种情况下,成功取决于对持续参与有一系列清晰的预期结果。这些应该在黑客马拉松之前定义,这样活动本身就可以作为更长期参与的有用垫脚石。

2.用于数据工作的工具是捐赠的或得到大量补贴的。

这一类别通常是“永久数据”最有问题的特征几乎所有大型科技公司都有非营利项目,以高额补贴或免费的方式提供硬件、许可证和计算资源。虽然这些努力都是善意的,但大多数努力的当前表述都让人感到痛苦的麻木。原因如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**企业最渴望捐赠的工具并不适合绝大多数数据和技术专长有限的非营利组织。**我们忘记了绝大多数组织仍在使用 Excel,并认为将他们的数据转移到 Salesforce 是一个重大的技术进步。免费提供云信用、硬件或昂贵的可视化许可对极少数组织是有用的。然而,当公司将这种非常专业化的捐赠等同于拥有“数据为善”计划时,这是有问题的。至少,这些计划应该为非营利组织提供专门的支持和培训,这些组织通常缺乏技术专长和/或以不寻常和意想不到的方式使用软件。

**将实物捐赠等同于“数据为善”,可以免除科技公司更有意义参与的责任。**大多数非营利组织会告诉你,他们最常见的痛点不是软件,而是技术培训。像 Delta Analytics 这样的组织最大的贡献不是技术创新,而是让非营利组织更有信心使用他们的数据。科技公司可以通过将获得实物资源与诚然成本更高但更有意义的举措相结合来提供教育推广和熟练的志愿者,从而发挥最大的影响。

3.非营利或政府机构是数据产品的接收者。

如果最终受益人是非营利机构或政府机构,计划通常被归类为“永久数据”。

虽然这可能感觉像是一种将项目归类为“永久数据”的直观方式,但重要的是要记住,这并不总是保证我们处理最有意义的问题。我们应该灵活处理,优先确定有影响的问题。例如,达美航空每年都会收到来自世界各地非营利组织的赠款接受者计划申请。我们从不接受涉及帮助非营利组织准备资助提案数据的申请。这类数据工作有用吗?几乎可以肯定。**还有更有影响力的问题需要解决吗?**绝对可以。鉴于资源和专业知识有限,我们必须权衡如何分配资源。

基于分类的方法不会忽视营利组织的社会影响。作为德尔塔志愿者,我参与的最有意义的项目之一是与肯尼亚内罗毕的 Eneza Education 合作。Eneza 是一家营利性组织,它使用智能手机技术为准备年终考试的中小学生提供基于测验的资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Eneza 拥有一个令人难以置信的无与伦比的数据集,记录了东非学生的学习方式。此外,Eneza 团队同意我们可以与更广泛的受众公开分享这些见解。出现的是学生如何学习、如何优化测验顺序以留住学生以及非洲家庭如何以创新方式使用智能手机之前的技术的丰富画面。

最后,越来越多令人激动的研究项目甚至不是针对单个组织的。相反,研究人员的目标是为服务不足的领域提供可概括的见解。例如,位于坎帕拉的联合国脉冲实验室利用卫星图像来评估地区贫困状况,比如使用建造屋顶的材料。可持续发展和人工智能实验室参与了多个项目,包括使用卫星图像预测贫困和使用遥感数据预测作物产量。我们应该鼓励更多的机构支持,就像 SalesForce 的爱因斯坦基金一样,使这种类型的研究成为可能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.旨在欠发达社区建立技术能力的教育项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当教育项目集中于没有替代培训项目的服务水平低下的社区时,它们属于“数据为善”的范畴。例如,Uptake.org在芝加哥开展了一个项目,为非营利专业人士提供机器学习和安全实践方面的培训。达美助教在肯亚奈洛比教授机器学习入门课程,并将于今年晚些时候在摩洛哥阿加迪尔授课。

在这篇文章的开始,我建议教育项目既是最重要的“数据为善”计划,也是最缺乏服务的。

为什么?因为有技能的志愿者工作本质上是一项短期的努力。虽然我们绝对需要有技能的志愿者,但同时我们也需要更多的教育者。这就是在项目结束时“移交”的数据产品和最终接收方已经买入并将长期使用的数据产品之间的区别。

同样重要的是,当地专家能解决问题。熟练的志愿者经常提出不合适的解决方案,因为我们很难忘记自己喜欢的日常工具包。作为谷歌大脑的一名研究人员,我通常不担心数据的质量或数量,因为我依赖一些大型、公开和干净的数据集。然而,绝大多数现实世界的问题并不涉及那么多数据,也不需要神经网络。我愿意认为我没有被最近的研究束缚住,当我自愿为不同的问题贡献我的技能时,我仍然能够提供价值。然而,如果有人每天都在那些非常不同的约束下思考问题,那会怎么样呢?他或她更适合提出创新的解决方案吗?至少,我们的解决方案可能会非常不同。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**教育之所以是服务不足的领域,并不是因为我们不关心。我们有。**这是因为技能培训从根本上来说是一个比弥合技能差距更困难的问题。为了建设能力,我们必须建设有同样能力的生态系统。这很有挑战性,但并非不可能。今年夏天早些时候,我去了肯尼亚,在非洲数据科学学院教了一节课。在回旧金山的路上,我在安德拉停了下来。在过去的三年里,我每年都去安德拉。Andela 是非洲的一家工程动力公司,在拉各斯、内罗毕和坎帕拉都有校区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人们普遍认为,这是工程师在非洲以外的公司工作的最佳方式之一。事实上,一些已经完成计算机科学本科课程的学生仍然加入安德拉,尽管该项目专门培训没有假定背景知识的工程师。这些学生加入是因为安德拉雇佣工程师与世界各地的公司合作。安德拉非常成功,因为它招募人才是基于这样一种假设,即才华比以往的经验更重要。它依靠极低的录取率来选择非洲最有前途的开发者。

另一个巨大资本投资努力的例子是最近宣布的由脸书和谷歌共同赞助的非洲人工智能硕士项目(AIMS) 。Andela 和 AIMS 需要大量资本投资和机构合作伙伴的支持。然而,在较小的层面上,我们都可以推动将教育纳入我们的努力。 Fast.ai 为他们在数据学院教授的每门深度学习课程提供远程多样性奖学金。尼日利亚数据科学将于 11 月举办一次会议,届时美国和欧洲的机器学习专家将通过谷歌视频聊天工具教授教程。

当我们将熟练的志愿者与非营利组织合作时,我们应该做一个心理检查— “一旦我们不再参与,我们正在使用的工具是否可以被非营利组织重复使用?”最重要的是,我们不应该害怕教学。我经常遇到非常技术化的个人对自己是否有资格当老师的犹豫。你应该反过来问,什么会使你失去当老师的资格。世界很大,而知识目前集中在少数城市和个人手中。作为教育者和导师,我们都必须发挥自己的作用。

离别的思念。

我在这篇文章的开头提出,我们如何谈论“好的数据”是不精确的。我调查了一些用于将项目定义为“好的数据”的通用标准使用更精确的语言的一个可能的动机是有一个共同的话语来有效地引导“数据为善”这一术语带来的巨大兴奋、能量和资源。另一个或许更重要的原因是,通过反思我们当前的努力是否能最好地服务于世界各地的社区,让我们自己负起责任。

致谢

感谢 Melissa Fabros、Brian Spiering、Simon Kornblith、Anna Bethke、Jonathan Wang 和 Kumar Agrawal 对本文的丰富反馈。特别是,我要感谢 Amanda Su 的许多有用的软编辑和阅读这篇文章的多次迭代。

为什么数据科学职业会一直存在

原文:https://towardsdatascience.com/why-data-science-careers-are-here-to-stay-43b08995cf2f?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当人们思考他们最初感兴趣的职业道路或考虑进入另一个领域时,他们通常会查看与收入、就业市场健康状况和持续工作机会可能性相关的统计数据。

IBM 在 2017 年发布的统计数据表明,对数据科学家的需求很大,到 2020 年,对他们的需求将攀升 28%。大多数职位空缺将出现在金融和保险行业。

出于几个原因,数据科学家的工作在过去几年里开始兴起。

对于受过数据科学培训的就业市场人士来说,更好的是,这一势头没有放缓的迹象。

公司希望明智地使用他们不断增长的数据集合

每当一个人在脸书上更新状态,在 Twitter 上标记一个朋友,在谷歌上搜索一些东西,或者在 Instagram 上分享快照,他们都会增加现有的大量数据,这只是开始。

因此,公司不满足于仅仅收集数据是可以理解的。

他们希望研究它,了解它的背景,以便更好地了解他们的客户。数据科学家可以帮助他们实现这些目标。

然而,分析师指出,合格的数据科学候选人严重短缺。统计数据显示,与其他职位相比,T2 需要多花八天时间来填补一些与数据相关的职位。

随着公司开始更加关注数据,缺少人才的情况只会变得更加明显。

决定获得数据科学职位所需的培训和经验的人现在应该能够利用技能短缺,并断言自己已经准备好填补这一空缺。

数据让企业采取积极主动的方法来增加利润

当公司不能持续地在数据中寻找趋势时,他们可能会错过提高利润的机会。更糟糕的是,他们可能会犯下阻碍盈利和损害声誉的错误。

数据科学家可以帮助企业领导者更加积极主动地将数据趋势与提高利润的可能性联系起来。通常,如果与数据打交道的人对他们工作的公司有深入的了解,会很有帮助。

这也是很多公司从内部聘请数据科学家的原因。普华永道 2017 年 1 月的一项研究显示,59%的公司希望数据科学家候选人拥有大学学位和至少三年的工作经验。

他们也寻找有能力的人,这些人愿意灵活地扩展他们现有的技能。

保持盈利需要公司显示出适应能力,为这些企业工作的员工也是如此。

在这个竞争激烈的领域最成功的数据科学家将是那些能够适应变化,同时始终关注决定公司利润的因素的人。

无论短期趋势或关注点的短暂变化,盈利都是组织的目标。

因此,当公司雇用能够检查数据以保持盈利的个人时,这些人不必担心他们的工作可能会过时。

数据科学家的角色很有吸引力,原因有很多

Glassdoor 选择数据科学家作为其 2018 年的顶级职业,原因是 11 万美元的中值基本工资和高于其他领域平均水平的工作满意度等因素。

关于职业选择,整个 IT 领域是一个有着令人兴奋的选择的行业,其特点是持续的就业增长和诱人的薪水。

随着知名公司宣传他们希望将更多的数据科学家加入他们的团队,并让候选人知道他们将在商业预测中发挥关键作用,现在或即将寻找工作的人将更加确信数据科学领域提供了有前途的职业道路。

认识到一个希望在计算机科学领域工作的人有多种方式来发展他们的职业生涯也很重要。例如,如果一个人对某件事有热情——无论是农业还是人工智能——这个人可以寻找将数据分析应用于该兴趣的方法。

不久前,一些行业甚至没有考虑使用数据科学来实现他们的目标。现在,来自这些部门的大多数代表都意识到有一个分析的地方,并希望数据科学家帮助他们找到它。

此外,即使不是计算机专业的人也经常最终从事相关的工作。

如果求职者表现出他们愿意多才多艺,他们将有更好的机会在他们喜欢的职位上工作,提供丰厚的薪水。

数据科学实现更智能的预测

有一个适用于每个行业的现实:预测能力让公司不再依赖直觉,而是参考集体信息。

当这种情况发生时,企业领导人会对他们的预测更有信心,让利益相关者更容易信任他们并投资他们的企业。

图片由 凯文·Ku

为什么数据科学会议值得付出额外的努力

原文:https://towardsdatascience.com/why-data-science-conferences-are-worth-the-extra-effort-a67a123ae4d4?source=collection_archive---------4-----------------------

我是一名数据科学家…

我喜欢数据。我热爱科学。我喜欢处理数据…

但是……作为一名专业人士,有时你会觉得自己不够敏锐,没有把握住最新、最时尚的话题——这时你需要提升自己。

你如何着手做这件事?

课程、聚会、播客、研讨会……似乎都是可行的选择。但是其中一个选项很突出:数据科学会议。

你很可能在想:“我应该打扰吗?会议不就是浪费我的时间、金钱和精力吗?…它们值得付出额外的努力吗?”

我们都想过这个问题——但事实真的是这样吗?

如果我告诉你,它们值得你付出额外的努力。

当参加这些活动时,你可以获得大量明显和不那么明显的好处,问题是没有多少人知道如何参加会议…

诀窍是:你只需要知道去哪里找。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

参加任何会议都不是免费的

首先,我承认参加会议需要相当多的资源…

除了会议本身的费用,你还要在旅行、住宿和餐饮上花钱。不要忘记错过的工作和工作日会让你损失更多。

此外,除了花在会议上的时间,您还应该考虑花在以下方面的时间:

  • 到达和离开活动地点;
  • 为会议做准备(了解发言人,选择最有趣的会议等。);
  • 回家后最大限度地利用活动(例如,社交和“感谢”邮件)。

这就是为什么大多数人试图挑选一个推荐的会议,组织后勤,解决所有的旅行问题,找到并参加你最感兴趣的会议,甚至与会议参加者和发言者取得联系。

但是有一些坏消息…

遗憾的是,即使你确保所有这些都完成了,也不可能保证你会从参加会议中获得有价值的收益。

结果很多人得出结论:浪费时间和精力。这是可以理解的,尤其是如果你以前有过一些不幸的会议经历。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就是为什么你应该:

激光聚焦在白马王子身上

数据科学是一个飞速发展的领域。

因此,你会发现每年都有大量的会议召开:有些会议或大或小,有些比其他会议更贵或更便宜,有些面向学术或商业,有些涵盖广泛的主题,而另一些则关注范围狭窄,只涵盖一些特定的领域。

那么如何选择 数据科学大会 那才是真正值得你花费时间和精力的呢?

有几个因素需要考虑(以及要问自己的问题):

  • 你的预算。

“今年我想在教育上花多少钱?”

我不建议在一次会议上全押,仅此而已。这不仅会给你带来太大的压力,而且你应该每年花时间提升自己几次技能。

有大量的选择来学习和教育自己,此外,还有数百个各种形状和大小的会议,所以选择一个适合你的吧。其中有些不一定要花大价钱才能获得超值。

(别忘了考虑一些额外费用,如门票、酒店、交通、餐饮、娱乐)

但是和许多事情一样,所有这些都是投资,问题是:

“你准备好投资自己了吗?”

  • 你的目标。

“我有一些需要继续努力的具体需求吗?”

如果是这样,寻找专门针对他们会议。如果你没有什么需要关注的,那就跟着你最大的兴趣走。如果你喜欢某个特定的主题,你可能会想更深入地研究它,而会议正好可以做到这一点。

  • 你的发展。

“我现在处于数据科学职业生涯的哪个阶段?”

如果你刚刚开始数据科学家的职业生涯,一些让你涉足几个主题的一般性会议可能是你应该寻找的——甚至可能是专注于职业发展的活动。

如果你已经有了多年的经验,你就会知道有些话题你喜欢探索,有些你不太喜欢。一旦你选择了这个子领域,想想你还能从这个活动中得到什么——建立关系网的机会,指导,甚至是伙伴关系,然后缩小范围。

  • 你的独家知识。

“这些发言者是谁?我能从他们身上学到什么?他们是否处于我想要的阶段?”

我试图在会议上从与会者身上学到一些网上找不到的东西。

我这么说是什么意思?

体验。真实的。生活。经历。

一切技术都可以在谷歌上阅读,所有最新的知识都将在最新的时事通讯上发布,这是任何新闻渠道中的最新技术。

但是,如果你做一点功课,从演讲者那里查找过去的会议,或者如果你阅读他们的简历,你可能会喜欢一些东西,那么这将增加你学习新的、独家的和有价值的东西的机会。

最后,正如我们稍后将要讨论的,会议是一个很好的交流场所,所以你应该试着超越演讲者的思维,考虑听众。这个活动是针对谁的?你会遇到有价值的人吗?-如果是这样,你可以走了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你选择了合适的会议,你就成功了一半。

之后,接下来你将有机会享受所有这些额外的不太明显的好处。

向专业人士学习

数据科学是一个快速发展的领域。

事实是:你可以找到大量的资源,其中许多是在线的——也就是说,你可以在家里舒适地访问它们。

您可以参加在线课程和网络研讨会,听播客,获得问题的答案,参加研讨会,等等…

那么,为什么要为亲自参加学习活动的时间和费用而烦恼呢?这样不是效率更低吗?

虽然线上活动很好,但线下活动能给你带来更多:

  • 他们带给你的是字里行间的信息,是在其他地方无法阅读或找到的内容。在阅读文本时,有一些细微之处经常被忽略,但在适当的强调下是不会被忽略的。
  • 你可以向任何人学习。你会惊讶地发现,我经常从坐在我旁边的人那里学到难以置信的见解,只需要一次交谈。
  • 你可能会在一对一的会议中遇到你的偶像(这种情况越来越普遍)。你会了解他们正在做什么,他们的观点和愿景,他们甚至会给你建议如何改进你自己的工作

记住,会议提供了一个环境,鼓励你向所有人提问。在这种环境下,每个人都知道一些特定的话题,但没有人相信或表现得像专家。

是时候问那个一直困扰你的愚蠢问题了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

至少是一个导师

人脉通常是许多专业人士参加任何特定会议的唯一原因。

这是真的——这很重要。

好的会议为与会者提供了大量的机会,让他们能够混合和交往,建立新的关系,甚至加强现有的关系。喝茶或喝咖啡时,你可能会发现自己与潜在的合作伙伴、商业伙伴、客户或未来的导师建立了新的联系。

社交媒体可能会让你与来自世界各地的同龄人保持联系,但事实上,在现实生活中,没有什么可以替代与某人见面(或真正了解某人)。

然而,与商务会议不同,数据科学会议允许您在社交和不太正式的环境中与人互动。

考虑一些至关重要的事情:通过文本(电子邮件或短信),你失去了你想说的话背后的语气和意图。通常,事情会被曲解或误解,只是因为我们不知道背后的语调是什么意思。

说起来,还好是解决这个问题的办法。

许多人觉得社交很尴尬或不舒服,但如果你记住每个人都是出于同样的原因——人们通常在会议和其他现场活动中对交流持开放态度,这是意料之中的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你永远不知道某人将来会给你或你的组织带来什么好处,在职业发展的一些关键方面,面对面的活动是不可替代的——所以保持开放的心态,与人交谈,也被人交谈。

不要后退

这个闪电般的快速领域比我们所有人都能理解的还要快。

这通常归结于速度…

事实是:在这个领域总是有新的东西要学,最好的会议肯定是在这些前沿发展和新闻的最前沿。

这是获取最新行业信息的最佳场所,通常来自信息源本身。你甚至会接触到各种各样的想法、话题和行业,这些都是你以前可能没有考虑过的,但是你会学到的,因为你就在那里。

把社交媒体也考虑进去,你会发现自己处于一个的位置,为会议提供内容。如今,使用会议标签实时发布你的反馈和体验几乎是一件必须做的事情。

你将有一个绝佳的机会去关注所有突破性的新闻和公告,如果你做得好,你将能够额外推销你自己或你的组织。

你将成为一个更大的对话的一部分,你将保持相关性并被听到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谁啊。我吗?

数据科学会议是为你的职业发展准备的。句号。

这可以是通过学习下一大块知识,找到你缺失的最后一块拼图,或者通过正确地推销自己。

如果你已经有一些数据科学家的经验,你可以更进一步,甚至将自己定位为同行中的专家

当你活跃在你的行业并参与主要活动时,你更有可能在你的同行和你的客户中建立专家的声誉。

那些长期从事这项工作的人经常被邀请在受欢迎的活动中担任演讲人,或者被要求为专业出版物撰写文章。人们喜欢与专家和领导者交往,这不是什么秘密。

最后,你会让自己成为那些为公司招聘合适人选的人的目标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我知道。

你是否足够投入?

是的,会议甚至可以帮助你解决这个问题。

当您注册参加活动时,您表明了您向前迈出一步的承诺。有时候,迈出这一步并付诸行动是停止拖延和无所作为的好方法。

在会议期间,你将有机会专注于一项特定的任务——职业发展。是时候让你提升自己,学点新东西,和同行的人聊聊,听听自己回答:

  • 你适应这种环境吗?
  • 你被这些谈话迷住了吗?
  • 你有什么要和这个社区分享的吗?
  • 你想知道更多吗?
  • 你是否受到的启发去实施你所学到的东西?

回答完这些问题后,你对未来职业发展的愿景可能会变得更加清晰。

此外,无论你在职业生涯中处于什么位置,都有专门为数据科学家的职业发展量身定制的特定活动,例如:数据科学公司。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Click here!

如你所见,即使参加会议和其他面对面的活动可能听起来很乏味,需要额外的努力、时间和金钱,但如果你做得对,这确实是值得的。

让我们总结一下…

那么,为什么数据科学会议值得付出额外的努力呢?

简短的回答是:

因为他们对你的个人和职业发展是不可替代的。

如果您努力选择合适的会议,您将获得许多新的机会,例如:

  • 向数据科学领域最优秀的人学习
  • 获得关于当前项目的新想法
  • 寻找你的下一个商业伙伴、合作伙伴、导师或客户
  • 熟悉数据科学的最新趋势
  • 成为数据科学社区的一员
  • 把自己定位成专家
  • 从志同道合的人中获得灵感

没有人会争辩说,为了在事业上取得成功,你需要投资于你的教育和职业发展。因此,会议应该成为你职业发展不可或缺的一部分,因为它们提供了让你的技能达到更高水平的好方法,是建立关系网的最佳场所,可以帮助你战略性地指导你的职业生涯。

现在,看起来他们绝对值得付出额外的努力。

那么,你还在等什么?找到合适的会议并立即注册!

原载于 2018 年 3 月 27 日www.superdatascience.com

为什么数据科学失败了

原文:https://towardsdatascience.com/why-data-science-fails-dd599e9f42ea?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Daniel Cheung on Unsplash

正如合并经常无法兑现他们的承诺一样,许多数据科学团队也是如此。毕马威的一项研究表明,83%的并购交易无法提高股东回报。而且,尽管我认为数据科学在建立了团队的公司中获得了普遍的成功,但在许多公司中,它远远没有给人留下深刻的印象。

在许多公司中,数据科学往往无法实现其全部前景,原因与合并没有实现相同。这就像火鸡为圣诞节投票一样。被要求参与变革的人很有可能,或者认为自己很有可能,在参与的过程中失去控制。

通常有:

  1. 缺乏领导和管理;
  2. 缺乏对现有员工的适当激励,以从新员工或新技术中整合和提取价值。

地盘之争接踵而至,很少有人会赢(尤其是股东)。

更换代理商

就像合并和收购一样,将数据科学引入一个新的组织很难,数据科学家可能会被视为局外人。他们手中掌握着很少有人理解的新技术——在许多情况下可能是令人费解的。结果,数据科学家最终不愿意成为对抗根深蒂固的基础的变革推动者。

大多数组织中根深蒂固的人害怕变化,通常很少有领导者有必要的经验或能力来管理变化带来的不确定性和恐惧。这种恐惧最常见的表现之一是怀疑。这种怀疑变成了自我实现的预言,导致了失败。加剧这一问题的事实是,公司的高管和高级经理没有充分支持,也不理解数据科学到底是什么。

有两种明显的方法可以解决这种领导力或变革管理的差距。

  • 首先,该公司的领导团队能够认识到他们对新技术缺乏经验,以及对重大变革管理的需求。他们可以任命并授权一个值得信赖的顾问,或者任命一个强有力的领导者来推动实施。
  • 其次,数据科学家本身可以学习如何支持变革,支持他们所在的组织,并确保项目通过理解和支持而非逆境获得动力。

虽然我认为双方都应该是任何新整合的重要组成部分,但最终还是领导团队有责任促成变革。任何希望从过去十年的技术进步中真正受益的组织都需要走在前面。高管们需要了解技术、好处和成本,但他们也需要了解人们,知道这是一个重大变化,并意识到他们的员工中很少有人会有这种经历。不确定性和恐惧将被播种。再培训、技能提升、知识转移和公开对话是防止这种情况的好方法。

驾驶变化

去找数据科学家并把责任推给他们是轻而易举的——要么这样做,要么让他们自己决定。领导可以告诉他们的人民,如果他们希望制定变革,那么他们应该大声说出来!毕竟,这是一家敏捷公司,决策是民主做出的,而不是由少数人做出的。

尽管这种情绪很好,但它提醒人们,如果组织根深蒂固,那么这种成功的实际概率非常低。任何曾经试图从一个没有权力的位置上改变一个组织的进程的人都会知道,这是令人沮丧的,不太可能成功,而且很可能导致一个人筋疲力尽。此外,虽然我认为许多数据科学家有能力成为伟大的技术人员,拥有必要的商业敏锐度,正确的领域知识,以及成为有能力的领导者的能力,但这设定了一个不切实际的公式或期望。

数据科学很难搞

我不想自我推销。当我成为一家中型组织的首席执行官时,我觉得这最终会比我纯粹是一名数据科学家时更容易——当然会有更多压力,但实际情况的复杂性会降低。

虽然数据科学是我做过的最好的工作,而且直到今天我仍然热爱它,但它的要求非常高。可以肯定的是,我的兴趣水平淡化了困难,但客观上是困难的。一个人需要同时兼顾许多耗时的任务:

  • 通过每天阅读论文保持对技术进步的了解
  • 通过研究和与专家的长时间交谈,深刻理解他们工作的领域
  • 不断地创造、实施并通过客观的标准来判断自己
  • 管理通常管理不善的复杂集成系统(数据质量差的现象非常普遍)
  • 了解企业如何运作
  • 知道如何将新技术融入这些公司
  • 能够向人们展示结果将远远少于统计学和数学背景
  • 理解可视化,以及如何用数据以简单的方式讲述一个复杂的故事
  • 知道自己的极限,在情感上足够聪明,知道自己不知道的。
  • 质疑一切

加上作为一个强有力的领导者、变革推动者、演说家和其他一些人的所有品质,你已经要求了不可能的事情。企业领导人需要明白,数据科学家不是也不会是一切。同样是这些领导者需要走出他们的方式,以更好地理解组织在成功实施数据科学时面临的困难。

是时候停止认为别人会做这件事了。

为什么应该在每个工程专业推广数据科学

原文:https://towardsdatascience.com/why-data-science-should-be-promoted-in-every-engineering-major-aaf9c92d9d0d?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Neural networks explained to a majority of Computer Science students by a Mechanical Engineering student during a DataVenture event — Photo by Bastien Le Moallic

数据科学是大多数大学教授的一个时髦的新领域——至少是科学和工程大学。但仍然在 2018 年,它并不总是被视为和理解为每个专业的完整和强大的解决问题的方法。我相信应该是!

数据科学涵盖了许多不同的东西:数据管理、统计学、数据可视化、机器学习等等。人们认为只有计算机科学家有足够的技术来处理这个问题。为什么?因为它通常需要编程技能,而这些技能在高中(或之前)并没有作为基础知识教给每个人。因此,它引起了人们的恐惧,因为他们不知道编程。

老实说,数据科学需要与一些计算机材料兼容。比如操纵数据(文件、数据库)和对它们进行操作(编程或使用高级软件)。但是数据科学可以在很多方面帮助你。如今,数据无处不在。那么你不应该仅仅因为你缺乏计算机编程技能而忽视解决你自己问题的方法。这不是重点。

现在忘掉障碍,专注于利益。我将给出一些具体的例子来说明为什么你应该开始用数据思考,不管你是谁。从化学到机械工程专业,学生没有理由远离。

如何利用数据科学解决问题

数据科学是一套应用于数据集的统计工具,目的是提取有趣的值(解决问题、发现模式和意外规则等)。

数据可以是数字、文本、图像、声音。它通常存储在文件或数据库中。具有相同变量的数据集合称为数据集。数据集有时是私有的,有时是公共的。越来越多的机构将他们的数据放到网上。这些公共在线数据集被称为“开放”的,因为任何人都可以下载和探索它们。例如,巴黎市有一个很棒的在线平台,他们在那里发布许多开放数据集。它是关于经济,社会统计,建筑,交通,公共服务等。

让我们来看看这个数据集。它由巴黎街道的城市数据组成。它描述了巴黎的街道是如何被道路分隔开的。你可能在想:“我就是不在乎这个”。等一下。最近,我不得不使用这个数据集。

我研究了一个解决方案来改善巴黎市的垃圾收集管理。这个想法是利用机器学习预测垃圾车到达街道,然后在几分钟前提醒管理员,以便他们可以将垃圾箱放在户外。最终目标是减少巴黎街头垃圾箱的数量。

其中一个步骤是将街道聚集起来,将城市中的每个地址聚集成小的集群。簇必须是彼此靠近的地址,并且同时由卡车收集。即使同一条街道上的两个号码很近,它们也可能被道路隔开,因此垃圾收集车可能不会同时收集它们。我不得不将没有被道路分隔的街道编号进行分组。所以这个数据集正是我所需要的!我用了所谓的聚类算法,这是结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我没有设计一个可能涉及一些城市知识的复杂算法,而是使用了一种机器学习方法,这种方法很有效。因此,无论你是谁,例如在城市规划领域工作的人,你都有理由使用数据科学,因为它很有帮助。

不同科学领域中已解决问题的例子

嗯,有很多例子。快速访问 Kaggle (网络上最著名的致力于数据科学竞赛的实体)及其多样化的数据集,人们在这些数据集上不断竞争,这给了我非常广泛的想法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

化学工程。分子结构和性质的类型不知何故是无限的。对于在制药领域工作的化学科学家来说,预测给定分子的生物反应是一项非常具有挑战性的任务。在实践中,这意味着在评估一种新分子的有效性和安全性之前要进行大量的临床实验。这个数据集提供了一系列不同的分子,每个分子都有 1776 个分子描述符。鉴于 1776 个分子描述符的细节,药剂学专家几乎不可能用分析方法预测生物反应,但数据科学方法使之成为可能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

工业工程。假设你在一家非常大的汽车制造厂负责降低生产成本。我敢打赌,你首先想到的是建筑本身。但是在作为最后一步的强制性汽车测试中,实际上花费了很多钱。汽车制造商必须确保每辆新车的安全性和可靠性。梅赛德斯-奔驰发布了一个数据集,包含 377 辆正在接受测试的汽车的描述符,以及相关的答案“通过测试”或“否”。他们想要一种已经学会预测汽车是否通过测试的算法。他们表示,最终算法将有助于更快的测试,导致他们所说的“更低的二氧化碳排放”(测试期间),但首先它将有助于提高生产率和租赁能力。

城市工程。几年前,华盛顿特区有一个问题需要解决。他们想更好地了解他们的自行车共享系统是如何使用的:高峰时间,最活跃的出发和到达码头等。他们把这个问题变成了一个数据科学问题,他们要求竞争对手在 Kaggle 上预测在给定日期和时间使用的自行车数量。数据集中的描述符通常是与天气和日期相关的信息(季节、星期几、月份等)。人们做了很好的可视化,带来了对服务使用方式的直观理解(见下图)。通过共享自行车需求预测系统,他们为物流员工提供了一个强大的工具,帮助他们在城市中调度自行车车队。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前面的三个例子实际上都是关于在给定环境下统计预测输出的。根据机器学习模型,有时可能会得到为什么做出预测的解释。我们经常提到“白盒”和“黑盒”这两个术语。黑盒模型很难理解(通常是神经网络),但白盒模型提供了选项(如决策树)。在白盒里,有时会发现完全出乎意料的奇怪原因!

从这个故事开始,我们就一直在讨论工程师和科学家使用数据科学的原因。此外,在其他领域存在更多的用例。你知道优步正在预测它的需求吗?然后,该公司能够派遣更多的司机前往非常活跃的地区,或者建议他们更容易找到客户的路线。而且,酒吧可能会利用他们的销售数据来准确预测在一年中的特定日期和时间他们能卖出多少啤酒!事实上,数据科学绝对不仅仅是为了科学人。每个人,制造商、销售商或任何组织,都能够通过利用数据创造新的价值。

我们如何在 DataVenture 为每个人推广数据科学和人工智能

DataVenture 是一个学生组织,旨在建立一个数据科学和人工智能领域的社区。自 2017 年以来,我们在法国贡比涅理工大学(UTC)推广这些领域。

通过每两周组织一次技术讲座、会议(研究人员、公司)和研讨会,我们努力为每个人推广数据科学。我们希望让未来的工程师意识到,一方面数据科学可以解决他们的问题,另一方面他们不需要成为计算机科学家。我们提供了广泛的数据科学相关主题,并在讲座中进行了介绍和讨论。通过伟大的会议(学术会议、、脸书、微软等),我们展示了这个领域能带给他们多远。此外,从我们的角度来看,在研讨会期间为他们提供合适的工具也很重要。不仅科技知识很重要,法律和道德等话题也是不可忽视的。与我们来自 Picasoft 的朋友一起,我们也带来了法律演讲。

我们在 DataVenture 最活跃的成员之一,学习机械工程并一直对它充满热情,现在是达索航空公司的数据科学实习生。他实际上正在使用机器学习技术来解决他的力学问题:混合他对力学和统计学的理解,以选择正确的特征和正确的可理解模型来预测一个复杂问题的答案,这个问题几乎不可能用纯分析研究来解决。

那么,我们的任务成功了吗?我相信是的!

你想加入我们的data venture社区吗?您可以在Twitter上关注我们,加入我们的 脸书群 ,阅读我们的 媒体博客 ,在我们的 网站 上查看我们的最新活动!特别感谢Matt和 DataVenture 人的点评!

数据科学成功或失败的原因:

原文:https://towardsdatascience.com/why-data-science-succeeds-or-fails-c24edd2d2f9?source=collection_archive---------3-----------------------

投资几分钟可能为您的公司节省数百万美元

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简介

数以千计的公司领导人已经迷恋上了数据——部分原因是数据太多了,部分原因是商业媒体上写的数据科学和机器学习(ML)的潜力,部分原因是他们知道数据有价值,但他们不确定如何处理这些数据或如何提取这些数据,数据只是呈指数级增长(莱德曼,你的公司知道如何处理所有的数据吗?, 2017).然而,根据最近 Gartner 的一项研究,85%的数据科学项目失败了。为什么?更关键的是,你的公司怎么可能在那 15%(沃克,2017)?行业文献充满了一些常识性的原因:数据不足(Asay,2017),技术本身而不是利润和关键绩效指标(KPI)的驱动因素(Taylor,2017),沟通不畅(Taylor,2017),高管支持不足(Taylor,2017),过于复杂(Veeramachaneni,2016),以及问题焦点过于狭窄(Veeramachaneni,2016)。

然而,作为一名数据科学家和组织领导者,它回避了一个问题,这些是否只是症状,而不是导致数据科学项目生病的原因。他们的根本原因是什么?在这些下游后果的上游是否存在元问题,这样,如果这些“疾病”的来源被识别和解决,症状被预防,数据科学/ML 项目保持健康?

数据科学成功的根本原因&失败

**1。团队多元化——跨职能团队—**20 世纪 90 年代中期,我大学毕业后的第一份工作是为世界上第一家端到端全球电信公司工作,当时互联网——以及数据流量——正经历着飞速增长。因为他们已经与 40 个国家的 2,000 个客户签订了价值 7 亿美元的合同,这些合同都是基于数据质量的最低服务级别协议(SLA ),所以提前足够长的时间预测数据质量故障(这些故障将触发合同规定的经济处罚)以采取措施预防这些故障是至关重要的。要做到这一点,他们需要创建传输质量的多维数据流,将其存储在数据仓库中,然后开发定制工具来自动分析、预测和提醒服务类型和区域何时会违反 SLA,并发出足够的通知来阻止它,从而通过避免处罚来确保其跨国客户的满意度和自身的盈利能力。

这个成功的多年项目几乎在发射台上爆炸了,原因和数据科学项目失败的原因一样——他们错误地假设一个精通几种语言和工具的程序员可以:(a)用这些工具做任何事情;(b)找出所有其他的元素——成功地识别需求、技术策略、统计数据、用户体验、质量保证、培训和交付。

有类比。想象一下,雇佣一个有才华的糕点师来发展你的餐厅——有一个明星糕点师可以做得很好,但他将创造其他食物类型,开发菜单,创造和最大化就餐体验,为食客服务,推广和营销餐厅,管理财务等。或者,想象一下,想用一个熟练的木雕师建造一座豪宅。虽然雕刻可能是最棒的,但是谁来开发这个地方,为这个建筑确定最佳方向,设计它,获得许可,开发这个系统,做砖石工程,盖屋顶,装玻璃,美化和装饰它呢?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这样的框架下,答案似乎显而易见:即使是才华横溢的程序员单独工作,也可能无法实现重大的数据科学计划,因为这需要跨职能技能和人才的更大多样性。引用一家领先的 ML 咨询公司的话,“数据科学家应该具有商业洞察力,理解数据背后的数学,并与熟练的开发人员协同工作”(Tereschenko,2017)。虽然理论上可以设想一名数据科学家拥有跨许多功能和工具的知识平衡,但在现实生活中,他们就像独角兽一样——很难找到。那么,什么才是理想的数据科学或 ML 团队呢?好吧,这是一场有趣而热闹的行业辩论;然而,就像理想的软件开发团队是跨职能的一样,数据科学和 ML 也是如此——本质上,它是特定类型的软件开发团队的特定案例。虽然每个团队成员都有类似传统的职能,但更重要的是关注职能的表现,而不是头衔:

(A)项目领导——这有两种形式:(I)有经验的项目经理创建路线图,知道潜在的陷阱,管理人员和预算和交付物,并确保高质量的交付物,按时和在预算内,超过预期;以及(ii)技术领导,他通常对如何最好地满足功能和业务需求的技术要素有最终建议(如果不是批准的话)。双方经常在团队建设中发挥作用;然而,他们很少是同一个人。

(B) 策略师 —这可能是一个在统计学、生物统计学、预测分析、人工智能和机器学习方法方面有广泛经验的人。通常,他们有能力将业务问题或研究问题转化为最合适的数据科学模型,解释结果,比较评估模型,知道何时使用哪些统计工具、监督学习和非监督学习算法,以及哪些类型(例如,用于比例因果关系的随机森林——特别是对于大数据,哪些模型过度拟合或拟合不足以及如何改进,用于搜索引擎功能的梯度推进, 何时以及如何使用像 Tableau 这样的仪表盘向一线的公司用户实时普及数据,在零售中使用 K-means自组织地图进行客户细分或聚类,何时以及如何在电子零售中使用集体预测分析“群体智慧”等。 ),以及对如何使用数据类型、清理、训练等的高级理解。简而言之,战略家专门研究什么时候做什么,他们很可能能够从不同领域创造新的创新方法来解决问题,并且在高层次上知道如何这样做。

©沟通/翻译——《哈佛商业评论(莱德曼,2017)中的托马斯·莱德曼说:“最好的数据科学家会出来和人们交谈。”。最佳需求是通过与最终用户的大量对话发现的,经过记录、审查、编辑,然后确定优先级。这些问答环节需要法庭提问的技巧,以及与从熟练工人到管理层到高管的每个人的轻松对话。理想情况下,他们还拥有广泛的商业知识,了解流程如何工作,帮助企业发展和盈利的关键问题是什么。此外,他们需要成为翻译专家,能够在需求、功能性解决方案和解决该问题的技术之间架起一座桥梁。他们一部分是分析师,一部分是专家,一部分是作者,几乎总是撰写开发者和程序员所依赖的详细的功能性和技术性需求文档。有时,这些分析师-沟通者-作者也是领导文档和培训的完美人选——这就是它的作用、工作方式和原因——因为他们已经彻底了解业务问题和解决方案,并且完全有能力向他们已经建立关系的人阐述和解释它们。

【D】****—在大多数技术周期的开始,一切都是定制编码的,因为带有图形用户界面的软件包还不存在。这曾经是统计学的真理;然而,现在 MATLAB、Minitab、SAS 和 SPSS 是基于图形的软件包的领导者,使数据科学家能够更快、更准确地获得结果,而不需要投入宝贵而昂贵的时间来编程或调试代码。在我看来,使用图形工具进行软件开发的人是“开发人员”,用语言编写代码的人是“程序员”。在数据科学中,从定制编码到图形化编程工具的转变可以说是半途而废。当然,有一些图形化的解决方案,包括上面提到的那些,可以很快地完成出色的工作,可以用代码定制,但通常不需要这么做;然而,对于定制应用程序,仍然有一个与程序员一起定制代码的合理的好理由——通常使用 Python 或 R,这取决于它是一个需要其他功能的通用应用程序,还是纯粹的数据科学和统计学。今天,在你的团队中可能仍然有必要同时拥有这两种技能。即使你正在使用下一代自动化的人工智能工具——比如数据机器人,它可以并行排列几十种流行的人工智能模型和算法,从而节省数月的猜测和费力的模型构建——最好的算法仍然需要在定制的生产环境中构建。开发人员和程序员是“如何做”的人。

****【E】数据工程——“只有 3%的公司数据符合基本质量标准”2017 年发现三位研究人员(Nagle,2017)。这种数据的可信度问题有多种形式——“脏数据”,可能被错误分类、错误识别或仅仅是错误的——缺失数据,或者可能是最麻烦的——看起来是正确的数据;然而,它有多种定义。它创造了一个前端质量保证关卡,需要确保数据在进入数据科学分析或工程流程之前尽可能准确。虽然有处理缺失数据的策略—删除记录、插入剩余数据的平均值或中值、移除缺失数据元素平均值 2.5 倍的异常值,但这肯定很耗时—知道如何以及何时使用每种策略至关重要。理想情况下,这个人可能是在跨系统提取、转换和加载(ETL)数据方面有丰富经验的人,并且还必须对每个环境中已经使用和正在使用的数据字典和定义有敏锐的理解。当公司合并他们自己或系统时,这个问题会成倍增加,因为每个实体通常都有自己的数据系统和定义,它们的一致性是整体和企业范围的数据科学项目的先决条件。数据工程师是开发人员和程序员关注的细节“如何”的无价伙伴。

(F) 质量保证/测试 —这可能是数据科学团队中最容易被忽视的职能;然而,这是至关重要的。在传统的软件开发生命周期中,测试人员查看功能需求,并确保解决方案做了它应该做的事情。然后,他们试图通过用户做的奇怪事情来破坏它,或者给它加载太多数据来进行压力测试。在数据科学的发展中,由于统计和数学,它有了额外的意义,这些必须是正确的才能得到有价值的答案和预测。否则,该公司实际上投资了数十万或数百万美元在一台超级高效的错误答案生成机器上,这台机器将提供错误信息和误导,而不是提供信息和帮助。这样做一次,它所造成的不信任可能一代企业领导人都无法克服。从战术质量保证方法来看,他们批判性地回答了一些问题,如数据科学工具是否针对多代数据进行了测试(通常是从培训中获得的),相关性或关联性是否与因果关系不正确地融合在一起,是否使用了一种统计工具来假设非标准化数据的标准化数据分布,数据不平衡是否会导致右倾或左倾分布,数据类型是否在方法中不正确地混合(例如,连续型与分类型等)。).如果一个团队告诉我,他们花了项目持续时间的 33%在分析和设计上,33%在开发上,33%在 QA/测试上,我觉得这是一个合理和健康的时间和资源分配。

2。数据多样性&广度——从哪里开始Don Wedding ,我在西北大学的一位出色的预测分析教授,也是 SAS 研究所的前技术负责人,他用一个类比来表达机器学习的功效在很大程度上取决于起点的重要性。如果你问一个 ML 算法地球上的最高点是哪里,它会从阿拉斯加开始蛮力、试错,它可能会说麦金利山。如果从亚洲开始,它可能会说珠穆朗玛峰。如果它从死亡谷开始,它可能会说一个当地的草原土拨鼠洞边缘。结果分别是非常好、完美和非常差(婚礼,2017)。

类似的问题也出现在数据科学在基因组学中的应用。今天使用的大多数基因组数据库或生物库是来自西欧血统的高加索人的样本。正如零售业中的欺诈检测寻找行为异常值一样,在基因组 ML 应用中,变体是游戏的名称。什么是正常的基因组足迹,什么时候,什么地方,为什么有些东西与正常足迹不同?因此,除非数据来自多样化的人群,且样本与人群一致,当 ML 算法识别出变异体与常模的“差异”以指示疾病、抗性等时。,这很可能仅仅是因为变异来自数据集中代表性不足的少数群体,这是一个错误的假设。所有这些都是说,在数据科学项目的数据工程方面,数据的广度和多样性是关键,否则,该技术只会更有效地给你一个误导性的答案,以及错误的信心。

3。理解上下文核心问题—Don Wedding 还提出了“分析型狼人”的概念,这些事情是更深层的潜在问题,导致公司认为他们应该从事数据科学或机器学习来“杀死狼人”(Wedding,2017)。Wedding 教授也是一家财富 500 强公司的首席数据科学家,他根据自己丰富的经验认为:(a)对 ML 的兴趣通常意味着缺乏分析或统计人才,sa 技能有限或工具过时,计算能力或模型不足,或数据质量问题;以及(b)客户通常使用数据科学或 ML 计划作为“银弹”,以获得专业咨询服务来弥补他们的分析差距、增加工具和/或培训、升级软件、更强的计算能力(例如,过渡到云或更强大的处理器或更大的内存、过渡到分布式计算架构、更快的数据库吞吐量等)。)、重组数据库架构或任何组合。这些潜在的需求、动机和解决方案不一定一点都不好;然而,当形成数据科学或 ML 计划时,重要的是将推荐或需要数据科学的动机和原因的饼状图放在上下文中。不了解问题就无法提供有效的解决方案。**

****4。有用吗?——我们数据科学家是一群极客。行业期刊,更不用说学术同行评审期刊了,充斥着依靠晦涩难懂的行话来调整这个过程算法或那个公式以更好地预测. 01,或者过度或欠拟合修正以实现递增的更好结果的文章。当然,这些纯粹的研究型文章对推动该领域的发展非常重要。例如,如果一个人正在人工智能应用于医学科学的新兴领域工作,这可能是我们最终比我们的祖先活得更长(或不活)的原因,逐步提高图像读取或疾病预测的准确性可以延长成千上万人的预期寿命;然而,在商业中,大部分数据科学投资回报(ROI)更简单。如果一个数据科学解决方案增加的利润超过其成本,过于简单,它就是成功的。更具体地说,如果数据科学解决方案可以将客户盈利能力、细分、获取、行为预测、保留或偏好提高 10%以上,这可能是一个巨大的成功。如果它能在每个领域重复达到 10%以上,它可能会让你成为竞争领域的领导者。

5。他们会用吗? —这个问题的答案可能在很大程度上取决于它对普通观众的可解释性以及他们的信任程度(Gray,2017)。围绕数据科学的 AI-ML 方面(相对于统计方面)有一点肮脏的秘密,在技术出版社 (Knight,2017)中不止一次地写过这个秘密。也就是说,当 ML 涉及无监督学习时,可能很难确定模型是如何得到其答案的,并且由于这种不可理解性,一般管理人员和外行用户可能不愿意信任它。想象一下,如果一个无监督的 ML 算法预测你的新孩子将在 20 年后患上一种疾病,这种疾病可能会大大缩短他/她的预期寿命。因此,他们的基因应该在出生后立即进行编辑,以试图预防疾病;然而,这种基因编辑也可能有不可预见的下游后果,可能导致其他问题。你会做吗?答案可能很大程度上取决于你是否理解为什么算法会预测到这一点。缺乏对结果/预测的信任,决策者会对采取行动过敏。有了统计学,甚至监督学习,数据科学的侧面,我们可以教育决策者为什么机器做出这样的预测或发现;在无监督的 ML 中,它自己学习,缺少解释它对人类做了什么的反馈循环,我们经常不知道它是如何得出结论的。信任或不信任。

合奏是关键

最后,数据科学和 ML 的未来可以说是将模型和方法结合成一个整体,优于单独的应用程序。成功的数据科学项目也是如此。最成功的方法可能不会最大化上述五个根本原因或驱动因素中的任何一个,但会在所有五个方面产生最高的平均值。例如,客户可能信任并因此使用一个在线分析处理(OLAP)多维数据集,它以一种比 k-means 或自组织图更容易理解的方式对客户进行图形化细分,即使后者更复杂、更精确、更自动化。类似地,确定因果要素并将其构建到预测模型中的最佳 ML 方法可能是决策树,然后由数据机器人进行自动预测模型比较;然而,如果团队没有这些工具,而是有擅长 TensorFlow 的 Python 程序员,或者可以产生逻辑回归的 Minitab 实例(通常几乎和 ML 一样好),这种平衡很可能会胜出。

类似地,在理想世界中,这里列出的几个字母化的跨职能团队能力将在同一个人身上找到。一个项目的所有者,如果他们搜索并且运气好的话,会找到多用途的团队成员。例如,一个项目经理,他也是一个熟练的、经验丰富的沟通者和战略家,或者一个技术领导,他可以是一个开发人员/程序员和测试人员。团队中的人员节点越少,他们就越容易、有效和高效地一起工作——并且通常价值越大(对于服务提供商来说,这也可以更有利可图,因为在资源成本保持不变的情况下,一些功能的收费比其他功能更高)。虽然一个跨职能的团队成员可能单位时间花费更多,但它可以为客户或项目节省两个人,这两个人几乎以相同的速度工作。

史蒂夫·乔布斯(Steve Jobs)被认为是成功应用这些在 21 世纪变得无处不在的跨学科和专业领域的最终关键——也许具有讽刺意味的是,因为他受过有限的正规教育——他解释了苹果电脑巨大的长期创新引擎:“大多数公司雇佣聪明人,然后告诉他们怎么做,我们雇佣聪明人,让他们告诉我们怎么做。”

Eric Luellen 自 1997 年以来一直领导全球预测分析领域的软件开发项目,拥有西北大学的信息学硕士学位,他的论文设计了基于高维图像进行预测的新集成机器学习方法,并成为 2016 年斯坦福 MedX C3 奖 和 2017 年 世界科技奖 的全球决赛选手。

引用的作品

m . asay(2017 年 7 月 12 日)。机器学习大规模失败的 3 种方式(也是成功的一个关键)。 Tech Republic ,PP .https://www . Tech Republic . com/article/3-ways-to-massive-fail-with-machine-learning-and-one-key-to-success/。

格雷,K. (2017 年 7 月 20 日)。AI 可能是个麻烦的队友。哈佛商业评论,页https://hbr.org/2017/07/ai-can-be-a-troublesome-teammate.

骑士,W. (2017 年 4 月 11 日)。人工智能核心的黑暗秘密。麻省理工科技评论,PP .https://www . Technology Review . com/s/604087/the-dark-secret-at-the-heart-of-ai/。

茨韦塔纳格勒,茨韦塔纳莱德曼,萨蒙,D. (2017 年 9 月 11 日)。只有 3%的公司数据符合基本质量标准。《哈佛商业评论》,PP .https://HBR . org/2017/09/only-3-of-companies-data-meets-basic-quality-standards。

t .莱德曼(2017 年 6 月 15 日)。你的公司知道如何处理所有的数据吗?《哈佛商业评论》,PP .https://HBR . org/2017/06/does-your-company-know-what-do-its-all-data。

t .莱德曼(2017 年 1 月 26 日)。最好的数据科学家出来和人们交谈。哈佛商业评论,PP .https://HBR . org/2017/01/the-best-data-scientists-get-out-and-talk-to-people。

t .莱德曼(2018 年 1 月 25 日)。你在让你的数据科学家失败吗?哈佛商业评论,PP .https://HBR . org/2018/01/are-you-setting-your-data-scientists-up-to-fail。

泰勒,B. (2017 年 10 月 16 日)。为什么大多数 AI 项目会失败。数据机器人博客、https://blog.datarobot.com/why-most-ai-projects-fail.

**捷列先科,M. (2017 年 12 月 9 日)。当 ML 即服务不起作用时,建立一个跨职能团队。从 DZone 中检索:https://DZone . com/articles/building-a-cross-functional-team-when-ml-as-a-serv

k . veeramachaneni(2016 年 12 月 7 日)。为什么您没有从数据科学中获得价值。哈佛商业评论,PP .https://HBR . org/2016/12/why-you-not-get-value-from-you-data-science。

j .沃克(2017 年 11 月 23 日)。大数据战略令人失望,85%的失败率。检索自数字期刊:http://www . Digital Journal . com/tech-and-science/technology/big-data-strategies-despair-with-based-percent-failure-rate/article/508325 # ixzz 5 JVG k3av 0

婚礼,D. (2017)。预测建模。 (D. Wedding,表演者)美国伊利诺伊州埃文斯顿西北大学。

虽然跳过这些时间密集的步骤是一个普遍的想法,但是团队这样做是自担风险的,因为他们奠定了项目的期望、功能和目的的基础。在这位作者看来,最理想的情况是,它们被彻底完成,然后开始一个快速应用程序开发(RAD) 过程,在这个过程中,团队离开并在 30 天内回来并问:“你是这个意思吗?”并对解决方案草案进行另一个 30 天的审核周期的编辑。2-3 个短周期的产品通常比一个漫长的开发过程要好很多。

为什么数据科学家喜欢高斯?

原文:https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Visual representation of Gaussian distribution.

对于深度学习和机器学习工程师来说,在世界上所有的概率模型中,高斯分布模型非常突出。即使你从未从事过人工智能项目,你也有很大的机会遇到高斯模型。

高斯分布模型通常以其标志性的钟形曲线而闻名,也称为正态分布,之所以如此流行主要是因为三个原因。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mathematical formula for Gaussian probability distribution function.

普遍存在于自然现象中

所有的模型都是错的,但有些是有用的!—乔治·博克斯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Position of particles that experience diffusion can be described using a Gaussian distribution.

自然和社会科学中难以置信的大量过程自然遵循高斯分布。即使它们不一致,高斯模型也能给出这些过程的最佳模型近似值。一些例子包括-

  • 我们成年人的身高、血压和智力
  • 经历扩散的粒子的位置
  • 测量误差

数学推理:中心极限定理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Random walk in two dimension with two million steps.

中心极限定理指出,当我们添加大量独立的随机变量时,不管这些变量的原始分布如何,它们的归一化和都趋向于高斯分布。例如,随机行走中覆盖的总距离的分布趋向于高斯概率分布。

该定理的含义包括,专门为高斯模型开发的大量科学和统计方法也可以应用于可能涉及任何其他类型分布的广泛问题。

该定理也可以看作是对许多自然现象遵循高斯分布的解释。

一次是高斯,永远是高斯!

与许多其他在变换时改变其性质的分布不同,高斯分布倾向于保持高斯分布。

  • 两个高斯的乘积是一个高斯
  • 两个独立的高斯随机变量之和是一个高斯
  • 高斯与另一个高斯的卷积是高斯
  • 高斯的傅立叶变换是高斯的

简单

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Occam Razor is a philosophical principle that emphasized that the simpler solution is the best one given that all other things are same.

对于每个高斯模型近似,可能存在给出更好近似的复杂多参数分布。但高斯仍然是首选,因为它使数学简单得多!

  • 它的均值、中值和众数都是一样的
  • 整个分布可以用两个参数来确定——均值和方差

高斯分布以伟大的数学家和物理学家卡尔·弗里德里希·高斯的名字命名。

为什么数据科学家应该写书,为什么我要写书。

原文:https://towardsdatascience.com/why-data-scientists-should-write-books-and-why-i-did-1f047e10c6ab?source=collection_archive---------1-----------------------

知识就在那里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好吧,一般来说科学不容易理解。

我明白了。相信我,我明白。

科学家拿高薪是有原因的,那是因为很多人不明白我们到底在做什么。但这就是为什么写作很重要。它帮助我们理解我们在做什么,并向他人解释,这样他们也能理解。

那么,我们为什么要写作呢?

我们都听说过子弹杂志和生产力规划者,对吧?它们如此成功是因为写下你的想法和要做的事情可以帮助你实现它们。花时间把事情写下来会让你更快乐。它有助于提高你的注意力,降低你的压力水平。

在数据科学领域工作压力非常大,甚至是一个非常混乱的领域。我知道,但我希望其他人知道数据科学到底是什么,数据科学家做什么,为什么。这就是为什么我决定写一本书。它帮助了我以上所有的事情,但它也让我学到了更多,提高了我的沟通技巧。(我希望。)

除非你练习,否则沟通技巧是学不会的,而写作是一种很好的练习方式,因为你必须把你头脑中的想法写在纸上。或者电脑上的空白文档。要么,要么。

写作让你更快乐,更善解人意,更感性,更有效率,更专注于你的目标。每个人都需要它!

你需要探索你的想法,巩固它们,让你的头脑安静下来。把事情写下来有助于理清你头脑中的一切,这对了解你自己和你的现实非常重要。

有一些研究概述了写作的影响以及写作如何帮助人们更好地吸收信息。当你写作时,你变得更加关注你的情感和目标。

不仅如此,书写还能帮助你破译数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

写作和数据科学——为什么、在哪里和如何

所有的数据都是写出来的,写出来的都是数据。不可避免的是,数据无处不在,无处不在。无所不在。

作为数据科学家,我们与其他所有人分享对数据的理解和知识非常重要,因为他们很可能不知道。他们应该知道。

写作是我们分享知识的方式。好吧,播客也有用,但是有时人们仍然需要阅读他们所听到的。

阅读让人们接触信息,消化信息,做笔记,努力改进信息,然后回到他们苦苦挣扎的地方。最终,他们可以用自己的话重写,这样他们就能更好地理解它。

作为科学家,我们所做的一切都是为了分享知识。我们希望发现新事物,理解它们,并把它们发布到世界上,让其他人也能理解。我们想教育所有人。

数据科学目前是巨大的。最初成为计算机科学家的人是程序员,现在程序员多了,数据科学家少了。这意味着有更多的人成为数据科学家,更多的公司寻找更多的数据科学家。目前,T2 是供不应求。

太好了!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是让你与其他数据科学家不同的是你用数据讲述故事的能力。这意味着你需要能够写作。

为什么写作有助于你的数据科学家职业生涯

每个人都需要,但可能不知道的是,有人能向他们解释他们的数据。这就是你的技能让你与众不同的地方;不是每个数据科学家都能准确有效地将他们看到的数据传达给不完全理解数据的人。一家公司需要一名数据科学家,能够理解、分析和使用他们的数据来提高他们的成功和生产力水平。

通过给人们提供一个故事来配合他们的数据,你向他们展示了为什么他们需要你,为什么他们需要你,以及你是做什么的。

他们知道数据科学很重要,但他们可能并不完全理解它。事实上,他们可能不知道。大多数不是数据科学家的人都不太了解数据,只知道它存在,你需要分析它。

这就是你进来的地方。

你可以获取数据,从中提取相关信息,使其易于理解并展示给人们。你可以使用图表、数字和其他任何东西,但是你需要确保人们知道他们在看什么,以及为什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你当然理解数据,你生活和呼吸着数据。

你知道如何创造它,推断它,使用它,探索它,然后,最终,使用它。人们需要你使用他们的数据来销售他们的产品,分享他们的知识,帮助扩展他们的想法。

为了站在不断涌现的数据分析师的最前沿,为了脱颖而出,向人们展示你知道自己在做什么,并且你是最好的数据科学家:告诉他们他们的数据对他们和他们的业务到底意味着什么

写作就是你如何做到这一点。

我写了一本书,与其他数据科学家和有抱负的数据科学家分享我的专业知识,帮助他们了解我到底在做什么。

我的书让我更加了解我如何看待自己的工作,如何看待数据以及如何与数据互动。

我写了你也可以理解数据和破译它的方法,使用它为你的优势,并增加你的就业能力…

因为写作吸引了你的观众

用数据编写和创建故事有助于吸引受众,并吸引他们对数据中的信息和故事的注意。你的受众包括与你一起工作的人、为你工作的人、与你一起工作的人,或者不知道他们是谁的人,但是通过从数据中创造一个关于数据的故事,你可以与他们互动。

公司并不真正知道他们的数据意味着什么。他们可能不知道他们有什么数据,或者他们的数据在增加业务方面能做什么。他们可能只是查看数据和这一长串数字,没有任何意义的符号。

但它总是有意义的。数据总是有意义的。它可以让我们更好地理解人们是如何与一个想法、一个商业模式、一个产品互动的。它可以产生新的想法、新产品和更多的工作机会。

长期以来,人们一直认为,在商业环境中经营企业和做出决策完全是基于逻辑和理性。这不是真的。

企业是人经营的,人是有情绪的。人们在情感上参与故事,而不是科学。

数据讲故事是可能的,这是一种通过数据、视觉和叙事交流数据见解的方式。

通过创建一个叙述,数据更容易消化,启发观众的洞察力,他们的重要性,也娱乐观众。

数据故事既影响又推动变革。

但那只是在你能与人分享这些知识的情况下。使用数据创造了如此多的可能性,但是除非你以人们能够理解的方式与他们分享数据,否则这些可能性不会产生任何结果。

当你试图口头解释某件事时,你常常会觉得你的话很混乱。你不是很清楚,只是分享你脑海中闪现的想法。

如果你把这些见解写下来,你会花更多的时间和精力去阐述它们,并确保你有效地传达它们的意思。

写作可以建立自信。

最终,写作是你的朋友。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后

数据科学很混乱,理解数据很混乱,知识需要分享。基本上,科学家的存在是为了发现和分享新信息和新知识。

任何地方的任何人都在创造数据。这就是为什么每个人都应该能够理解数据。

作为一名数据科学家,写作不仅会帮助你更好地了解自己,还会增加你所做事情的合法性,并最终使你能够更好地与他人沟通。

通过从数据中产生类似故事的东西,你创造了其他人可以涉及的东西,当你可以告诉人们你是做什么的,什么是数据科学以及它如何影响他们的生活时,他们会更好地理解你和你的工作。

但你也会的。写作帮助你记住信息,吸收信息,理解信息。你基本上会对自己的数据技能充满信心。

所以…

你还在等什么??去写本书吧!

你的事业和你的头脑会因此而感谢你。

事实上,如果你喜欢这个帖子,并想在我的书里挖得更深…那么给它一个**+评论下面的 用你的电子邮件和前 50 人将获得一个完全免费的*** 复制 自信数据的技能!***

更新:感谢对此的惊人支持和精彩成交!我们已经决定向前 100 名鼓掌+评论下方 将获得一个副本 自信数据技能!

更新二: 100 条评论!!非常感谢:)每个评论过的人,确保你的 包括你的电子邮件 ,这样我们就可以把链接直接发给你。如果你没有做 100 评论,**不用担心!你仍然可以点击横幅下面的链接从 Amazon.com 获得。快乐分析:)******

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://www.amazon.com/gp/product/0749481544/ref=as_li_tl?ie=UTF8&tag=superdatascie-20&camp=1789&creative=9325&linkCode=as2&creativeASIN=0749481544&linkId=bb7507851a740c1eb7f45ab4b6bd2a84

为什么数据科学家会在不久的将来转向工业和制造业

原文:https://towardsdatascience.com/why-data-scientists-will-turn-to-industrial-and-manufacturing-industries-in-the-near-future-6f690e02dfd3?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学已经是一个令人难以置信的广阔和令人兴奋的领域。但是由于破坏,未来几年对数据科学家的需求可能只会增加。据 IBM 称,到 2020 年,对该领域专家的需求将增长 28%。

如果你是雇主,那就需要招聘很多人。如果你现在是一名数据科学家,或者希望成为一名数据科学家,这将是一个充满希望的机会,也是一个通往美好未来的潜在大门。对一些人来说,只要知道数据科学中存在哪种专业,以及雇主可能会如何提及它们,就有助于规划课程。

事实是,颠覆不会去任何地方。颠覆性技术提高了一些行业的竞争力,也为其他行业创造了公平的竞争环境。但他们都需要数据和能够分析数据的敏锐的人才。

新技术正在造成广泛的破坏

你几乎肯定听说过“颠覆”这个词。但是到底是什么呢?它指的是技术习惯于改变现状,可以这么说。

技术通过提供新的生产、原材料采购、设施管理或数据收集方法,一次颠覆了整个行业。为什么如此具有破坏性?因为这些以前不可能的技术,似乎在一夜之间变成了不可或缺的竞争优势。

例如,精益制造不再是可选的了。当被问到时,大多数企业主将削减成本列为他们的首要目标,这意味着他们确实无法承受流程中的浪费。对于制造业来说,目标是以越来越低的利润运营,“中断工具包”可能包括:

大数据和云系统

业务分析和仪表板

智能工厂

工业物联网

机器人和自动化

这些流程的共同点是数据。制造业正在将比以往更多的数据整合到更多的流程中。

预测原材料短缺、客户需求和天气模式——更不用说调节产品吞吐量、监控联网设备以进行维护,以及向送货车辆和在工厂车间作业的机器人发送指令了——所有这些加起来就是一组异常复杂且相互依赖的变量。

数据能为你做什么?

收集正确的数据有助于发现企业中被忽视的角落。例如,对于依靠压缩空气为组装和制造工具提供动力的设施,美国能源部估计,目前使用的所有系统中有一半效率低于预期。

此外,将更先进的环保工具从制造工厂的一端整合到另一端可能会产生意想不到的结果,例如从生产设备中回收废热并投入使用的能力,或者根据工作流程自动控制照明、门和气候。

如今,一些工厂手头只有一小时的备件就能运转。这对一般的工厂来说可行吗?

这在一定程度上取决于工厂的位置和供应链的完善程度。但这也要求工厂掌握大量实时数据,因此即使需求、产能和其他变量发生最小的变化,也不会导致生产完全停止。

知道如何在数据科学领域找到自己的未来

因此,考虑到这些趋势,数据科学家如何才能让自己变得最有用,并在制造业找到令人满意的职业?

你可以做的第一件事就是让自己从整体上熟悉“数据科学”的不同学科。如果你已经进入了就业市场,那就太好了——了解不同雇主可能用来描述他们正在寻找的数据科学家职能的短语将有助于你找到合适的角色。

如果你是一名学生,了解你面前的几个分支路径可能是加倍重要的。

**商业智能分析师:**利用数据系统预测商业和市场趋势,更好地了解公司的财务状况和前景。

**数据架构师:**你将与系统设计师和开发人员一起创建管理、存储和保护系统。

**数据挖掘工程师:**开发检查第一方和第三方数据所需的专业知识,并从中得出可操作的结论。

**数据科学家:**这是一个你可能会听到与这里提到的其他术语互换使用的术语。但就其最纯粹的形式而言,数据科学家的角色是探索数据中的模式,形成假设并设计测试它们的例程。在商业环境中,数据科学家可以帮助测试影响公司盈利能力和效率的变量。

更具体地说,你将参与质量保证和缺陷跟踪,供应商关系,产量预测,实现更高的能源效率,设计和模拟新的设施和新的制造流程。

我们在这里介绍的只是大数据和数据科学的一些潜在学科,以及一些行业应用。

据《福布斯》报道,2016 年的每个月,数据科学和相关领域的工作岗位增加了2900 个。

这对每个相关人员来说都是一个巨大的机会。

形象由克里斯蒂娜 组成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值