TowardsDataScience 博客中文翻译 2019（四百八十二）

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

我对每个数据请求的第一个问题是

原文：https://towardsdatascience.com/the-first-question-i-have-for-every-data-request-8f836070368f?source=collection_archive---------14-----------------------

以及我如何利用它与跨职能团队建立伙伴关系

这是关于在一家公司从头开始建立一种数据驱动的文化，在这种情况下，是通过建立跨团队的合作关系。在与我相同的生活背景下，我在初创公司岗位 上成功地担任了一名数据 科学家。

世界上很少有绝对的事情，死亡、税收和肮脏的数据集很容易浮现在脑海中，但当涉及到研究人员、数据分析师和数据科学家等支持职位的内部专家时，我想再提一个:当有人向他们提出请求时他们的反应。

“告诉我你想解决什么问题，而不是你认为你想要的解决方案。”—我们所有人，所有时间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Lofty Cat, totally not judging anyone at all

大多数时候，特别是如果没有很多跨职能的经验，人们会过来提出具体的分析或数据要求，他们相信这些分析或数据会帮助他们做他们正在做的事情。通常它被表述为“小数据请求”或“只是一两张图表”。他们的要求往往没有什么背景。

这种行为甚至不仅限于数据领域，我甚至发现自己也在为维修人员和工程师做类似的事情。我们都容易受到这种影响。

偶尔发生这种事没什么大不了的。但当这种情况发生足够多次时，就让人抓狂了。你经常会发现身经百战的研究人员对此看得太多了，并对此有强烈的感受。

尽管如此，记住人们已经尽力了，所以原谅他们。我很确定他们这样做不是出于恶意或自负。他们通常试图尊重你的时间，或者在向你寻求帮助之前已经考虑了他们的问题很多，他们的请求反映了这种想法。偶尔，这是因为他们听说过一种技术或分析，并对此过度兴奋，而没有理解所有的利弊。

“那么，你打算做什么决定？”

面对这种情况，我通常会问一些不同的问题，原因有二。

首先，在一个行业环境中，几乎每一个问题都可以表述为一个或多个需要做出的决定，所以问这个问题并不合适。决策可以是具体的，比如在一组选项中选择，也可以是更抽象的，比如“它将有助于通知下一个版本的设计”。这也让他们更多地思考自己想做什么。因为我总是鼓励人们尽早进行数据对话(过早总比过晚好)，所以想法不完全成熟是意料之中的。

其次，更重要的是，它让他们更多地考虑合作的伙伴关系模式，而不是简单的“询问和接受报告”模式。这是一个你需要每个人都习惯的重要习惯——带着问题来，而不是提出解决方案。

开始对话

询问他们的实际问题陈述和决策点的全部意义在于，这可以引发一场对话。对话是好的。这是您了解他们在做什么的机会，也是他们更好地了解如何使用数据的机会。长期的伙伴关系不会在一天之内发生，这是他们如何开始。

他们的起始问题应该能够转化为某种假设，我们可以使用 research toolbox 进行测试，决策框定了对话和您的未来建议。通常只需要轻轻一推。"人们点击这个按钮多少次？"只是一个上下文无关的请求，但可以很容易地变成“我们认为没有人使用那个删除按钮，因为他们使用键盘删除，我们想删除这个按钮”。现在你有足够的上下文来检查人们是否真的更多地使用键盘，或者证明该按钮是否被特定的一小部分用户出于可访问性的原因而使用。

在那里，你可以和他们一起找出可以回答他们问题的数据。当一些数据丢失时，您可以通过实现工具来获得他们真正想要的数据(例如，我们应该记录键盘快捷键吗？).同时，你可能知道一个已经存在的代理方法，它可能产生一个“足够好”的结果(例如，没有点击按钮的删除可能足够接近)。永远不要假设一个精确的答案是必要的，甚至是想要的，一个近似值可能同样有用(尤其是快速的)。

接下来，你可以和他们一起理解你将要使用的方法。向人们传授方法的潜力和局限性通常是个好主意，即使你不得不掩饰深层的技术细节。原因是，如果人们在高层次上理解事物是如何工作的，当你后来告诉他们“数据让你这样说，但不是那样说”时，他们就能更好地理解。

然后，继续对话

最后，一旦完成了初步分析，您就可以通过让利益相关者一起回顾调查结果、回答问题并帮助头脑风暴后续步骤来加强合作关系。

就像几乎每篇学术论文都以“还需要做更多的研究”结尾一样，总是有更多的问题可以回答。在你的帮助下，由整个团队来决定他们是否有足够的信心继续下去。继续迭代！

重复直到它成为一种习惯

随着时间的推移，随着这些人反复经历这一过程，每个人都应该开始掌握其中的诀窍，并自动向您提出更多问题，并让您参与合作，在做出重大决定之前探索问题。当这种情况发生时，你会知道你已经在数据驱动的决策文化中取得了一个好的点。

每个数据科学家都应该知道的 5 种离散分布

原文：https://towardsdatascience.com/the-five-discrete-distributions-every-statistician-should-know-131400f77782?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alex Chambers on Unsplash

故事、证据和直觉

分布在每个数据科学家的生活中扮演着重要的角色。

现在，从非统计学的背景来看，分布总是给我一种神秘的感觉。

事实是他们有很多。

那么我应该知道哪些呢？我如何认识和理解他们？

这篇文章是关于一些你需要知道的最常用的离散分布以及一些直觉和证明。

1.二项分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这可能是所有离散分布中最简单的，也可能是最有用的。

**故事:**掷硬币，概率为 p，正面朝上。

用在哪里？: 我们可以把二分类目标看作一个伯努利 RV。

伯努利分布的 PMF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伯努利分布的 CDF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

期望值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们将在下面看到的，伯努利分布与许多分布密切相关。

2.二项式分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

统计学家工具包中最基本的分布之一。这个分布的参数是 n(试验次数)和 p(成功概率)。

**故事:**在 n 次试验中获得 k 次成功的概率

用在哪里？: 假设我们在一个骨灰盒里有 n 个鸡蛋。打破鸡蛋的概率是 p。骨灰盒中打破鸡蛋的数量是二项分布的。

二项式分布的 PMF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据我们的故事，这是 k 个灯泡坏了的概率。

二项式分布的 CDF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预期值:

第一种解决方案:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

解决这个问题的更好方法是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

x 是 n 个指示随机变量的和，其中每个 I 是伯努利随机变量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异:

我们也可以使用方差来使用指标随机变量，因为每个指标随机变量都是独立的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.几何分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个分布的参数是 p(成功的概率)。

**故事:**投掷概率为 p 的硬币时，第一次成功(正面)前的失败次数。

用在哪里: 假设你正在进行一场考试，你获得通过的概率由 p 给出，你在清除考试之前将会出现的失败次数是几何分布的。

几何分布的 PMF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几何分布的 CDF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预期值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

示例:

一名医生正在为一名新诊断的病人寻找一种抗抑郁药。假设，在可用的抗抑郁药物中，任何特定药物对特定患者有效的概率是 p=0.6。发现对该患者有效的第一种药物是尝试的第一种药物、尝试的第二种药物等等的概率是多少？为了找到一种有效的药物，预计将尝试多少种药物？

为找到有效药物而尝试的预期药物数量=

q/p = .4/.6 =.67

4.负二项分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个分布的参数是 p(成功概率)和 r(成功次数)。

故事:第 rth 次成功前独立伯努利§试验的次失败。

用在哪里: 你需要向不同的房子出售 r 糖果条。你卖出一块糖的概率由 p 给出。在获得 r 个成功之前你必须忍受的失败次数是负二项式分布。

负二项分布的 PMF 由下式给出:

r 次成功，k 次失败，最后一次尝试必须成功:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预期值:

负二项式 RV 可以表述为 r 个几何 RV 之和，因为几何分布就是第一次成功之前的失败次数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异:

因为 r 个几何 RVs 是独立的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

示例:

帕特被要求去卖糖果为六年级的实地考察筹款。这个社区有三十栋房子，帕特应该在卖出五块糖果后才回家。于是这个孩子挨家挨户地卖糖果。在每栋房子里，有 0.4 的概率卖出一块糖，有 0.6 的概率什么也卖不出去。第 n 家卖完最后一块糖的概率有多大？

这里，r = 5；k = n — r

在第 n 家卖完最后一块糖的概率=

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.泊松分布:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个分布的参数是λ，速率参数。

**动机:**这个发行版本身没有故事，但有使用这个发行版的动机。 泊松分布通常用于我们对大量试验的成功率进行计数的应用中，其中每次试验的成功率较低。

例如，泊松分布是计算一小时内给你发邮件的人数的一个很好的起点。你的通讯录里有很多人，他们中的任何一个给你发邮件的可能性都很小。

泊松分布的 PMF 由下式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预期值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

差异:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

示例:

如果电力故障按照泊松分布发生，平均每 20 周发生 3 次故障，计算在特定的一周内不会发生一次以上故障的概率？

概率= P(X = 0)+P(X = 1)= 1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Seaborn 图和函数

在这里，我将使用 Pythons 内置函数生成我们刚刚讨论过的离散分布的 PMF。关于上层函数的更多细节，请参见我之前的帖子— 用 SeaBorn 创建基本的图形可视化。此外，请查看以下功能的文档指南

# Binomial :
from scipy.stats import binom
n=30
p=0.5
k = range(0,n)
pmf = binom.pmf(k, n, p)
chart_creator(k,pmf,"Binomial PMF")

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

# Geometric :
from scipy.stats import geom
n=30
p=0.5
k = range(0,n)
# -1 here is the location parameter for generating the PMF we want.
pmf = geom.pmf(k, p,-1)
chart_creator(k,pmf,"Geometric PMF")

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

# Negative Binomial :
from scipy.stats import nbinom
r=5 # number of successes
p=0.5 # probability of Success
k = range(0,25) # number of failures
# -1 here is the location parameter for generating the PMF we want.
pmf = nbinom.pmf(k, r, p)
chart_creator(k,pmf,"Nbinom PMF")

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

#Poisson
from scipy.stats import poisson
lamb = .3 # Rate
k = range(0,5)
pmf = poisson.pmf(k, lamb)
chart_creator(k,pmf,"Poisson PMF")

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您还可以尝试使用不同于我所使用的参数来可视化分布。

结论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

理解分布对于任何数据科学家来说都是至关重要的。

它们在生活中经常出现，理解它们会让你的生活更轻松，因为你可以通过使用一个简单的等式很快找到解决方案。

在本文中，我讨论了一些基本的离散发行版，并通过一个故事来支持它们。

这篇文章的格式可能看起来有点烦人，但是 Medium 不支持 latex，所以在这里不能做太多。

我仍然希望这能帮助你更好地理解。

了解他们的最有帮助的方法之一是 Joe Blitzstein 的 Stat110 课程和他的书。

你也可以看看这个 Coursera 课程。

谢谢你的阅读。将来我也会写更多初学者友好的帖子。在媒体关注我或者订阅我的博客了解他们。一如既往，我欢迎反馈和建设性的批评，可以通过 Twitter@ mlwhiz联系。

世界范围的难民潮

原文：https://towardsdatascience.com/the-flow-of-refugees-b983e5e34d72?source=collection_archive---------11-----------------------

下面的弦图显示了难民从产生最多难民的十个国家向接纳最多难民的十个国家(加上美国)迁移的路径。在阅读可视化的同时，思考哪些难民群体在很大程度上被媒体忽视，哪些被给予最多关注，以及这与大多数难民实际上来自哪里并找到避难所相比如何。在本文的后面，同样的图表在过去五年中的每一年都重复出现，以促进对世界范围内难民流动趋势的更好理解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这张弦图的左边是最常见的难民来源国。右边是最常见的难民接收国。每个国家的弧形区域的大小对应于来自该国或被该国接纳的难民人数。箭头代表难民从原籍国到他们现在作为难民居住的国家的实际旅程。

值得注意的是，这种可视化是基于每个国家离开和生活的难民的原始数量，而不是基于每个国家的人口数量。例如，上图显示，德国收容的难民比黎巴嫩多得多，这是事实，但黎巴嫩每 1 000 名居民收容 208 名难民，而德国每 1 000 名居民仅收容 3 名难民。

除了德国和埃塞俄比亚之外，大多数主要收容国主要收容来自单一来源国的难民。这与美国这样的国家大相径庭，在美国，没有一个单一的国籍主宰着被收容的难民。相比之下，来自一个原籍国的难民往往大量前往几个国家，而不是绝大多数前往任何一个东道国。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意，自 2014 年以来，全球难民人数逐年大幅增加。这意味着，即使一个国家接收的全球难民总数逐年保持不变，该国接收的难民数量实际上却在增加，因为难民池已经变大。

这些图表并没有表明难民在近几年中绝大多数都逃到了欧洲国家，这表明涌入欧洲国家的寻求庇护者实际上可能并不是全世界的主要危机。对难民问题的整体讨论必须将重点放在土耳其或黎巴嫩等国家，土耳其收容了大部分叙利亚难民，而黎巴嫩的人均难民密度远远高于其他任何国家。

1951 年《难民公约》对“难民”的正式定义如下:

“‘难民’一词应适用于任何人……由于有充分理由害怕因种族、宗教、国籍、某一社会团体的成员或政治见解而受到迫害，在他的国籍国之外，并且不能或由于这种害怕而不愿意接受该国的保护；或没有国籍，在他以前惯常居住的国家之外，不能或由于这种恐惧而不愿意返回该国。”(难民署，1951 年难民公约)

本文中的形象化描述仅指那些符合难民资格、目前生活在联合国难民事务高级专员(UNHCR)系统保护下的人。然而，难民的定义相对狭窄，不包括全世界数百万流离失所者。由于难民的定义是在其国籍国以外的人，这一定义不包括全世界约 4130 万境内流离失所者，他们被迫逃离家园，但仍留在本国境内。这还不包括大约 350 万寻求庇护者，他们逃离了自己的国家，但尚未被接受难民地位。1951 年《难民公约》也明确将巴勒斯坦人排除在外。相反，550 万流离失所的巴勒斯坦人属于联合国近东巴勒斯坦难民救济和工程处(近东救济工程处)的管辖范围，该组织并不寻求重新安置流离失所的巴勒斯坦人，而是在他们所在的地方为他们提供社会服务。总的来说，上述形象化的 2050 万难民只占全球流离失所人口的不到 30%。

本文所有统计数据均来自联合国难民署在 http://popstats.unhcr.org/en/time_series的数据。

你好，脸书，我的真名是胡扯。

原文：https://towardsdatascience.com/the-fluidity-of-digital-identity-on-facebook-or-not-9623f22f25af?source=collection_archive---------33-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The price of your identity to big companies is at your fingertips.

早在 2017 年，讨论的热门话题是脸书在“防止假冒、诈骗和网络钓鱼”的幌子下强制用户使用真实 ID 的严格政策。我不确定使用你的“真名”将如何保护你不被冒名顶替，事实上，这是否会给你带来风险？我们是否像奈特(2014)建议的那样，允许使用我们的个人数据来规范我们能做什么和不能做什么？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其假设是，数字身份是真实或不真实地描绘自己的某一面，其优势是与其他具有相似兴趣的人建立一个志同道合的个人或群体的网络。正如 van Dijck (2013)所解释的“从社交媒体的最早期开始……就是建立联系、促进人际联系和社区建设的工具”。因此，建立你的社交身份是个人应该控制的事情，允许用户将他们的身份与个人、职业或商业身份分开。

脸书的政策对我们向社交媒体平台提供的个人数据提出了一个至关重要的问题。为什么我们不能被允许向公司控制自己的数据？我希望能够保密我是谁，我在哪里，我在做什么，并选择定义什么应该公开。因此，当我们勾选臭名昭著的条款和条件框时，我们真的应该阅读细则。2018 年初，脸书同意剑桥分析公司(Cambridge Analytica)在未经他们同意的情况下收集 5000 万用户的个人数据，这通过识别和影响数百万选民，导致了政治游戏规则的改变。建议检查您的隐私政策是否有任何变化，有时这些变化会产生巨大的影响。

脸书和其他社交网络向雇主、潜在的浪漫约会对象和其他数字用户敞开了大门，让他们进行所谓的“社交建档”。 Evuleocha & Ugbah (2018) 解释人力资源部门和招聘人员如何使用社交网站进行工作筛选，目的是减少潜在候选人的不确定性，以实现更快的就业结果。澳大利亚的社会貌相已经到了影响公务员的地步，，，，限制了公务员的权利，声称他们的雇佣条款与他们的公开言论有关，即使是匿名的。

别担心，这不全是坏消息。我们的千禧一代(也就是我)正在以我们使用社交媒体的方式创造社会影响。Au-Yong-Oliveira (2018) 解释说，千禧一代要求我们的领导人对他们的行为负责，期望被当作人对待。这导致千禧一代要求当权者负责，利用社交媒体和技术作为行动主义或黑客行动主义的工具，以保持这些强大机构的透明度。虽然其中一些活动不是合法进行的，但它带来了一些积极的变化(Auty 2004)，如“匿名者”和山达基教会的事件(观看下面的视频)。

通过在网上放弃我们的个人数据，我们把自己置于危险之中，你怎么看？

如果你抽象出你的 R 代码，这种力量在你身上会很强

原文：https://towardsdatascience.com/the-force-is-strong-in-you-if-you-abstract-your-r-code-134ea0869c4?source=collection_archive---------20-----------------------

通过编写一个函数来分析星球大战中的角色，学习 R

任何体面的数学家或计算机程序员都会告诉你，如果一个任务被一次又一次地重复，那么它应该被做成一个函数。

这一直都是正确的，如果您仍然在一次又一次地编写重复的任务，而只是改变一两个变量——例如，如果您只是复制/粘贴代码——那么您需要立即停下来，学习如何编写函数。

但是最近的发展意味着有越来越多的动机去考虑你的代码的哪些部分可以被抽象。R 包的发展绕过了非标准的评估挑战，并通过 quosures 和相关的表达式增强了抽象能力，这意味着惊人的能力已经触手可及。

R 中的函数

先简单说一下。如果您正在进行相同的分析，但只是更改变量值，则创建函数非常有用。让我们使用dplyr中的starwars数据集。如果我们想要一个所有人类角色的列表，我们可以使用这个:

starwars_humans <- starwars %>% 
  dplyr::filter(species == "Human") %>% 
  dplyr::select(name)

这将返回 35 个字符的名称。现在，如果我们想要一个相同的列表，但是有几个其他物种，我们可以复制粘贴并更改species的值。或者我们可以编写这个函数供将来使用:

species_search <- function(x) {
  starwars %>% 
    dplyr::filter(species == x) %>% 
    dplyr::select(name)
}

现在，如果我们运行species_search("Droid")，我们会得到一个四个字符的列表，并放心地看到我们的伙伴 R2-D2 在那里。

我们当然可以扩展它，使它成为一个具有多个变量的函数，以帮助我们基于各种条件进行搜索。

利用 rlang 的特性进一步抽象搜索

上面的问题是这个功能灵活性有限。它是以这样一种方式定义的，您无法控制要过滤哪个变量。

如果我们想重新定义这个函数，让它根据我们设置的任意条件返回一个列表呢？现在，我们可以为函数设置两个参数，一个表示要过滤的列，另一个表示要过滤的值。我们可以使用rlang中的enquo函数来捕获列名，以便在dplyr::filter()中使用。像这样:

starwars_search <- function(filter, value) {

  filter_val <- rlang::enquo(filter)

  starwars %>% 
    dplyr::filter_at(vars(!!filter_val), all_vars(. == value)) %>% 
    dplyr::select(name)
}

现在，如果我们评估starwars_search(skin_color, "gold")，我们会放心地看到我们焦虑但可爱的朋友 C-3PO 回来了。

甚至进一步允许使用 purrr 的任意过滤条件

因此，即使我们采取了上述步骤，我们已经使我们的搜索功能更加抽象和强大，但它仍然有些有限。例如，它只处理一个过滤器，并且只查找与该单个值匹配的字符。

假设我们有一组列表形式的过滤器。我们可以使用purrr中的map2函数获取该列表，并将其分解为一系列 quosure 表达式，这些表达式可以作为单独的语句传递给dplyr::filter，使用一个作用于数据帧的新函数:

my_filter <- function(df, filt_list){     
  cols = as.list(names(filt_list))
  conds = filt_list
  fp <- purrr::map2(cols, conds, 
                    function(x, y) rlang::quo((!!(as.name(x))) %in% !!y))
  dplyr::filter(df, !!!fp)
}

现在，这允许我们进一步抽象我们的starwars_search函数，以接收列表中的任意一组过滤条件，并且这些条件可以被设置为匹配向量中表示的一组值中的单个值:

starwars_search <- function(filter_list) {
  starwars %>% 
    my_filter(filter_list) %>% 
    dplyr::select(name)
}

例如，现在我们可以查找所有有蓝色或棕色眼睛、是人类、来自塔图因或奥德朗的角色，使用starwars_search(list(eye_color = c("blue", “brown"), species = “Human", homeworld = c("Tatooine", “Alderaan")))将返回以下内容:

# A tibble: 10 x 1
   name               
   <chr>              
 1 Luke Skywalker     
 2 Leia Organa        
 3 Owen Lars          
 4 Beru Whitesun lars 
 5 Biggs Darklighter  
 6 Anakin Skywalker   
 7 Shmi Skywalker     
 8 Cliegg Lars        
 9 Bail Prestor Organa
10 Raymus Antilles

现在你已经准备好释放原力的全部力量，通过开发抽象你的dplyr代码的多个元素的函数。例如，这里有一个函数可以让你找到你想要的某些星球大战角色的任何分组平均值:

starwars_average <- function(mean_col, grp, filter_list) { calc_var <- rlang::enquo(mean_col)
  grp_var <- rlang::enquo(grp)

  starwars %>% 
    my_filter(filter_list) %>% 
    dplyr::group_by(!!grp_var) %>% 
    summarise(mean = mean(!!calc_var, na.rm = TRUE))
}

因此，如果您想根据人类的家乡找到所有人类的平均身高，可以使用starwars_average(height, homeworld, list(species = "Human"))来完成，它将返回这个表:

# A tibble: 16 x 2
   homeworld     mean
   <chr>        <dbl>
 1 Alderaan      176.
 2 Bespin        175 
 3 Bestine IV    180 
 4 Chandrila     150 
 5 Concord Dawn  183 
 6 Corellia      175 
 7 Coruscant     168.
 8 Eriadu        180 
 9 Haruun Kal    188 
10 Kamino        183 
11 Naboo         168.
12 Serenno       193 
13 Socorro       177 
14 Stewjon       182 
15 Tatooine      179.
16 <NA>          193

虽然这是一个有点琐碎的例子，但我希望这能帮助您更好地理解当今 R 函数的潜力。当你审视自己的日常工作时，你会发现有机会将一些最常见的操作抽象成一些功能，从而节省你大量的时间和精力。实际上，我在这里展示的只是可能性的冰山一角。

最初我是一名纯粹的数学家，后来我成为了一名心理计量学家和数据科学家。我热衷于将所有这些学科的严谨性应用到复杂的人的问题上。我也是一个编码极客和日本 RPG 的超级粉丝。在LinkedIn或Twitter上找我。

非常感谢我团队的 Sai Im，他用函数式编程的魔法启发了我们的一些想法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生活在云端的 AI 诗人艺术家 Auria Kathi 的充实之旅

原文：https://towardsdatascience.com/the-fulfilling-journey-of-auria-kathi-the-ai-poet-artist-living-in-the-clouds-3237f6b3a605?source=collection_archive---------31-----------------------

2019 年 1 月 1 日，我们( Fabin Rasheed 和我)向世界介绍了一个我们已经工作了几个月的兼职项目。一个人造的诗人艺术家，他并不实际存在于这个世界上，但他写了一首诗，根据这首诗画了一幅抽象的艺术，最后根据情感给艺术上色。

我们称“她”为 Auria Kathi——“艾俳句艺术”的变位词。

奥瑞亚有一张人工的脸以及她的人工诗歌和艺术。关于奥瑞亚的一切都是用人工神经网络构建的。2019 年的每一天，奥瑞亚都会在 Instagram 和 Twitter 上发布一张“她”的作品。写这篇文章时，奥瑞亚在 Instagram 上有 1606 名粉丝。

Auria 被认为是一个为期一年的项目，今天它即将结束。

开始

我和 Fabin 是 2018 年 9 月开始谈的。虽然我们来自同一所大学，但我们从来没有机会一起工作。Fabin 在增强现实、UX 和艺术方面有着辉煌的背景，当时他与 Adobe 有联系。自 2016 年以来，我一直是机器学习的积极实践者，2018 年，我有个各种特色项目。

虽然背景不同，但我们有许多共同的特征。其中，突出的相似之处是，我们都热爱创造事物。我们都坚信技术创新。也许这些属性导致了合作，然后 Auria Kathi。

它始于随机想法干扰会议。渐渐地，讨论集中到了艺术，然后是艺术家，然后是诗人艺术家，然后是人造的诗人艺术家，然后是在 Instagram 和 Twitter 上发布的人造的诗人艺术家…

那些日子是创造性的精致。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

That’s us in front of the Colosseum during our visit to Italy to attend Florence Biennale

惊人的奔跑

在这一年中，奥瑞亚到达了我们一开始从未预料到的地方。

2019 佛罗伦萨双年展

佛罗伦萨双年展创办于 1997 年，是意大利佛罗伦萨的主要当代艺术展览，被认为是世界各地国际当代艺术作品的杰出展示。自 1997 年以来，来自 100 多个国家的约 6000 名艺术家作为参展商参加了佛罗伦萨双年展的一个或多个版本。参赛作品由评审团策划，评审团由艺术界的国际知名人士组成，如 Gregorio Luke、Francesco Buranelli、Gerfried Stocker 等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Presenting work of Auria at Florence Biennale 2019

在 2019 年 10 月举行的第 12 届佛罗伦萨双年展上，我们被接受在当代数字艺术展区展出 Auria 的作品。作为一个国际性的艺术平台，艾的作品在佛罗伦萨双年展上受到了更多的关注。此外，创造性的机器将如何通过激发艺术家提出新颖的想法来建设我们的未来也是讨论的一个重要部分。

与微软的合作

目前，我们在文献中没有一个单一的算法，可以构建像 Auria 这样的应用程序。但我们可以建立一个当前最先进的算法管道，可以执行 Auria 的组件并解决问题。这是 Auria Kathi 工程架构背后的关键理念。

这种架构方法被证明是微软 Azure 机器学习管道的一个确切用例。多模态机器学习管道是对我们使用端到端机器学习解决我们周围复杂问题的愿景的验证。我们已经非常轻松地将 Auria 的工程栈转移到 Azure 平台，你可以在这里找到更多细节。

微软雷德蒙首席项目经理 Santhosh Pillai 在达成合作的过程中发挥了关键作用。

微软还赞助了佛罗伦萨双年展的费用。

NeurIPS 在线图库

Auria 的作品入选了 NeueIPS 关于机器学习促进创造力和设计研讨会的在线画廊。

媒体报道(线上和线下)

5.走向数据科学— Auria Kathi

6.走向数据科学——Auria Kathi 和 Azure 机器学习管道

7.德干纪事报(全印度版)

8.商业标准报(全印度版)

9.马拉雅拉马诺拉玛报(全部喀拉拉邦版，拥有 1800 万读者群)

会谈

PyData 大会——Auria Kathi:多模态机器学习管道的力量

2.喀拉拉邦管理协会，科钦-奥瑞亚·卡提艾诗人艺术家

3.喀拉拉邦国立高等法律研究大学——人工智能生成艺术的知识产权

电台

班加罗尔米尔奇电台——特别报道

拒绝

对我们来说，这并不是一片乐土，尽管从远处看似乎如此。

被双年展拒绝参展
拒绝参展——2019 年韩国首尔国际计算机视觉会议
2019 年学术论文——neur IPS for creative 被拒绝参赛
拒绝参加画廊的展览

我们被审查使用机器自动化艺术，并使其成为对人类艺术家的威胁，尽管我们一再澄清，我们的使命是帮助人类的创造力，而不是取代它。

我们从 Auria Kathi 身上学到了什么？

如果你相信你的创造，寻找每一个机会展示它。你会惊讶于这种坚持以后会把你带到哪里。
不要为被拒绝而烦恼。尤其是早期的。
不要为批评而烦恼。保持冷静，鞭策自己。
如果你想走得快，就一个人走。想走远，就一起走。

代码

我们都是开源的倡导者，相信所有的创新都站在我们先行者的肩膀上。所以回报是很重要的。正如承诺的那样，我们在这里开源了代码。

许可证

社交媒体上发布的任何用于非商业目的的 Auria 艺术作品都应归功于 Auria Kathi。
在社交媒体上发布的任何用于商业目的的来自 Auria’s art 的艺术作品都必须得到 Auria Kathi 创作者的共同同意。
出于商业目的使用品牌名称“Auria Kathi”必须得到 Auria Kathi 创作者的共同同意。

请随意使用代码来创建您自己的诗歌和艺术版本。

谢谢你接受了我的想法，并使我获得了巨大的成功。

结束。

爱情，

奥瑞亚·卡希

数据科学的基本算法

原文：https://towardsdatascience.com/the-fundamental-algorithms-of-data-science-a00dbe2c953?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第 1 部分:线性回归

这是旨在深入探究数据科学基本算法背后的数学的系列文章中的第一篇。作为数据科学家，当利用 scikit-learn 等易于应用的机器学习库时，重要的是我们要对“幕后”发生的事情有一个坚实的理解，而不是简单地插入和遍历 fit-predict-score 函数。自然，没有比线性回归更基础的算法了。

快速入门

线性回归用于预测一些目标变量，以及获得关于各种特征和目标变量之间的关系的见解。目标通常是一个连续变量，可以写成特征的加权线性组合。因此，对于具有 n 个要素的数据集，线性方程将具有 n 个权重(b₁,…bN)和一些常数(b₀:)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用一个变量来可视化线性回归的结果是相当简单的。在这种情况下，回归函数将是单一特征(x)和目标变量(y)图上的最佳拟合线。

为了便于演示，我从 scikit-learn 导入了波士顿房价数据集。我选择了一个单一的特征，房间数量(“RM”)，并根据目标变量房价绘制了它。

from sklearn import datasets
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as snsboston = datasets.load_boston()
df = pd.DataFrame(boston.data)
df.columns = boston.feature_names
df['PRICE'] = boston.target
del bostonX = df['RM']
Y = df['PRICE']ax = sns.regplot(X, Y, fit_reg=False)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

显然，房间数量和房屋售价之间存在正相关关系，我们可以想象通过这些点画一条向上的斜线。但是哪条线是“最好”拟合的线呢？我们如何找到它？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

价值函数

在单变量情况下，y 的每个预测值(用带小帽子的 y 表示)或 y 的“假设”(h(x))由以下等式给出:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目标是找到 b₁和 b₀，使得成本函数(在这种情况下为均方误差(MSE ))最小化:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下是 Python 中用于计算 b₁和 b₀给定值成本的函数:

def cost(b0, b1):    
    Yhat = b0+(b1*X)
    SE = (Yhat-Y)**2
    N = len(Y)
    cost = (1/(2*N))*(sum(SE))
    return(cost)

输入不同的 b₁值并绘制返回的成本函数值显示了线性回归成本函数的凸性。

beta1s = np.arange(0,10.5,0.5)costs = []
for b1 in beta1s:
    costs.append(cost(0,b1))
ax = sns.lineplot(x=beta1s, y=costs)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cost function for various values of b₁

在这种情况下，在 3 和 4 之间的某个 b₁值处存在局部最小值。当然，我把 b₀固定为零，所以我们无法知道这是否是这些权重的最优组合。虽然我们不能用几何学的方法解决这个问题，但幸运的是有数学方法可以优化这两个参数(从而最小化成本函数)，如下所述。

方法 1:最小二乘法

最小二乘法将最小化每个点(xᵢ，yᵢ)和 y 的预测值(落在线上)之间的距离。我们可以用下面的公式计算 b₁(x₁的重量，在这种情况下是直线的斜率，因为我们是二维的):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

线的截距，或 b₀，是通过取所有 xᵢ的平均值，乘以 b₁，然后从所有 yᵢ:的平均值中减去乘积计算出来的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以使用以下代码在 Python 中计算参数 b₁和 b₀:

b1 = sum((X-X.mean())*(Y-Y.mean()))/sum((X-X.mean())**2)
b0 = Y.mean()-(b1*X.mean())

它返回值 b₁ = 9.102 和 b₀ = -34.671。将这些值代入上面定义的成本函数得出 C(-34.671，9.102) = 21.801。

方法 2:梯度下降

虽然最小二乘法在单变量情况下(即，具有一个特征 x)相当简单，但是对于多重回归(即，多个特征)，它在计算上变得复杂得多。输入梯度下降和偏导数！

梯度下降开始于为 b₁和 b₀设置某个初始值(比如 1 和 1)，并减去相对于 b₁和 b₀的偏导数(乘以某个学习速率α)。重复这个过程，直到它收敛于某个最优的 b₁和 b₀，其中成本函数的斜率为零(即全局最小值)。

用更人性化的术语来说，想象你站在山顶上，目标是找到山谷中的最低点(用黑色的 X 标记)。如果你大踏步跳下山坡，你可能会越过你的目标点。如果你一步一步来，你会花很长时间到达底部。步长相当于 alpha，或学习率，在超过最小值和计算时间之间有一个折衷。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数学上，梯度下降将重复以下步骤，直到收敛:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于线性回归，给定成本函数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

b₀和 b₁的偏导数为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

def gradient_descent(alpha, b0, b1, epochs):
    for _ in range(epochs):
        Yhat = b0+(b1*X)
        partial_0 = (1/N)*sum(Yhat-Y)
        partial_1 = (1/N)*sum((Yhat-Y)*X)
        temp0 = b0-alpha*partial_0
        temp1 = b1-alpha*partial_1
        b0 = temp0
        b1 = temp1
    return(b0,b1)

在这种情况下，学习率(alpha)为 0.01，重复 40000 次，我们得到 b₁ = 9.056 和 b₀ = -34.377，成本函数值为 21.801(如上)。

以下代码将 b₁和 b₀的梯度下降值的回归线叠加到房间数量和房价的散点图上:

Yhat = b1*X+b0
grid = sns.JointGrid(X, Y, space=0)
grid.fig.set_figwidth(7)
grid.fig.set_figheight(4)
grid.plot_joint(plt.scatter)
grid.ax_joint.plot(X, Yhat, 'r-', linewidth = 2)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Regression line (red) calculated using gradient descent

总结

这篇文章讨论了数据科学和机器学习中一个基本算法的基本构建模块:线性回归。我讨论了优化用于预测目标值 y 的回归权重或参数的两种方法。虽然最小二乘法对于一个要素(x)相当简单，但梯度下降更常用于大型要素集，因为同时计算所有权重会更加复杂。

这篇文章的目的是让读者深入了解基本算法(如线性回归)的“本质”，以确保正确的使用和解释。如果你想了解更多，请查看本系列关于逻辑回归的下一篇文章！

我希望你觉得这篇文章很有用，并且像往常一样，欢迎在评论中发表意见！请继续关注本系列的后续文章，因为我将继续深入研究我们最基础的算法的数学。

来源:

[## Coursera |顶尖大学的在线课程。免费加入

斯坦福和耶鲁等学校的 1000 多门课程——无需申请。培养数据科学方面的职业技能…

www.coursera.org](https://www.coursera.org/learn/machine-learning/home/info) [## 简单回归数学

http://regressit.com。线性回归版本可以在 PC 和 MAC 电脑上运行，并且具有更丰富和更易于使用的…

people.duke.edu](http://people.duke.edu/~rnau/mathreg.htm) [## Python | Edureka 中从头开始的线性回归算法

4.1K 视图成为认证专家线性回归是机器中最简单的统计模型之一…

www.edureka.co](https://www.edureka.co/blog/linear-regression-in-python/)

机器学习的基本问题，没有数学

原文：https://towardsdatascience.com/the-fundamental-problem-of-machine-learning-without-math-24f3b2708028?source=collection_archive---------10-----------------------

你好！今天，我们将讨论凸同构的部分随机深度神经梯度。我只是在开玩笑；这只是一大堆乱七八糟的字，但是看论文有时候也会有这种感觉。因此，我想以一种不需要先验知识或数学技能的简单易懂的方式来写我认为是机器学习和人工智能中最重要的话题。我也想过这个问题，我用漂亮的图片和冷色调的形式来展示我的观点。我希望，在阅读 10 分钟后，你会有一个直观的理解，而不是用你的头去撞墙。

如果你过去几年没有生活在岩石下，你就会知道人工智能是下一个大事件。汽车在自动驾驶，计算机在围棋上打败了人类，机器人正在取代我们的工作。很快，机器人将推翻政府，奴役我们的孩子…

好吧，也许不是。但这回避了一个问题:如果终结者在不久的将来不会猖獗，人工智能的极限是什么？答案很明显——这取决于你对人工智能的定义。如果你把人工智能定义为只会下围棋的计算机，我可以很有信心地告诉你，未来包含了比今天更好的围棋程序。我们会完成，但不幸的是，我不认为有人使用这个定义。我不认为当梅赛德斯宣传他们的智能驾驶时，他们谈论的是他们的汽车性能有多好。另一方面，你可以像营销人员一样定义人工智能；你的公司在你的产品中使用人工智能，所以我的公司也是。没有人特别确定我们的产品有什么人工智能，但它肯定不是人工愚蠢的，所以嘿。

那么，智力到底是什么？在对人脑、心理学、甚至蚂蚁社会进行了大量研究后，我得出结论:智力由两个主要部分组成:第一，识别模式的能力；第二，应用这些模式实现目标的能力。这有很多理由，但一个例子相当清楚地说明了这一点，我们都知道轶事证据是最强有力和最合乎逻辑的论点。想一个非常聪明的人，比如说，在数学方面。现在想象一下这个人在数学课上。这个人很可能上课不太专心——为什么？因为他/她很快就能得到材料。他/她认识到了这种模式，并决定不再关注班上的其他人。这个人也可能很快完成作业，因为他/她擅长将课堂上学到的知识(也就是模式)应用到作业中。这个定义也适用于其他类型的智力。例如，艺术上聪明的人似乎能够识别什么是好的艺术，并利用这种本能创造新的、好的艺术。如果这不能说服你，要知道维基百科也为智力提供了类似的定义，你肯定不想与维基百科争论，维基百科是互联网上最可靠的知识来源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: boredpanda.com

你猜怎么着？显然，有一整个领域致力于算法，这些算法创建从数据中提取模式并将其应用于其他数据的模型，它被称为机器学习。我想谈谈机器学习中最重要的概念之一，过度适应。过度拟合只是模型发现了太复杂的模式的一种花哨说法，这导致了预测未来点的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: wikipedia.org

假设你的任务是画一条线将红色和蓝色的点分开，但是这些点如何着色可能会有一些随机性；数据有些嘈杂。黑线似乎是一个合理的解决方案。它没有对所有的点进行正确分类，但它似乎考虑到了边界上的一些点可能会向任何方向移动。绿色解决方案成功地分离了所有点。但区别在于:我突出显示了一些区域，如果你沿着绿线走，一个新点将被归类为红色，而如果你沿着黑线走，一个新点将被归类为蓝色。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This definitely wasn’t done via Microsoft Word. I definitely used a professional program, like Photoshop.

现在，作为一个没有试图攻击作者的读者，我相信你会同意我的观点，突出显示的黄色区域更可能包含蓝色点而不是红色点。这是过度拟合—绿线在现有点(训练点)上表现更好，但在新点(测试点)上表现更差。

我们可以换句话说，产生绿线的模型在训练点中发现了太多的模式。它太善于发现模式，所以当它要应用它们的时候，它没有看到它发现的模式可能不适用于新的点。那么，根本的问题是发现哪些模式是真实的，哪些只是数据本身的噪音。

我肯定不是第一个注意到这个问题的人。我其实是在课堂上学到的。许多聪明人试图通过想出非常聪明的方法来解决这个问题，这些方法使用长方程和许多希腊字母来防止模型发现像绿色这样的怪异线条；这就是所谓的正规化。无论是在训练期间添加正则化还是将其融入模型本身，这都是机器学习的改进之处。

我的观点略有不同——在我看来，我们跳过了最重要的一步。在诉诸奇特的数学之前，我们忘了问自己为什么。嗯，总是有这样的问题，为什么天空是蓝色的，或者为什么我们存在于宇宙中，但这些不是我提到的问题(这些是不是你正在寻找的问题)。不，我更关心的是为什么智力通常会起作用。我们试图找出哪些模式有效，但我们还没有确定为什么任何模式都有效。为什么下一个点应该是蓝色或红色；为什么不能是紫色的？

这个问题，又不是我先问的。事实上，我不知道是谁先问的，但幸运的是，一路上有人决定给出一个答案:一些模式之所以有效，是因为测试数据应该独立于训练数据，两者应该来自同一分布。这只是一种数学方式，说明当我们测试我们的模型时，我们不应该让它处于与我们训练它时不同的环境中。下一个点是紫色的可能性很小，因为我们已经看到了很多点，没有一个是紫色的。毕竟，当我们掷出六面骰子时，我们不能指望一半正面一半反面，但我们可以预计，如果我们以同样的方式掷同样的硬币，我们会得到类似的结果。借用一句励志名言:“如果你一直做你一直做的事情，你就会一直得到你一直得到的东西。”在我写下那句话之前，我从没想过机器学习可以和励志演讲捆绑在一起。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ok, fine. It was done via Microsoft Word 😕

好的，很好，但是让我们回到任务上。这与区分实际模式和过度拟合有什么关系？如果你注意到上面，过度拟合的主要原因是绿线模型试图拟合一些异常值。假设我们可以以某种方式将这些点分组到不同的区域，其中一些区域包含异常值并且不符合找到的模式(黄色区域)，而另一些区域包含符合找到的模式的点(绿色区域)。

直觉上，“绿色”区域应该更大，包含更多点，并且在预测未来点时更准确。换句话说，如果更多的点出现在“绿色”区域，我们会认为它们是红色的。另一方面，如果更多的点出现在“黄色”区域，而一些点是红色的，我们会认为大部分是蓝色的。当然，为了得到更多的分数，我们总是可以收集更多的数据。但有时，你会发现自己是一个贫穷的本科生，没有其他人拥有的金钱、时间或资源。叹气。不管怎样，有时候，收集更多的数据是不可行的。因此，与其这样做，我们可以省去部分训练数据，并通过使用我们省去的点来“添加”点！这也不是一个新的想法——这被称为使用验证集(我们验证模型从训练集中发现的模式)。使用验证集来确定特定的过度拟合区域是一种新方法。然而，人们没有这样做是有原因的。“绿色”区域听起来确实不错，但首先，它们很难找到，其次，这些区域是根据数据构建的。简而言之，一些区域明显是“绿色”，而其他区域明显是“黄色”，但是一些区域将很难着色，因为这些区域是围绕训练数据塑造的。这个问题的解决依赖于与美国相同的基本原则。如果根据不同数据训练的两个模型得出相同的“黄色”区域，这将是奇怪的。因此，如果我们对根据稍微不同的数据训练的模型重复这个着色过程，对于我们在第一个模型中不确定的区域，我们可以在第二个模型中只看它们的颜色作为决定者！如果那个模型发现了相同的区域，那么我们可以非常肯定这不是偶然的，所以它应该是“绿色的”相反，如果第二个模型没有找到该区域，那么它可能是噪声，并且应该被着色为“黄色”

还有一件事。我们如何找到这些区域？我们用聚类！你会问，什么是集群？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: wikipedia.org

聚类就是在数据中寻找聚类(我不是故意讽刺)。但是看；聚类就是在数据中找到三个聚类，如图所示。同一簇中的点看起来与模型相似。如果有多种方法来转换点，然后在模型中绘制(例如，在神经网络的每一层中)，那么根据定义，在所有图中处于相同聚类中的点对于模型来说是不可区分的。这是很清楚的——如果模型可以区分它们，那么它们在某个时候会在不同的簇中。不管怎样，如果我们定义了点总是在同一个簇中的位置，那么，现在我们有了我们的区域！

机器学习就是寻找可以分离点的算法(哦，还有回归)。算法倾向于找到绿线，因为这样可以最小化分类错误。机器学习的挑战是找到一种可以找到黑线的算法，因为这可能会在新点上工作得更好。正则化，也就是奇特的数学，帮助我们得到更接近黑线的东西。这就是全部了！

你想要一个正式的版本，应用于实现最先进结果的深度学习吗？你对这如何证明奥卡姆剃刀和传统的正则化技术有兴趣吗？你想成为一个酷小孩吗？->https://arxiv.org/abs/1904.05488<—

感谢阅读！

机器意识的未来和哲学

原文：https://towardsdatascience.com/the-future-and-philosophy-of-machine-consciousness-872f272875c8?source=collection_archive---------5-----------------------

探索令人兴奋又令人恐惧的感知机器人的可能性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如今，科幻小说比以往任何时候都更渴望探索人机关系的可能性。这些故事复杂、感人，而且常常发人深省，在粉丝和未来主义者中广受欢迎。

一些著名的、相当黑暗的例子是:

《黑镜》(第一季第二集)马上回来— 一个悲伤的寡妇将她已故丈夫的人格重塑成一个神秘的机器人身体
前玛奇纳——一名男子爱上了一个背叛他以换取自由的机器人
她的——一个最近离婚、心碎的男人在一个复杂的聊天机器人中找到了伴侣，最终变成了爱情

这些故事很可怕，因为它们迫使我们去面对我们可能不理解或不知道答案的现实。有一天，我们将不能关掉电视，回到那些情况不在你家门口的生活。但是，即使这一天还没有到来，重要的是开始探索随着这些未来机器慢慢成为现实而变得越来越相关的哲学问题。

今天，我们将探讨与机器意识相关的问题，例如:

机器能思考吗
机器能体验情感吗
机器能有意识吗

我们将努力保持客观，从多个来源获取不同的观点。这是:

机器会思考吗

*简答:*当然可以，为什么不可以。

*长回答:*很复杂。1950 年，被称为现代计算和人工智能之父的艾伦·图灵也在想同样的事情。为了寻找答案，他创造了著名的图灵测试。简而言之:

阿兰·图灵于 1950 年发明的图灵测试是一种测试机器表现出与人类同等或不可区分的智能行为的能力的测试

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图灵认为思维机器可以存在。同时代的人持两种观点，但是针尖倾向于同意图灵最初的观点。

但是，什么是思维？这个问题可能比它第一次出现时更加主观。

一个普通的思维实验被称为 中国室 ，它反对图灵测试作为机器是否能思考的代理的有效性。提出这一思维实验的论文的作者约翰·塞尔认为，聊天机器人不会思考——它只是操纵它不理解的符号，这不是思考。

从本质上说,《中文教室》强调了我们所认为的机器智能只是一种计算。但是，如果硅芯片和电路只是我们脂肪组织和化学大脑的机器模拟，那又有什么区别呢？

这是大脑模拟器对中文教室反应的关键(一个计算主义论点)。心智的计算理论认为，人类的心智只是物理系统中的信息处理。大脑模拟器的回应认为，在最小的尺度上，大脑和处理器只是两个信息系统——它们交换数据，更新状态，并产生输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The atomic units of what make our respective processors

所以，让我们假设没有灵魂，并且认为思维真的只是信息处理的突现属性。那么，情绪是思维的一部分吗？或者它们是一种独特的生物？

机器能体验情感吗

如果“情绪”只是根据它们对行为的影响或它们在有机体中如何发挥作用来定义的，那么情绪可以被视为一种机制，智能代理使用这种机制来最大化其行为的效用。鉴于情感的这一定义，汉斯·莫拉维克认为“一般来说，机器人对于成为好人会很有感情”。

如上所述，情绪赋予效用。例如，动物能经历的两种最原始的情绪是恐惧和吸引。对危险环境、捕食者和处境的恐惧一直伴随着我们，因为它让我们的祖先活了下来。对有营养的食物、安全的环境和生殖伴侣的吸引力没有什么不同。这些情感帮助我们生存下来，并传递我们的基因。到目前为止效果还不错。

所有养宠物的人都会告诉你，认为情感是纯粹的“人类”特征是错误的。智力范围内的动物都有情感体验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么，为什么机器人会有所不同呢？

汉斯·莫拉维克认为，机器人*“会试图以一种明显无私的方式取悦你，因为它会从这种积极的强化中获得快感。你可以把这理解为一种爱。”*

这个论点是基于学习机是基于函数优化的。无论是最大化一个回报或适应度函数(在强化学习和遗传算法中)还是最小化一个成本函数(在监督学习中)，目标都是相似的:获得尽可能好的分数。

了解了这一点，就很容易明白莫拉维克的论点有什么道理了。将机器人的目标函数定义为取悦你，当它试图获得高分时踢你的脚。

所以简而言之，是的——从一个旁观者的角度来看，机器人可以表现情感。

但是，情绪也是感情。询问一台机器是否能够真正感受到愤怒、快乐、悲伤，这涉及到意识的问题，我们接下来将探讨这个问题。

机器会有意识吗

“心灵”和“意识”这两个词被不同的群体以不同的方式使用。

意识本质上是智能的一种自然属性吗？这是有道理的，因为我们可以说狗比鸡更有意识，鸡比蚂蚁更有意识。按照这个思路，意识不是二元的，而是一个连续体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

而且，谁能说天平到我们这里就结束了呢？从基因上来说，我们和类人猿没什么不同。宣称人类是意识的顶峰是傲慢的，当然事实并非如此(就理论上的可能性而言)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

美国哲学家约翰·塞尔提出了两种人工智能的理论:

强人工智能:一个可以拥有思想和精神状态的物理系统
弱人工智能:一个可以智能行动的物理系统

他的目标是区分这两者，以便专注于手头更“有趣”的问题——被称为意识的难题。这个问题很“难”,因为我们理解并可以复制意识的许多子系统(如精神状态、信息处理等),但不知道它们是如何结合在一起形成一个生命的。我们根本不了解一个机制意识的功能是通过它来执行的。

然而，今天的人工智能研究人员并不关心强人工智能和弱人工智能之间的区别，因为一般的智能只需要这样“行动”,除非证明“意识”需要一些秘密的额外成分。如果我们可以用软件复制一个大脑，它将(理论上)拥有人脑的所有能力。

总之，这些论点表明，在我们找到负责意识的可量化的客观机制之前，我们必须假设一个会思考、会学习、普遍智能的机器和我们一样有意识。

但是，有些人不同意。

一些新时代的思想家将意识描述为“一种无形的、充满活力的液体，渗透到生活和思想中。”这种想法与灵魂、精神或一个人的其他超凡脱俗的、缥缈的部分一样，使他们不仅仅是一块肉。但是，为了考虑这种可能性，我们再次考察二元意识的问题。狗、鸡、蚂蚁等也有灵魂吗？如果不是，那么他们都是同样有意识的，这当然看起来不像是这样。

已经有一些实验被用来定量测量灵魂的存在——但没有一个给出实验证实。你可能会说灵魂，也就是意识，是而不是可定量测量的。如果是这样的话，一个看不见的，不可测量的东西在我们的讨论中是没有分量的(get it)。总的来说，反对机器意识的论点可以总结为精神上的，就实验证据而言没有可信度。

总的来说，天平倾向于机器意识的可能性。没有真正的障碍说这是不可能的。最后，无论哪种方式，我们都不能肯定地说。

那么，现在怎么办？

这些都是非常复杂的话题。我们探索的想法仅仅是其他人思考了几十年的观点海洋中的一滴水。这些问题都没有非黑即白的答案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在不久的将来，什么都不会改变。我们的机器人离网飞上任何能引起恐慌的东西都很远。

未来，谁知道呢？这是另一个开放的话题。

我只是列出了我认为最合理的答案。重要的是保持一个开放的心态，总是对新的信息开放，尤其是关于如此复杂的话题。

如果您对这篇文章感兴趣，我鼓励您深入阅读这个主题(查看下面的参考资料)。感谢阅读！

进一步阅读(其中许多是我为本文提供的思路):

尼克·博斯特罗姆的《超级智慧》
艾未未哲学百科页面
中国房间的争论
动物意识
模拟大脑

面对数据饥荒的人工智能的未来

原文：https://towardsdatascience.com/the-future-of-ai-in-the-face-of-data-famine-42d1fe36355c?source=collection_archive---------23-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Mathew MacQuarrie on Unsplash

人工智能研究领域作为一门学术学科创建于 1956 年。尽管有 60 年的历史，但这个时代仍处于最开始，与类似学科相比，未来的道路崎岖不平，这主要是由伦理和数据可用性领域的挑战驱动的。

AI 的命运起伏 人工智能自诞生以来，经历了三次重大突破和两次停滞期。它最近的复兴是在 2016 年引发的，当时 AlphaGo 击败了世界上最好的围棋选手，这是一场被认为对人工智能来说太复杂的游戏。

正如我们从以前的人工智能圈子中了解到的那样，每当它向前迈出一大步，就会有很多人审视和关注这对世界意味着什么；无论是行业还是社会。因此，人工智能的某些想法在公众中变得极具争议，并进入了“幻想破灭的低谷”。

思考一下为什么人工智能仍然如此有争议，事实证明，对人工智能能够提供什么的期望与它在现实中能够完成什么之间存在巨大差距。今天的事实是，人工智能的真实世界例子仍然很少，而且往往专注于非常小众的案例，远离营销人员撰写的追逐社交点击的场景。AI 走向主流还有很长的路要走。由于我们在这个领域并不缺乏远见，我们看到了对人工智能今天真正能够完成什么的怀疑信号。现在，在第三次人工智能崛起即将结束之际，这个新兴领域的命运仍不确定。

数据饥荒即将来临 人工智能最近的崛起在很大程度上是由大数据的可用性推动的，大数据推动了面部识别等领域深度学习的发展，这可以被认为是这场人工智能浪潮的主要突破之一。在更复杂的领域，如疾病诊断，深度学习仍然面临着弥合企业和机构之间差距的挑战。这一领域的一个主要问题是数据的可访问性。从整体的角度来看，数据是可用的，但由于若干原因是不可评估的。一个常见的问题是数据存储在孤岛中。这些孤岛通常是公司内部网络甚至公司内部物理隔离的结果。另一个突出的问题是数据结构不兼容。因此，没有集中式数据中心来通过深度学习机制训练强大的神经网络。基于云的计算经常被认为是解决数据孤岛问题的潜在解决方案，但事实证明，对于大量数据来说，它既昂贵又耗时。此外，还有越来越严格的数据隐私法规，如通用数据保护法规。虽然这些政策对于保护消费者的隐私非常重要，但它们也对数据的使用施加了严格的限制，并要求重新思考如何以合规的方式构建人工智能应用。

联合学习——第四大突破的承诺 消费者保护实践和数据隐私是不可协商的，也是建立必要信任的底线。另一方面，它带来了数据饥荒和人工智能崛起放缓的风险。联邦学习是一种新的人工智能方法，有可能带来人工智能的下一个重大突破，并克服这一波数据隐私和信任挑战。它是一个机器学习框架，允许用户使用分布在多个位置的多个数据集来训练机器学习模型，同时防止数据泄露并遵守严格的数据隐私法规。实际上，根据数据的分布特征，联合学习有三个主要类别。

水平联合学习根据特征划分数据集，并且通常在特征重叠多于用户的情况下实施。例如，在不同地区运营的三家物流公司可能会保留其消费者的类似数据，但消费者本身之间的重叠相对较小。由于他们的特征几乎相同，因此可以提取具有相同特征的用户来训练模型。

当多个数据集具有大量重叠的用户但具有不同的特征时，通常使用垂直联合学习。例如，在同一地区经营的食品配送服务和医院可能有一组相似的用户，但跟踪两者之间的不同信息:医院跟踪健康数据，而食品配送服务跟踪浏览习惯和购买数据等。垂直联合学习集合了所有这些特征，以便为双方协作建立一个模型。

当数据集的用户和特征之间几乎没有重叠时，联合迁移学习用于克服这种数据或标签的缺乏。以中国的一家制造商和美国的一家物流供应商为例。由于它们在地理上受到限制，用户之间很少有重叠；同样，由于它们是不同类型的机构，它们的特征也很少重叠。在这种情况下，迁移学习应该与联合学习结合使用，以定义数据集之间的通用表示，并提高模型的整体性能。

尽管它有能力，但仅靠一个有效的框架不足以完全解决这些挑战。联合学习必须发展成为一种商业应用，为某个行业提供灵活、双赢的商业模式。通过聚合不同机构的多个孤立数据集，联合学习使开发理想模型成为可能，而无需侵犯每个人的隐私。简而言之，这是一种通过将来自多个利益相关者的数据保存在孤岛中来训练算法的方法——数据共享经济，其中数据持有者通过共享他们的数据而受益，而应用程序提供商可以通过提供开发这些模型所需的服务来获利。

由…所写

西哈诺·陈、锡安·陈和迈克尔·伦茨

机器学习和数据科学计算的未来

原文：https://towardsdatascience.com/the-future-of-computation-for-machine-learning-and-data-science-fad7062bc27d?source=collection_archive---------7-----------------------

数据科学家面临哪些挑战，研究人员如何应对这些挑战？

“人脑比计算机消耗的能量少得多，但它却比计算机复杂得多。”—全球政策杂志纳耶夫·阿尔·罗德汉

Source: https://www.nanalyze.com/2019/08/neuromorphic-computing-ai-chip/

在这篇文章中，我将讨论计算科学目前面临的挑战和预期的未来趋势，以及它们对数据科学和机器学习领域的影响。这包括 Dennard scaling 的崩溃——摩尔定律的放缓，物联网(IoT)的新兴领域，以及模仿人脑的更节能计算的出现，即所谓的神经形态计算。

趋势

深度学习

深度学习在现代世界已经无处不在，几乎在每个领域都有广泛的应用。正如所料，人们已经开始注意到，随着深度学习被企业广泛采用，其背后的宣传也在继续增加。深度学习由具有多个隐藏层的神经网络组成，并且在计算资源方面有一些特别苛刻的需求:

10 亿个参数来训练。
计算强度随着网络深度的增加而增加

深度学习在语音识别、计算机视觉和文本理解的一些重要任务中取得了巨大成功。

The apparent success of deep learning in the field of speech recognition.

深度学习的主要缺点是其计算强度，需要高性能的计算资源和长的训练时间。对于面部识别和图像重建，这也意味着使用低分辨率图像。研究人员打算如何解决这些大型计算问题？这种方法的瓶颈是什么？

物联网

未来几年，预计将有 200 亿个嵌入式设备投入使用，包括智能冰箱、电话、恒温器、空气质量传感器、锁、狗项圈，这个名单令人印象深刻。这些设备中的大多数将由电池供电，并且在存储器和计算能力方面受到严重的资源限制。尽管有这些限制，这些设备需要执行智能任务并且易于使用。

物联网设备的预期普及带来了重大担忧，特别是关于这些设备的安全性(也许未来的罪犯将是黑客，他们可以侵入我门上的智能锁)。这也预示着数据驱动的深度学习的到来。深度学习已经需要大量的数据，但大规模联网设备或传感器的出现开辟了新的研究途径——特别是在我自己的环境科学领域，该领域正日益朝着低成本和大规模传感器网络的方向发展，以监测大气污染物。

这个想法也延伸到了智能手机上。智能手机正变得越来越强大，现在在计算能力上可以与一些老式笔记本电脑相媲美。机器学习越来越多地在这些设备上执行。尽管有所改进，但它们的计算资源仍然有限，因此减少计算和数据开销的趋势在这些设备上越来越重要。

这种想法也延伸到自动驾驶汽车，经过长时间的研发，自动驾驶汽车开始商业化。自动驾驶汽车存在自己的问题，但仍然受到同样的关注，其中最受关注的是车辆的安全性和道德基础。

更多的数据意味着更多的数据科学(对数据科学家来说！)，但这也意味着需要存储和处理这些数据，并通过无线网络传输这些数据(我要补充的是，要做到安全)。如何解决与物联网相关的问题？而且出了问题谁的责任？

云计算

公司越来越倾向于使用云计算，以便外包其计算需求并最大限度地降低成本。

这也有助于公司(尤其是初创公司)降低与购买基础设施相关的资本成本，并将其转移到运营成本中。随着计算密集型和需要高性能系统的机器学习和数据科学的日益普及，以及大多数公司在线业务的不断增加，基于云的分布式计算的这一趋势预计不会很快放缓。

缩放计算量

在仅适度增加能耗的情况下扩大计算规模是一项艰巨的任务。我们需要深度神经网络的这种平衡计算缩放，以最小化它们的能量开销。

当前的解决方案是并行使用许多小型、高能效的计算节点来适应大型计算。

减少能源使用

在仅适度降低结果质量(例如，预测准确性)的情况下缩减能量正成为日益重要的任务。物联网设备和可穿戴设备需要这种平衡的能源扩展。这些考虑与一个叫做近似计算的新领域有关，这个领域用付出的努力来权衡质量。

目前的解决方案是协调使用多个小型节能计算节点来支持智能计算。

数据过载

过去二十年的数据爆炸现在意味着人类每两天产生的数据量相当于截至 2003 年全人类的数据量。计算趋势表明，我们现在处于亿亿级数据(指 10 亿千兆字节规模的数据计算)和亿级计算(指每秒能够执行 10 次⁸计算的计算机)的区域。

谷歌、亚马逊、微软和脸书等所有大型在线存储和服务公司持有的数据总和约为 4800 Pb(4.8 EB)。

分析大型数据集(甚至几千兆字节)需要不同的方法在本地笔记本电脑上运行模型——试图这样做只会使您的计算机崩溃。

并行化

目前，处理高成本计算的标准方式通常是使用超级计算机*(用于大计算任务，需要大量计算能力)，或者使用大型分布式系统(用于大数据任务，需要大量计算内存)。*

在不久的将来，如果你想分析大型数据集，你将基本上别无选择，只能转向并行计算。

分布式系统在某种程度上工作得很好，但是一旦我们接近具有 1000 个节点的集群(集群中的单个计算机)，分布式系统很快就会崩溃。集群中的大部分时间都花在了通信上，这导致了降低系统整体计算速度的开销。这种现象被称为。

Illustration of parallel slowdown — initially, we see an improvement in the speedup as the number of processors increases. This relationship breaks down for large numbers of processing elements due to a communications bottleneck (too many people talking, not enough work being done). Source

我们遇到的另一个复杂问题是我们的计算中可并行化的比例，这由 阿姆达尔定律 描述:

阿姆达尔定律指出，在并行化中，如果 P 是系统或程序可以并行的比例，1-P 是保持串行的比例，那么使用 N 个处理器可以实现的最大加速是 1/((1-P)+(P/N))。

通俗地说，我们的最大加速取决于程序中必须顺序执行的部分——不可并行的部分。如果我们 50%的计算是可并行化的，那么我们得到的加速比如果我们的程序是 95%可并行化的要少得多。这种现象如下图所示。

Amdahl’s law, illustrated. As the number of processors we have available increases, we reach a bottleneck which depends on the serial portion of our algorithm. Source

对于令人尴尬的并行计算，这个问题消失了，这意味着程序是 100%可并行化的，并且本质上是独立的——例如，测试神经网络的不同超参数。

注: 并行计算和分布式计算有什么区别？ 并行计算 是在共享内存上同时使用多个计算节点。 分布式计算 是同时使用多个计算节点，每个节点都在各自的内存上工作。

如今，支撑许多企业在线系统的分布式计算系统在云上随处可见，企业将大部分计算基础设施卸载给亚马逊和微软等大型云公司，以实现更轻松、更廉价的维护。

超级计算机运行良好，但运行和维护起来极其昂贵，而且需求量很大。在哈佛这样的大学里，实验室可以使用一定比例的计算资源，这些资源可以在小组成员之间共享。然而，租赁费用非常昂贵。在环境科学领域，以每小时的时间分辨率运行一个月的全球气候模型可能需要几周的时间，这可能是极其昂贵的。

计算能力一直是一个问题，但如今最大的问题是我们拥有的数据变得太大而无法处理。即使我们假设摩尔定律仍然成立(这将在下一节讨论)，数据生产也是指数级的，而摩尔定律是线性的。如果计算强度足够大，可用于处理的数据量会很快使任何通用计算机或集群中配置在一起的一组计算机丧失能力。

Computing trends in processing power, storage cost, and data growth. Source

如果您有一千台计算机同时运行来管理您企业的数据库服务器，云计算并不便宜，但至少它是可行的。另一方面，您希望如何在 100 的数据集上执行业务分析？磁盘空间便宜得令人难以置信，但内存却不是，您的数据必须在内存中才能被分析。

幸运的是，我们至少可以通过所谓的 挂钟时间 来估计一次计算(也可以扩展到数据)可能需要多长时间。这可以通过首先找到你的计算的计算复杂性来完成:

CC = CDN T

CC =计算复杂度(Flops 数)
CD =计算密度(# Flops/site/step)
N =域大小或数据点数量(站点数量)
T =时间步数或时期数(步数)

要计算挂钟时间，您需要知道笔记本电脑的处理能力(例如 1 GFlops/s)。然后:

WCT = CC /处理能力

例如，如果你在 2D 网格上用 1000 个数据点进行 1000 时间步的计算，你将在每个网格点上进行 6 次计算。这具有 6 万亿次浮点运算的计算强度，在 1 GFlops/s 的笔记本电脑上大约需要 6000 秒(约 2 小时)。

有关各种不同机器学习算法的计算复杂性列表，请参见下表。

Computational complexities of machine learning algorithms. Source

在你做大型计算之前，估计一下你的挂钟时间！

可以看出，时间与计算次数成比例增加，这与(1)数据点的数量，或(2)计算域的大小有关。

机器学习中的并行化有多重要？事实证明这非常重要。这有两种可能发生的方式:

数据并行— 分发数据，使用相同的模型。
模型并行 —分布模型，使用相同的数据。

Data parallelism vs model parallelism.

人们期望如何处理必须分析的日益庞大的数据量？有许多选择，尽管这并不详尽:

****【1】不要将“计算”移动到数据，而是将数据移动到“计算”。由于大规模分布式网络的存在，这在环境科学中有很大的推动力。

边缘和雾计算 —在边缘设备上靠近数据源的地方进行计算。这将在物联网基础设施中变得非常重要。

****【2】对工作负载进行分层划分，以产生可以分布的非交互式工作负载(对于交互式工作负载，并非总是可行)。

网格计算 —想象在神经网络上执行超参数调整，并将一组超参数发送到一个计算集群，将另一组发送到第二个集群(模型并行性的示例)。这两个集群不通信，实际上是独立的。例如，这对于神经网络中的数据并行性(通常)是不可行的。

****【3】高速通信、并行框架或分布式系统的时间管理方面的改进(这些已经很不错了！).

****【4】使用专用硬件，如 ASICs(就像人们为比特币挖掘所做的那样，为特定计算优化硬件)、GPU 和 TPU。一个 GPU 可以在图形数据上提供 8 个 CPU 的性能，一个 TPU 可以像 8 个 GPU 一样有效-自然，它们并不便宜。

如何在自己的工作中实现并行化？

由于需要在可处理的时间范围内分析巨大的数据集，速度对于计算变得越来越重要。Python 是一种优秀的语言，是数据科学家使用的最流行的语言，但遗憾的是，它不是一种特别快的语言(首先，它是由解释的，而不是由编译的*，这意味着代码被即时翻译成二进制代码*，这需要额外的时间)。****

为了加速代码，并行化在大多数语言中都是可能的，这可以是添加额外处理器的形式，正如我们已经讨论过的，或者通过使用额外的线程— 如果您不熟悉，可以将这想象为打开两个相同的计算机程序，以便它们可以分担程序负载。这就是所谓的多线程，虽然对于大规模数据集来说用处不大，但它仍然可以提供很大的好处。最流行的实现之一是在 C++中使用的 OpenMP。****

多线程是 Python 的一个重要问题，因为有一种叫做 GIL 的东西。我们不能使用 OpenMP，但幸运的是，有一个被形象地称为multithreading的多线程库可以使用。

处理器之间的并行化可以使用 MPI 来完成，并可以扩展到图形处理单元(GPU)以及使用其他并行框架(如 OpenACC)的更专业的设备(如 Google 的张量处理单元)。在云提供商提供的实例上设置这些相当容易(TPU 仅由 GoogleCloud 提供)。

如果处理图像，我强烈建议至少使用一个 GPU 进行计算。这可以将训练时间减少一个数量级——这就是等待一个小时和一整天的区别。

摩尔定律的终结(正如我们所知)

1965 年，英特尔联合创始人戈登·摩尔做出了一个预言，为我们现代的数字革命定下了基调。通过对一个新兴趋势的仔细观察，Moore 推断计算能力将会以指数级的速度急剧增加，而相对成本将会下降。

但预计未来的速度会更慢。2015 年 7 月，英特尔首席执行官布莱恩·科兹安尼克表示，“半导体制造的指数级进步使得每两年一次的计算和存储变得更快、更便宜，现在这一速度将接近每两年半一次”。**

如前所述，人们现在致力于开发新的架构和计算模型，利用并行处理来提供平衡的计算和能量调节，而不是继续让微处理器变得越来越强大。

摩尔定律——CPU 上的晶体管数量每两年翻一番的现象——在某种程度上仍然可以观察到，但计算能力仍然与面积成正比的假设已经被认为是不成立的。这种功率密度缩放的假设被称为 丹纳德缩放 。

Dennard scaling 粗略地指出，随着晶体管变得越来越小，它们的功率密度保持不变，因此功率使用与面积成比例:电压和电流都随长度成比例(向下)。

Source: Dark Silicon and the End of Multicore Scaling, 2011.

自 2005-2007 年左右，Dennard scaling 似乎已经崩溃，因此即使摩尔定律在那之后持续了几年，它也没有产生改善性能的红利。击穿的主要原因是，在小尺寸时，电流泄漏带来更大的挑战，并导致芯片发热。

有各种各样的热管理方法，从通过系统泵送 Fluorinert ，到混合液体-空气冷却系统或具有正常空调温度的空气冷却。然而，这些方法只能在一定程度上起作用，之后唯一能做的就是选择芯片的某些部分来通电。

因此，为了将芯片温度保持在安全工作范围内，芯片的某些部分有时不通电。这些区域被称为暗硅。

需要能够动态选择芯片部件通电的设计——这是计算研究的一个活跃领域，将变得越来越重要。久而久之和摩尔定律继续偏离其最初的预测。

神经形态计算

神经形态计算是模拟神经系统中存在的神经生物学架构的计算系统的开发。

神经形态工程的一个关键方面是了解单个神经元、电路、应用和整体架构的形态如何创建理想的计算，影响信息的表示方式，影响对损伤的鲁棒性，整合学习和发展，适应局部变化(可塑性)，以及促进进化变化。

形态被定义为处于特定的形状或形式。神经形态指具有神经元的行为。

在 1990 年 IEEE 召开的名为神经形态电子系统的会议上，首次引入了神经形态计算的概念。诉讼称:

“人脑有 10 个⁶突触，每 100 毫秒有一个神经脉冲到达每个突触。这意味着每秒钟有 10 次⁶复杂运算。在 1W 的功耗下(这里为了简单起见而不是 20W)，大脑每次操作只消耗 1/10⁶j——相比之下，终极硅技术每次操作都会消耗 1/10⁹ J。”

因此，预计通过实现神经形态计算，我们可能能够实现比我们当前的系统更节能几个数量级的计算。

推动节能计算有多种原因，而不仅仅是为了降低成本——尽管这只是一个原因。这也释放了硬件的计算，允许在更少的设备上完成相同数量的计算，这具有成本优势以及并行化的潜在优势。降低设备的总能耗对环境也有明显的好处。

神经形态计算的早期成果有很多例子:

神经网格是由斯坦福大学的 Kwabena Boahen 及其团队于 2005 年开发的多芯片系统(6000 个突触)。
具有紧急瞬态的快速模拟计算(FACETS)，2005 年(5000 万个突触)。
Torres-Huitzil 的 FPGA 模型，2005 年。

最新的努力之一是 IBM 的 TrueNorth。TrueNorth 每次运算消耗大约 1/10 J，而不是通用计算中的 1/10⁹ J。回想一下，对于人类大脑来说，这个数字是 1/10 ⁶ J。因此，我们还有三个数量级要走！

最终意见

总之，计算的未来看起来将包括加速计算，以处理数据生产中无情的指数增长。然而，由于各种原因，提高单个处理器的速度很难，摩尔定律不可能永远适用——它越来越受到传热和量子力学的限制。并行计算将继续受到更大的推动，特别是 GPU 和 TPUs 等更专业的硬件，以及随着我们进入神经形态计算领域，更节能的计算将成为可能。

物联网设备的蓬勃发展带来了不同的挑战，这些挑战正试图通过边缘和雾计算等更以计算为中心的想法来应对。

免责声明:我在这篇文章中没有提到量子计算，因为我不清楚这在不久的将来是否会成为可行的计算选择。

参考

门罗博士(2014 年)。“神经形态计算为(真正的)大时代做好了准备”。ACM的通信。57(6):13–15。doi:10.1145/2601069

达曼德拉莫德哈(2014 年 8 月)。“具有可扩展通信网络和接口的百万脉冲神经元集成电路”。科学。345(6197):668–673。

米德·卡弗(1990)。《神经形态电子系统》 (PDF)。IEEE 会议录。78(10):1629–1636。土井 : 10.1109/5.58356

金·阿姆达尔(1967 年)。“单处理器方法实现大规模计算能力的有效性” (PDF)。AFIPS 会议记录(30):483–485。doi:10.1145/1465482.1465560。

戴维·罗杰斯(1985 年 6 月)。“多处理器系统设计的改进”。 ACM SIGARCH 计算机架构新闻。美国纽约州纽约市: ACM 。13(3):225–231。doi:10.1145/327070.327215。国际标准书号0–8186–0634–7。ISSN0163–5964

罗伯特·登纳德；弗里茨·盖恩斯伦；余、华年；赖德奥特，狮子座；欧内斯特·巴索斯；安德烈·勒布朗(1974)。“极小物理尺寸离子注入 MOSFET 的设计” (PDF)。IEEE 固态电路杂志。 SC-9 (5)。

凯蒂·格林(2011)。“一个新的改进的摩尔定律:在“库米定律”下，每一年半翻一番的是效率，而不是功率”。技术评审。

波尔，马克(2007)。“Dennard MOSFET 缩放论文 30 年回顾” (PDF)。固态电路学会。检索于 2014 年 1 月 23 日。

哈迪·伊斯玛伊尔泽达；布莱姆，艾米莉；蕾妮·圣阿曼特；Sankaralingam，Kartikeyan 伯格，道格(2012)。“暗硅和多核扩展的终结” (PDF)。

乔尔·赫鲁斯卡(2012 年)。“CPU 扩展的死亡:从一个内核到多个内核——以及我们为何仍停滞不前”。极限技术。检索于 2014 年 1 月 23 日。

数据的未来是假的

原文：https://towardsdatascience.com/the-future-of-data-is-fake-694d2aa0d3d5?source=collection_archive---------14-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前几天，我和一位在旧金山工作的数据科学家同事共进午餐。我们分享了关于生活和工作的故事，并发现自己对那些经常没有足够数据的情况感到同情。这似乎一直都在发生。有时是因为你正在做一个刚刚起步的项目。其他时候，你会发现自己在和一家老公司打交道，这家公司收集的有用信息还没有他们认为的一半多。有时候，你的客户有数据，但远不足以训练他们想要的智能机器学习解决方案。在所有情况下，模式都是相同的:没有足够的点来生成干净的结果，所以您最终只能用胶带和试探法拼凑出一个解决方案。

然后我突然想到:整个全球数据科学的努力都有一个问题。T2 永远不会有足够多的好数据，因为它在世界上的分布不可避免地是无尺度的 T4。这一事实将影响我们从事的每一个项目，并塑造科技行业试图实现的一切。它还告诉我们一些关于数据科学将如何作为一门学科发展的非常重要的事情，以及我们可能能够在职业生涯中增加价值的地方。简而言之:我们可以将数据科学应用于数据科学本身，并预测未来。

对于那些不熟悉术语无标度分布的人，我应该回顾一下并解释一下。无标度分布是密度函数遵循幂律的分布。换句话说，对于 k 的某个值，f(x)=ax^-k，你可能会说，很好，但那实际上意味着什么呢？

首先，这意味着在群体中有大量的小物体，中等大小的物体，以及大的离群点的稀疏分散。更重要的是，这意味着分布没有平均值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An example power-law (Zipf) distribution, and the same function appearing as a straight line on a log-log plot (image via Matplotlib)

如果你没有处理过这种数据，你可能会想知道我在说什么。当然，你总是可以将你的总体中的值相加，然后除以项目的数量，不是吗？是的，但是在这种情况下，这个过程不会产生有意义的值。这是因为无标度分布没有集中趋势。很难说你下一步会遇到什么值，因为无论你看什么样的值，总是会有更多的点对应于较小的值，而更少的点对应于较大的值。

遵循这种模式的现象多得惊人。例如，城市规模的分布遵循一种特殊的幂律模式，称为齐夫定律。世界上任何一种语言的词频也是如此。幂律决定了外层空间岩石的大小，决定了你想检查的任何哺乳动物的血管大小，决定了自文明出现以来人类冲突中的死亡人数。尝试 Geoffrey West 的优秀著作 Scale 中引人入胜的解释。

从我们的角度来看，最重要的是，公司规模的分布也遵循这一模式，人们对网站和社交媒体平台的关注也是如此。因此，整个科技行业收集的数据不可避免地以同样的方式汇总。因此，即使全球数据分布(如果我们能够测量的话)最终证明不完全是无标度的，它也会如此接近，以至于没有区别。这解释了为什么少数组织淹没在数 Pb 的信息中，而我们大多数人却没有足够的信息。

我们都熟悉来自谷歌和网飞的故事，这些故事讲述了他们从堆积在门口的大量信息中获得的聪明见解。我怀疑我们中的许多人都想知道，尽管我们现在应该生活在大数据时代，并且已经生活了好几年，但为什么这些漂移还没有在我们最喜欢的项目面前积累起来。现在我们知道为什么了。这是因为谷歌和网飞是分布中的巨大异常值，而地球上几乎所有其他组织都填充了它们背后的曲线。

这种分布还告诉我们，抛开乐观的预期，这种情况不会改变。为什么不呢？因为在社会系统中出现的无尺度分布通常是由一个叫做优先依附的过程驱动的。

引用维基百科的话:优先依附过程是一类过程中的任何一种，其中一些数量，通常是某种形式的财富或信用，根据他们已经拥有的多少在许多个人或物体之间分配，因此那些已经富裕的人比那些不富裕的人得到更多。

换句话说，数据革命不会像我们承诺的那样让大数据变得无处不在，而是会在我们已经看到它的地方堆积起来。这是因为，造成当前全球信息失衡的机制基本上不可能自行逆转。与此同时，数据的价值正在上升，所以人们不会开始免费赠送他们收集的数据。

这意味着，我们需要训练我们一直在构建的聪明的机器学习模型的所有可爱内容不太可能出现在。而那些已经拥有足够多的人最终会拥有超出他们能力范围的东西。大数据的现实已经存在，而且非常不均衡。

但是等等！消息并不都是坏的。事实上，我认为认识到这种模式的存在是解决问题的一半。这是因为虽然获得足够的真实数据通常很难，但生成虚假数据却很容易。事实上，过去几年我在 productOps 工作过的一些最令人兴奋的项目根本不需要任何外部数据，因为我一直在做这些数据。事实证明，如果你想在大规模管道投入使用之前对其进行测试，你可以做的最有用的事情之一就是模拟你认为你将会看到的流量。

当然，用虚假数据进行测试并不是什么新鲜事，但使用它的理由比以往任何时候都更加充分。简而言之:能够弥补数据短缺，并有能力按需生成现实的新数据，这是有职业价值的。事实上，我怀疑我们即将迎来一场虚假的数据革命。

考虑机器学习中生成性对抗网络的兴起。当我们使用 GANs 时，我们有效地用机器生成的内容来补充不充分的训练集，机器的工作是提供可信的人工样本，结果通常是显著的。与此同时，其他旨在限制训练材料的人工智能工具也在稳步发展，例如出色的通气管项目。

在金融科技领域，模拟市场行为的重要性至少十年来一直在增长。伯努瓦·曼德尔布罗的精彩著作《市场的不端行为》于 2007 年出版，如果说他用分形对时间序列建模的研究的影响没有立即显现，那么在随后不久的信贷危机结束时，这种影响肯定会显现出来。

然而，对于我们中的许多人来说，搜索互联网仍然是代理训练数据的最佳来源，尤其是在 NLP 项目中。但我无法想象这种情况会持续多久。随着最近由 Judea Pearl 的工作引发的统计学因果革命的加速，构建工具来产生合成数据以测试任何管道的功能限制将变得越来越容易。

因此，当发现自己生活在一个被不可磨灭的数据鸿沟所充斥的世界时，我并没有感到沮丧，而是感到乐观——甚至兴奋。我自己在复杂系统研究方面的背景推动了我如何在 productOps 建立数据科学团队，我很高兴地说，模拟构建是我们擅长的事情。但我的兴奋不止于此。我一直怀疑模拟可能会推动数据科学的未来，因为模拟使人们能够以静态模型无法做到的方式探索大规模决策的影响。现在我确定这就是我们要去的地方，我很高兴。

大数据已死。大(假)数据万岁！

数据的未来是政治性的

原文：https://towardsdatascience.com/the-future-of-data-is-political-37b1bfc83889?source=collection_archive---------26-----------------------

像数据信任和数据共享这样的概念越来越挑战现有的数据所有权模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Fredy Jacob on Unsplash

想象一下，在一个世界里，谷歌不会无条件地了解你的一切。想象一下这样一个世界，你使用脸书是因为他们提供了最好的服务，而不是因为你和你认识的其他人必须在上面。想象一下这样一个世界，你知道谁在给你做广告，他们为什么做广告，谁为广告付费。然后，想象一个你可以关掉它的世界。

剑桥分析公司和脸书数据丑闻引发了关于数据隐私和所有权的讨论。在#DeleteFacebook 等活动的推动下，越来越多的人对科技巨头表示怀疑。除了丑闻，数据访问和伦理是充满活力的研究领域，开放数据倡议和学术数据共享资源越来越受到鼓励。

然而，虽然两者都关心使用权和所有权，但这些部落似乎存在冲突。一方面，对数据隐私的渴望包括将数据锁起来。另一方面，开放数据倡议努力共享数据，非常反对囤积数据，无论是在个人还是机构层面。

这一冲突说明了我们所处的数据政治时代。

控制论革命

数据政治也可以描述为数据的政治经济学；谁拥有数据，谁控制数据，应该用数据做什么，当数据被整合为生产资源。数据政治是控制论的一个子集——对权力和技术控制的研究是社会。

有三种新兴的数据所有权模型，所有这些模型都需要进一步研究，并且包含在数据策略中:

自由放任数据所有权 —这就是我们目前所拥有的。数据被视为一种个体商品，在准市场系统中被“买”和“卖”。例如，脸书“购买”你的数据，“交换”免费为你提供服务。数据被定义为个人资产。
数据信任 —这是一个越来越受欢迎的想法。数据汇集在一起，并在托管成员之间共享，，而对数据的责任则体现在数据托管人的管理义务中。数据信托，根据其设计，可能类似于数据集团、数据联盟或数据契约。
数据共享——这是一个非常新的想法。基于集体共有的思想，数据共有使得许多人可以容易地访问数据。公共数据是通过汇集我们数据的单个副本而建立的(根据 GDPR 第 15 条，我们都有权这样做)，消除数据垄断，迫使大型科技公司通过提供优质服务来创造价值。在这种模式下，数据基本上不再有价值，因此可以进行民主管理。

自由放任的数据所有权的问题越来越明显。然而，数据信任和数据共享也有问题，而这反过来又是自由放任的优势。

数据信任

数据信任的主要问题在于“什么是数据？”正如学者 Lisa Gitelman 所说，数据只有在被这样看待时才成为数据。比如，我们都有一个年龄。但是在进行人口普查时，我们可能想知道人口的平均年龄。因此，我们所有人都拥有并且一直拥有的一个方面(年龄)被转化为一个数据点，因为我们决定它是数据。

这揭示了所有权主张的紧张关系 —我们拥有我们的数据是因为它属于我们，还是收集数据的人拥有它是因为他们认为它是数据？回答这个问题在数据信任中至关重要，因为它决定了信任应该如何建立，以及信任者为谁服务。

一个将大型科技公司的私人数据垄断结合起来、并允许它们巩固自己在市场中的地位的数据信托，除了加剧我们目前在自由放任模式下看到的问题之外，不会有什么作用。

相反，我们可以建立一个数据信托，将创建数据的人(我们)视为其成员，并利用这种集体持有的数据垄断权与大型科技公司谈判条款。例如，如果脸书想获得更多我的数据，那么就必须与数据信托公司谈判，后者可能会迫使脸书对我向他们提供我的数据进行补偿。

这种模式的问题是，它可能会扼杀创新，为新技术公司获取数据创造数据成本。这也扼杀了那些想使用某项服务却发现该服务没有得到数据信任的消费者。这是一个自由放任模式很容易解决的问题。

数据共享空间

数据共享依赖于集体透明的原则，该原则广泛认为，如果你向其他人提供同样的访问权限，你可以获得对数据的无限制访问权限。对一些人来说，集体透明度似乎是一个不和谐的提议，尤其是那些反对 T2 自由放任所有权的核心理由是缺乏隐私的人。事实上，集体透明可能会被指责为屈服于太阳微系统公司首席执行官斯科特·麦克尼利的名言，“反正你没有隐私——克服它吧。”

保持隐私是数据共享空间面临的主要挑战。在我们当前的数据环境中，“拷贝权”的原则很有吸引力，但披露拷贝的概念——以及破坏拷贝带来的控制感——就不那么有吸引力了。隐私只是我称之为集中数据公共化的一个问题；其他措施包括确保提供的数据是真实和最新的，并确保数据的用户对自己的行为负责，以避免经济学家所说的公地悲剧。

这些问题的一个解决方案可能是整合区块链技术，创建一个分散的数据公共区。除了获得拷贝的权利，数据创建者还可以获得一个独特的数据代码，以消除其数据的匿名性。所有的拷贝都将存储在区块链上，注册一项新服务的标准程序是提供数据代码。因此，任何人都可以自由访问我们的所有数据，但我们只能被我们选择的人识别(匿名数据也可以自由获取，主要是为了研究人员的利益)。此外，区块链将记录谁在使用公共资源以及使用频率，而公共资源的变化可以通过比较区块链来验证。

然而，这不是万灵药。去中心化的数据共享需要庞大的基础设施，而所有的数据共享都需要态度上的重大转变。此外还有民主监督的问题:无论哪个机构来管理中央储存库，肯定都必须是超国家的，谁来资助、构建和监管这样一个机构仍不清楚。

谁拥有你？

数据所有权反映了劳动力市场，从中可以学到很多东西。现在，许多人觉得他们得到了一笔不公平的交易——不透明的垄断、无孔不入的广告以及主权的削弱。当这种做法出现在劳动力市场时，人们呼吁成立工会，如果不是革命的话。然而，这些呼吁只有在具备能够实现这些呼吁的机构时才能得到响应。

因此，数据所有权争论的未来是一个深刻的政治问题。我们要什么机构？我们需要什么？数据是一种个体商品吗？这是集体利益吗？如果数据是有价值的，我们不应该得到一份吗？在接下来的几个月和几年里，我们将会听到更多这样的问题，它们没有简单的答案。但是，当我们承认正在发生的数字革命，以及它是如何扰乱我们的生活的时候，我们应该问问他们。

关于本文观点的更长讨论，请参见我的论文《谁拥有未来》，点击。

借钱的未来是深度学习

原文：https://towardsdatascience.com/the-future-of-lending-money-is-deep-learning-61a9e21cf179?source=collection_archive---------14-----------------------

深度学习正在成为评估信用风险的标准方式，并将很快超越人类决策。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Jordan Rowland on Unsplash

根据维基百科，银行是*“接受公众存款并创造信用的金融机构”*，这意味着银行的两个主要职责之一是向商业和公司客户放贷。

由于不同的可能性、市场需求和客户情况，这些年来发放信贷的过程变得越来越复杂。这使得银行成为一个受到高度监管的实体，在发放贷款时，人们期望银行做出积极的反应。随着用户对速度和个性化需求的不断增长，银行和所有的信用卡发行商都在转向机器学习算法的力量。

任何人都不会感到惊讶，人工智能正在加速发展，并且不会太久，直到它融入任何行业(从农业到航空航天工程)。金融行业也不例外，因为许多初创公司已经在探索更有效的替代现有金融服务的方式(例如贷款)。为了应对这一新的创新浪潮，一些现有公司也加入了这场竞赛。

在这篇文章中，我们将回顾评估信用价值的过程，以及人工智能如何增强甚至超越现有的技术。

评估信用价值的标准惯例

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了充分理解人工智能给信用风险评估带来的好处，我们应该首先理解标准实践带来的挑战。

在大多数情况下，贷款人求助于确定信誉的既定方法。这些都是基于信用体系的5c 的。五个 C 代表:

人物 —借款人的信誉或还款记录、信用记录(消费者还款能力的记录)。
能力—将个人收入与经常性债务进行比较，评估借款人的债务收入比 (DTI)。经常性债务是指需要持续支付的任何款项(如儿童保育支持、贷款)。债务收入比决定了在扣除经常性债务后，是否有足够的收入让借款人轻松偿还贷款。
资本 —借款人投入潜在投资的金额。这种做法通常适用于抵押贷款，一些贷款人要求首付 2%-3%，以确保借款人的严重性。
抵押品 —借款人提供以担保贷款的资产。这往往是汽车贷款的汽车，住房抵押贷款，甚至银行储蓄存款的个人贷款。
条件 —这包括从贷款条件(如利率)到借款人无法控制的条件(如经济状况)的一切。

贷款人是否发放贷款的决定在很大程度上受到美国最大的信用机构——Equifax、Experian 和 TransUnion——提供的借款人信用评分和信用报告的影响。最常见的信用评分系统是 FICO(Fair is AAC Corporation)，范围在 300 到 850 之间。FICO 基于 5c 系统。FICO 分数越高，个人的信用越好。

计算 FICO 分数因人而异，但任何计算中的关键部分是支付历史、信用历史、拥有的账户、新信用和信用组合(所有类型的账户——学生贷款、抵押贷款等)。

贷款公司严格遵循 FICO 评分，很少允许任何例外。由于功能数量有限， FICO 评分也有一些不利之处，包括:

根据有限数量的特征评估信用价值 。这导致执行不一定适合客户需求的更一般的决策。
由于不能符合某些标准而取消有潜在信誉的人的资格。例如，一个人的信用记录对最终得分有很大影响。这自动排除了年轻人(学生)或来自第三世界国家(主要是非洲)的人。此外，如果一个人有一次或多次逾期付款，他/她很可能得不到有利的贷款条件。总而言之，评估一个人的信用价值可能会导致错误的结论，从而导致贷款人和借款人双方的损失。
FICO 评分系统在信用评分行业竞争不大。 由于大多数贷款人从三大征信机构获得借款人的 FICO 评分，如果一个潜在的信用良好的借款人被某个贷款人拒绝贷款，他/她很可能在任何地方都被拒绝。
无法满足用户的需求。 由于过去 10 年经历的技术革命，客户对速度、准确性和易用性的期望呈指数级增长。现有的信用发行机构和信用局需要适应客户的需求，否则将被新成立的特别关注客户体验的企业所取代。

上述问题迫使我们思考更好的方法来增强现有的解决方案或创建全新的解决方案。机器学习革命的到来恰逢其时，工程师和企业应该据此采取行动。在下一节中，我将解释如何以及什么样的 ML 模型和技术可以用于评估信用价值。

评估信用价值的机器学习和深度学习方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

十多年来，标准的机器学习技术一直被应用于评估信用价值。例如，【2018 年 4 月的这篇论文比较了几种算法(3 机器学习和 3 深度学习)的性能，以确定一家公司是否会拖欠银行贷款。这 3 种机器学习算法分别是 【弹性网】 (逻辑回归的扩展)随机森林 和 梯度提升 。据观察，梯度提升优于所有模型，包括基于深度学习的模型。这证明，使用正确的特征工程，标准的机器学习技术仍然与评估信用价值相关。

然而，深度学习的潜力不容忽视，对于信用风险评估等任务，DL 模型超过标准 ML 模型只是时间问题。2018 年的另一篇论文，探索了应用深度神经网络预测信用卡潮解的可能性。在从巴西一家大型银行获得的数据集上评估了 5 层 DNN，该数据集包含 711，397 个信用卡所有者记录，其中 0.92 个是拖欠的。该模型在 F1 得分和总体准确性上均优于现有的解决方案，如 决策树 、 朴素贝叶斯 和 逻辑回归 。

在后面的研究中，表明深度神经网络确实擅长在复杂和高度非结构化的数据上检测风险客户。随着越来越多的数据变得可用，越来越多的人能够使用低成本计算能力运行繁重的 DNN 模型，深度神经网络无疑将成为处理信用风险预测的标准方式。

深度学习评估信用价值的问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管 DL 模型已经显示出改变信用风险评估方式的潜力，但一些挑战仍然没有解决。

其中一个困难在于这样一个事实，即**深度学习模型需要有一定程度的可解释性。**换句话说，政府要求贷款人提出合理的论据，说明为什么信贷决策被认为是公平和公正的。然而，深度神经网络充当黑盒模型，数据科学家发现很难解释输出背后的原因。

目前，正在进行一项紧张的研究来寻找这个问题的答案。例如，在最大的人工智能会议——NIPS 2018上，研究人员将金融研讨会专门用于主题*“人工智能在金融服务中的挑战和机遇:公平、可解释性、准确性和隐私的影响”*。这包括一些有趣的命题，如“对信用风险评分的全球解释”，BBVA 银行的研究人员对复杂的 DNN 模型的决策函数进行采样，以学习一种替代性的和更可解释的分类器。另一种方法“带有反事实解释的可解释信贷申请预测”，旨在为每个输出生成反事实解释。这些解释采用纯文本的形式，分享具体决策(发放贷款或不发放贷款)的原因，以及扭转结果所需的最小输入变化。一个示例解释可能是:

您的申请被拒绝了，因为您的年收入是 30，000 美元，您的当前余额是 200 美元。如果你的收入是 35，000 美元，当前余额是 400 美元，所有其他值保持不变，你的申请就会被批准。

尽管面临这些挑战，行业参与者仍然自信地应用深度学习技术来进行更有效的决策。像新贵(使用非传统变量的个人贷款) SoFi (在线学生贷款、抵押贷款和个人贷款)和 Affirm (消费者在销售点使用的小额贷款以资助购买)这样的公司已经将 DL 整合到他们的决策过程中。

随着技术的进步，更多的公司将开始着眼于创造快速、实惠和个性化的借贷体验。现有企业要么适应这种新的决策方式，要么被新来者取代。

感谢您的阅读。希望你喜欢这篇文章🤩我祝你今天过得愉快！

机器学习的未来

原文：https://towardsdatascience.com/the-future-of-machine-learning-ce0a9dc18cb8?source=collection_archive---------9-----------------------

与杰夫·迪恩一起展望曼梯·里的未来

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Arseny Togulev on Unsplash

在这个人工智能时代，机器学习是一个时髦的话题。计算机视觉和自然语言处理领域正在取得突破性进展，这是没有人能够预料到的。我们越来越多地在生活中看到这两者，你的智能手机中的面部识别，语言翻译软件，自动驾驶汽车等等。看似科幻的东西正在成为现实，我们获得人工通用智能只是时间问题。

在这篇文章中，我将涵盖 Jeff Dean 的主题演讲，关于计算机视觉和语言模型的进步，以及从模型构建的角度看，ML 将如何走向未来。

计算机视觉

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alex Knight on Unsplash

今天，机器学习领域正在经历指数增长，尤其是在计算机视觉领域。今天，人类的错误率在计算机视觉中只有 3%。这意味着计算机已经比人类更擅长识别和分析图像。多么惊人的壮举！几十年前，计算机是一个房间大小的大块机器；今天，他们能以我们从未想过的方式感知我们周围的世界。

从 2011 年的 26%误差到 2016 年的 3%误差，我们取得了巨大的进步。我倾向于认为，计算机已经进化出了可以工作的眼睛。—杰夫·迪恩

现在，这一成就——随着机器学习的进步而成为可能——不仅仅是计算机极客和人工智能专家的庆祝，它还具有拯救生命和让世界变得更美好的现实应用。在我大谈计算机视觉的救命应用之前，让我向你展示一下计算机视觉的力量。

比方说，我给你 10，000 张狗的照片，让你把它们按照各自的种类分类，你能做到吗？嗯，你可以，但你必须是一个狗专家，这将需要几天的时间来完成。但是对于一台计算机(带有图形处理器)，这只需要几分钟。计算机视觉的这种不可思议的能力开启了大量的应用。

计算机视觉的应用

杰夫·迪恩给出的计算机视觉的一个典型应用是在糖尿病视网膜病变中——这是一种影响眼睛的糖尿病并发症。现在要诊断它，需要进行广泛的眼部检查。在缺乏医生的第三世界国家和农村，使用计算机视觉进行诊断的机器学习模型将非常有益。与所有医学成像领域一样，这种计算机视觉也可以作为领域专家的第二意见，确保他们诊断的可信度。一般来说，计算机视觉在医学领域的目的是复制专家的专业知识，并将其部署在人们最需要的地方。

NLP 和变压器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by VanveenJF on Unsplash

语言模型是帮助机器理解文本并执行翻译文本等各种操作的算法。杰夫·迪恩认为，语言模型已经取得了很大进展。

今天，计算机可以比以前更深层次地理解文本段落。尽管他们还没有达到像我们人类那样阅读整本书并理解它的水平，但理解几段文字的能力对于改善谷歌搜索系统等事情来说是非常重要的。

谷歌宣布的最新自然语言处理(NLP)模型 BERT 模型已经被用于他们的搜索排名算法，这有助于增强以前非常困难的无数不同类型查询的搜索结果。换句话说，搜索系统现在可以更好地理解用户进行的不同类型的搜索，并帮助提供更好、更准确的答案。

“深度学习和机器学习架构将在未来几年发生很大变化。你已经可以看到很多这种情况，现在有了 NLP，唯一的游戏基本上是变压器网络，”— Yann LeCun

这些基于 Transformer 的翻译模型在衡量翻译质量的 BLEU 评分上显示出惊人的进步。因此，利用 BERT 等转换器的机器学习架构越来越受欢迎，功能也越来越多。

今天 ML 的问题是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Charles on Unsplash

在主题演讲中，这位谷歌高级研究员提到了机器学习开发者今天用来执行各种单元任务的原子模型。他认为这些模型效率低，计算量大，需要更多的努力才能在这些任务中取得好的结果。

具体来说，在当今的 ML 世界中，专家找到了他们想要解决的问题，他们专注于找到正确的数据集来训练模型并执行该特定任务。迪恩认为，通过这样做，他们基本上从零开始——他们用随机浮点初始化模型的参数，然后试图从数据集中学习所有任务。

为了详细说明这个问题，他给出了一个很好的比较，是这样的:

“这类似于当你想学习新的东西时，你忘记了所有的教育，你回到了婴儿时期，现在你试图学习这项任务的一切”

他将这种方法比作人类在每次想要学习新东西时变成婴儿，取出一个大脑并放入一个不同的大脑。这种方法不仅计算量大，而且需要更多的努力才能在这些任务中取得好的结果。杰夫·迪恩提出了一个解决方案。

曼梯里的圣杯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Marius Masalar on Unsplash

杰夫认为 ML 的未来在于一个伟大的大模型，一个多功能的模型，可以做很多事情。这种优步模型将消除创建完成特定任务的模型的需要，而是用不同的专业知识来训练这个大型模型。想象一下，一个计算机视觉模型可以诊断糖尿病视网膜病变，对不同物种的狗进行分类，识别你的脸，并同时用于自动驾驶汽车和无人机。

他还宣称，模型通过稀疏地激活所需的模型的不同部分来运行。模型大部分时间 99%都是空闲的，你只需要在需要的时候调用正确的专家意见。

挑战

迪恩认为，这种优步模型是 ML 的一个有前途的方向，工程挑战非常有趣。建立这样的模型会产生许多有趣的计算机系统和机器学习问题，如模型的可扩展性和结构。

提出的主要问题是:

模型将如何学习如何路由最合适的模型的不同部分？

要实现这样的突破，需要在机器学习研究和数学方面取得更多进展。

摘要

计算机视觉和 NLP 将继续在我们的生活中发挥重要作用。但这种进步也有负面影响，例如中国使用面部识别对人实施评级系统(直接来自电视剧《黑镜》的一集)和假新闻的泛滥。我们必须在机器学习方面取得进展，同时考虑到算法偏见和伦理，这些偏见和伦理提醒我们，我们是上帝的创造，而不是创造者。

至于优步模式，有很多证据证明，我们正一步步向它靠近。例如，迁移学习——一种为不同目的重用模型的方法，可以用更少的数据和多任务学习获得良好的结果——一种在五六个相关事物的小规模上运行的模型，都倾向于使事情运行良好。

因此，合乎逻辑的说法是，通过扩展这些想法——迁移学习和多任务学习——并在它们的基础上发展，实现 uber 模型是可行的，这只是时间问题，而不是如何实现的问题。

感谢您阅读我对 ML 未来的摘录和我对 Jeff Dean 主题演讲的概要。我希望你对机器学习和人工智能的未来有所了解。

点击观看完整视频。

查看我的超学习数据科学系列！

[## 如何“超级学习”数据科学—第 1 部分

这是一个简短的指南，基于《超学习》一书，应用于数据科学

medium.com](https://medium.com/better-programming/how-to-ultralearn-data-science-part-1-92e143b7257b)

关注我在 LinkedIn 和 Twitter 上的更新。

热门移动应用趋势:(人工智能，人工智能，增强现实，虚拟现实，IOT)-2021 年版

原文：https://towardsdatascience.com/the-future-of-mobile-app-trends-ai-ml-ar-vr-iot-2019-edition-cde3edb338f7?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Technology vector created by freepik

你知道吗！“2021 年的移动应用开发趋势是行业发展方向的一个缩影”。此外，不要忘记在过去的几年里，移动设备和应用程序正随着新的趋势不断发展，而有些正在改进现有的趋势。

根据 Statista 的最新报告，智能手机用户总数预计将达到 25 亿左右，而 2016 年为 21 亿。

此外，不断增长的移动应用程序下载数量呈指数增长。虽然 2018 年的规模为 2054 亿，但预计到 2022 年将达到 2582 亿。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image Source

因此，移动应用程序的未来趋势没有停止的迹象，预计在未来几年将会有巨大的增长。这一事实引起了 雇用软件开发人员 的热潮，他们欢迎创新的移动应用技术和趋势，这些技术和趋势将统治 2021 年，并帮助你在竞争中保持领先地位。

这个博客是一些有影响力的趋势的焦点，这些趋势肯定会在未来几年将技术提升到一个新的水平。

1。人工智能&机器学习 — 虚拟助手时代的开始

尽管事实上，人工智能是一个突出的名字在过去几年中，它仍然继续是一个专横的技术趋势在未来几年。

此外，人工智能技术有许多这样的方面，可以为你的业务带来大量好处，但尚未被发现。最近，人工智能与基于机器学习的应用相结合是一个新的优势。

这种融合在分析庞大的组织数据方面取得了出色的成果。此外，它也有助于管理层获得有价值的、有说服力的见解。

从一开始，AI 和 ML 就在 移动应用开发服务 中挖得很深。借助这些技术，评估数据变得简单易行，同时为您的用户提供无与伦比的个性化体验。

AI 和 ML 的未来趋势:

人工智能芯片
神经网络之间的互操作性
自动化机器学习

2。可穿戴设备——未来的必备配件

不可否认的事实是，可穿戴行业正在经历一场巨大的热潮。事实上，根据 Statista 的数据，可穿戴设备市场目前的规模为 532 亿美元，预计到 2022 年将达到 732.7 亿美元。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image Source

这意味着，没有明显数量的投资预留给市场，但很快可穿戴设备这个词将变得像现在的智能手机一样丰富。

到目前为止，每一个可穿戴设备的控制面板都是智能手机。这意味着，要开发一个可穿戴设备，它必须与相应的设备连接，并且它们必须离得很近。

但是，根据 UNA的联合创始人 Ryan Craycraft 的说法，手机将不再是可穿戴设备连接的中心，而是将与网络甚至我们的身体进行更普遍的连接。

因此，看着可穿戴技术越来越受欢迎，雇佣最好的移动应用程序开发人员 开发出优秀的应用程序，将在 2021 年及以后占据主导地位。

可穿戴设备的未来趋势:

可穿戴技术在 2021 年健身趋势中占据领先地位。
未来可穿戴设备的另一个关键因素是——智能服装。

3。物联网 — 不仅仅是一个流行词

你知道，智能物体或智能事物这个词是从哪里来的吗？

“智能物体”或“智能事物”这个词最初是由相对较新的技术——“物联网”创造的。简而言之，物联网是在网络连接的情况下，嵌入软件、传感器和电子设备中的对象和事物的物理网络。

现在，您可能会清楚为什么物联网是行业的当务之急。

它改善了技术生态系统。
它在教育行业中起着至关重要的作用。
它能够在没有任何人工干预的情况下收集和交换消费者数据。

因此，一定要依靠最好的软件开发服务，因为物联网技术已被证明是您企业的游戏规则改变者。

物联网未来趋势:

无人驾驶汽车
配备有更多安全性的路由器
智能家居和智能设备

4。增强现实/虚拟现实——应用行业的新常态

AR 和 VR 技术，两者都很神奇！但是，到 2021 年，他们的用例不再局限于游戏应用。

技术狂热者已经在寻找一种创新的方法来充分利用这两种技术。事实上，这些技术在社交平台上被用于品牌推广，以及通过“屏幕之外”的 AR/VR 应用瞄准潜在客户。

例如，Snapchat 和 Instagram 已经发布了他们的 AR 滤镜，可以将任何人脸转化为无数的数字角色。

AR/VR 未来趋势:

医疗保健和制造业中的 AR
移动 AR 颠覆
营销和广告中的 AR

5。灯塔科技——预计有十亿美元市场

Beacon technology 是移动应用未来趋势的早期参与者。

这项技术有可能在更个性化的层面上满足令人难忘的客户服务。

你一定在想什么是“灯塔”？

信标是一种微型发射器，允许通过蓝牙与其他设备进行通信。它们也是基于位置的搜索的福音。这项技术给你的企业带来了巨大的成功。

单个信标设备与强大的移动应用程序的正确组合有助于您扩大客户群，完成诱人的产品展示，并创建清晰的映射。

因此，请确保与最佳的移动应用开发服务 保持一致，以创建 Beacon 技术和移动应用的完美结合，从而实现业务增长。

信标技术未来趋势:

移动支付信标
灯塔珍藏狩猎

6。聊天机器人——移动市场的螺母&螺栓

聊天机器人实时对用户的查询提供个性化的响应。更具体地说，它们是完全自动化的，没有人工干预。

最初，机器人是作为脸书、Slack 和 Skype 上的一个消息应用程序出现的。但是，随着当前场景的发展，人工智能的进步也使得将聊天机器人集成到您的原生移动应用程序中成为可能。

Statista 表示，“ 聊天机器人市场的规模预计到 2025 年将达到 12.5 亿美元。”

有了这么多的好处提供给你的最终客户，虚拟助理将是一个证明你的移动应用程序开发的优势。

所以，做好准备，给你的顾客一个更个性化的体验。

聊天机器人的未来趋势:

聊天机器人的语音识别与表达。
聊天机器人对客户洞察力的影响将会增加，同时用户行为的可预测性也会增加。
社交信使应用将推动聊天机器人的营销。

7 .。移动支付/移动钱包——无摩擦支付平台

毫无疑问，移动支付正在兴起。事实上，对移动支付解决方案的需求正在上升，而“安全性”是其他 软件开发服务 中最关心的问题，移动钱包的使用在未来几年只会加速。

尽管事实上，无摩擦支付方式是消费者希望在他们使用的移动应用程序中看到的苹果，但转向安全的移动支付方式至关重要。

因此，如果你正在考虑升级你的移动应用程序，使其具备能够提升你的目标受众购物体验的功能，确保他们能够虚拟支付。

移动钱包/移动支付未来趋势:

安全可靠的移动钱包
非接触式支付
大约 20 亿移动钱包用户

8。基于云的技术移动应用 —未来移动应用的当务之急

虽然，许多人仍然认为云是一个奢侈的选择，但在 2021 年，情况就不一样了。

世界迎来了新的黎明，这个黎明充满了云带来的优势和可能性。

为了更好地理解，让我们举一个例子，最大限度地降低托管成本、提高加载能力和简化业务运营是云过去提供的一些好处。然而，如今有许多基于安全的问题正在通过云协助得到解决，使得 移动应用开发 更加安全、可信和快速。

此外，借助 Dropbox、Sliderocket、AWS 等基于云的技术应用，可以构建直接在云上运行的强大应用。

那么，你应该更期待什么呢？

“更强大的应用程序”,需要智能手机的最小存储空间。

云计算未来趋势:

混合云解决方案
量子计算
云服务和解决方案的演变

9。区块链技术 — 超越智能合约的洞察力&比特币

自首次亮相以来，区块链技术已经在 IT 领域开辟了一个充满新鲜和惊人机遇的世界。

而在 2018 年，每个人都听说过热门词汇“加密货币”，并且大多看到了区块链技术在创建“智能合同”中的应用。但实际上，区块链比人们想象的更有用。

例如，通过适当利用区块链，可以构建分散的移动应用程序。

等等！“分散式移动应用”这个术语对你来说是新的吗？

别急，让我们快速浏览一下是什么。

分散式移动应用程序或 Dapps 基本上是一个不属于任何人的应用程序，但它也不可能关闭它，也没有任何停机时间。

换句话说，区块链预计将通过培育分散化移动应用的市场，在移动应用市场做出更大贡献，就像比特币区块链对金钱的贡献一样。

区块链技术未来趋势:

资产令牌化
加密空间和游戏
在加密货币交易所交易

10。5G 技术——提升您的应用加载速度

4G LTE 为客户带来了惊人的好处——流媒体、高清视频、快速互联网浏览、可靠的视频会议和在线游戏。

现在，移动应用和电信服务提供商正在向 5G 技术靠拢。但是，5G 技术对顶级 Android 或 iPhone 应用开发公司 以及数十亿可能从新的移动体验中受益的最终用户意味着什么？

当然，人们期待更快的移动互联网，但这只是一个改变游戏规则的优势。

延迟降低到接近零
最大化连接密度

对手机 app 开发者意味着什么？

5G 技术在我们的企业和家庭中开创了一个互联和永远在线的设备世界，这些设备实时共享数据，并享受速度和连接可靠性的新范式。所以，让我们看看 5G 对开发者来说意味着什么。

eMBB(增强型移动宽带)

5G 最初将致力于更大的带宽，以提高上传或下载速度，改善延迟。

因此，如果流式 4K 或 360 度视频或移动 AR/VR 看起来很奇怪，不切实际，那么请为这种变化做好准备。

URLLC(超可靠低延迟通信)

对机器的实时控制和其他面向任务的任务预计会晚一点到来。

实时虚拟现实游戏、自动驾驶汽车、自动手术、工厂流水线自动化是 URLLC 可以提供的优势列表中的几个例子。

mMtc(大规模机器类型通信)

结合 5G 技术提供的延迟进步和卓越的连接设备密度，确保雇用最好的移动应用程序开发人员 随着 5G 的成熟，他们将能够熟练地与技术融合。

但是，当涉及到您的移动应用程序开发时，不要冷淡对待。必须考虑设备功能和网络要求，以确保应用程序工作完美，符合用户的期望。

总结:

2021 年及以后的移动应用趋势:随着新技术不时出现， 软件开发公司 也在以光速巩固他们在移动应用市场的足迹。因此，无论你是企业家、中小企业或技术爱好者，你都需要跟上这些移动应用程序的发展趋势，以便在这个层次中占有一席之地。

因此，遵循上面提到的移动应用未来趋势，最好的开发者和公司提供独家的 移动应用开发解决方案 ，帮助企业满足客户的潜在需求并发展业务。

自然语言处理的未来

原文：https://towardsdatascience.com/the-future-of-natural-language-processing-2fb35d6ed11e?source=collection_archive---------12-----------------------

数据(和计算机)科学家长期以来一直致力于提高算法从自然(人类)语言中获取意义的能力——无论他们是试图创建一个机器人来回答用户在其网站上的问题，还是确定人们是喜欢还是讨厌他们在 Twitter 上的品牌。

坏消息是，您仍然需要理解大量的概念来优化您的结果。好消息是，有了像 BERT 和 ERNIE 这样的工具，从自然语言处理(NLP)中获得好的结果比以往任何时候都更容易——即使数据集和计算预算适中。另外，谁不想和芝麻街剧组一起做 NLP 呢？！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自然语言处理简史

让我们先简要回顾一下这门学科的历史。可以将 NLP 系统的开发分为三个主要阶段:

规则引擎 —在早期，大多数 NLP 系统都是基于复杂的手写规则集。好消息是它们很容易理解，但是它们做得不是很好(它们是可以解释的，但是不是很准确)
统计推断——在 80 年代，研究人员开始使用词性标注(标注名词、动词等),使用隐马尔可夫模型返回统计上可能的含义以及单词之间的关系
深度学习——在过去的十年里，神经网络已经成为解决大多数非平凡的 NLP 问题的最常见方式，分层技术，如 CNN 、 RNN 、 LSTM ，以提高特定类别的 NLP 任务的性能

深度学习在过去十年中改变了 NLP 的实践。无论你是在尝试实现机器翻译、问题回答、短文本分类还是情感分析，都有深度学习工具可以帮助解决这些问题。然而，从历史上看，创建正确的网络然后训练它的过程需要大量的时间、专业知识、庞大的数据集和大量的计算能力(这是昂贵的)。

(机器)用芝麻街学习

NLP 的整个"芝麻街"革命始于 2018 年初一篇讨论 ELMo 表象的论文(ELMo 代表Eembeddings fromLlanguageModels)。ELMo 是一种技术，它使用深度双向语言模型，在大型文本语料库上进行预训练，以提高一系列 NLP 任务的性能。

那是什么意思？我们来分解一下。“深度”指的是它使用多层神经网络的事实(如“深度学习”)。双向？历史上大多数语言模型都是单向的，所以对于英语来说，他们会从左向右读单词。在双向模式下，所有的单词被同时接收。这允许在给定充分训练的情况下更准确地推断上下文。预训练意味着已经在非常大的通用语言数据集上训练了模型。在图像识别和 NLP 中，预训练已经被证明能够显著提高精度和/或减少模型最终训练所需的时间和成本。

谷歌的伯特

2018 年 11 月，谷歌开源了 BERT 。BERT 代表BI directionalEn coderR代表来自 T 变压器。这是一种情境预训练的新技术。上下文意味着它考虑了给定单词周围的单词，因此与流行的 Word2Vec 模型等上下文无关的模型不同，在 BERT 中，bank 在“银行帐户”和“河岸”中不是同一个概念。

BERT 利用了许多现有方法的概念，包括 ELMo 和 ULMFiT 。BERT 的核心进步是它屏蔽了任何给定输入短语中的不同单词，然后估计各种单词能够“填充该槽”的可能性。

除了打破处理基于语言的任务的多项记录，包括其在斯坦福问答数据集上的表现，BERT 还大大降低了训练语言模型的成本和复杂性。正如他们在的博客文章、中所说，“通过这个版本，世界上的任何人都可以在单个云 TPU 上在大约 30 分钟内，或者使用单个 GPU 在几个小时内，训练他们自己最先进的问答系统(或各种其他模型)”。

要实现一个分类任务，比如情感分析(根据短语表达的主要情感对短语进行分类)，只需要在 Transformer 输出之上添加一个分类层。

对于需要将一个问题映射到大量文本中的答案的问答任务，需要为文本中任何给定问题的答案的起点和终点添加两个额外的向量。

对于命名实体识别(NER——识别特定实体，如人、公司或产品)，可以通过将每个令牌的输出向量输入预测 NER 标签的分类层来训练模型——因此它只是另一个分类器。底线是，即使只有很小的数据集和有限的预算和经验，使用 BERT，您也可以在很短的时间内创建一个最先进的 NLP 模型。

XLNet

伯特的经营方式有几个弱点。通过将它屏蔽的单词视为独立的，它不会从训练数据中学习到尽可能多的东西，并且通过不将屏蔽令牌传递给输出，它会降低微调结果的有效性。

2019 年 6 月，谷歌大脑团队成员发表了 XLNet 论文。XLNet 通过使用一种叫做“置换语言建模”的技术，避免了 BERT 遇到的问题。在置换语言建模中，模型被训练为像传统语言模型一样预测给定在前上下文的一个标记，但是它不是顺序预测标记，而是以随机顺序预测它们。底线是 XLNet 在许多关键的自然语言处理任务上超过了 BERT，并且提升了技术水平。

完成阵容

不甘示弱(无论是计算效率还是芝麻街引用)，2019 年 3 月，百度研究团队推出了厄尼，随后在 2019 年 7 月推出了厄尼 2.0 。ERNIE 代表通过 kNowledgeIntEgration 得到的略微复杂的增强的表示，它汇集了 BERT 使用的许多概念，但也匹配来自其他资源(如百科全书、新闻渠道和在线论坛)的语义元素信息。例如，知道哈尔滨是中国黑龙江省的省会，并且知道哈尔滨是一个冬天有冰和雪的城市，当与像 BERT 这样的模型相比时，它可以在执行许多 NLP 任务方面做得更好，该模型将其对世界的知识限制在它被训练的文本上。虽然 ERNIE 方法的一些驱动因素旨在应对使用中文的独特挑战，但 ERNIE 2 在中文和英文的一些关键 NLP 任务中似乎都优于 BERT 和 XLNet。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一步是什么？

我们正处于 NLP 领域快速变化的时期，但在不到 18 个月的时间里，预训练深度学习解决方案已经至少有四项实质性突破，没有理由相信不会有更多的突破。

目前，下载源代码、使用 TensorFlow 运行一切、将最终层添加到网络并使用您的数据集对其进行训练仍需要一些时间。但是很明显，随着该领域的成熟，执行 NLP 的门槛将会降低，结果的质量将会继续提高——特别是对于小型数据集。

原载于 https://flatironschool.com。

正规化的游戏

原文：https://towardsdatascience.com/the-game-of-regularization-91442b3be862?source=collection_archive---------14-----------------------

机器学习中使用的不同正则化技术的直观解释

在机器学习中，正则化是一种通过在代价函数中添加惩罚项来解决过拟合问题的方法。我们先来了解一下，

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

什么是过度拟合，为什么它是一个问题。

在解决机器学习问题时，我们首先用训练数据训练我们的模型，最后概括解决方案(测试机器学习模型学习的概念在多大程度上适用于模型学习时看不到的特定数据点)。如果我们的模型太复杂，就会导致

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

较高的测试误差，尽管训练误差要低得多。但一个自然的问题是 为什么是 ？ 什么叫复杂型号 *？*让我们以为例。

假设我们正在用逻辑回归模型解决一个简单的二元分类问题。让我们红色点是 A 类，蓝色点是 b 类。现在

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

source : wikepedia

如果我们试图完美地拟合我们的决策边界，也有可能我们也会拟合噪声点(潜在的异常值)。结果，模型将不会学习关于数据的适当模式(并且对于较小的数据集，它将仅仅记忆所有点)，这可能导致更高的概括(读取测试)误差。

为了避免模型中的过度拟合，我们添加了一个正则化项，这将有助于减少泛化误差。让我们列出我们拥有的各种选择:

L1 正则化:如果我们看代价函数，L1 正则化是系数的绝对值之和。简单地说，添加它是为了保持值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

cost function with L1 regularization

在一定范围内的成本函数。使用 l1 正则化的主要优点是它在解决方案中产生稀疏性(解决方案的大多数系数为零)，这意味着不太重要的特征或噪声项将为零。它使 l1 正则化对异常值具有鲁棒性。

L2 正则化:在 L2 正则化的情况下，我们添加以下的平方值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

cost function with L2 regularization

系数而不是绝对值。在这两种方法中，lambda 是一个超参数，用于调整正则化。就结果而言，l1 和 l2 之间的主要区别在于，对于不太重要的特征，l2 项的系数将非常低，但决不会精确为零。

3.弹性网:当 l1 和 l2 正则项一起作为罚项时，称为弹性网正则化。

太酷了。但是 如何选择最适合我的正规化 ？这主要取决于手头的问题。我们总是可以借助交叉验证来为特定问题选择性能更好的方法。对于大维度数据，l1 通过为不太重要的特征赋予零系数来提供更好的特征可解释性。

结束注释:

在本文中，我们讨论什么是过拟合，以及我们如何使用正则化来最小化泛化误差。在广泛的机器学习中，你会发现这只不过是一个偏差方差权衡的游戏，模型拟合得越好，结果就越好。希望这篇文章能帮助你掌握基本知识。快乐学习！

参考文献:

如果你想深潜，请点击下面的链接

三维直线和平面的几何解释

原文：https://towardsdatascience.com/the-geometric-interpretation-of-3d-lines-and-planes-e67b51351bfd?source=collection_archive---------11-----------------------

线性代数是微积分的一个分支，其对象在ℝ.之外这些对象可能是空间中的坐标(因此是点)或多元方程形式的点的组合。

每当我们处理超过 3 个维度的东西时，物理上是不可能将我们的对象可视化的。因此，在这篇文章中，我将提供一个 3D 环境中点、线、面的几何解释，这样你就可以将这些概念扩展到更高的维度。

一般来说，ℝn 是一个坐标空间，或者一组坐标，每个坐标都有 n 个分量。因此，在ℝ3 工作时，我们的坐标看起来会是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个坐标在空间中可以表示为点或向量:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后，这些对象的一个非常重要的属性是正交性:实际上，如果两组坐标/向量的内积等于 0，则称它们是正交的(这意味着垂直)。在我们的案例中:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，我们如何在 3D 空间中表示直线和平面呢？

直线

直线是一个没有宽度的无限物体，其特征在于方向 v 。让我们从一个简单的例子开始，一条线穿过我们的轴的原点。让我们考虑一条方向为 v 的直线 r 。我们想计算一般点 p 的那条线的一般方程。这个想法是我们需要拉伸我们的向量 v 直到点 p 。为此，我们将使用所谓的拉伸系数 t:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基本上，以向量 v 为度量单位，我们可以向相同方向(如果 t > 0)或相反方向(如果 t < 0)拉伸(或缩短)我们的向量 v 。因此，对于位于 r 上的一般点，我们有以下等式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个公式叫做直线的参数表达式。这是一个动态表达式，因为它描述了参考系统中的一条直线，并且它取决于 t。即，如果 t=时间，我们有一个起点(t=0)，那么将来会发生的事情(t>0)和过去已经发生的事情(t <0).

Now, imagine we want to define a line which does not pass through the origin of our axes, but always having direction v )。现在它将通过一个给定点 q. 所以我们要计算下图中红线的一般方程:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们回忆一下如何计算两个向量之间的差:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以如下进行。首先，让 p 是我们直线上的某个点 r 。然后，我们计算 p 和 q 之间的差，这将产生一个平行于 v 的向量(根据定义，它是我们直线 r 的方向)，但是偏移了某个值。因此:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中, q 是我们向量的新原点。从上面的图片中，您可以看到 t 是大于 1 的正数(因为产生的矢量方向相同，但幅度更大)。新的等式将是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中偏移值等于新的原点。

既然我们已经清楚了直线的几何形状，让我们转向平面的几何形状。

飞机

平面是由两个特征表征的空间中的对象:

方向:它是一条与平面正交的直线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于每个方向，都有无限数量的平面:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此我们需要第二个元素来隔离其中一个。

点:是直线穿过平面的点，我们称之为 q 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，我们如何定义一个平面的方程？让我们分析位于该平面上的点的性质:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不管它们的位置如何，它们中的每一个与交叉点 q 之间的差必须垂直于方向 v 。因此，由于正交性，我们知道，考虑到一般点 p :

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们扩展上面的等式，我们得到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意，如果红色括号中的组件为空，则平面将穿过原点。

让我们练习一下

我想用一个非常简单的例子来结束这篇文章，这个例子将帮助你想象这个任务，并使用直线和平面的概念。

假设我们有一个平面的方程，它的方向 v 和属于该平面的一个点的坐标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们要计算对称点 **k，k’**相对于我们平面的坐标。想法是这样的:

计算穿过 k 并与平面正交的直线 r 的参数方程:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

求平面和直线相交点的参数 t 的值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将获得的 t 的值加倍，这样我们就可以获得 k’ 的值(实际上， q 与 k 和 k’ 的距离相等):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最终考虑

将你管理的对象形象化是全面理解它们非常重要的一步。然而，在现实世界中，问题的变量往往不同于众所周知的长-宽-高。在经济场景中，我们被要求处理数百个变量，可能是商品、国家、市场、宏观经济因素等等。在这些情况下，不可能将你正在管理的东西可视化，但至少在 3D 环境中有这样的想法会使这些推理更容易、更直观。

协方差的几何意义

原文：https://towardsdatascience.com/the-geometric-meaning-of-covariance-f8e6df967111?source=collection_archive---------12-----------------------

统计学和数据科学中理解协方差的几何方法。

对于大小为 N 的样本，您可能以前见过类似于“样本协方差”的公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

启发性地，协方差告诉我们随机变量 X 和 Y“一起移动”或“共变”(相对于“反变”)远离它们的均值多少。如果 X 和 Y 是独立的，那么我们期望 X 和 Y 在相同方向上的移动量与它们在相反方向上远离平均值的移动量一样多，这意味着协方差应该是 0。如果协方差为正，这大致意味着 X 和 Y 的协变大于反变，反之亦然，如果协方差为负。

协方差可能看起来有点迟钝，也许是任意的。你可能认识到它的一些数学特性，如双线性和对称性:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是你可能很难想象它到底代表了什么。但事实证明，如果你熟悉线性代数，样本协方差有一个简单(也有点漂亮)的几何描述。我们将通过一系列简单的变换得到这幅图。

**第 0 步(背景)😗*我们要建立自己的背景。我们从收集具有 n 个观察值的样本开始，其中每个观察值记录两个连续变量的值:x 和 y。我们将观察值 I 上的变量 x 的值标记为 Xᵢ，将观察值 I 上的变量 y 的值标记为 Yᵢ.具体来说，也许 Xᵢ是你样本中第 I 个人的身高，Yᵢ是你样本中第 I 个人的体重。我们想知道:这两个变量是否以某种方式相互关联？

我们的示例数据可能如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example of N=3 Observations

这些数据绘制在双轴上，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意，当我们从一个观察点移动到另一个观察点时，橙色和蓝色的点似乎在一起移动。这表明在这个数据中身高和体重之间有很大的协方差。

**第一步(调整)😗*从每个变量中减去观察到的平均值，用 N-1 的平方根(比观察次数少一)重新调整:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

减去平均值的原因相当简单:我们只关心 X 和 Y 如何偏离它们的平均值。除以平方根 N-1 有点复杂，但我们可以把它看作一个标准化步骤:我们希望样本中每个变量的均值的期望平方差和不依赖于样本的大小。这一标准化步骤使我们能够更容易地提取统计相关信息，并比较具有不同数量观察值的样本。使用 N-1 而不是 N 的原因称为贝塞尔校正，如果我们希望每个变量的均值的期望平方差和是该变量实际总体方差的“无偏估计量”,这是必要的。

但是你不需要理解前面的任何一段来理解这种转换:我们只是移动和重新调整我们的原始随机变量，得到的调整变量 X̃和 Ỹ都有均值 0。

第二步:到目前为止，我们一直认为 X 和 Y 是属性或函数(也就是说，身高和体重是为每个人分配一个实数的函数)。但是我们也可以认为 X̃和 Ỹ决定了存在于 N-1 维向量空间 v 中的向量 x 和 y，其中向量 v 定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里是 x 的第 I 个坐标(分别为。 y )正好是 X̃ (resp。Ỹ)进行第 I 次观察。向量空间 v 继承了ℝᴺ的一个内积(标准的点积)，所以 v 不仅仅是向量空间，它是 N-1 维的内积空间。

使用与上述相同的数据，我们可以绘制这两个向量 x 和 y 的图，对应于我们 N=3 次观察的“调整后的身高”和“调整后的体重”:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**第三步:**观察 X 和 Y 的样本协方差恰好等于 V 中对应向量 x 和 y 的内积(点积)！那就是:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这对你来说没有几何意义，回想一下线性代数中的点积与欧几里得的长度和角度概念有着错综复杂的联系。首先，一个向量与自身的点积的平方根，正好是那个向量的长度。第二，两个向量的点积是它们的长度乘以它们之间夹角的余弦的乘积。在符号中:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将此与“标准差”和“相关性”的统计定义相结合，我们得到以下两个恒等式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是什么意思？意思就是标准差无非就是观测值对应向量的长度(调整后)，相关性就是两个这样的观测值向量之间的夹角(调整后)就是它们之间夹角的余弦！

所以这些通常来源于协方差的标准差和相关性的概念，实际上只是两个观测向量之间的长度和(余弦)角度的花哨名称！希望这能给你一些协方差背后的几何直觉，揭开它的神秘面纱，哪怕只是一点点。

思维的几何学

原文：https://towardsdatascience.com/the-geometry-of-thought-700047775956?source=collection_archive---------15-----------------------

…大脑如何创造概念空间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

By José Ferraz de Almeida Júnior [Public domain]

我们每天都在思考，但很难准确说出这个词的确切含义。当我们试图理解思想时，我们不得不通过思考思想本身来把握思想，这感觉是如此的难以捉摸和循环往复。

然后有一百种不同的方式来思考一件事。当你想到一个苹果时，你实际上会做什么？当想到红色时。当思考像爱、悲伤、骄傲、存在这样的抽象概念时。

维基百科将思想定义为一种“ 有目的的想法和联想的流动，可以导致一个面向现实的结论”。

想法的流动很容易观察到。想象一个苹果，看看会发生什么，哪些不同的感知维度呈现自己。红绿果皮的一瞥，难以定义的甜果味，也许还有一丝酸味，咬一口的脆响，果汁顺着手流下的感觉。

面向现实的结论很自然地给出了:我们不应该忘记，我们的思维是为了进化的目的而进化的。思想之所以存在，是因为它帮助生命核心的基因机器将自己推向未来。思想之所以存在，是因为它允许我们在我们所处的混乱世界中观察有用的、结构化的模式。把有用的信息从无关的信息中分离出来。

它有助于区分苹果和有毒的水果，了解苹果是否成熟并可以食用，了解苹果是什么，它有什么特性尽管你遇到的每一个苹果都略有不同。

能够比较苹果和橘子是有目的的。能够与你周围的人交流你的想法，告诉他们你的感受，你的所见，这是有意义的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

From the photograph you quickly inferred that these are apples. Photo by Marina Khrapova on Unsplash

我们在日常生活中经常需要完成某些任务，因此大脑被优化来完成这项工作。另一方面，我们不擅长做计算机真正擅长的“思考”(像 159476 乘以 6042034869 是多少这样的问题？).在逃离老虎时，解决像 159476 乘以 6042034869 这样的计算并不是我们需要解决的最相关的任务。

听到一些事情可以改变你对世界的看法，可以教会你新的思维方式，新的概念来表达世界的模式。这对你生活的整个社会都有价值。能够向其他人解释一些事情意味着更少的人每次都需要重新思考。

想到科学: 私人知识变成公共知识 。

因此，一个社区内的人们需要就一个共同的概念框架达成一致，以便他们能够有效地将传授给他们的后代，并作为一个整体社会快速调整。

思维模式

为了给出“思想”的初步总结和工作定义(至少是一个非常相关的小节)，我们有

由…定义的外部世界模式的分类
…流畅且可快速学习的概念(这是苹果，这是桃子)
…允许沿着许多不同的抽象维度对物体进行比较(这个苹果更大、更甜、更红、更圆，等等)。)
…元认知:对概念框架本身有一个抽象的理解，并且能够在这个框架内进行推理

将它们与它们的进化功能联系起来，有助于我们理解它们为什么存在，以及它们最适合做哪些任务。毕竟，进化并不仅仅是为了娱乐我们而产生思维。

说到进化:我们能在其他更原始的认知功能中找到思维的“进化祖先”吗？

思维会不会进化出一个已经存在的基础设施来服务于一个不同的目的？

架构和功能

大脑的运作与我们现象世界的内容密切相关，这是我们意识体验的世界。当有听觉刺激时，我们看到某些大脑区域的活动与对噪音的有意识体验相关。当我们看到一些东西时，我们可以追踪信号从视网膜到枕叶的移动，枕叶是视觉皮层的所在地。因此，思维在大脑中的实施方式应该与思维的功能和现象相一致。

人们经常强调，计算机的工作方式与大脑非常不同，这反映在它们的构造方式上。计算机到今天还是基于 冯诺依曼架构 。所有计算都是在 1 和 0 上进行的。输入计算机的数据被转换成 1 和 0，然后以特定的方式进行运算输出。输出类似地由 1 和 0 给出，然后被翻译回用户可理解的输出。冯·诺依曼架构原则上是基于图灵机的架构，它在符号层面上操纵信息(更多细节，请参见我的图灵机非技术性指南)。**

Photo by Markus Spiske on Unsplash

人工智能的研究关注的是制造会“思考”的机器。机器在从数据中学习模式、从非常高维的数据集中提取有用信息和相关特征方面已经变得更好了。

但是，计算机不会像学习抽象概念那样容易地应用于世界。他们通常在只看过一个样本后就无法理解什么是苹果。他们不能轻易地将不同的概念层相互联系起来，并在不同的概念之间进行比较。当面对新的挑战时，他们不能灵活地推理或调整自己的行为。

在我关于蚂蚁和神经网络问题的文章中，我更深入地研究了认知过程的功能和它们最有效(推测)的计算实现之间的关系。假设思想的形状和形式应该以某种方式反映它的实现方式是有意义的。大自然在花费资源方面很吝啬，通常会挑选最有效的架构来完成这项工作。

概念空间

在本文的其余部分，我将重点介绍由 彼得·加登福斯 在他的(非常恰当的标题)书概念空间( 2000)中介绍的概念空间的概念(也参见这篇演讲了解一些我无法在此涉及的细节)。

如果你读过一些关于机器学习的东西，你可能对特征空间的概念很熟悉。您输入到网络中的数据在特征空间中表示。你把以颜色信息为特征的像素输入到一个网络中，让它根据感官输入(一只猫，一只狗，等等)做出判断。这是一种类似的东西，通过我们的感官获得的信息被我们的大脑处理。

概念空间现在被定义为由几个质量维度跨越的实体，其中多模态(多种类型的数据，如视觉和听觉组合)概念被表示。这些特征可以涵盖很大范围的东西，如大小、颜色、音高、音调、长度、明暗、温度、空间本身、味道、形状、甜味、酸味等。

一个概念则是概念空间中的一个 拓扑区域 。你可以认为它们是对属性的多维概括，就像红色一样，都是简单的一维特征。

拓扑意味着空间被划分的区域是完全连通的，并且满足某些几何性质，即它们是凸的。这意味着，如果点 z 位于点 x 和 y 之间，并且两者都属于同一个概念，那么该点也必须位于该概念中。

实现这一点的一种方式是通过所谓的 Voronoi 镶嵌 ，这里显示为二维空间:

A Voronoi Tesselation of a two-dimensional space. Credit to Balu Ertl [CC BY-SA 4.0]

这些镶嵌将空间分割成从黑点向外辐射的凸起区域。你可以把它们想象成二维质量空间中概念的原始版本。

根据 Gardenfors 的说法，这些凸形镶嵌可以实现有效的交流，因为它们消除了不同子概念之间的任何模糊性(原型周围的空间形状清晰，没有任何空洞，如果你比较空间的不同元素并试图衡量它们有多相似，会造成混乱)。

比方说，一个维度是你发出的声音是如何发声的，另一个维度决定了声音是在你嘴里的哪个位置发出的。然后，镶嵌对应于从你听到的声音中推导出的字母概念，并映射到你正在听的人的舌头位置和发音程度上。

这可以让你对辅音 b 和 p，m 和 n，d 和 t 等进行分类。，取决于你的舌头在你嘴里的位置和你推的力度。请注意，提取这些信息对于语音识别软件(如语音转文本或苹果的 Siri 和亚马逊的 Alexa)至关重要，当然，对于我们来说，对于理解其他人来说也是如此。

镶嵌在中心有一些点，可以认为是给定概念的原型。有一种说“d”的方式可以清楚地表明你真的在说“d ”,而当人们咕哝着说外语时，有时很难将你听到的声音正确地映射到音节和单词上。

高维概念空间

学习概念的能力表明概念空间的度量发挥了一些灵活性。例如，当我们了解到某些子维度对于分类来说比其他维度更重要时，它可以改变，从而使不同特征子维度的权重结构适应。

想想练习什么:我们可以放大一个空间，让它的细分越来越小。专业的品酒师可以比外行更细致地感知葡萄酒的味道，专业的音乐家可以轻松地在一首管弦乐作品中挑选出和弦和乐器。

众所周知，孩子们会从单个例子中过度概括概念，但同时，这也是有利的，因为他们不需要看到很多例子就能学到东西。随着时间的推移和更多例子的出现，概念变得越来越复杂。

概念学习是递增的。我们学习概念的方式是有层次的:我们可以将越来越多的抽象概念(比如你所生活的社会的规则)堆叠起来，这些概念由越来越多的特征和模式组成，当我们成年后，我们可以将它们之间越来越精细的区别具体化。

概念空间可以扩展到非常大的维度:我们已经讨论了一个苹果的例子，但是高维概念空间的学习也会导致有问题的过度概括，正如种族刻板印象所体现的那样。

塑造了如此多现代性冲突的种族观念可以用沃罗诺伊镶嵌图来思考:纳粹意识形态宣扬雅利安超人的至高无上(金发碧眼，体格健全，是代表雅利安种族概念的空间中心原型)。与那个生物足够相似的每个人都是群体的一部分，而在重要特征上不同的每个人都不是，而且被认为是劣等的。虽然事实证明，定义这些概念的特征是任意的，根本没有任何生物学事实为基础，但它们仍然被狂热的理论家们传播，并很容易被全国各地的大脑所了解。

符号知识与次符号知识

撇开这些事情不谈，让我们回到思维的几何和它在大脑的硬件中的潜在实现之间的关系问题。

概念空间旨在弥合大脑中知识表征的符号和次符号理论之间的鸿沟。

纯符号思维不擅长概念形成:符号本身不一定意味着很多，相似性度量不能很好地从符号层次转移到语义层次。当你比较单词“nap”、“gap”、“rap”或二进制数字 100000 和 000001 时，它们在象征意义上相距不远，但在含义上不一定非常接近。在我们遗传密码的符号语言的情况下，编码蛋白质的 DNA 序列是非常随意的，并且没有任何功能基础(正如我在这里更详细地讨论的)。

因此，如果大脑通过操纵信息的符号表示来工作，它将很难处理其内容之间的相似性，而纯粹的子符号表示将很难流畅地学习新概念(这个问题在机器学习应用中经常遇到:在输入发生一些小的变化后，网络在分类它时变得完全无用，必须重新学习一切)。

特征空间中的相似性和度量

概念空间避免了其中的一些问题，因为它们被建模为度量空间(具有距离度量的空间)。

它们有效地编码了空间内实体之间的相似关系。我们可以简单直观地回答这样的问题:这五个苹果中哪一个看起来最相似？你的朋友有多像布拉德·皮特？纽约和特拉维夫有多相似？这个单词听起来是不是有点像另一个单词？

How similar is Tel Aviv to New York? Photo by Shai Pal on Unsplash

这些问题的答案不能作为查找表硬连线到我们的大脑中:你可以想到无限多的可能关系/比较，所以大脑需要能够动态计算答案。

空间表征与思维的起源

我们所知道的所有生命形式都发现自己生活在一个三维空间中(暂且忽略弦理论)，生活在这个三维空间中对我们的进化轨迹产生了影响。

在她的著作 中，心灵在运动芭芭拉·特沃斯基** 提出了九大认知定律。根据她的第六定律， 空间思维是抽象思维的基础。**

潜在的假设是，我们首先进化出在三维空间中成功导航的能力，弄清楚我们在哪里，我们的身体在哪里，如何移动它们，等等。，并慢慢地开始回收已经存在的大脑区域，这些区域最初用于像在空间移动这样的任务，以实现新的思维方式。

我不能详细讨论这个假设，但我在这里提到它，因为概念空间的几何性质可以帮助更好地理解它，概念空间的神经生物学基础为它带来了一些令人信服的证据。

大脑中的空间表征

大脑中的空间表征包含在它的功能结构中。2014 年诺贝尔医学奖授予了 奥基夫 和陀思妥耶夫斯基 ，以表彰他们在 1971 年发现的位置细胞，结合 2005 年 爱德华和 迈·布里特·莫泽 发现的网格细胞。

这些细胞的放电与动物(如老鼠或人类)的空间位置有关，它们被认为是一幅认知地图(见这幅动画中的插图)。这些细胞主要存在于海马体和内嗅皮层，它们负责记忆、导航和时间感知。

位置细胞的放电代表了动物在物理空间中的位置，这个位置通过位置细胞或网格细胞与相邻细胞的相互连接来反映。

Firing patterns of 8 place cells recorded from a rat. Colored dots show activity, with the color encoding which neuron fired. Credit to Stuartlayton at English Wikipedia [CC BY-SA 3.0]

它们的激发模式可以代表抽象的向量空间，而不仅仅是三维空间，因此它们的放电模式原则上可以编码各种空间信息(空间中的距离和位置)。因此，这些结构也可以用来编码非常不同种类的度量空间。

看起来大自然母亲很好地利用了这一点。

新的研究表明，抽象的概念空间是通过使用内嗅皮层和海马体中相同的位置和网格细胞基础设施来绘制的(更多详细信息，请参见这里的、这里的、这里的或这里的)，这些基础设施绘制了空间位置和方向。

因此， 认知空间 的概念不仅是隐喻性的，因为用位置和网格单元实现它们允许大脑在抽象概念空间中编码位置，并有效地计算这些空间内的度量。

正如我在开始时指出的那样，这支持了这样一种观点，即我们应该找到证据，证明认知过程(如思维)的功能性与其在大脑中的计算和生物实现结构之间存在密切关系。

看起来抽象思维，至少在某种程度上，确实是从空间思维进化出来的。

教机器思维的几何学

必须指出的是，这些理论仍然是新的，正在被充分充实，但我认为研究正指向令人兴奋的方向。
理解思维及其在空间感知中的起源可以为我们带来许多关于大脑高级认知功能的新见解。

同样，它可能会给如何构建智能系统带来新的动力，这些智能系统在处理信息和学习新事物的方式上发挥更多“类似人类”的特性。

Photo by Brett Jordan on Unsplash

例如，如果我们可以将深度神经网络与架构相结合，该网络致力于从(多模态)输入数据中进行模式识别和信息提取，该架构受位置和网格单元的启发，允许有效映射从输入中提取的模式之间的相似性，并减少高阶概念的数据量学习，我们可能会教机器我们自己思想的 几何，从而教它们变得越来越像我们。

2018-2019 年全球人工智能指数

原文：https://towardsdatascience.com/the-global-artificial-intelligence-indexes-2018-2019-1b0d0dce5f60?source=collection_archive---------25-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by @francesco_ungaro

衡量全球人工智能的不同指标概述

有一些机构和组织已经开始在人工智能领域索引不同的国家。所以我想我可以在短时间内成为索引的索引者。我想我会开始研究衡量人工智能的不同指数。我希望这能对你有所帮助，并且你能帮我更新这个列表或者修改任何错误。

斯坦福大学 2018 年人工智能指数报告

这份报告由斯坦福大学人工智能指数指导委员会，以人为中心的人工智能倡议发布。它是:“…追踪、整理、提炼和可视化与人工智能相关的数据的努力。它渴望成为政策制定者、研究人员、高管、记者和公众的综合数据和分析资源，以发展对人工智能复杂领域的直觉。”

[## 为关于人工智能的对话打下基础。

将关于人工智能的对话建立在数据的基础上。人工智能指数是一种追踪、整理、提炼和可视化数据的努力…

aiindex.org](https://aiindex.org/)

乌龟传媒的全球人工智能指数

2019 年 12 月 3 日发布的新指数对 54 个国家进行了排名

在 12 个月的时间里，他们衡量了 54 个国家的 7 项关键指标:人才；基础设施；操作环境；研究；发展；政府战略；和商业投资。在咨询了该领域的专家后，对每个指标的重要性进行了加权。

[## 军备竞赛

世界正处于一场前所未有的人工智能军备竞赛中，美国和中国在这场竞赛中遥遥领先，可能会…

members.tortoisemedia.com](https://members.tortoisemedia.com/2019/12/03/global-ai-index/content.html)

他们有一个互动的显示，让你根据不同的参数对不同的国家进行排名。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

政府人工智能就绪 2019

这份报告有一个由牛津见解和国际发展研究中心撰写的发展观点。“人工智能(AI)技术预计到 2030 年将为全球经济增加15 万亿 美元。根据我们指数的调查结果，正如所料，全球北方国家的政府比全球南方国家的政府更能利用这些收益。因此，全球南方国家有可能被所谓的第四次工业革命甩在后面。他们不仅不会收获人工智能的潜在好处，还存在不平等实施扩大全球不平等的危险。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 [## 2019 年政府人工智能就绪指数-牛津洞察-牛津洞察

在国际发展研究中心的支持下制作的 2019 年政府人工智能就绪指数…

www.oxfordinsights.com](https://www.oxfordinsights.com/ai-readiness2019) 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里是#500daysofAI，您正在阅读的是第 183 条。500 天来，我每天都写一篇关于人工智能或与之相关的新文章。

金色的人工智能冰川:重新思考医疗保健领域的罗杰钟形曲线

原文：https://towardsdatascience.com/the-golden-ai-glacier-rethinking-rogers-bell-curve-for-healthcare-c6280e522e12?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“人们对创新的传播如此感兴趣的一个原因是，即使一个新想法有明显的优势，它也很难被采纳，”埃弗里特·罗杰斯(Everett Rogers)在 1983 年出版的第三版开创性著作《创新的传播》(Rogers，1983)的前言中说。正如罗杰斯博士指出的，这个想法不是他独创的；几个世纪以来，它一直是人类生活的一部分。一位不亚于尼可罗·马基亚维利的观察家在他 1513 年的信中写道，470 年前的王子观察到:

“没有什么比创造一种新的事物秩序更难计划，更难成功，也没有什么比管理起来更危险……每当他的敌人有机会攻击创新者时，他们都以游击队员的热情这样做，而其他人则慢吞吞地为他辩护，因此创新者和他的政党都很容易受到攻击”(马基雅弗利，1532)。

此后，1747 年的英国海军、1781 年的美国发明家和国父 Ben Franklin、1903 年的法国法官和非专业科学家加布里埃尔·塔尔德、1937 年的英国人类学家 Edward Gifford 和 Alfred Kroeber、1943 年的研究人员 Bryce Ryan 和 Neal Gross，以及 1941 年至 1962 年的 21 年间至少有 1，953 名作者在同行评审期刊上发表了论文(Rogers，1983)(见图 1)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

罗杰斯博士将“扩散”定义为:

“……随着时间的推移，创新通过某些渠道在社会系统成员之间传播的过程；这是一种特殊类型的交流，因为信息与新思想有关”(罗杰斯，1983)。

这种新奇本身就包含着不确定性。在这种情况下，不确定性涉及对新思想替代品的看法，以及这些替代品的功效的比较概率，包括现状(Rogers，1983)。在现代，许多创新都是技术，罗杰斯接着将其定义为:“减少实现预期结果所涉及的因果关系中的不确定性的工具性行动的设计”(罗杰斯，1983)。因此，技术创新使潜在采用者对其相对于替代品的功效产生不确定性，同时，通过应用更快和更准确的因果关系，为减少不确定性提供了机会(Rogers，1983)。人们可以合理地争辩说，技术的传播是不确定性的二阶导数——潜在用户对技术是否会减少不确定性的感知的不确定性。

现代创新扩散理论最初是基于 20 世纪 50 年代对农业和家政学新方法的采用，罗杰斯在此基础上概括了该理论，并从 20 世纪 60 年代开始将其应用于涉及硬件和软件的技术(Beal，1957)。采用者头脑中感知到的这些不确定性的不确定性被放大或缩小的过程，是因为采用者的方法、文化和性质以及他们关注的焦点领域决定了创新扩散或技术采用的速度。这些因素体现在管理组织的政策中，决定了组织的存在理由(从军队到制造商到医疗保健)何时提供新的能力。

罗杰钟形曲线

罗杰斯假设，在创新理论的扩散下，技术的采用速度可以被绘制为标准化的高斯分布——或“钟形曲线”——在 x-y 轴上，首先熟悉笛卡尔坐标系。其中，罗杰斯发现并展示了收养者根据他们在收养年表中的位置被分成五个部分。最早的采用者是“创新者”，占市场的 2.5%。按时间顺序排列的第二批采用者是“早期采用者”，他们占市场的 13.5%。“早期多数”用户排在第三位，占市场的 34.5%。“后期多数”用户代表了另外 34.5%的市场份额，排在第四位。“落后者”代表了市场的最后 16%(Rogers，2003)(见图 2)。而且，罗杰斯假设每一类采纳者都经历了四个认知阶段:(1)意识；(二)决定采纳或者拒绝；(3)初次使用；和(4)继续使用；其中，对采纳者决策步骤影响最大的五个因素是:(1)相对优势；㈡兼容性；㈢复杂性；㈣可审判性；以及(v)可观测性(LaMorte，2018 年)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然对技术采用过程中的步骤及其原因的这种理解水平已经在许多学科中取得了成功，但它也包含了成为医疗保健和公共卫生领域缺点的元素(LaMorte，2018)。具体而言，由于该模式起源于医疗保健和公共卫生领域之外，它:(a)未能包括医疗保健中通常需要的参与性方法，以确保“六 P”的认同:患者、提供者、支付者、制药商、供应商和决策者；(b)更多地应用于行为的采用，而不是行为的停止，这是一个主要问题，因为在现代医疗保健技术中，大多数创新正在取代现有技术；©未能考虑组织或采用者的资源、社会和同行对采用新技术的支持(LaMorte，2018)。

发展罗杰的钟形曲线

虽然所有的学术和概念理论都在不断地被新的假设和发现调整和调整，但在 1962 年至 2015 年之间，罗杰斯作为创新扩散和技术采用模型传播的钟形曲线出现了五次重大演变。与此相关的第一次重大演变是技术 S 曲线，由 Richard Foster 于 1986 年提出，并由 Clayton Christensen 于 1997 年在他的开创性著作The Innovator ’ S Dilemma(Foster，1986) (Christensen，1997) 中更广泛地应用。 Foster 推断，技术创新可以用 x 轴上的成本和/或时间以及 y 轴上的技术绩效进展来绘制，其中新技术的曲线或直线总是某种形式的“S”，新技术的诱导时间(“研发”)是基础，通过采用的投资回报或收益是垂直的，市场饱和和过时是“S”的顶部(Foster，1986)。第二，Christensen，除了别的以外，注意到这些“S”曲线连接在一系列的波浪中(见图 3)，其中它们成功的关键决定因素是:(a)组织进入曲线的时间框架，以便不被更有先见之明的竞争者超越创新；以及(b)他们不间断地持续创新以保持这些“S”波长期持续的能力(Christensen，1997)。第三，克里斯滕森接着指出了一项技术创新是否被采纳的两个关键原因，以及它被采纳或否决的速度；这与采纳者的相对需求和资源有关。如果现状在可用资源范围内满足了潜在采纳者的需求，他们会坚持现状，推迟或拒绝创新。类似地，如果一项技术创新不在采纳者的既定资源范围内，在某些情况下，不管感知到的需求如何，他们也会坚持现状，拒绝或推迟创新。这些原因是医疗保健采用人工智能和类似更新技术的关键(Christensen，2015)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于创新扩散的技术采用生命周期的下一个主要演变，发生在第三个年表，但为了凝聚力和清晰性，在这里被列为第四个，是关于差距或鸿沟。1991 年，杰弗里·摩尔在跨越鸿沟中观察到，大量技术创新经历了归纳/研究和开发阶段，受到早期采用者的欢迎和使用，但由于过多的原因，从未被市场更广泛地采用(见图 4) (Moore，1991)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摩尔认为，过于简单地说，早期采纳者和多数采纳者之间存在鸿沟，因为他们在如何和为什么做出决定方面有本质上不同的心理特征。创新者和早期采用者倾向于采用，因为他们对新功能有内在的欣赏；他们偏向于喜欢，想要，采纳。然而，构成其早期和晚期大多数的 68%的市场更关注实用性——克里斯滕森写的关于需求和资源的那种。这种市场大多数也是怀疑论者，通常来自经验，知道绝大多数新技术创新永远不会走远或不会持续(摩尔，1991)。后期多数采纳者与早期多数采纳者比例相当，他们的不同之处还在于他们对自己实施组织变革的能力缺乏信心(Moore，1991)。根据 Moore 的说法，为了克服这些怀疑论者并区分一项技术的存在，需要大量的教育、营销和关系建设，这反过来需要持久力，这反过来需要资本——比大多数公司拥有或能够筹集的资本更多，从而创造了技术创新初创企业的“死亡之谷”(见图 5) (Moore，1991)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第五，也是最后一点，从 1998 年到 2008 年，Carl May 和他的同事提出了标准化过程理论(NPT)来发展先前的模型，并帮助解释医疗保健领域的创新扩散和技术采用生命周期(2009 年 5 月)。NPT 关注医疗环境中与技术采用相关的三个核心问题:(1)实施——将新行动付诸实践的社会过程；(2)嵌入——将这些新的实践融入到习惯和惯例中；以及(3)整合——在组织范围内复制和维持新实践的过程(2009 年 5 月)。《不扩散条约》假定:(A)由于共同努力制定法律的个人的集体努力，实践已经深入人心，成为惯例；(B)制定"通过表达人类能动性的生成机制(一致性、认知参与、集体行动、反思性监测)的运作得到促进或抑制；"以及©在整个组织范围内复制实践需要组织中全体变革代理人的持续支持和投资(2009 年 5 月)。

医疗保健中的人工智能采用冰川

除了人工智能将扰乱医疗保健，使其从被动型转变为预测型和主动型，个性化医疗将我们的寿命延长几十年之外，现实是，如果你与经验丰富和广为人知的数字健康企业家交谈，大规模或及时采用这些工具来实现这一承诺仍然在很大程度上是夸张的。尽管 2017 年对数字健康公司的私人投资估计为 120 亿美元——其中许多都与人工智能有关——但很少有人获得足以证明私募股权投资合理的巨大成功(Yock，2018)。

尽管人工智能在一个对人类至关重要的领域有望带来非常好的结果，但为什么人工智能在医疗保健领域的采用一直很冷淡，这一解释似乎有五个方面。第一，健康技术专家给出的解释是以这样一种想法为中心的，即大多数数字健康和人工智能创业公司都遵循了错误的模式，这种模式在其他行业的消费者和产品中取得了成功，但忽略了医疗保健的根本差异(Yock，2018)。其他行业经过测试和验证的技术创业战略侧重于快速将最低可行的产品推向市场，然后根据在早期最终用户中证明成功的特性和功能集迭代新版本和新版本(Yock，2018)。这种策略表面上忽视了利益相关者、风险厌恶和医疗保健行业监管环境的复杂性(Yock，2018)。

其次，摩尔所描述的“死亡之谷”在医疗保健领域更长、更深，这是采用周期更长的结果。创业公司必须生存更长时间，进行更多的营销和前景教育，这需要更多的资本，才能成功克服 Yock 描述的额外障碍。此外，数据科学、人工智能和创业公司形成的尖端领域的技术专家在金融技术或消费产品等其他行业往往需求量很大。因此，在医疗保健行业缓慢采用新技术的过程中，将这位极具竞争力的人才保留多年的成本会更高。

第三，我们必须重新审视创新扩散理论，因为专注于医疗保健的技术专家似乎变得过于依赖其简化进化论，而忽视了其最初的警告。首先，我们可以看看罗杰斯定义的创新要素:(1)相对优势；(2)兼容性；(3)复杂性；以及(4)可试用性(罗杰斯，1983)。在这些领域中，医疗保健中的人工智能都是有问题的。人工智能通常与现有的系统、策略和流程不兼容，因此需要被替换。此外，人工智能是众所周知的复杂，超出了许多用户的知识，有时甚至是理解；因此，他们不愿意接受他们不能信任的东西，也不能信任他们不能理解的东西。此外，人工智能在许多医疗保健问题上的试验很麻烦，因为它们涉及影响人类福祉的关键领域，这是高风险的，并涉及许多伦理问题。

第二，正如罗杰斯所指出的，支持创新的变革推动者和那些必须获得社会认同的变革推动者通常是异嗜性的——这意味着他们通过相似性聚集在一起，每个群体都与其他群体截然不同。因此，变革推动者往往比用户在技术上更先进，从而产生了一种偏见，不利于在交流中有效地相互理解。

第三，也许是对医疗保健领域的人工智能初创公司最务实和最有影响力的，罗杰斯在他的著作《创新的科学验证的重要性》(罗杰斯，1983 年)中指出。在医疗保健领域，这意味着临床试验；然而，几乎没有像药物试验那样被广泛接受的软件临床试验标准。此外，最重要的是，大多数试验极其昂贵，学术医疗机构可以进行这些试验(例如，马萨诸塞州总医院等)。)将它们视为一种方法，通过这种方法利用它们的“批准印章”来获得额外的收入，所有这些都增加了摩尔“死亡之谷”的巨大深度和宽度。简而言之，目前缺乏资金来支付医疗保健中人工智能应用的软件试验。因此，绝大多数创新从未经过科学验证，许多可能被早期采用的创新被证明存在科学缺陷，以至于大多数采用之前的怀疑和分歧扩大，随之而来的是技术采用生命周期中的“死亡之谷”。

第四，回忆一下克里斯腾森的 S 曲线波(图 4)。即使医疗保健领域的人工智能初创公司能够克服这些重大障碍，这也只是一个采用周期，或者说，如果它们要维持自身的话，这肯定是一波 S 曲线中的第一条 S 曲线。一个结果是，很大一部分在医疗保健领域采用人工智能的竞争中胜出的公司必须通过新的创新重复这样做，否则他们有可能成为寿命短得多的单一产品公司(又名“一招小马”)。

最后，我们被时间尺度所吸引，医疗保健中的人工智能是否真正具有破坏性，以及破坏性到底意味着什么。Christensen 表明，市场中技术成熟度的生命周期通常是 15-20 年(Brown，2006)。这个时期不是真正的破坏性，而是变革性的。如果我们研究其他变革性技术，如电子邮件和互联网，我们会有趣地证实克里斯滕森，因为他们的发明和广泛使用之间过去了几十年。对于医疗保健领域的人工智能初创公司来说，他们已经面临着技术采用生命周期中漫长而深刻的鸿沟，以及持续创新的竞争需求，这种转型的持续时间极大地放大了每次创新的“死亡之谷”。

解决人工智能初创公司在医疗保健领域面临的众多挑战的关键可能在于克里斯滕森对中断的正确定义。克里斯滕森认为，当应用于产品或服务的新技术能力时，颠覆是误导性的(克里斯滕森，2015)。相反，根据 Christensen 的说法，颠覆是一个过程——在这个过程中，颠覆者从低端或市场边缘(“边缘”)的小规模实验开始，并专注于需求如何在长时间内发生变化和演变，以形成新的商业模式(Christensen，2015)。颠覆者找到一种新的模式来满足新生的和不断发展的客户需求，而一种技术完全替代或替代另一种技术的转变通常仍需要几十年的时间(Christensen，2015)。然而，初创公司随后摆脱了持续创新的许多竞争压力，因为它们不被视为竞争的核心或威胁，具有较低的成本以支持度过特大的“死亡之谷”，并且通过让早期客户提供反馈，能够解决技术采用中的许多结构性特质。

参考

比尔、罗杰斯、波伦、J.M. (1957)。采纳过程中阶段概念的有效性。农村社会学，22(2):166–168。

布朗博士(2006 年)。目标选择和制药行业生产率:我们能从技术 S 曲线理论中学到什么？药物发现的当前观点&发展，9(4):414–8。

克里斯滕森，C. (1997 年)。创新者的困境:当新技术导致大公司失败时。波士顿:哈佛商学院出版社。

c .克里斯滕森、m .雷诺、r .麦克唐纳(2015 年 12 月)。什么是颠覆性创新？【哈佛商业评论】https://hbr.org/2015/12/what-is-disruptive-innovation.，pp.

福斯特，R. (1986 年)。创新:攻击者的优势。纽约:顶峰图书公司。

拉莫特，W. (2018 年 8 月 29 日)。行为变化模型:创新理论的扩散。检索自波士顿大学公共卫生学院:http://SPH web . bumc . bu . edu/otlt/MPH-Modules/SB/BehavioralChangeTheories/BehavioralChangeTheories 4 . html

马基雅维利，N. (1532)。 De Principatibus(君主国)(又名王子)。意大利:安东尼奥·布拉多·达索拉。

May，c .，Mair，f .，Finch，t .，MacFarlane，a .，Dowrick，c .，Treweek，s .，和 Rapley，t .，等人(2009 年)。实现和集成理论的发展:规范化过程理论。实现科学，4:29。

摩尔(1991 年)。跨越鸿沟。纽约:哈珀柯林斯出版社。

罗杰斯，E. (1983)。创新的扩散(第三版。).纽约:自由出版社。

罗杰斯(2003 年)。创新的扩散(第 5 版。).纽约州:西蒙和舒斯特。

Yock，P. (2018 年 10 月 17 日)。为什么数字健康创业公司不断失败？快公司，PP .https://www . Fast Company . com/90251795/why-do-digital-health-startups-keep-failing。

这篇文章发表在 The Startup 上，这是 Medium 最大的创业刊物，拥有+409，714 名读者。

在这里订阅接收我们的头条新闻。

这山望着那山高:购买当地产品及其缺点

原文：https://towardsdatascience.com/the-grass-really-is-greener-on-the-other-side-buying-local-and-its-shortcomings-f35490744912?source=collection_archive---------12-----------------------

循证政策比你或你的感觉更重要——第二部分

仅仅因为你的蔬菜经过数千公里的运输到达你的餐桌，并不意味着它们不会比你当地农贸市场的产品对环境更好。那里。我已经说过了。就不受欢迎的观点而言，这一观点介于“披萨上的菠萝”和“如果我们不能让非常老的人活着，医疗保健会更便宜”之间(声明:我不同意这些观点)。但是不受欢迎不代表不真实。我想用你生命中接下来的 5 分钟来说服你，默认购买本地在多个层面上都是错误的。说你购买当地食品是因为你想保护环境和加强你的社区是很有说服力的，因为它与我们喜欢持有的价值观产生了共鸣。所以为了说服你，我们需要解决这两个支持购买当地食物的主要论点。我们开始吧！

首先，请查看我在这个系列的第一篇文章中关于气候变化的一般免责声明。第二，我不会说买本地货总是不好，也不会说从遥远的 T4 购买总是更好。我的立场仅仅是你应该(定量地)考虑哪一个选择是最好的，事实证明，在大多数情况下，放弃购买当地食物是更好的选择。因此，如果你真的想坚持一种普遍的态度(当然我不建议)，要么都是本地的，要么都是远方的，你选择后者更有可能是正确的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Visualization of distances & emissions per vegetable for different modes of transport. For cars, trips of 5 km for 8 tomatoes with an average car weight of two tons are assumed. For trucks, trips of 3000 km with 45 metric tons of tomatoes are assumed. For planes, trips of 3000 km with 400 metric tons of tomatoes are assumed. For ships, trips of 18000 km with 25000 metric tons of tomatoes are assumed.

环境论证——运输

我们先来看看环境论证。从本质上来说，这是一个论点:汽车/卡车/飞机/轮船从遥远的地方运输食物到你的超市消耗大量的燃料，因此从你附近的农场购买食物具有较低的运输碳足迹是更可取的。的确，我们的大部分食物在到达我们的餐桌之前要经过数千公里的路程，这个概念被称为食物里程。但是“食物里程”是衡量环境影响的一个有意义的指标吗？想象一下，你开车去 5 公里外的农贸市场买西红柿，买了 8 个西红柿。也就是 0.625 食物公里/番茄(单程！).一辆番茄卡车运送大约 30 万个番茄。如果我们真的很慷慨，估计这辆卡车从生产地到超市行驶 3000 公里，这将相当于 0.01 食物公里/番茄。无论你如何扭曲它，你都无法击败这里的规模经济。如果你喜欢这个指标，你也可以用二氧化碳/番茄排放量来玩这个游戏。现代卡车每公里每公吨货物排放大约 0.1 公斤二氧化碳。在我们的例子中，这将是 0.145 公吨的西红柿3000 公里= 13500 公斤或 13.5 吨的二氧化碳。从你的农贸市场购买等量的西红柿，而(在美国)平均每公里排放 0.25 公斤二氧化碳的汽车相当于 5 公里0.25 公斤二氧化碳/公里(每位顾客 300，000/8 个西红柿)= 46875 公斤或 46.9 吨二氧化碳。三倍多！

你可能会说，即使有了卡车，你仍然需要去超市买蔬菜，但请记住，a)卡车的排放量与汽车的排放量相比仍然微不足道，b)你的农民市场的蔬菜也必须首先到达那里，通常由农民用车辆运输，就每种蔬菜的排放量而言，车辆的效率肯定低于番茄卡车。另一种避免低效率交易的方式是在网上订购蔬菜。除了带来令人愉快的便利之外，蔬菜订单将被打包并以优化的路线交付给你和其他顾客，与你和其他人去商店相比，每份蔬菜的排放量更低。此外，如果你的食物是用船运送的，那么在排放方面比卡车更有效率(大约。每公里每公吨货物 0.025 千克二氧化碳)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Location matters. Values are total emission for production (UK, lamb, red or Sweden, tomatoes, orange) or total emission for transport + production (New Zealand-UK, lamb, blue or Spain-Sweden, tomatoes, turquoise). Source for lamb values. Source for tomato values (Table 5).

环境论证——生产

在证明了规模化经营的每种蔬菜的运输排放量远低于当地农民之后，我现在要做一些不寻常的事情。我要说的是，无论如何，交通排放真的没那么重要。因为到你的超市或当地中心的商业运输只占生产食品总排放量的 5-11%。信不信由你，这实际上是食品生产排放清单上最小的项。以下是一些比较重要的:餐馆(16%)、家庭烹饪(25%)和生产&加工食品(45%)。因此，到目前为止，排放清单上最大的一项实际上是蔬菜是如何生产的，而不是如何到达你的餐桌。这意味着生产效率将对环境产生最大的影响，而不是从农场到餐桌过程中的任何其他变化。那么，我们究竟为什么要去干旱的亚利桑那州购买当地的苹果，而不是从更远但农业生产丰富的华盛顿(美国苹果总产量的一半以上来自华盛顿)购买呢？

或者，更粗鲁一点，为什么不是来自新西兰？船舶运输比卡车运输环保得多，它位于南半球，确保了淡季新鲜苹果的供应，而不必冷藏前一个收获季节的苹果，它可以说是生产苹果和其他水果+蔬菜最茂盛和最多产的地方之一。这导致了一些违反直觉的结果，例如，在新西兰饲养并从新西兰运往英国的羊肉的碳足迹仅为在英国直接饲养和消费的羊肉的四分之一(乳制品和水果的比例相似)。同样，从西班牙进口西红柿到瑞典比在瑞典生产西红柿更环保。考虑到生产效率的相对重要性，我们更应该考虑我们希望我们的食物在什么条件下生长，而不是它离我们家有多近。

道德论证

在我们结束之前，让我们简要地谈一下第二个论点，即购买当地产品可以加强社区。这一策略引出了有趣的哲学推论。比方说，你当地的农民非常成功地向你出售他们所有的蔬菜，以至于他们扩大经营，开始向其他地区销售。这是否意味着他们不再是本地人，不再是社区的一部分？严格来说，这难道不是(反向)保护主义的论据吗？在这种保护主义中，来自你们社区的任何出口都将被禁止，因为这会削弱外国社区。将这场辩论与科技行业进行对比。本地或本地生产的电脑或 iPhone 听起来多么牵强！如果我们不对其他部门和产品提出同样的本地态度，那么挑出食品生产作为购买本地产品在道德上至高无上的领域似乎是武断的。考虑到农民在人口中所占的比例很小(比美国的 2%少)，以及之前证明的生产效率的重要性，而生产效率又严格取决于当地的天气，食品似乎是一个非常不适合“本地第一”态度的候选对象。如果你真的想去当地(虽然我仍然不推荐它作为一般规则)，尝试制成品。至少这影响了 8.5%的人口(在美国)，并且较少受天气和位置的影响(仅适用于监管/工资，这也适用于农业部门)。

结论

这让我得出了我的结论:购买当地食物作为一般规则既不环保也不道德。事实上，平均来说，这是相当有害的。我不排除这样一种可能性，即在某些情况下，本地食品可能至少等同于遥远的进口食品，例如，如果你生活在一个适合高效生产某种水果或蔬菜的地区。但我们大多数人都没有这种奢侈，不得不在高强度、温室辅助生产和生产碳足迹小的环保运输产品之间做出选择。虽然支持你的社区并做一些表面上的好事可能感觉非常好，但基于证据的政策和行为并不是让你感觉良好，而是做得最好。所以如果你关心全球环境和你行为的后果，不要去当地。走向全球。

糖蜜大洪水——预测金属熔点

原文：https://towardsdatascience.com/the-great-molasses-flood-predicting-the-melting-point-of-metals-1c4440d2edd2?source=collection_archive---------13-----------------------

冶金和材料科学中的机器学习

1919 年 1 月 15 日，在北波士顿一个安静的街区，一场灾难正在酝酿。

出乎意料的是，一声巨大的爆炸声响彻整个城市，在任何人知道发生了什么之前，12000 吨糖蜜以几乎 60 公里的时速， 冲进街道，导致 21 人死亡，150 人受伤。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Imagine how sticky the ground must have been… (Courtesy of Wikipedia)

据说直到今天，有时候，在炎热的夏天，北波士顿地区闻起来有点像糖蜜的味道。

大糖蜜洪水是由于热疲劳导致的材料失效的主要例子。在那灾难性的一天，气温从负两位数波动到正。这导致了装糖蜜的罐子变弱。再加上高温发酵造成的压力增加，导致储罐破裂。

今天，我们既有技术又有材料来防止这种愚蠢而毁灭性的灾难再次发生。但是，当我们推进到大胆的新领域时，上述技术和材料的极限将受到考验。

我们怎么能在这样高能量、高特异性、有时甚至是危险的环境中测试这些材料呢？

我们可以使用机器学习。

好吧，但是为什么呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Because it’s not like we have enough machine learning

这个项目是我为 Deltahacks 访问安大略省汉密尔顿时获得的个人挑战，世界上最大的钢铁生产商安赛乐米塔尔赞助了这个活动。因为他们的 Dofasco 总部就在这条街上，所以我问他们有什么不同的做法。他们管道的亮点包括在组织的库存、运输和管理方面使用人工智能，但没有一个在研发方面产生影响。

由于我对数据驱动科学进步的想法很着迷，我提出了一些公司可以使用 A.I 来改善 R & D 的方法，这是任何像安赛乐米塔尔这样的大公司最昂贵和最耗时的部分之一。一些高层次的想法包括:

高通量虚拟筛选
自动化实验室实验
分子的发现和优化(逆模型)
分子的性质预测(正向模型)

最后一个特别有趣，有人问我**是否有可能预测一种给定金属的熔点，特别是如果这种金属以前从未被合成过。**我回答了监督学习的一个基本原则，其表述方式甚至连伟大的阿基米德本人都会赞同:

给我一个足够大的数据集和正确的机器学习模型，我可以预测任何事情(在一定程度的准确度内)

这是一个严重的，有时甚至是危险的过度简化，我说我会看看我能做些什么。

这个提议变成了熔融计划。

项目熔化

Project Molten 是一个神经网络，用于预测给定分子的熔点(摄氏度)。该模型在超过 28，000 个标记分子的数据集上进行训练，证明可用于现实世界的应用，特别是冶金、金相学和材料工程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

There are an incredible multitude of alloys and more yet to be discovered (Courtesy of Unsplash)

值得注意的是,“熔化工程”中使用的分子并不完全由金属构成；数据集中有各种各样的分子。

这种模型可能有助于预测由热材料失效引起的灾难，比如糖蜜大洪水。

该模型接收 SMILES 串作为输入，并输出预测熔点温度。使用字典将 SMILES 字符串唯一地映射到一个整数，并用 0 填充以确保它们长度相同。填充的长度是通过向数据集中最长的微笑字符串添加 1 个额外的 0 来确定的。在这种情况下，填充后所有字符串的长度为 282 个字符。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The very least you can do to help your poor PC

标准化数据集是这个项目的关键步骤，因为它减少了训练算法所需的计算量，节省了时间，简化了过程。有两种流行的归一化方法，要么通过将给定的输入除以唯一输入的总数，要么使用x-min(x))/(max(x)-min(x))在 0 和 1 之间归一化。

Your basic normalization code (best practice calls for making a function)

在标准化微笑字符串和温度之后，数据集被分成 90%用于训练，10%用于测试。也可以分配一个**验证集，**但是为了有尽可能多的训练数据，它保持原样。一小部分代码被分配给assert,表明数据集具有相同的大小，并准备好被网络接收。

神经网络模型是使用 PyTorch ML 库创建的，这使得定义网络参数变得 Pythonic 化、简单和清晰。使用了带有Adam优化器的均方误差(MSE)。学习率(lr)设置为 0.001，但是可以自由调整。经过 100 多个时期的训练，损耗被编程为每 10 个时期打印一次，同时打印当前的运行损耗。

注意网络的形状； 282 个输入神经元用于匹配填充和整合的微笑字符串的大小。从第二个隐藏层开始，每层的神经元数量大约减半。输出层为 1；计算我们输出的形状，如果一切顺利的话，这是一个单一的预测数字，这将是估计的熔点温度，以摄氏度为单位，包括负数。

关键要点和可能的方向

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Polymers, Ceramics, Composites, and most importantly, Metals (Courtesy of Unsplash)

熔融项目是机器学习如何用于材料研究和开发的一个基本例子。最终，这个项目是仍在开发中的 Project Deliquesces 的前身。“潮解工程”的目标是将这种经过训练的模型用作生成模型的一部分，该模型能够生成具有特定熔点温度的新分子。未来的工作将集中在寻找以微笑字符串的形式生成这些分子的方法，或者也许使用像分子图这样更准确的分子表示。

在未来，物联网设备可以收集重要的环境数据，然后我们可以使用这些数据进行计算，训练监督学习模型，并进行实时预测**，降低材料故障的可能性，并在另一场灾难来袭时提供更多关于原因的见解。在一个野火肆虐、海平面上升、自然灾害日益频繁的世界里，确保我们的基础设施为未来的艰辛做好准备从未像现在这样重要。**

希望我们再也不用担心糖蜜末日了。