下一个前沿——从认知到理解
先来一个关于这个故事的故事。2016 年 10 月我写了并发到了 Techcrunch。他们的高级编辑一直答应我很快出版它,直到 2017 年 2 月,然后…消失了。在五个月的时间里,我们带着 人性学习项目 向前迈进,隐约基于思想的惨叫。我很想改进文本,增加我们最近的发现,但决定不做任何改动。它仍然是有趣的。尽情享受吧!
AI 能从一个没有 90%大脑正常生活的人身上学习意识吗?也许一个自闭症患者也能帮上忙?核心价值观和讲故事呢?虽然这些问题听起来很矛盾,但它们可能会给人工智能科学家提供一些发展具有自我意识的人工智能的重要线索。
2007 年的《柳叶刀》杂志首次报道了一名法国人的病例,他尽管失去了 90%的大脑,却过着正常的生活。额叶、顶叶、颞叶和枕叶被认为控制大脑的运动、情感、语言、视觉、听觉以及情感和认知功能。所有这些区域在法国人的大脑中都被缩小了。布鲁塞尔自由大学的 Axel Cleeremans 对 Quartz 说,虽然这在医学上看似奇迹,但它也给认知心理学家带来了重大挑战。
Cleeremans 在今年布宜诺斯艾利斯的意识科学研究协会会议上做了一个关于这个主题的演讲,他认为大脑学会有意识。“意识是大脑关于自身的非概念理论,通过经验获得——即学习,与自身、世界和他人互动,”他说。
在关于这个主题的论文中,Cleeremans 使用了人工神经网络学习的例子来说明他的观点,并阐述了他的第一个重要的计算原理,通过这个原理来区分有意识和无意识的表征:
“意识的可用性取决于表征的质量,其中表征的质量是在时间、强度和独特性的稳定性上定义的分级维度。”
自我意识使我们的大脑能够选择是否有意识或无意识地处理输入的信息。在基本层面上,它就像一个由两个相互连接的神经网络组成的系统:一阶网络处理二阶网络无意识地观察到的信息流入,二阶网络是系统中内部有意识的观察者。根据克里曼斯的观点,意识与学习过程密切相关,因为它的机制导致在意识认为已经学会的情况下消除对行为的意识控制。意识使我们的学习在信息流入方面具有选择性。
现在让我们把这个词告诉洛里·塞利,她和她 14 岁的儿子一起住在自闭症 spector。她在博客中描述了她对“自闭症是什么感觉?”这个问题的第一人称观点。
“在我患自闭症的经历中,一切都以同等的力量流过。她解释道。“我的全景视觉和伴随而来的可能是自闭症一部分的深度记忆库有一种有趣的关联。我用图片来观察生活,我的大脑对我所看到的一切进行分类和编目 …当我进入类似的情况时,我会定期经历一次细致的精神“手指翻动”
看起来 Lory 的意识并没有产生“系统连接的适应性变化”,根据 Cleeremans 的说法,每种形式的神经信息处理都应该通过神经系统中突触连接的加强(长期增强)或削弱(长期抑制)机制产生。
突触连接的增强或减弱机制也被称为神经可塑性。神经可塑性的基本原理是一起放电的神经元也连接在一起。
在理解神经可塑性如何工作的前沿,科学家们正在不同方向取得重大进展。国家儿童健康和人类发展研究所(NICHD)开展的研究与我们的目的特别相关。它证明了大脑通过学习、遗忘和再学习来重新连接自己。在醒着的时候,神经元通过一起放电来加强联系。这些交流是学习的基础。随着学习的进行,神经元正在形成回路,共同回忆起一段记忆。更有趣的是,研究人员发现当大脑休息时,神经元反向放电,在这个过程中抹去不重要的信息,但增加了神经元对未来感官学习的敏感性。“大脑不会储存它遇到的所有信息,所以必须有一种机制来丢弃不重要的信息,”资深作者 R. Douglas Fields 博士说,他是 NICHD 神经系统发育和可塑性部门的负责人。
有理由认为,两种类型的大脑网络都在发生类似的过程:第一级处理信息流入,第二级处理自我意识。越来越多的证据表明,默认模式网络(DMN)中的功能连接通常被定义为一组皮层区域,当受试者休息时比他们从事注意力要求高的任务时更活跃,这可能是一种被称为自我意识的现象的基础。由芬兰埃斯波的 BM-Science 大脑和思维技术研究中心的 Andrew A Fingelkurts 和 Alexander A Fingelkurts 以及意大利切弗洛的 Fondazione Istituto“San Raffaele-g . Giglio”康复部门的 Sergio Bagnato、Cristina Boccagni 和 Giuseppe Galardi 进行的研究使用脑电图确定了 DMN 功能连接的强度可以调节自我意识表达的强度。
南加州大学多恩西弗文学、艺术和科学学院大脑和创造力研究所的乔纳斯·卡普兰是这项研究的主要作者,该研究发表在 1 月 7 日的《大脑皮层》杂志上。他的研究解释了与 DMN 相关的自我意识正在处理什么类型的数据。实时大脑扫描显示,当人们阅读涉及他们核心的、受保护的价值观的故事时,他们大脑中的 DMN 会被激活。
卡普兰认为,大脑不仅面临道德困境,而且这种困境是以叙事的形式呈现的。他说:“故事帮助我们以一种独特的方式组织信息。
*“故事似乎是大脑以一种实用且令人难忘的方式组织信息的基本方式。*了解做到这一点所需的神经机制很重要,这项研究是朝着这个方向迈出的一步,”该研究的高级作者、大脑和创造力研究所的联合主任、神经科学大卫多恩西弗主席、心理学和神经学教授安东尼奥·达马西奥说。
Futurism 2016 年 10 月 20 日报道微软的语音识别技术已经达到了人类的水平。“下一个前沿是从认知到理解,”时任微软语音对话研究小组经理的杰弗里·茨威格说。
我们通往新领域的道路很可能会通过机器意识的创造——或者如 Axel Cleeremans 所说,二阶网络将不断学习重新描述人工智能自身的活动,因此开发元表征系统来表征和限定目标一阶表征。这种经过学习的重新描述,加上与之相关的故事叙述,将形成有意识体验的基础。有意识的体验意味着理解。
迈向有意识人工智能的下一步应该是意识
开发者哲学家
What is the “magic trick” to become conscious ?
意识并不是突然从我们大脑的某个复杂层次出现的,而是长期进化过程的产物。因此,简单地构建越来越复杂的人工智能系统不会让它奇迹般地出现,我们首先需要了解底层的“魔术”。
我很敬畏地看到越来越多的文章关注机器意识在不久的将来的崛起,尽管科学家们还不知道我们大脑中电信号的收集如何导致主观体验。机缘巧合有时会让足够“睿智”的个人将看似无关紧要的事实联系起来,从而得出有价值的结论。然而,这不是解决问题的科学策略,这就像在彩票中寻找中奖号码一样。在这篇文章中,我想强调意识问题的答案可能就在眼前,我们应该认真考虑它,而不是等待意识从我们日益复杂的算法中出现。
为什么意识不能从复杂性中产生
The evolution of eyes over a span of 350 000 generations
大多数理论认为,意识是由复杂性、神经活动振荡或大规模信息整合引起的,但他们指出了一个魔术,没有提供任何解释。更具体地说,整合理论通常忽略了一个事实,即高度整合的计算发生在意识之外,如自主神经系统执行的移动或动作。最后但同样重要的是,意识不能仅仅是一种从大脑信息中浮现的感觉,因为我们可以报告它。因此,它必须作用于大脑,以便提供关于自身的可报告信息。
根据进化理论,人类的眼睛并不是突然变成成熟的眼睛,而是从祖先物种中更简单的眼睛进化而来。甚至单细胞生物也有微小的细胞器来区分光明和黑暗。如果每一代微小的突变都一步一步地稍微改变了其中的一个部分,经过无数代之后这些变化就会导致人类现有的眼睛。意识经常被描绘成一种虚无缥缈或不可分割的东西,不可能通过自然选择而存在。首先,如果巨大的突变(如涌现所要求的)不经常发生,人眼因其复杂性而突然出现的概率为零,即使有大量的世代(更不用说它还需要更复杂的大脑功能)。另一方面,如果每一代都发生大量的巨大突变,很有可能导致物种内部的死亡或永久伤害,从而导致物种灭绝。即使现有的眼睛可能会突然出现,环境也不太可能是相关的:例如,单细胞生物能用它做什么?
为什么意识可以从注意力进化而来
注意力图式理论 (AST)提出了一条新的途径来解释意识是一个自然进化过程。我们的大脑需要构建现实的简化模型,因为有太多的信息需要完全处理。结果,它进化成以牺牲其他信号为代价来深度处理少数信号,简而言之,信号竞争,赢家出现。这种数据处理方法被称为注意。一旦你的大脑开始专注处理,它有可能影响你的行为吗?答案是肯定的,注意力的集中控制可以协调所有感官,并将感觉器官指向任何重要的东西,也就是显性注意力。下一个进化进步是在不移动感觉器官的情况下从精神上转移你的注意力,也就是隐蔽注意力。为了控制虚拟运动,大脑需要一个内部模型(可以说是它的草图),而意识就是那个模型。
Consciousness encompasses both, the information about which you are aware and the act of experiencing it (i.e. awareness)
虽然我们说我们意识到信息的*,但实际上是大脑计算出的信息。就像颜色是真实事物的计算表示:光,觉知是真实事物的计算表示:一个人自己的注意力。如果是这样,为什么觉知总是被描绘成非物质的本质?原因很简单,因为大脑不需要底层电路的细节,而仅仅是一个近似值,一个快速有效的行为指南。再举一个例子,白色作为一种颜色在物理上是不可能的(因为白光是所有颜色的混合),它是大脑建立的真实世界的一个不准确的模型。我们可能也有这样的感觉,意识是一种涌现现象,因为潜在的现象(即注意力)是信息可以进入的一种涌现状态:它产生于信号中赢家的选择过程。*
理解和预测另一个人的行为在像智人这样的社会物种的生存中起着关键作用。在各种标准中,一个人的注意力状态可能是预测其行为最相关的标准。因此,用于模拟自己注意力的相同机制最终进化为基于大脑中计算的信息(如凝视方向、肢体语言、以前的会议等)来模拟另一个人的注意力。意识不是我们或另一个人拥有的东西,而是我们大脑赋予自己或他人的一种属性。就像我们通常报道的那样,它的神秘本质实际上可以用认知偏差来解释。这也可能是为什么人类自然倾向于将意识归因于许多事物,如木偶(更不用说那些口技表演者)、树等等。
从注意到意识的完整进化过程总结如下图。
A sketch of the evolution of attention and consciousness. This linear progression is a simplified version of the actual evolutionary process that contains many feedback loops and different types of attention (e.g. spatial attention). The key point is that attention appeared earlier than consciousness and its modelling by the brain led to what we call consciousness.
结论
理解一种现象是设计它的第一步,所以如果我们有了对意识的解释,我们就有希望成功地将同样的功能构建到我们的人工智能中。如果目标是建立一个模仿人类的人工算法,那么它需要“意识到”,即拥有一个注意力预测模型,并将其应用于自身和他人。虽然“意识”或“自我意识”是模糊和无定形的东西,没有共同的基础,当阅读这样的文章时,很容易混淆苹果和橘子。如果机器人自己报道了记者实际上写的东西,我会感到非常惊讶,但事实并非如此,因此应该正确看待这个问题。更一般地说,图灵测试主要评估社会习俗,计算机是否真的有意识并不重要,重要的只是人们对它的看法。
我不是人工智能专家,尽管我对什么是计算机和算法有很强的了解,当我看现有的人工智能文献时,在我看来,除了在特定的视野中,对隐性注意力的研究并不多(更不用说对其建模了)。这告诉我们两件可能的事情。在试图创造有意识的人工智能时,研究人员要么走错了路,要么错过了关键点。或者,我倾向于相信,人工智能与人类的差异如此之大,以至于这个概念根本不相关。人工智能的设计、构造和运行方式与人类在自然限制下的进化和行为方式毫无共同之处。如果有一天一个 AI 自我报告它是有意识的,人类的意识签名很可能与它无关。我们应该只是相信它还是改变我们自己对意识的看法?无论如何,没有能力用人类的概念解释其推理的人工智能是不太可能被社会接受的。给它配备像意识这样的人类特征可能是我们信任它并解决黑箱问题的唯一方法,也就是说出于需要的人工意识。
没有下面这本书就不会有这篇文章: 意识与社会大脑——迈克尔·格拉齐亚诺。
注意:本文中表达的观点是作者的观点,不一定反映引用参考文献的观点。
如果你喜欢这篇文章,请点击下面的掌声按钮,与你的观众分享,关注我的媒体或阅读更多见解:人工智能的计算机科学的进化忘却的美好 和 为什么软件开发应该在生活中帮助你
涅槃谬误和为什么概率胜过确定性
涅槃谬误的原则认为,如果无法达到完美,为什么还要费神去尝试呢?
这很容易让人联想到不容忍失败或反对新思想的商业文化。但更宽容的组织文化也需要确定性。
从表面上看,这种确定性的预期似乎是合理的。如果你将大量的时间和精力投入到一个特定的项目中,难道你不应该非常确定,或者至少非常接近它吗?
但是一个人能绝对肯定任何事情吗?我们都受制于自己的偏见和一厢情愿;我们用直觉填补证据的空白,并且在需要的时候做出决定。
机器学习及其产生的预测为企业提供了巨大的机会,但结果很少能提供完美的确定性。相反,它们提供了结果的概率。这就要求商务人士在如何制定、交流和贯彻策略方面掌握新的数学词汇。
为什么概率胜过确定性
企业可以在已知成功概率的项目上下较小的赌注,而不是坐等确定无疑的大事。简单的成本与概率计算意味着,人们可以通过执行以前从未考虑过的活动,始终获得正确的结果。
这一切怎么可能?1997 年击败加里·卡斯帕罗夫的人工智能技术(可以说是通过了国际象棋领域的图灵测试)和今天的 power Siri、Alexa 和 Pandora 都是基于概率的。大量的数据输入被压缩成一个结果/答案——一个(很可能)正确的答案。
想象一下,使用你的企业收集的所有数据来计算某个营销计划成功的可能性,或者价格下降对客户保持和获得的影响。
所有这一切都是非常可能的,并且比以往任何时候都更加触手可及。
Deducive 正在将机器学习和人工智能引入各种规模的企业,以简化和解决看似棘手的问题。
当竞争对手寻求确定性并依赖旧的思维方式时,有远见的公司可以通过站在概率的正确一边而向前飞跃。
请联系我们 hello@deducive.com 公司,了解我们如何(很有可能)帮助您。
最初发表于【www.deducive.com】。
聊天机器人的非编码者指南
所有该知道的。
作为学习过程的一部分,每个聊天机器人开发者最终都会写一些教程,我当然也不例外。我知道已经有几十个教程了,但我还是想再写一个,因为
我相信我能比我看过的大多数文章更好地解释某些方面。
变得健谈🤖
聊天机器人在过去的几年里已经走了很长的路,你可能已经知道了,因为你正在阅读这篇文章。品牌一直在使用聊天机器人吸引客户,因为争夺手机空间真的很难,因为大多数下载的应用程序几乎一次都没用过。
因为这些聊天机器人存在于你的聊天应用程序中,所以没有必要下载任何对每个人都双赢的东西。
Chatbots are the new apps.
这些机器人帮助我们将服务层隐藏在简单的英语对话层之后,这样我们就不必再用笨重的应用程序来预订出租车或订购披萨。每个人都理解机器人带来的便利,它们可以安排会议或预订餐厅。
深入研究机器人
基于检索的聊天机器人
早期的聊天机器人依赖于基于规则的方法,并具有硬编码的响应。像你这样聪明的程序员会试图预测用户可能说的每一句话,并为你能想到的每一个问题建立一个庞大的回答列表。
即使在深度学习取得进展之后,这种情况也没有太大变化,我们仍然需要提前预测整个对话流程,并建立一个预定义响应的知识库,但在机器学习的帮助下,这种努力可以大大减少。我们可以使用一个简单的分类器来识别查询背后的意图,这样它就可以将两个意图相同的问题放在一起,即使措辞不同,也可以有相似的响应。
生成聊天机器人
深度学习每天都有新的发现,并迅速改变着技术。这些模型不依赖于硬编码的响应,而是从头开始生成它们。由于它需要大量的数据,它本身也存在效率低下的问题,比如语法错误、不相关或不一致的回答。我还没有看到它们被部署到任何生产系统中。
它们在实践中似乎不起作用,企业不会让他们的客户冒险使用聊天机器人,因为聊天机器人有如此多的回复自由。
今天深度学习的大部分价值都在你可以获得大量数据的狭窄领域。这里有一个它做不到的例子:进行一次有意义的谈话。有演示,如果你精心挑选对话,它看起来像是有意义的对话,但如果你真的亲自尝试,它很快就会偏离轨道。—安德鲁·吴
聊天机器人的解剖学
理解语言是机器学习的圣杯。约翰·詹南德雷亚
智能聊天机器人有两大组成部分。
- **NLU 引擎:**这个作品致力于理解句子的真正含义,可以使用各种技术来推断,如对意图进行分类(使用 Sklearn、TensorFlow 等),识别重要实体(使用 Spacy、CoreNLP 等 NER 库),找到情感并将上下文存储在变量中,并在对话中循环。
NLU 仍在努力识别这句话的真正含义,但这些统计成分放在一起帮助我们缩小差距,是我们今天拥有的最好的东西。
拉沙·NLU:这个框架允许我们对意图进行分类,并通过灵活地使用不同的库来识别实体,从而完成分类和命名实体识别任务。
- **对话管理:**在理解了用户要说的话之后,这个模块的主要功能就是寻找回应。这些机器人模仿人与人之间的互动,这就是开始变得复杂的地方。
对话管理器负责保存聊天历史的状态,进而维护对话的流程。
Rasa Core:引导对话,考虑对话的历史和外部环境。Rasa 从真实对话中挑选模式,而不是成千上万的规则。
僵尸工具 :这可以让你使用不同的规则定义自己的故事。没有机器学习被用来定义对话的流程。
对话流程
在构建对话场景时,有两种类型的对话
线性对话
这类似于一个问题/答案模型。此对话的目的是收集完成任务所需的信息。这也称为槽填充,因为我们需要在进行下一步之前填充强制实体。
例如,在创建一个预订电影票的机器人时。我们需要在订票前了解一些必要的信息,比如
- 电影的名称
- 显示计时
机器人将不断询问所需的问题来填充这些信息,并且它必须足够聪明来为相应的插槽选择正确的实体。
非线性对话
非线性对话完全取决于用户的反应,并且可以有几个分支,这允许对话在其流程中采取不同的路径。这种类型的对话似乎更人性化,因此如果处理不当,会变得更加混乱和复杂。
开发人员可以利用各种平台来创建惊人的故事和复杂的对话流
- Rasa — XML,Python 体验
RasaCore — Story Mode
DialogueFlow
BotEngine
聊天机器人术语
代理人
聊天机器人,也称为对话代理或对话系统,最好描述为与对话管理器结合的 NLU 模块。
意图/互动:
意图代表了用户所说的和你的软件应该采取的行动之间的映射。这些是机器人的预定义组件,定义用户的请求并对它们进行分类以采取适当的行动。
实体:
用户请求进一步处理所需的任何重要数据或参数被称为实体。最先进的 NER 系统可以用来从句子中提取这些实体。
例如:我想订一张从 巴黎 到 纽约 今天 晚上 10 点**的机票
上面突出显示的值是位置和时间实体,这些信息对于处理和预订机票至关重要。
槽填充:
一些强制的实体被称为槽,槽填充的过程是不断地提示用户,直到这些槽被填充。
上下文:
上下文表示用户请求的当前上下文。这有助于根据用户的偏好、地理位置、应用程序中的当前页面或谈话主题来区分可能模糊或具有不同含义的短语。
例如,如果一个用户正在听音乐,发现一个引起他们兴趣的乐队,他们可能会说:“我想听更多他们的音乐”。作为开发人员,您可以在请求的上下文中包含乐队的名称,以便代理可以在其他目的中使用它。
回退:
当用户请求不属于任何一个提到的意图时,我们可能会有一系列的响应,比如我不明白,我不太知道那是什么意思等等。**
动作:
在找到请求的意图并填充所有必要的槽之后,机器人可能需要执行一个特定的动作,假设是连接到第三方插件的 cloud/lambda 函数。
Web 集成
一旦你的聊天机器人准备好面对人类,是时候将它与一些领先的聊天机器人平台集成在一起了。大多数 bot 框架都自带插件来实现无缝集成。Telegram、Messenger、Google Assistant 等平台通过向其拥有的广大受众展示您的产品和服务,打开了新的机会,并反过来发展您的业务。
聊天机器人礼仪😺
设计聊天机器人最具挑战性的部分之一是让对话尽可能自然和高效,而不是如何分类意图、识别实体、生成丰富的响应或进行一些花哨的技术集成。
创建一个机器人在技术上并不困难,但这是一个丰富的用户体验和希望用户回到你身边的问题。一个好的设计应该少关注聊天机器人要说什么,多关注用户要说什么。
不要试图通过直接提问来快速填充你的位置,因为这可能听起来太命令和无聊,可能会推开用户。
如果处理得当,如果你有足够的关于用户的信息,大多数问题首先不需要答案。另一种方法是存储用户的上下文,并在对话中携带它,以便在有任何疑问时使用。
如果有必要问一个问题,试着用不同的方式问,注意不要问一个用户已经回答过的问题,如果实体识别失败,通常会出现这种情况。(多训练!!)
即使在完全不同的会话中响应,也应不惜一切代价避免机器人重复响应。最好的方法是为同一话语准备一堆预先配置好的响应,然后在回复时随机挑选响应。
Different ways of responding to the same intent
这个例子显示了 3 个不同的响应,字面意思是相同的帮助意图。
用户喜欢他们的机器人有幽默感,能够根据上下文讲笑话。这可能会变得棘手,因为不是每个人都喜欢机智的回答,所以谨慎使用这种方法,只有当你有情绪分析器来预测用户的情绪时才是可取的。😜
给你的机器人起一个名字和一个个性对于拟人化机器人是很重要的。聊天机器人用户通常没有什么私人问题想问,你的聊天机器人最好为他们做好准备。谷歌的聊天代理将所有这些意图归类为机器人。个人*,并有一长串机智的回复😉*
- 你是机器人吗?
- 你叫什么名字?
- 你几岁了?
- 你好吗
如果你喜欢阅读它,并发现它很有意义,请继续关注,分享并鼓掌!!
北欧人。艾节——你错过了什么
从音乐推荐和手机结账到紧急呼叫和社会的未来,就职 北欧。AI 大会是一个令人眼花缭乱的快照,展示了围绕人工智能如何影响我们的生活、工作和娱乐的最新研究、技术、思维和辩论。
3 月 7 日在哥本哈根 Vega 举行的首届活动展示了该地区在该领域工作的许多最令人兴奋的初创公司和公司,探索我们现在的位置、未来的方向,以及推动北欧地区发展还需要做些什么。
做不下来?这是你错过的。
莎拉·吉尔的话
首先:为什么是北欧人工智能?
Nathan Benaich 为北欧人工智能领域目前正在发生的事情以及北欧人工智能为何如此重要设定了场景。他演讲中的一些要点包括:
1。 对北欧公司的投资和退出正在增长 —在 2016–2011 年和 2000–2010 年间,交易增加了 5.7 倍,投资增加了 3.6 倍。
2。欧洲拥有强大的资源—470 万开发人员对 410 万美国开发人员,2 家人工智能公司成立于 2016 年至 2011 年,2010 年至 2000 年。
3。聚会越来越多——在过去的五年里,赫尔辛基+斯德哥尔摩的聚会增加了 20 倍,回复也增加了 10 倍。
Slide by Nathan Benaich
Slide by Nathan Benaich
北欧的心脏。AI 的使命是将北欧地区所有建设、研究、投资和思考人工智能的人聚集在一起,帮助他们做更伟大的事情。
它是关于激发创业公司、行业和学术界之间的联系,以及将新兴的当地社区、聚会和团体联系在一起,以聚焦正在发生的事情,并推动整个北欧地区共同前进。
Nathan 谈到了目前欧洲技术生态系统的分裂,以及为什么促进斯德哥尔摩、哥本哈根、雷克雅未克、赫尔辛基和奥斯陆之间的合作、讨论和知识共享如此重要,但更重要的是,促进与伦敦、柏林和更远的其他主要中心的合作、讨论和知识共享。
“欧洲枢纽之间的关系是脆弱的或者充其量是新兴的”——@ NathanBenaich关于为什么支持【nordicAI等倡议很重要
Slide by Nathan Benaich
状态检查:AI 的状态
阿齐姆·阿兹哈尔描绘了人工智能现状的大图景——自从人们第一次开始谈论它已经过去了大约 60 年。他谈到了技术革命的周期,数据的爆炸和这个领域的工作遗产,这意味着我们今天可以建造有趣的东西。
他最后呼吁人们、公司、初创公司和研究人员大胆大胆地思考他们在人工智能方面的雄心,但也要仔细思考利用这项技术的意义,谁掌握着缰绳以及它将对社会产生的影响。
北欧。AI:演讲者重点介绍
🔥Danny Lange 曾是优步机器学习的负责人,现任哥本哈根创立的 Unity Technologies 的人工智能和机器学习副总裁,他带我们走过了人工智能在企业中的应用。他谈到了典型的商业挑战(如需求波动、供应复杂性、不断增长的客户期望等),以及机器学习如何“让企业再次变得聪明”。
🔥在“机器学习的干扰”中,我们听到马士基的数据科学家 Clemmensen 讲述了该公司如何使用该技术处理数百万行数据的真实例子,以改善他们处理从集装箱维修到预测到流失的一切事情的方式。
🔥Wise.io(成立于哥本哈根,被 GE Digital 收购)的联合创始人 Henrik Brink 通过一个工程师将机器学习部署到生产中的 5 步过程,开始了实际工作。
Slide by Henrik Brink
🔥来自爱立信数据中心自动化部门的 Jesse Chao 谈到了用户数据、应用数据和网络/基础设施数据的机会,以及围绕用户体验、网络自动化、连接用户安全和身份管理以及基础设施效率的使用案例。
🔥 Rafal Lukawiecki 带我们对人工智能的过去、现在和未来进行了一次疯狂的短暂停留之旅。他的演讲谈到了为什么企业需要人工智能、人工智能和数据科学来理解成功和失败、他们的客户、规划未来、尝试冒险和做出明智的决策。
**
🔥Nathan 和 Azeem 与 Creandum 的 Bjarke Staun-Olsen 和北欧制造商的 Hampus 雅柯布逊从投资者的角度谈论人工智能,话题包括小公司如何在这个领域赶上大公司。你可以读读 Bjarke 关于北欧的文章。AI 和接下来的这里。
🔥该计划的研究部分看到了 DTU ( 丹麦技术大学)教授 Ole Winther 在学术界和工业界谈论人工智能。DIKU ( 哥本哈根大学)机器学习教授 Christian Igel 讲述了机器学习对科学和社会的影响,雷克雅未克大学的 Kristinn Thorsisson 和冰岛智能机器研究所向我们概述了过去十年冰岛人工智能领域发生的事情。
展示:北欧正在酝酿什么
如果围绕北欧人工智能生态系统中的所有参与者建立一个社区是运动的第一步,那么下一步就是帮助让国际社会关注这里正在发生的事情。这是此次活动中展示的所有初创企业和扩大规模企业的快照。
Slide by Nathan Benaich
🌍瞳孔
mapi pillar成立于马尔默,总部仍在马尔默,是一个开源的街道级图像平台,由社区和计算机视觉拍摄的众包图片提供支持。在活动上,联合创始人兼首席执行官 Jan Erik Solem 表示,mapi pile 现在拥有 1 亿多张照片,在 190 个国家拥有大约 10 亿个标记图像区域。在这里阅读更多关于他们正在建造什么和为什么的信息。
🌍Spotify
“给我看你的播放列表,我将为你的生活配乐”是 Spotify 的工程副总裁 Andreas Mattson 的谈话名称。Spotify 的音乐流媒体服务在 3 月初达到了付费用户的一个新里程碑,现在全球有超过 5000 万人使用它来查找、聆听和分享音乐。安德烈亚斯带我们了解了支持 Spotify 著名播放列表和推荐的机器学习技术。
Slide by Andreas Mattson
🌍克拉纳
那么机器学习改善顾客结账体验的机会在哪里呢?Klarna 公司的【】Samare Jarf 解释说,这家瑞典支付技术公司如何建立统计模型来个性化客户体验。她谈到 Klarna 如何根据顾客对支付方式等变量的偏好来调整顾客的结账体验,以提高从浏览到购买的转化率。
Slide by Samare Jarf
🌍布莱克伍德 7
来自 Blackwood Seven 的米歇尔·格林讲述了机器学习如何应用于一个完全不同的行业,并在媒体机构领域谈论了贝叶斯人工智能引擎。Blackwood Seven 的 Maggie 平台旨在让客户根据从媒体价格和宏观经济到天气和股市波动等领域的数据预测媒体支出的影响。格林谈到了未来,人类媒体规划者可以向人工智能简要介绍战略,并建立一个可以建立和推理模型的人工智能。
Slide by Michael Green
🌍科尔蒂
哥本哈根和旧金山的 Corti 将这项技术引向另一个方向,将机器学习应用于真实的人类对话。该团队的机器学习负责人Lars maal le谈到了深度学习在高度复杂的声音信号上的应用,以及如何在应急服务中部署。紧急服务是一些最紧张的对话界面,即使对于专业人员来说也需要很高的专业知识。Corti 通过基于大量历史数据的诊断来帮助界面,这对于人类来说是不可行的,并确保在分秒必争的情况下做出更快速的救生决策。
Slide by Lars Maaløe
他还指出,将这项技术应用于其他背景下的人类对话存在巨大的机会,并引用了一项研究,即每年客户给美国公司打电话的次数超过 2570 亿次,但这些对话中只有一半得到解决。
🌍美瞳
另一家将机器学习应用于医疗保健领域的初创公司是MedEye ,旨在防止床边用药时出现错误。也就是说,确保患者在正确的时间获得正确的药物,并且他们知道自己在服用什么。它的扫描设备允许护士将特定患者的药物放入一次性抽屉中,并使用计算机视觉来验证药物和剂量是否正确。Medeye 也有一个应用程序,患者和他们的家人可以跟踪他们正在服用的药物。它是关于防止错误,拯救生命和削减错误的成本。
这是母公司 Mint Solutions 的第一款产品,该公司专注于使用技术来帮助护士和医生。
🌍iZettle
总部位于斯德哥尔摩的移动支付公司 iZettle 的分析平台负责人 Andreas Meisingseth 分享了他关于使用开源和 AWS 进行机器学习的实用方法的演讲。iZettle 是一家移动支付公司,它让咖啡馆、面包店和沙龙等微型企业接受客户的信用卡。虽然支付是业务的核心,但更大的前景是为传统金融服务服务不佳的商家建立一套数据驱动的服务。
🌍Lytics
另一家位于马尔默的初创公司是 Lytics.ai ,它基于深度学习提供数据驱动的个性化预测医疗保健。Lytics 专注于严重疾病,如肾衰竭、慢性阻塞性肺病(慢性阻塞性肺病)和心脏问题。该公司认为,深度学习有可能在许多层面上彻底改变医疗保健行业,改善患者的生活,降低医疗保健提供商的成本。
🌍阿伦多分析
ArundoEMEA 地区数据科学总监 Ellie Dobson 谈到了最近在收集和分析数据方面的技术进步如何使人工智能优化每个行业的梦想实际上可以实现。Arundo Analytics 利用大数据和机器学习来分析行业数据,帮助优化运营。其针对资产密集型行业的专有技术使用大数据和机器学习技术来分析资产数据,以优化运营,并在事件发生前为客户提供洞察。
🌍电影
Movi 是一个基于 AI 的视频引擎。联合创始人兼首席执行官 Lars Erik Ravn 在奥斯陆成立,现在总部位于帕洛阿尔托,他分享了他对视频技术未来的愿景。Movi 开发智能视频技术。在 Movi 播放器上播放视频时,Movi analytics 可以收集与视频内容相关的一切数据,然后创建自动化的内容策略。
🌍好奇的艾公司
好奇 AI 公司专注于无监督机器学习。该团队开发了梯形网络技术,并表示现在开始将其无监督学习技术应用于各种试点应用领域。该公司表示,潜在的最终应用可能包括用于自动驾驶汽车的新型机器视觉技术、高级软件代理和智能个人助理。
敬请关注:关注北欧人工智能的下一步
那是第一个北欧人的包裹。AI 大会,但是这个运动才刚刚开始。使用#NordicAI 分享、关注和联系北欧人工智能社区正在发生的事情:让我们建立一些令人敬畏的东西。
👉中等
TED 演讲者的职业
是什么样的背景点燃了 ted 演讲者们思想的多样性?继之前关于 TED 演讲的反复出现的话题和特点的帖子之后,今天我将看看演讲者的职业。
由于许多演讲者都戴着一顶以上的帽子,我绘制了一个同时出现的职业网络:
TED speakers of multiple occupations
接下来,我们放大到与至少 20 种其他职业同时出现的职业。我们可以看到许多有趣的组合:演讲者兼任表演者和活动家,艺术家/设计师和社区建设者,企业家和动画师,作家和禅宗牧师,科学家/技术专家和单口相声家。
People with these occupations branch out a lot
这是我关于数据科学和视觉故事的# 100 日项目的第 62 天。我的 github 上的全部代码。感谢阅读。如果喜欢,请分享。欢迎新主题的建议和反馈。
每个数据科学家都应该知道的一个定理
本文是每个数据科学家都应该知道的最重要的定理之一的快速指南,即中心极限定理。
这是什么?什么时候可以不用?为什么重要?和大数定律是一回事吗?
中心极限定理与大数定律
通常,中心极限定理与大数定律相混淆。大数定律表明,随着样本量的增加,样本均值对总体均值的估计越准确。
这两个定理的区别在于大数定律描述的是单个样本均值,而中心极限定理描述的是样本均值的分布。
中心极限定理(CLT)
中心极限定理指出,如果样本量足够大,任何独立的随机变量的均值的抽样分布将是正态或接近正态的。
换句话说,如果我们采取足够大的随机样本,所有样本的比例将围绕人口的实际比例呈正态分布。请注意,应用 CLT 时,基础样本分布不必呈正态分布。为了进一步细分,想象收集一个样本并计算样本平均值。一遍又一遍地重复这一过程,每次从总体中收集一个新的独立样本。如果我们绘制每个样本平均值的直方图,分布将呈正态分布。
那看起来像什么?正态分布有一个钟形曲线,如下所示。大部分数据都聚集在中间,即平均值。该分布以平均值 0 为中心,标准偏差为 1。
你可能想知道,什么才算足够大?一般规则是,如果样本量为 30 或更多,样本量就足够大,足以容纳 CLT。
这是一个有趣的 CLT 工作演示。在制豆机或高尔顿板中,珠子从顶部落下,最终以钟形曲线聚集在底部的容器中。
什么时候可以不用 CLT?
- 取样不是随机的。
- 基础分布没有定义的平均值/方差。
掷骰子示例
CLT 的一个经典例子是掷骰子。每个数字都有六分之一的可能性出现在掷骰子中。我们可以用 python 来模拟掷骰子。
让我们将样本量设为 50 次观察。代码 randint(1,7,50)给出了一个由 50 个数字组成的数组,其中数字 1 到 6 出现的概率相同。让我们从观察 10 个样本平均值的分布开始。
means = [(randint(1, 7, 50)).mean() for i in range(10)]plt.hist(means, bins=’auto’)
plt.title(‘Histogram of 50 Dice Roll Sample Means’)
plt.xlabel(‘Average’)
plt.ylabel(‘Count’)
plt.show()
Result of 10 sample means
这个分布还没有太多的形状。让我们把样品数量增加到 1000 个。请注意,我们越来越接近钟形曲线。
Result of 1,000 sample means
现在,让我们来看看数量极其庞大的样本,确切地说是 10 万个。这看起来像一个非常明确的钟形曲线。是不是很神奇?我们的样本分布看起来就像高斯分布!就像 CLT 告诉我们的那样。
Result of 100,000 sample means
我们为什么关心 CLT?
它是统计学的基础。出去收集整个感兴趣人群的数据是不可能的。然而,通过从该人群中收集数据子集并使用统计学,我们可以得出关于该人群的结论。
CLT 从本质上简化了我们的分析!如果我们可以宣称正态分布,那么关于数据集我们可以说很多事情。在数据科学中,我们经常要通过统计显著性检验,即假设检验来比较两个不同的总体。借助 CLT 的力量和我们对高斯分布的了解,我们能够评估我们关于两个总体的假设。
感谢您的阅读!如有疑问,请发表评论。
比成为专家更好的一件事
现在,我标榜自己是商业数据分析的 Excel 专家。我已经在为自称的 Python 和 R 数据分析专家缝制游行服了。但是,如果你问我的 Excel 证书,你会看到很多我还不是专家时做过的事情。比成为专家更好的一件事是创造价值。任何人都可以用他们所拥有的知识水平创造价值。
如果我告诉你我的 Excel 之旅是从 2011 年 10 月认真开始的呢?如果我告诉你,当微软授予我微软最有价值专业人士时,我不是 Excel 专家,使我成为非洲唯一一个获得该奖项的人,会怎么样?如果我告诉你,我一开始为外国客户和跨国公司做的所有令人惊叹的工作,最终让我有勇气以全职独立顾问的身份独立创业,只是因为我把自己放在那里,那会怎么样?如果我告诉你,甚至我的畅销 Excel 书和国际知名的 Udemy 课程都是我在默默无闻、不是专家的时候创作的内容汇编,会怎么样?如果你看看我的生活,很容易认为我过得很好,我会很高兴地说阿门。但如果你问我,我会告诉你,我所取得的一点点成就中,有一件事我可以归功于我选择了给人留下深刻印象,而不是给人留下深刻印象。
“有什么区别?”你可能会问。我宁愿让我的作品为我说话,也不愿把自己包装成一个真正的人。我宁愿创造真正的价值,而不是价值承诺。我宁愿无偿地做一些有价值的事情,也不愿制作将我描绘成价值创造者的营销材料。
如果你创造价值,你是不是专家就不重要了。有没有碰到过马克安吉尔和艾曼纽的喜剧系列?他们是 YouTube 上最受欢迎的尼日利亚喜剧组合。你试过问自己他们是专家还是价值创造者吗?如果你还没有,现在是时候做了。从大多数枪击事件的糟糕视频质量和低预算来看,显而易见的答案是,他们不是专家。他们纯粹是价值创造者,这也是他们比专家排名更高的原因。每天,我都试图找回成为专家前的创造性时光。那些我靠巨大的交易量创造纯粹价值的日子,而不是现在,我努力不辜负我的专家身份。如果你还不是某个领域的专家,而你对这个领域有着深厚的热情和一些知识,我祝贺你,也羡慕你。你有千载难逢的机会不受干扰地创造纯粹的价值。希望你不是看不起自己,耽误创作有价值的作品。不要浪费这段时间。分享你所知道的一点点。尽你所能创造价值。因为当你最终成为一名专家时,你在形成期创作的那些作品将成为你将指向的可靠凭证/文件夹。
如果你注意到了,我最近写的 Python 和 R 帖子比 Excel 帖子多。嗯,这是因为我再次使用这种方法将自己树立为 Python 和 R 专家。当这个标签最终贴上时,我可以无耻地将自己标榜为 Python 和 R 专家,猜猜我指的是什么工作?如果你到现在还没有跳过任何一个句子,那么你会猜对的。
最初发表于【www.olafusimichael.com】。
在高管搜索中,你只需要跟踪两个指标
在招聘中,度量标准可以作为一种揭示性的绩效衡量标准。
它们还会让你偏离任何招聘项目的最终目标:尽快安排最好的候选人。
换句话说,做你的客户雇你做的事情。
考虑到这一点,招聘是一个相当简单的做法。但是,许多搜索公司已经决定关注那些不能真正衡量成功的东西。一大堆额外的、销售类型的指标已经悄悄进入招聘:打电话、发邮件、收简历——这些只是达到目的的手段。虽然跟踪这些活动当然是可以接受的,但是用这些指标来定义成功是不合适的。
归根结底,您的客户并不关心这些指标。充其量,它们是借口(“看看我做的所有活动!”)只有在你没有快速安排候选人的时候才会出现。工作和完成工作是有区别的。活动不等于生产力。最终,你如何快速有效地安置候选人决定了你对客户的价值——而不是需要付出多少努力。
两个指标——安置率(“PR”)和安置天数(“DTP”)——应该定义一家公司的表现。
以下是衡量这两个关键指标将如何帮助你的搜索公司确定什么是有效的,什么是无效的。
简单是关键。
确定安置率就像问一个是或否的问题一样简单:安置完成了吗?要么是一家猎头公司安排了一名候选人(是),要么是内部招聘(否),要么是该公司被解雇(否)。安置率的计算方法如下:
安置率 =安置总数/项目总数
平均安置天数衡量的是进行一次安置所需的平均时间。计算方法如下:
安置天数 =安置项目总天数/安置项目总数
这两个简单的指标提供了对有效性和效率的真实测量。跟踪他们——你可以自己做,也可以用招聘软件如时钟来做——让你的猎头公司衡量什么是真正重要的。这也是一种简单的方法,可以展示公司内部的优秀员工,让人们专注于重要的事情。
跟踪这两个简单的指标有助于赢得工作并建立一种受驱动的工作场所文化。
当一个潜在客户找到你的猎头公司,要求你为他们的软件公司招聘一名营销副总裁时,你应该能够说,“是的,我们绝对可以帮忙。根据与您的项目类似的 31 个安置,我们的平均安置天数为 86 天。我们这类搜索的安置率是 94%。”
像这样的回答会让你的潜在客户知道你有成功的记录,并使用数据作为业绩的真正衡量标准。这可能看起来很激进,但实际上,它只是关注于正确的指标。
不跟踪这些指标的公司可能会带着一个懒惰的粗略估计接近客户,比如,“这应该需要,嗯…三到六个月的时间。”
像这样半心半意的推销不会给你带来很多客户。
除此之外,在内部创造宽松的期望会对你的招聘团队的表现产生反作用。如果招聘人员已经进行了三个月的搜索,但觉得在达到“大概”估计之前还有三个月左右的时间,那就没有紧迫感。他们会高兴地提前 15 分钟离开,认为他们有足够的时间来完成搜索。
但是当你把这两个关键指标带入等式时,它量化了生产力。它可以改变公司文化。
如果你衡量的是平均水平,并设定了这样的期望,即你公司的每个人在项目的 DTP 和 PR 方面都应该高于平均水平,那么你正在培养一种卓越的文化。你的团队知道他们是如何被衡量的,并且知道唯一真正重要的事情是做好布局并且高效地做。他们会竭尽全力完成工作,在 DTP 和 PR 方面达到“高于平均水平”。
如果这需要 10 个电话或 1000 个电话,那就这样吧。
有一种方法来衡量表现也有助于你奖励优秀。对表现优异的员工实施奖金制度,根据他们的 PR 和 DTP 平均值与同事进行比较。你可以很容易地在下图中绘制出你公司的平均公关和 DPT。
那些表现高于平均水平的人是“伟大的”或你的“左上表现者”。
只有其中一项指标高于平均水平的人属于“好”的类别。
那些在这两项指标上都没有超过平均水平的人需要加快步伐。
瞧,你有了一个简单的、指标驱动的方法来激励优秀的绩效。
真正变得更好并持续发展业务的唯一方法是跟踪这两个指标,并让自己成为左上方的表现者。
记住,最终,客户只关心你是否能快速找到一个好的候选人。
关注正确的指标将有助于您的公司实现目标。
谈到分析,管理层只关心两个问题
相同的过程,不同的目的地
在物理科学(生物学、化学等)中。)在对一个非常具体的领域做了背景研究之后,一个大胆的假设被提出,测试被进行,结果被分析,并得出一个结论。
通常,这些假设并不针对特定的应用;目标仅仅是获取信息。物理科学致力于扩展人类知识的基础,但常常不知道这些知识的确切应用。
由于我们收集数据的能力在过去的四分之一世纪中激增,实际上有无限数量的观察可以使用分析来进行。这导致了一种方法,即在进行测试之后,在数据科学中开发假设。
虽然数据科学在这一过程中的行为应该像物理科学一样,但它在意向性上应该与物理科学有根本的不同。分析团队经常会问一些问题,比如“这些变量中的哪些是相关的”或者“是什么让这些变量不同。”
这些都是有趣的问题,有了大量的可用数据,它们肯定能得到解答。有无数这样的故事:分析师花费大量时间开发出卓越的见解,并将其呈现给商业领袖,但得到的却是缺乏热情和一句“那又怎样?”
所有洞见背后的 2 个问题
这里的问题不在于那些商业领袖。他们完全正确。分析过程的责任和核心功能是提供“那又怎样?”通过清楚地阐明他们的见解将如何回答以下两个问题之一:
如何增加收入?如何降低成本?
听起来很简单,因为事实如此。事实是,增加收入和削减成本是管理层的首要任务,几乎在任何时候都是如此。该公司没有一个分析团队来进行“有趣”的观察。企业领导者不希望必须自己找出如何利用数据洞察力来回答其中一个或两个问题。他们有成千上万的其他任务和责任。
这并不一定意味着每个洞察都必须立即提供改进的现金流。通常情况下,从一个新的观察到将一个业务流程落实到位,需要几个步骤来利用这些知识并让它影响底线。然而,这确实意味着路径应该是清晰的。
没有关键利益相关方的支持,分析就无法发挥作用。当这些决策者确信所提供的数据洞察将帮助他们完成工作:增加收入和削减成本时,他们将提供这种支持。
见解必须产生明确的影响
金融部门的零售端提供了这一概念的主要例子,其中关键决策者是外部客户。
随着易于使用的在线交易平台的出现,任何拥有智能手机的人都可以在任何地方参与股市交易。有了这种能力,就需要更多的股票知识,以及什么样的交易策略是有用的。有些机构的唯一目的是武装这些散户投资者的交易策略,使他们能够持续不断地产生利润。
这些散户投资者教育者提供的数据洞察力越好,他们为客户提供的价值就越大,因此他们的利润也就越高。因此,这些教育者应该专注于提供有影响力的见解。清晰回答“那又怎样?”这一问题的见解
许多面向散户投资者的交易策略声称有惊人的“胜率”他们会指出,他们的策略在 90%或更高的情况下都会产生利润,希望抓住客户的眼球。
在交易中,“赢”被简单地定义为产生利润。产生一分钱的交易就是赢;损失 10,000 美元的就是损失。你可以看到这是怎么回事。
胜率不应该是传递给潜在客户的主要洞察力。胜率如何提高收入或降低成本?并没有。一个客户可能在 99%的情况下用交易策略赢了,但随着时间的推移,可能会损失大量现金,假设损失的金额大于利润的总和。
如何更好地营销这些策略?"交易策略 X 将提供 28%的投资回报."现在,客户可以看到他们的收入将如何随着这一战略而增加。他们更有可能深入挖掘,并强烈考虑购买所述策略(如果存在)。
如果在一致性的背景下提到 90%的胜率,那就更有道理了。然而,这是一个次要的特征,只有当教育者知道他们的顾客把额外的价值放在收入的一致性上时才应该使用。即便如此,它仍然没有该战略将产生的回报重要。
了解提议变更的机会成本
解决方案很少像“采取行动,赚更多的钱”这么简单。大多数情况下,解决如何增加收入或削减成本的有意义的见解将指出需要对现有运营和战略进行的具体变革。这些变化可能会在业务的某个方面产生负面影响,即使是为了整体利益。毕竟,这些进程首先出现是有原因的。
在估计一项行动的机会成本时,必须考虑到这些负面后果。如果你不熟悉这个概念,机会成本是经济学中的一个术语,指的是你做特定选择时无法采取的行动的价值。
一个真实的例子是大多数年轻夫妇必须回答的问题:举办一场花哨的婚礼值得吗?
许多夫妇认为这对他们来说很重要,其他人更喜欢举行一个小型婚礼,并把这笔钱花在购买房子的首付上。这两个选项都不“正确”;这取决于双方对彼此的重视程度。这既是一个定量问题,也是一个定性问题(这就是为什么答案取决于所涉及的人)。
把钱用在首付上的夫妇认为把钱花在婚礼上的机会成本太高;他们发现拥有自己的家比与家人和朋友一起度过一个难忘的庆典更有价值。
如果一对夫妇认为婚礼是他们想要充分享受的生活事件,拥有一个家是好的,但不是优先事项,他们认为举办一场奢侈婚礼的机会成本足够低,所以他们选择这个选项。
让我们来看一个在医疗保健中如何发挥作用的高级示例。
对患者的耐心
自动化在医疗保健中变得越来越普遍,尤其是在医院中给病人用药时。医院的不同病房容纳有特定医疗需求的病人,因此需要特定类型的药物。
将医院药房的库存分配到适当的翼部的过程曾经是基于工作人员的经验和估计。诚然,这些估计可能是基于逻辑和理由,是好的,但它们不是最佳的。
随着机器学习和人工智能的结合,药剂师现在有能力根据复杂的分析来订购和分发药物。改善药物分配意味着它们更有可能在正确的时间到达正确的患者手中,从而改善健康状况。
在患者保护与平价医疗法案制度下,医院的底线与病人的健康结果直接挂钩。因此,这既增加了收入,又降低了成本。
虽然这种改进的分配无疑是为了更大的利益,但实施这一制度存在机会成本。它们不仅有可能是系统中的一个技术缺陷,将药物重新分配给一组患者意味着它们将被从其他患者中抽离出来。这是改变库存模式的自然机会成本。
还有一个人的机会成本。整个职业生涯都没有人工智能的医务人员将不得不适应新的模式。他们已经习惯了在医院的一个侧厅里有特定的药物,传统观念可能已经改变了。
最重要的是,一些医务人员可能不相信计算机的逻辑会比他们自己的更好。医院必须确定利用人工智能是否值得,医务人员可能会感到权力减少。
向管理层推销你的洞察力,做一名销售人员
这里的要点是,任何要实施的洞察和改进,都必须得到关键利益相关者的支持。换句话说,分析得出的结论必须卖给内部客户。
我们的内部客户关心什么?增收节支。
就像销售人员在异议出现前处理异议一样,在向管理层推销见解和提议的行动时,也必须这样做。
要使用分析将想法转化为实际改进,最好使用以下流程:
1.提出一个假设,明确导致增加收入或削减成本
注意——不正确是完全可以的,这是科学的一部分。 找个没用的东西一般都不贵。认为某事可行,实施它,然后发现你的假设是错误的代价要高得多。使用托马斯·爱迪生的逻辑,你获得了什么是无效的知识。
2.确定运营中需要发生哪些变化来提高底线
3.分析进行提议的变更的机会成本
4.概述具体的后续步骤,以进一步提高底线,或者发现下一个可以实现底线的洞察力
5.向管理层阐明你的发现
在这一点上,所有的管理需要做的是给你的建议竖起大拇指或竖起大拇指。如果从你的研究中不能清楚地看出向前发展在财务上是有意义的,你可能不会提出建议。
你希望决策者尽可能容易地做出决定。通过提前处理他们可能的异议,你就不必面对“那又怎样?”在你付出了所有的努力之后。
这是底线。
科学家需要知道的唯一定理数据
通常,我认为可能过于强调数据科学家的技术技能了。也就是说,在一些技术领域,科学家真的应该成为专家,而在这些领域中,假设检验是最重要的。
而假设检验依赖于中心极限定理。为什么重要?这是统计学的核心思想,让你用数据来评估你的想法,即使信息不完整。
它说什么
中心极限定理 (CLT)简单。只是说样本量大,样本均值是正态分布的。
显然,其中一些术语需要限定或解释。让我们从最后开始,然后倒着做:
正态分布是指一组数字遵循一条钟形曲线。大多数数字集中在平均值附近的中间,在最右边和最左边的数字较少。看起来像这样:
A Normal Distribution
一个样本均值是一个更大群体的随机子集的平均值。因此,如果你从 100 个人中随机挑选 10 个人并记录他们的身高,这 10 个人的平均身高就是样本平均值。你可以这样做很多次,因为这是一个随机选择,样本均值每次都会不同。
什么构成了大样本当然是主观的,但是这里经常引用的数字是样本量应该大于 30。实际上,您的样本可能需要大得多,这取决于几个因素。
CLT 只是说,当你的样本中有大约 30 个或更多的观察值时,这些数字的平均值就是钟形曲线的一部分。因此,如果你选取一组 30+大小的样本并绘制它们,它们将看起来像上图中的正态分布-大多数平均值将向中心下降,但你会得到一些向极端的观察结果。
CLT 不会对基础数据的分布做任何假设。人的身高分布不需要正态分布才能知道身高的样本均值是正态分布。
为什么它很重要
现在你知道这个定理说了什么,让我们来解释为什么它很重要。假设检验是科学用来验证想法的方法。假设检验的框架总是:我拥有的数据支持我的想法吗,或者我的数据可能只是偶然的?
科学家量化偶然性的方法是,假设他们的想法是错误的,通过评估观察他们数据的可能性。因此,即使你的想法是错误的,如果你可能会看到你收集的数据,那么这些数据并不能为你的想法提供支持。有道理,对吧?
现在棘手的部分来了:当你的假设是错误的时候,你如何理解一些数据有多大的可能性?要做到这一点,你需要构建假设你的假设是错误的,你可以看到的值的范围,然后评估在这种情况下你观察到的值的可能性。幸运的是,这正是 CLT 允许你做的。
一个例子
假设你是一家软件公司的数据科学家,你被要求量化你的主页有多吸引人。你有一周的时间来得到这个问题的答案。你决定用花在主页上的平均时间作为衡量这个想法的标准,并认为如果你的主页吸引人,花在主页上的真实平均时间应该超过五分钟。
虽然你可以测量所有用户在你的主页上花费的平均时间,但这对于在一周内回答这个问题来说并不十分有效。
因此,你取 10%的用户作为样本,在 7 天内测量他们在你的主页上花费的平均时间。在这个样本中,花在主页上的平均时间是 6.2 分钟。但是与上面提到的随机组的高度一样,您的估计值也会有变化,因为您只测量了您关心的用户的子集。
因为与所有用户相比,您的样本花费的平均时间会有一些差异,所以您需要评估您的结果是偶然的可能性。也就是说,如果你在主页上花费的真实时间是 5 分钟或更少,但是由于随机变化,你测量的用户子集的平均时间是 6.2 分钟呢?
幸运的是,只要你的样本量大于 30,你就可以使用中心极限定理来构建如果你的假设是错误的,即当真实的平均花费时间不超过 5 分钟时,你在主页上花费的时间的分布会是什么样子。这被称为零假设下的分布或零分布。
CLT 认为零分布将是正态的(即钟形的),它还认为可以用样本中的值来逼近构建零分布所需的值。零分布的中间值是零假设的平均值,零分布的标准差(即分布)是样本的标准差除以样本大小的平方根,该值称为标准差。这就是在零假设下建立样本均值分布所需要的一切。
然后,你可以将你观察到的值 6.2 绘制成分布图,以评估观察到该值的概率,即使你的假设是错误的。结果看起来像这样:
Distribution of Sample Means of Time on Homepage
因此,当真实平均值为 5 时,观察到平均花费时间为 6.2 的概率由蓝线右侧的绿色分布区域表示。这是从零分布中抽取的 10%随机样本大于或等于 6.2 的频率。如果这种可能性很小(在这种情况下,概率小于 1/100),你可以说你的证据表明花在主页上的时间大于 5 分钟。
贝叶斯呢?
好吧,我的标题可能有点误导。可能还有一个你应该知道的定理:贝叶斯定理。
贝叶斯定理也允许你使用数据作为证据,但不是让科学家问他们的数据是否支持特定的假设,而是根据一些证据描述一系列可能的值。贝叶斯最酷的一点是,你可以随着时间的推移不断收集证据,并更新你对可能性的看法。
我将在另一篇文章中详细解释贝叶斯。同时,欢迎在下面发表评论或提出问题,或者你可以在 Twitter 和 Linkedin 上找到我。
最优子群难题
利用机器学习算法的能力来解决不寻常的问题
如今,随着越来越多的计算机科学家/统计学家/数学家等,许多职业发生了转变。正在进入数据科学的世界。作为一名初级数据科学家,我在他们旅程的开始遇到了很多人,就像我一样。我最近想到,我遇到的许多低年级学生都有一种特定的思维模式,认为如果一个问题不能通过一个已知的模型来解决,那么它很可能是一个主要的问题,他们应该把它留给专业人员。就我个人而言,我认为即使我们作为初级数据科学家所拥有的工具也是极其强大的,我想用我所面临的一个有趣的问题来证明这一点。
我第一次遇到最优子群问题是在广告技术行业工作的时候。我是一名初级数据科学家,我的团队(实际上当时只有我一个人)的职责之一是分段过程。简单地说,给定一组描述一个人的特征,我们必须确定这个人是否喜欢鞋子、马、运动等等。但是,尽管我们实现了很高的准确性,并且在某些情况下我们甚至将特征直接映射到片段,业务人员对我们的结果并不满意:
“我们不能把一些细分市场卖给广告商,它们没有市场吸引力”。
他们进一步解释说,虽然他们完全信任我们的细分系统,但他们不能出售体育迷细分市场,例如,如果其中包含 70%的女性。“如果细分市场的统计数据对广告商没有意义,他们就不会购买”。
那么我们如何处理这个问题呢?让我们继续以体育迷为例:我们有许多个人的自我报告数据,所以我们对自己的标签非常有信心。问题是,我们的数据分布与人口分布不同,这意味着我们的男女比例(或任何其他比例)可能与现实世界不同。例如,根据我们的数据和维基百科,让我们看看美国的年龄分布:
很明显,我们的数据分布不同。此外,我们还在这张图上看到了坏数据的影响,因为我们知道的 55 岁以上的人比维基百科多大约 1500 万是极不可能的。无论如何,问题就在那里,它不仅与年龄有关,还与性别、收入和其他许多特征有关。因此,为了继续使用我们的细分模型,和满足业务需求,我们需要解决最优子组问题:
给定一组数据点 G,其在特征集 F 上具有分布 P,找出最大的子组 G’,其在 F 上具有想要的分布 P’
请记住, G’ 的大小直接影响 P’ 。有可能某个 G’ 会和 P’ 完全匹配,但是如果这个同一个 G’ 包含五个人,那么我们就真的卖不掉这个组了,不是吗?
那么我们如何解决这个问题呢?
我们面临的问题没有直接的“scikit-learn-implemented”解决方案。**但是,使用我们的数据科学工具箱中的基本但令人惊叹的工具,可以打造出一个优雅的解决方案。**让我们想想最优解:如果我们有一只知道最优解的小鸟,那么它可以告诉我们每个人是否被包括在G’中。所以也许,我们可以把这个问题转化成一个更简单的二进制分类问题。由于最终我们想要优化G’,选择逻辑回归似乎是很自然的,它使用梯度下降来找到最小化误差的解决方案。
问题是我们的数据没有标注,所以我们必须定义一个符合我们需求的损失函数。我们这样定义损失函数:
为什么我们不把这两种误差加起来呢?这是因为从商业角度来看,我们更喜欢比细分市场规模更高的比率准确性。对于上面的公式,如果片段大小误差很小,损失函数仍然取决于特征比率误差。另一方面,如果特征比率误差很小,损失函数将不会受到片段大小误差的太大影响。
现在让我们使用 MSE 估计量来定义单个误差:
The definition for segment-size-error
The definition for feature-ratios-error
我们将像一般回归模型一样进行:首先,我们将使用一组权重来计算谁在*G’*中。然后,我们将使用误差导数来更新同一组权重。但是在我们继续之前,让我们考虑一下我们想要处理的数据的结构。正确的功能将有助于加快计算速度,并扩展矢量化的使用,您将在接下来看到这一点。
我们处理了我们的输入数据, X ,,以便在其他特征中,它还将包括 F 中所有特征的二进制形式,这些特征是我们试图优化分布的特征。例如,特征年龄被分成我们关心分布的桶:即年龄 _18_24 、年龄 _25_30 等……(一热编码)。再比如:特征性别被转化为二元特征是 _ 男。
为什么我们需要这些二进制特性?因为它们让我们可以很容易地计算出想要的比率,而且很快。假设我们有标签向量 y ,那么计算每个特征比率就简化为这种矢量化形式:
X at feature represents the feature column in X
我们如何得到标签向量, y ?类似于逻辑回归模型:
For person i, y is the logistic function applied to f(w)
f(w) gives each person a “score” based on his/her features
最后,我们准备好找到我们的重量!
计算误差导数
让我们对权重向量 E_total w.r.t,w求导:
E = Error, t = total, f = feature-ratios, s = segment-size
段大小误差导数真的很简单,这里就不描述了。我仍然想展示特征比误差导数,因为它可以使用我们的二元特征很好地矢量化。根据商法则,特定特征对所有数据点 i 的特征比率误差的导数等于:
如果我们定义:
我们得到导数(w.r.t 特性 a )等于:
The feature-ratio error derivative for specific feature a. The sums are over all data points.
这真的很酷,但事实上,这可以进一步矢量化,如果我们用 X 替换特征 a 处的 X 以及我们关心的所有特征 F 。
结果
所以当我们开始这个项目的时候,我们没有定义一个片段大小的错误。这导致该部分的人数下降了近一半,但比率看起来很大:
The first run of the algorithm, no segment-size error was defined.
根据这些结果,我们将片段大小误差添加到特征比率误差,并得到这些数字:
Too many people, feature-ratios accuracy dropped sharply
这显然太咄咄逼人了。最后,我们想出了上面给出的公式,并得到了这些结果,在质量和数量之间找到了一个平衡点:
所有结果中值得注意的一点是,该算法是如何与年轻人和老年人进行斗争的。我们的数据分布高度偏向老年人,这在结果中可以清楚地看到。但是,嘿,商业人士对我们从扭曲的数据中得到的比率很满意,我们在 不到一分钟就在 20 万人身上收敛了!****
总而言之,我看到初级数据科学家坚持已知和已实现的东西。这显然不坏,但是不要害怕使用你所拥有的工具来解决不重要的问题,它可能会起作用!
音乐事物的顺序
对 18,000 条 Pitchfork 评论的分析
我记得读过的第一篇 Pitchfork 文章是大卫·克洛斯的特写,专辑,在阅读过度紧张的 Pitchfork 评论时听,它嘲笑了该网站的多音节吉他粉碎,这是一种将单词打包成沙丁鱼罐头的风格。在其最佳状态下,Pitchfork 熟练地完成了艺术评论家的一项工作,即赋予作品以意义。但这个网站一直遭受着口头烟火的副作用,要么令人眼花缭乱,要么令人焦头烂额——对火星沃尔塔的哑巴弗朗西斯的评估是“不顾一切地想要尽可能地毗连,结果是一堆同质的意识流浮夸”,两者兼而有之。即使诞生才几年,Pitchfork 就已经产生了足够多的自我模仿,以至于 Cross 可以让网站的档案做很多讽刺性的提升:
一边读着《动物评论》的歌曲《大钳》。(以下是一个简短的摘录):“最柔和的声音”将清晰的吉他声音层层叠叠,塔雷和贝尔在上面和谐地低语,仿佛在对着从边远地区小溪的皮肤窥视他们的视觉唱歌。他们质朴、神秘的声音和他们周围几乎没有受到干扰的森林表明,无论是什么样的鬼魂居住在这些森林里,他们都非常乐意听一两首摇篮曲。同样,史诗《拜访朋友》聚集了面目全非、变异的幽灵(即,二人组奇怪地操纵了声音),以树顶的面目盘旋在他们垂死的火上。”为什么不听听蒂沙拉·奎尔费瑟的《我变成了我们》。世界上唯一一个生活在铁肺里的三倍黄金销量的美国土著艺术家的致命和密封的渴望。这就好像刚刚死去,仍然是纯洁的天使,把手伸进圣母的喉咙,轻轻地发出人类此生希望听到的最甜美、最哀怨的声音。评分:7.17
让 Pitchfork 超越其紫色散文的是其令人难以置信的精确评级系统,即相信它可以以分米精度识别每张专辑的好坏程度。Pitchfork 总是提供比模糊的暗示更多的东西,比如某样东西属于四颗星附近,并承诺更精确的东西,暗示着,更真实的东西。
今年 5 月,一位名为诺兰·康威的数据科学家搜集并上传了 18000 条 Pitchfork 评论,并将它们放到了 Kaggle 上。问 Pitchfork 的评分系统(我会将其与一般的书面批评区分开来)是否有一种可识别的方法不同于问这种方法是否可以通过数据分析来识别。但是,如果 Pitchfork 的大量评论的分数很容易通过图表和代码显示出来,这将比克罗斯先生所能收集到的任何东西都更具讽刺性。
这是我们数据集的鸟瞰图,是 R:
## score best_new_music author
## Min. : 0.000 Min. :0.00000 joe tangari : 815
## 1st Qu.: 6.400 1st Qu.:0.00000 stephen m. deusner: 725
## Median : 7.200 Median :0.00000 ian cohen : 699
## Mean : 7.006 Mean :0.05128 brian howe : 500
## 3rd Qu.: 7.800 3rd Qu.:0.00000 mark richardson : 476
## Max. :10.000 Max. :1.00000 stuart berman : 445
## (Other) :14729
## author_type pub_date pub_weekday
## contributor :12420 2000-03-31: 15 Min. :0.000
## : 3904 2000-04-30: 14 1st Qu.:1.000
## senior editor : 486 2001-03-31: 13 Median :2.000
## executive editor : 475 1999-04-20: 12 Mean :2.107
## senior staff writer: 439 2001-02-20: 11 3rd Qu.:3.000
## contributing editor: 210 1999-06-08: 10 Max. :6.000
## (Other) : 455 (Other) :18314
## pub_day pub_month pub_year genre
## Min. : 1.00 Min. : 1.000 Min. :1999 rock :7815
## 1st Qu.: 8.00 1st Qu.: 3.000 1st Qu.:2005 electronic :2900
## Median :15.00 Median : 6.000 Median :2009 :2365
## Mean :15.53 Mean : 6.283 Mean :2009 rap :1413
## 3rd Qu.:23.00 3rd Qu.: 9.000 3rd Qu.:2013 experimental:1141
## Max. :31.00 Max. :12.000 Max. :2017 pop/r&b :1128
## (Other) :1627
## label diversity length
## self-released: 419 Min. :0.0000 Min. : 0.0
## drag city : 263 1st Qu.:0.5448 1st Qu.: 498.0
## sub pop : 261 Median :0.5778 Median : 604.0
## thrill jockey: 241 Mean :0.5771 Mean : 650.1
## merge : 231 3rd Qu.:0.6108 3rd Qu.: 746.0
## warp : 210 Max. :0.8889 Max. :3688.0
## (Other) :16764
已经出现了一些问题:
- 汇编比比皆是,“各种艺术家”有 687 张专辑。最受欢迎的团体/艺术家由声音引导。
- 一张专辑入选 Pitchfork 的年度年终最佳新音乐是由 1 来表示的,而不是由 BNM 排行榜中的排名来表示的,这太糟糕了,但康威先生想到将这一点包括在内是件好事。
- 摘要功能中网站的所有顶级发布日都来自 Pitchfork 的早期,Pitchfork 成立于 1999 年 1 月。
- DJ Kicks mixtapes 是评论最多的专辑系列。
- 太多的艺术家制作了以罗马数字命名的专辑系列。
- Monteal 的 20 张专辑看起来太多了。
分数是这样下降的:
或者准确地说:
##Min. 1st Qu. Median Mean 3rd Qu. Max.
##0.000 6.400 7.200 7.006 7.800 10.000
左偏的数据几乎是正常的,这意味着我们可以使用老师教给我们的所有常用的统计技巧。Pitchfork 的评分似乎是曲线型的——如果你发行一张专辑,你可能会得到接近 c 的分数。
需要注意的是,数据集包含许多具有重叠行的专辑,以说明每个不同的流派类别(一张电台司令专辑有他妈的 20 行),并且许多行被删除,以便专辑不会出现多次(例如,20),Pitchfork 语料库中的流派分配相应地细分如下:
这张图表可能会诱使人们开始思考这些类别意味着什么——“电子”是否是一种真正的音乐类型,为什么非美国音乐似乎被归类在原始的“全球”类别下,Pitchfork 的批评如此集中于摇滚意味着什么,这一切都说明了音乐的状态。克罗斯的讽刺作品更多地反映了 Pitchfork 的评论并不像约翰·埃利奥特·加德纳(John Elliot Gardner)的评论那样是关于音乐的,因此清唱剧被分解到组件层面。如果我们屈服于这种诱惑,我们中的一个人可能会说,也许爵士乐很少受到关注,因为 Pitchfork 的机构不是为处理这种程度的音乐深度而建立的,所以它服从于那些意义在于文化和娱乐而不是真正艺术的平衡的项目,音乐已经变得更像娱乐而不是艺术,这似乎只是可能,但并不确定。从这张图表中我们能看到的是,Pitchfork 评论了很多摇滚,但它也越来越多地评论其他音乐流派。
Medium will only let place your image in the center or on the left side. You cannot place it on the right side. Lol.
乍一看,类型似乎对 Pitchfork 如何分配分数并没有太大影响。问题是,在处理数据时,应该对眼神给予多大的重视。在很大程度上,眼神已经取代了以前流行的测试重要性的方法。看到环球和爵士得分的小幅上升了吗?这有关系吗?我可以证明,对这些数据进行显著性测试的结果是肯定的。全球类别有 144 篇评论。这意味着你必须从其他类别中抽取 144 篇文章,看看它们的平均分是否足够相似,以至于它们不是随机发生的。如果你这样做,测试会告诉你它们实际上是非常重要。但这是 2017 年——没人再关心 p 值了,但它们提供了一个有趣的紧张点。
Reviews by year and genre. The blue line is the mean score.
我们可以假设,不同的评论家群体对他们的主题或多或少比其他人宽容,但在我们开始这一切之前,请允许我转移话题,向你介绍作家的当代状况:
这是一个偶然的视觉化现象,开始是一个关于作者类型的分数如何分解的问题,结果是我见过的现代媒体对自由职业者依赖的最鲜明的图像。不幸的是,这当然不是 Pitchfork 特有的。作为一个在其他出版物的图表中以绿点自居的人,这是一颗美丽而可怕的超新星。
但是即使碎片被扫除,也只有另一个模棱两可的非结论。
这与体裁假说有着同样的局限性,也就是说,也许是作者之间的一些重大差异,但这是一个没有反驳机会的猜想。根据手头的数据,认为一个助理评论编辑是一个特别阿谀奉承的批评家是不合理的。因此,我们可能会找到另一种方法,首先看看得分是否与多产有关。
Pitchfork 有一群忠实的作家;人均评论数的中位数是 123。这里的假设是,随着作家获得经验,他们会润色和强化自己的观点,或者他们会明智和软化自己对他人缺点的观点——无论哪种方式,事情都会发生变化。
事实证明,这两个都不是真的。相反,作者被统计学的铁律所束缚。在这种情况下,规则是中心极限定理。CLT 是统计定理的基石,它指出,如果你有任何分布的数据,你从这些数据中取样,取这些样本的平均值,这些数据的分布将是一个正态的钟形曲线。谁不为在野外看到数学现实而感到有点眩晕呢,瞧,它就在这里。你写的评论越多,你的平均分就越接近 7.0 左右的平均值。(顺便说一句,正如我们的老朋友帕累托所承诺的那样,最多产的 20%的干草叉评论作者负责评论总产量的 80%。)
与高分相关的是评论的长度。
这很有趣,但它并没有真正让我们预测未来;它没有告知我们对 Pitchfork 高度评价的音乐类型的理解,只是一旦已经评价了它们,如果分数更高,评价可能会更长。从逻辑上讲,这是有道理的:一个作家会滔滔不绝地谈论他/她已经爱上的一张专辑,而一张糟糕的专辑更有可能(尽管肯定不确定)被迅速打发掉。例如,看到左下角的那条路了吗?如果我没记错的话,那应该是人造革的 40 强女主人 Jet,Pitchfork 对它的评价是 0 分,只不过是一张黑猩猩往自己嘴里撒尿的. gif 文件。
subset(reviews, score == 0 & length == 0)reviewid title artist
605494 shine on jet
英雄联盟
下面简要介绍另一系列寻找分数和变量之间相关性的失败尝试。例如,这个变量:
平均分一直保持稳定。即使是艺术家达到顶峰然后下降的假设,也很容易被反驳,因此可以通过新专辑在艺术家作品序列中的位置来预测分数,正如这张热图 quadriptych 所示:
Left: a messy heatmap of album scores by album number. Right: a clean heatmap of scores for artists with exactly ten albums. It turns out you CAN post pictures on the right side on Medium but only if you simultaneously upload them with another picture. I don’t know how this is anything but a bug.
Left: scores for artists with nine albums. Right: scores for artists for artists with 20 albums. You get the idea.
如果你从这些热图中发现任何信息有困难,我会让它变得更容易。下面,你可以看到所有拥有超过八张专辑的艺术家的总体情况,并看到随着艺术家曲目的增加,他们在分数方面没有太大变化。(Medium 有时不能很好地与第三方合作,而且很明显,R 中用于制作该图的 viz 库[以及 javascript 包装器的极少数选择之一]需要登录。如果你在下面看到的看起来不太对,一个捕捉到它大致主旨的截图是这里。)
Mouse over each data point for details.
还记得几个散点图吗?当时我们努力观察体裁是否与更高的评论分数相关联?我说我进行了统计测试,看看事实上是否如此。这是测试的代码。你不需要密切关注它,只需要了解它的周长:
set.seed(1984)myVars = c(‘genre’, ‘score’)jazz <- subset(reviews, genre == ‘jazz’)[myVars]
global <- subset(reviews, genre == ‘global’)[myVars]
rock <- subset(reviews, genre == ‘rock’)[myVars][sample(1:nrow(subset(reviews, genre == ‘rock’)), 144,
replace=FALSE),]
rap <- subset(reviews, genre == ‘rap’)[myVars][sample(1:nrow(subset(reviews, genre == ‘rap’)), 144,
replace=FALSE),]
electronic <- subset(reviews, genre == ‘electronic’)[myVars][sample(1:nrow(subset(reviews, genre == ‘electronic’)), 144,replace=FALSE),]
pop <- subset(reviews, genre == ‘pop/r&b’)[myVars][sample(1:nrow(subset(reviews, genre == ‘pop/r&b’)), 144,replace=FALSE),]
metal <- subset(reviews, genre == ‘metal’)[myVars][sample(1:nrow(subset(reviews, genre == ‘metal’)), 144,replace=FALSE),]
experimental <- subset(reviews, genre == ‘experimental’)[myVars][sample(1:nrow(subset(reviews, genre == ‘experimental’)), 144,replace=FALSE),]
country <- subset(reviews, genre == ‘folk/country’)[myVars][sample(1:nrow(subset(reviews, genre == ‘folk/country’)), 144,replace=FALSE),]testing <- rbind(jazz, global, rap, rock,
electronic, pop, metal, experimental, country)testing.numbers <- group_by(testing, genre)test <- lm(score ~ genre, testing)anova(test)
所有这些代码都产生了一堆输出,看起来像是:
Call:
lm(formula = score ~ genre, data = testing)
Residuals:
Min 1Q Median 3Q Max
-6.8465 -0.5593 0.2375 0.8104 3.0722
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.9458333 0.1020924 68.035 < 2e-16 ***
genreexperimental 0.4166667 0.1443805 2.886 0.003962 **
genrefolk/country 0.3909722 0.1443805 2.708 0.006852 **
genreglobal 0.4854167 0.1443805 3.362 0.000794 ***
genrejazz 0.5134394 0.1260184 4.074 4.87e-05 ***
genremetal -0.0562500 0.1443805 -0.390 0.696894
genrepop/r&b 0.0006944 0.1443805 0.005 0.996163
genrerap -0.2604167 0.1443805 -1.804 0.071493 .
genrerock -0.0180556 0.1443805 -0.125 0.900497
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.225 on 1418 degrees of freedom
Multiple R-squared: 0.04874, Adjusted R-squared: 0.04337
F-statistic: 9.081 on 8 and 1418 DF, p-value: 3.106e-12
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
genre 8 109.04 13.6302 9.0814 3.106e-12 ***
Residuals 1418 2128.26 1.5009
在英语中,这意味着某些体裁与更高的分数相关,但只是分数的一部分。这是几十行代码,输出几十行结果,但结果并不起眼,含糊不清,它是你刚刚阅读的所有内容的简写——一个又一个图表,总共几百行代码和 RStudio 中的许多小时,产生了许多漂亮的颜色,却没有多少信息。
我在玩数据集的时候注意到了一些东西,我喜欢它的地方是,在所有的分析和与 R 库的对抗、刻面包装以及显示几乎没有实质性相关性的多元散点图和热图之后,也许从一个 800 兆字节的 18,000 行数据的文件中唯一重要的洞察可以从一个只有四个单词和两个数字的单行命令中收集到,
head(subset(reviews, score == 10), 20) artist album pub_year
beastie boys paul's boutique 2002
boards of canada music has the right to children 2015
bob dylan blood on the tracks 2009
bonnie prince billy i see a darkness 2004
brian eno another green world 2016
bruce springsteen born to run: 30th anniversary ed... 1999
can tago mago [40th anniversary edition] 2016
dangelo voodoo 2005
david bowie "heroes" 2011
david bowie low 2012
dj shadow endtroducing... [deluxe edition] 2016
elvis costello & the attractions this year's model 2016
fleetwood mac rumours 2005
glenn branca the ascension 2002
gza liquid swords: chess box deluxe ed...2013
james brown live at the apollo [expanded ed...] 2003
j dilla donuts (45 box set) 2012
john coltrane the olatunji concert: the last li... 2004
...and you will kno... source tags and codes 2002
a tribe called quest people's instinctive travels and... 2015
以下是这 76 张专辑中满分为 10 分的前 20 张。在 20 张专辑中,除了一张之外,其他都是在专辑(或者专辑中的音乐,如果是选集/再版)实际发行多年后创作的。那是在作者开始怀念在泽西城外听着老板哼唱长大的岁月之后,在这张专辑被引入国家经典之后,在关于这是否是一件伟大艺术作品的争论尘埃落定之后。具有讽刺意味的是,我们在数据科学方面的考察的关键教训是,我们不需要运行一个测试或绘制一个图表就可以知道,没有什么比专辑发行日期和评论日期之间的差异更能预测谁会得到 10 分。这是为什么呢?2016 年给《赛道上的血》打分还有什么意义?也许这在一定程度上是一种信号,表明作者意识到一件事有多重要,当他们看到它时,他们有批判的眼光知道它是 10 分。但这是 Pitchfork,根据我们的计算,分数越高,作者就越有可能为一张专辑的荣耀唱赞歌。分配一个 10 就是做一个十字的标记,这就是为什么塔戈玛戈现在在干草叉的礼拜仪式中,被认可为完美而神圣。7.3 和 7.4 有什么区别?其实没什么,但小数点的存在只是为了给人留下这样的印象:对流行音乐的评估是用科学的严谨来证明的,并输出准确、客观、非人为的结果——强加于或多或少无序的事物上的任意秩序实际上一点也不任意。但 9.9 和 10 的区别,是衡量和崇拜的区别。
作为一个创造内容的人,我在法律上有义务经营一份个人时事通讯。可以在这里报名。
贾卡坦的起源
使用印度尼西亚 2014 年大选数据,免费可视化 700 万人的来源。
这是大约 2014 年贾卡坦的家乡的地图。它仅包括迁移到雅加达的超过 1,000 人的始发城市,线宽与实际人数的对数值成比例,范围从 10 到 10⁶.每种颜色代表它们目前的居住地:雅加达南部、北部、西部、东部或中部。你能猜出哪个颜色代表哪个吗?
怎么开始的
故事是这样的,我一直想对印度尼西亚选民名单数据做些什么,原因很简单:
- 它是巨大的。准确地说,是 188,268,423 个独立选民。我不想用 B 字,因为它不是太大的东西。根据我在餐巾纸背面的计算,整个数据集实际上可以放入一个 50 美元的 USB 闪存盘。然而,对于一个公开可用的数据集来说,这仍然是了不起的!
- 这是公开的。实际上有点可怕的是,每个选民的名字和他们住在哪里(下至村一级)本身可供任何人在周围浏览,但如果它已经开放了,为什么不实际使用它,对吗?为了安全起见,我问了我的从事选举工作的非政府组织朋友和选举委员会的一名委员,他们确认名单本身确实是公开的,没有规定如何在选举范围之外使用。
- 很容易接近。这一次,它不是在一个 PDF 格式的错位影印表格里!
Like, one Chrome Inspector and an overnight Python script away
你可以立即看到,虽然他们的详细地址、性别和年龄没有被列出(这是应该的),但一个不寻常的变量是:出生地。当然,你可以很容易地从统计局的印度尼西亚 2010 年人口普查中得到同样的而且编码更好的东西,他们会很乐意给你一些美元,但是你必须填写一张表格。呀。不,我们就刮刮看能刮多远。
欺骗性的简单部分
唯一的问题是,我不知道如何轻松地处理数据,因为整个事情超出了我的笔记本电脑的能力。幸运的是,Google BigQuery 来了!类似于:
SELECT KELURAHAN, TEMPATLAHIR, COUNT(*) AS CNT FROM DPTS GROUP BY KELURAHAN, TEMPATLAHIR WHERE PROVINSI = 'DKI JAKARTA'
在 15 秒内给了我们这样的东西:
I don’t want to disclose how many times I screwed up the SQL query
然而,与任何数据探索实践一样,它从来没有那么容易。打开 Rstudio 或 ipython 笔记本,你会发现出生地一栏有多少唯一条目的问题:
For the purpose of this post, it looks fancier than R
120,000 分为雅加达的 5 个部分,理想情况下应该产生大约 24,000 个独特的家乡名称,而不是几乎 80,000 个。整个印度尼西亚只有 32 个省,大约 500 个区和 80,000 个村庄。数据本身来源于国家身份数据库,该数据库被认为是生命、宇宙和一切事物的答案。他们用超级昂贵的电脑系统建立了整个银河系中每个印尼人的数据库。不会错的。
But I can be wrong about them.
遗憾的是,在 Open Refine 中打开数据集并运行聚类功能会给你带来坏消息。我几乎能听到程序在我耳边轻声低语,“我知道这是什么感觉。你无能为力。记住这是计划的一部分。”
亲爱的善良的人们,你们所看到的是 22,000+串拼写相似的地方中的一个。错别字是真的。实际上,我在选举委员会网站上查看了几十个,只是为了确保这不是我的刮刀在搞怪。在某个地方,不知何故,一个真正的政府官员在公民身份证中输入了 JQKARTA、JUAKARTA、JAKARTAT 或以上许多变体中的一个,而不是 Jakarta 作为他/她的出生地。
你可能会认为他们实际上在系统中有下拉菜单而不是文本框。走吧。这是该死的雅加达,不是谷歌地图上的随机标记。它已经在那里叫了 50 年了。
更糟糕的是,构成出生地的并不总是一个城市。该值实际上从一个村庄的名称(没有任何其他地理标志)到一个国家。即使拼写正确,它也可能拼写不同(Singapura 而不是 Singapore),缩写(Tanjung 变成 Tjg 或 Tj),或者含糊不清(它是 X 村庄,城市,还是分区?那个省的还是另一个省的?).
all hail r/HighQualityGifs
虽然数据是免费的,但我的时间不是。
继续前进
最后,我希望这只是一个数据可视化练习。我要花好几个小时来清理那糟糕透顶的烂摊子。我选择了罪恶的全选,合并选择,然后关闭聚类窗口。我接受了那些相似名字的默认合并。
几分钟过去了,OpenRefine 崩溃了。
我只选择了有 1000 人来自始发地城市的那对,其余的都删掉了。愿数据科学之神原谅我,因为我犯了严重的罪。
我将每一对居住地-家乡配对与我定制的、手工制作的、本地采购的地理编码器进行比对,该编码器的工作是将纬度和经度分配给每个地理区域。我还创建了一个额外的字段,包含人数的对数值,从一百万到一千人不等。经过几次手动编辑,我有了两个节点和边的 CSV 文件。
Aww yiss.
现在让我们把它形象化!我总是对航线图情有独钟。
If only I can afford something beyond zero-mileage promo ticket.
让我们看看这样做是否有意义。启动 Gephi ,将节点文件加载到节点数据库,将边文件加载到边数据库。这是一件轻而易举的事。将新创建的日志值指定为边权重。安装 GeoLayout 插件,分配纬度和经度列。单击应用。嘣。
We’re on to something!
现在,将这个漂亮的东西导出到一个制图平台,将其覆盖在一个同样漂亮的底图上,实际上是有意义的。不幸的是,最新版本打破了唯一的 Shapefile 导出插件,该插件自 2013 年以来一直没有更新。好了,剩下唯一要做的事情就是将图片导出为 4000x4000 PNG 格式,并使用盗版照片手动覆盖它…我的意思是,你可以选择免费的图像编辑程序。你完了!
但是为什么不把它变成互动的呢
是的,你可以使用 CartoDB 来绘制它,即使是在免费帐户上。上传两个相同的文件,从节点层创建一个新的地图,感谢他们的便捷教程,在 SQL 选项卡上使用它:
SELECT a2.cartodb_id,
a2.name,r.dest,r.cnt,r.origin,r.log,ST_Transform(
ST_Segmentize(
ST_Makeline(
a2.the_geom,
a1.the_geom
)::geography,
100000
)::geometry,
3857
) as the_geom_webmercator
FROM node a1
JOIN edges r ON r.source = a1.id
JOIN node a2 ON r.target = a2.id
上面的脚本将从每个城市对创建大圆线。我再次应用了一些额外的样式规则,根据对数值改变线条的粗细,并根据住所区分线条的颜色。现在你可以平移和缩放了!将光标悬停在线上,您可以看到家乡名称以及编号。嵌入的地图可能对你的手机屏幕来说太小了,但是你可以在这里访问全屏版本。
Things rarely looks bad on CartoDB.
最后的想法
老实说,这几千个错别字的事情是个败笔。如果一开始就没有这个疯狂的问题,地图看起来会酷得多。不过,考虑到所有的事情,我认为这仍然是一个有趣的 dataviz 迷你项目,它使用完全免费的软件和服务,从一个用于完全不同目的的数据集开始。
几个月后,数以百万计的贾卡坦人将体验穆迪克,即在开斋节回到家乡的仪式。那些活着的人将再次回到他们出生的地方,他们的家人生活的地方。这不仅仅是一个传统,而是一种逐渐消失的与千里之外的地方的联系,在那里他们曾经开始了漫长的旅程,
曾经被称为家的地方。
PAC 框架:非技术高管应如何看待人工智能
很多不在技术边缘工作的人问我,他们应该对人工智能做些什么。我已经就此谈过几次,并决定是时候把它写下来了。我有一个叫做 PAC 框架的框架,代表预测、自动化和分类,这是一个非技术公司的高级管理人员思考人工智能的有用方式。
首先我们应该问这样一个问题,如果你的公司技术水平不高,你还需要关注人工智能吗?答案是肯定的。人工智能正在加速扩张,这让我想起了你有时在智商测试中看到的莉莉帕德问题。如果池塘里的睡莲每天翻一倍,花 30 天时间覆盖整个池塘,哪一天它们覆盖了半个池塘?有人会说第 15 天,但答案是第 29 天。
假设你是负责观察池塘和留意睡莲叶子生长的人。26 天来,你几乎察觉不到任何变化。也许还有一些睡莲叶,但是,这很难讲,因为它们只占池塘的 6%。在第 27 天,你意识到他们已经成长了一些,你想知道这是一种趋势还是一种异常,所以再等一天以获得更多的信息。在第 28 天,很明显他们长得更快了,所以你打电话给你的老板,他在第 29 天过来检查了一下,并提出了一个计划。但为时已晚。明天池塘会被覆盖。
如果你坐下来对人工智能采取“等等看”的方法,这将会发生在你身上。这个想法在WaitButWhy 博客上的这篇 2015 年的优秀文章中得到了体现,这篇文章强调了为什么我们可能处于睡莲叶子的晚期(以此类推),并且接近人工智能的爆炸。如果你相信这个,你能做什么?你现在就可以开始投资人工智能,一小步一小步地学习和实验。但是怎么做呢?
人工智能可以做的事情很多,而且很容易被所有很酷的前沿研究所吸引。这不是开始的地方。你应该从制作一个网格开始,我称之为 PAC 网格。PAC 代表预测、自动化和分类,这是目前人工智能技术可以做得很好的三件事。
要创建第一个网格,需要创建三列,一列用于预测,一列用于自动化,一列用于分类。然后在横排上,列出你业务的关键领域。例如,您可以列出:客户、产品和运营。然后在每一个方框中,你可以找出具体的人工智能方法如何应用于你的业务领域。在第一阶段,头脑风暴一下,把你能做的事情都填到盒子里。
让我们以客户行为例。你能预测什么?你可以预测谁会购买,谁会留下,谁会流失,等等。你能自动化什么?你可以自动化产品培训,你可以自动化客户支持查询。你能分类什么?您可以对客户进行分类,以预测谁可能想要升级,或者谁可能是您的最大用户。
这听起来可能平淡无奇。你不能这么做吗?是的。在某些方面,你可能已经在使用基本的统计模型来做上面提到的一些事情。与人工智能的区别在于,这些系统将进入下一个阶段,并开始学习和改变,并自行做出反应。这是关键。
你可以开始问其他问题,比如:
- 我们可以用人工智能来自动化我们的哪些操作?
- 在我们的产品和产品流程中,我们可以在哪些方面用人工智能做得更好?
- 我们业务中的哪些领域因为复杂而需要人工分类?
这些都是开始考虑小规模人工智能实现的好地方。
一旦你有了你的 PAC 表,你就要像你做任何商业决策一样,浏览一下能提供最大投资回报的项目,然后从那里开始。但当你考虑长期投资回报时,你必须考虑人工智能飞轮。在许多人工智能系统中,更多的数据给你一个更好的训练模型,这给你更好的客户体验,这给你更多的客户,这给你更多的数据,这给你一个更好的训练模型……明白吗?如果你有一个领域可以开始建立一个可防御的飞轮——一个一旦开始,你的竞争对手就很难抓住你的飞轮,那么就从那里开始。为什么?因为时间对人工智能飞轮很重要。
注:有一类统计学习 也叫 PAC 。
数据科学中演绎推理的悖论,以唐纳德·特朗普的推特账户为特色
Source: Library of Congress
“这确实是一个谜,”我说。“你认为这意味着什么?”
“我还没有数据。在没有数据之前就进行理论化是一个严重的错误。不知不觉中,人们开始扭曲事实以适应理论,而不是让理论适应事实。而是纸条本身。你从中推断出什么?”
― 亚瑟·柯南道尔、福尔摩斯*😗*波希米亚丑闻*
演绎的,定义的
是的,“演绎”是一个真实的词。这是我们为我们的公司选择的名字。我们选择它是因为它与逻辑和科学方法的理性关联,以及它与一个伟大的虚构侦探的情感联系。
但是,在数据科学术语中,这可能是一个糟糕的选择。
演绎推理的完整含义——因为它与演绎推理相关——仅代表数据科学中解决问题的三种主要模式之一。其他方法——归纳和溯因推理——实际上更重要。理解它们揭示了数据科学中的一个悖论,这个悖论与事实的本质、概率以及商业决策所需的举证责任有关。
演绎推理用事实找事实
演绎推理是自上而下的:你从事实开始,形成一个假设,然后用更多的事实进行检验,得出一个不可避免的结论。换句话说,你将事实从一般理论归纳为具体的事实结论。
例如,从亚里士多德关于苏格拉底死亡率的著名三段论建模:
- 唐纳德·特朗普有一个个人推特账户
- 唐纳德·特朗普赢得美国总统大选
- 总统从他的个人账户发推文
尽管这一论点(以及推文)的可靠性值得怀疑,但它很能说明问题。我们通过还原事实来寻找事实。因此,演绎过程非常适合于结论的确定性至关重要的研究领域。
但是演绎法的应用也隐含地受到事实的可获得性和前提的确定性的限制。在数据科学在商业环境中的实际应用中,这可能是一个问题。
归纳推理利用事实来推断结论
当你有一个本身不确定的假设时会发生什么?归纳推理采取自下而上的方法。通过归纳推理,你可以从具体事实中推断出一般理论。在数据科学术语中,你检查一大组数据,以确定你的假设正确的概率。
- 唐纳德·川普的推文来自 iPhones 和安卓设备
- 川普安卓设备上的推文有 40-80%是负面的
- 唐纳德·特朗普在安卓设备上发推特;他的员工使用苹果手机
在 2016 年美国总统竞选期间, Stack Overflow 的大卫·罗宾逊使用归纳推理(通过情绪分析)来探索他和其他人的直觉:特朗普最夸张的推文直接来自他自己的私人手机,而他更公平的推文来自他的竞选工作人员,主要是在 iphone 上。
虽然这些发现令人着迷,并且总体上证实了大卫的预感,但这些结论不能被称为确定的*(即使它们在 2017 年再次被证实)。正如霍姆斯指出的,事实可以被扭曲以符合理论。*
但是理解一个问题或者做出一个商业决策到底需要多少确定性呢?归纳推理提供可能的结论,而不是确定的事实。
溯因推理利用事实来推断最可能的解释
在数据科学(以及一般的科学)中,有时你不知道你试图解决的问题的确切性质——或者有一套完整的观察来创建一个理论。哲学家认为溯因推理是归纳推理的一种,它推断出最符合可观察事实的假设。
换句话说,当我们找到一个比任何其他选项都更好地解释数据的模型时,这个模型很可能就是正确的模型。数据科学的这一部分是最具创造性的,需要灵活性和想象力,以及对数据可能误导的敏锐理解。
事实上,霍姆斯的许多著名推论实际上都是溯因推理的例子。当他提出一个神秘谋杀案的解决方案时,他利用证据创造一个最符合现有事实的理论。他的才华在于他发现事实和创造理论的能力,而不是他对演绎推理的运用。
在这里的演绎,我们从福尔摩斯的创造者那里获得灵感,不要太纠结于演绎、归纳和溯因推理之间的语言和哲学差异。尽管数据科学基于统计学和数学理论,但创造性思维和战略洞察力对做出正确决策更为重要。
难以捉摸的市场边缘的悖论
你尝试得越多,成功的机会就越高。人们可能会认为,这一适用于日常生活的经验证的启发法也适用于试图在市场中寻找优势的时候。但是这种启发不适用于这种情况,实际上,这是失败的原因。其原因是数据挖掘偏差,当一个人试图在办公室找到一支丢失的钢笔或存储在计算机磁盘上的文件时,这种影响并不存在。
数据挖掘偏差
交易者和投资者通常试图通过测试历史数据的各种想法来找到市场边缘,以确定他们的历史盈利能力。实现这一点的过程被称为回溯测试。这个想法原则上很简单:开发一个数学模型,然后用历史数据进行测试。然后,使用回溯测试中未使用的新数据和各种其他验证方法来验证性能。如果模型性能不令人满意,则要么对其进行修改,要么开始寻找新的模型。这一过程的示意图如下所示[1]。
Figure 1. Backtesting process. Source: Fooled By Technical Analysis
如上图所示,数据挖掘偏差有三个主要组成部分。第一个原因是基于历史数据的曲线拟合模型。注意,所有模型都是关于某个任意目标函数的数据的曲线拟合。问题是它们是否也过度拟合,但如果其他两种形式的偏差占主导地位,这可能并不重要。数据挖掘偏差的第二个组成部分是第一次回测步骤后的选择偏差,这是因为接受了一个潜在的优势,同时拒绝了许多其他优势。在对看不见的数据进行性能验证后,选择偏差再次被引入,也称为样本外偏差。
数据挖掘偏见的第三个也是最可怕的组成部分是由于数据窥探。当模型(策略)在验证步骤后被拒绝,流程重新开始时,就会出现这种情况。通常,没有人会在第一次失败后永远放弃,但大多数人会无情地利用现代工具挖掘数据,以发现有利可图的优势。在这种情况下,所有的验证工具都成为过程的一部分,不再有效。
一言以蔽之,当你听到有人声称他们进行了样本外测试,并发现了良好的结果,不仅是在金融领域,而是在任何领域,你应该问问他们在此之前拒绝了多少模型。更糟糕的是:你应该问他们是否知道有多少基于相同数据的模型被所有有抱负的量化交易者和投资者所拒绝。如果他们知道,那么已经提出了一些方法来调整数据挖掘偏差的验证统计,但在大多数情况下,这甚至是不需要的,因为偏差已经很大,没有验证测试是鲁棒的。关键是被拒绝的模型可能是好的(第二类错误),或者被接受的模型实际上可能是坏的(第一类错误)。**你永远不会知道,因为没有办法知道整个地球上的集体数据挖掘偏见。**下面的图 2 显示了这种累积数据挖掘偏差的原理。
Figure 2. Probability P of discovering an edge as a function of backtesting trials N
在图 2 中,“a”是 N、试验次数以及与数据和模型有关的其他参数的某个有界非线性函数。关键在于,随着 N 变大,找到真正边缘的概率 P 变为零。与直觉相反的结果是,不断回溯测试新想法会降低找到优势的几率。这对于人工回测来说是正确的,但在挖掘数据以发现市场优势的机器学习程序中也更明显。(详见本文。)
那么,我们如何应对难以捉摸的市场边缘的悖论呢?一种解决方法是,只有当有一个独特的想法不太可能被其他人发现时,才使用回溯测试。这很难,但却是可能的。当经常使用数据挖掘时,另一个补救方法是通过使用更高级的测试来最小化数据挖掘偏差,而不是试图估计它。一般来说,数据挖掘偏倚是无法估计的,因为试验的真实数量及其来源都是未知的。
关于回溯测试的这些和其他事实,以及处理数据挖掘偏差的例子和规则,可以在[1]中找到。
[1]哈里斯。m .,被技术分析愚弄:图表、回溯测试和数据挖掘的风险,2015 年,仅在线提供。
注来自《走向数据科学》的编辑: 虽然我们允许独立作者根据我们的 规则和指导方针 发表文章,但我们不认可每个作者的贡献。你不应该在没有寻求专业建议的情况下依赖一个作者的作品。详见我们的 读者术语 。
**关于作者:**迈克尔·哈里斯(Michael Harris)是一名交易员和畅销书作家。他也是 17 年前第一个识别价格行为无参数模式的商业软件的开发者。在过去的七年里,他一直致力于开发 DLPAL ,这是一个软件程序,可以用来识别市场数据中的短期异常,与固定模型和机器学习模型一起使用。点击此处了解更多信息。
从《K 街》看美国的过去十年
华盛顿是个奇怪的地方,至少对我来说是这样。美国政客虽然依靠庞大的联盟基础来承担和保持权力,但往往可以以牺牲公共利益为代价获得相当多的个人利益。在我看来,美国的政治机器既受到精英主义的推动,也受到民粹主义的推动。我们知道我们人民在想什么,我们有脸书和其他各种民意调查告诉我们“美国人认为什么是重要的”;但是精英们在想什么呢?
虽然我对这个特殊话题(游说)的政治观点是模糊的,但我想了解他们的观点是如何塑造这个国家的政策的。
我在OpenSecrets.org上发现了一个有趣的数据集,其中一个文件(lob_issue.txt)包含一些非常有用的信息。“具体问题”一栏提供了关于正在游说的问题的非常详细的信息。这几乎就像一项民意调查,询问精英们“你认为今年最重要/最不重要的事情是什么”。我的想法是探索 K 街游说的主要主题,看看它是如何随着时间的推移而变化的。
我还对金融危机爆发前和爆发后的几年特别感兴趣,这几年被方便地包含在数据集中。
索引不足:与其他 9 年相比,该年最少被提及的词;
过度索引:与其他 9 年相比,该年提及次数最多的词;
在金融危机最初的混乱之后,K 街已经将注意力转向了医疗保健。《平价医疗法案》确实创造了一个权力市场——更多的监管意味着寻租更加有利可图。有巨大的民粹主义吸引力(更便宜的保险,更高的覆盖率等)。)表面上如此,但监管更加严格的市场在私下里也提供了卖给出价最高者的政策。
感知器
Fig 1: Chicken or Egg? | Perceptron!
感知器最早是由 弗兰克·罗森布拉特 提出的。在这篇文章中,我们将看看什么是感知器,以及它如何根据给定的输入进行预测。所以,让我们开始吧!
感知器是一个单层神经网络,看起来像这样
Fig 2: Perceptron
现在,让我们看看这些节点和连接的含义。
Fig 3: Input Node
蓝色节点是 输入节点。 每个这样的节点代表一个输入问题的特征。在上面的例子中,我们有m
输入特征。第 I 个输入特征由x_{i}
表示。这一层叫做 输入层 。在神经网络中,我们只能有实数作为输入。
Fig 4: Weights
然后,红色箭头将输入节点连接到橙色节点。这些被称为突触。这些突触中的每一个都有一个权重,用w_{i}
表示,即第 I 个突触的权重为*w_{i}
。我们可以简单地称之为 权重层 。*
Fig 5: Output node
然后,我们有橙色节点,上面写着y
。是 输出节点 。它基于输入和权重计算分数*,然后基于该分数使用激活函数获得对0
或1
的预测。*
这就是感知器所做的一切!
现在,让我们看看分数是如何精确计算的,以及如何根据输入和权重在输出单元中进行预测。
Fig 6: Formula to make a prediction from the Inputs and Weights
等式的红色部分简单地越过m
输入特征,并对输入特征(x_{i}
)和权重(w_{i}
)之间的乘积求和。这就是我们如何计算给定输入特征的 分数 。
现在,让我们想象一下我刚才说的等式的红色部分。
Fig 7: Scores from Inputs
好了,现在,为了根据这个计算出的分数做出一个 预测 ,我们必须使用一个 激活函数 。
激活功能? 激活函数主要用于在神经网络的每一层中引入网络中的非线性,没有激活函数,无论神经网络有多深,我们都将计算一个线性函数。
在输出层,对于分类问题,我们使用激活函数将分数映射到类别。
这里,我们将使用 Heaviside step 函数 ,如果分数小于或等于 0,则简单地输出
0 ,否则输出
1 。
Fig 8: Heaviside Step Function
在这种情况下,上图(图 6)中等式f(...)
的绿色部分是亥维赛阶梯函数。
好了,现在如果你有了输入和权重,你就可以用红色方程得到分数,然后用一个激活函数得到预测!
注意事项 :
1) 感知器中不存在非线性。所以,它只能计算线性函数(“直线”)。
2) 还有一个附加的偏置项(用x_{0}
和w_{0}
表示)。为了简单起见,我们跳过了这一步。一般带偏置x_{0} = 1
和w_{0} = theta
。其中,theta
是网络学习的某个值。在这篇文章中,我们看到了如何使用感知器进行预测(正向传播),而不是网络如何学习(反向传播)。
希望这篇文章对你有所帮助,如果有,那么👏 👏 👏!
喜欢我的作品?跟我来。
随时给我发消息!我们连线吧!
数据科学出了问题:预测性警务是一种大规模杀伤性武器
预测结果见互动图此处。
Click the link above to see the interactive map.
对于代码,请访问本项目回购这里。
当新技术出现时,我们的道德和法律通常需要一些时间来适应。作为一名社会科学家和训练有素的哲学家,我一直对技术和道德的交集感兴趣。几个月前,我读了凯茜·奥尼尔的书数学毁灭的武器(链接到我的评论),意识到它的信息太重要了,却被数据科学家忽视了。
我开始这个项目是为了展示我们的新算法所产生的潜在伦理冲突。在每一个可以想象的领域,算法都被用来过滤人。在许多情况下,算法是模糊的,不受质疑的,并且是自我延续的。这就是奥尼尔所说的数学毁灭武器——大规模杀伤性武器。它们从设计上来说是不公平的:它们是我们的偏见变成了代码并被释放出来。最糟糕的是,他们创造了强化上述模型的反馈循环。
我决定创建一个大规模杀伤性武器为说明目的。这个项目旨在尽可能简单明了。这两个目标是,第一,展示创造一个破坏数学的武器是多么容易。其次,帮助有抱负的数据科学家了解项目从开始到结束的过程。我希望人们受到启发,重新思考他们的模型的伦理含义。
对于这个项目,我将创建一个预测警务模型,以确定哪里更有可能发生犯罪。我将展示创建这样一个模型是多么容易,以及为什么它会如此危险。像这样的模型被全美国的警察机构采用。鉴于所有人类固有的普遍的种族主义,鉴于有色人种被警察杀害的可能性已经增加了一倍,这是一个可怕的趋势。以下是数据科学如何让问题变得更糟。
数据
这个项目使用的数据是旧金山市的开放数据倡议的一部分,这是对公共政策感兴趣的数据科学家的一个很好的资源。希望更多的城市将继续遵循这一倡议,并使他们的数据公开和机器可读。
2016 年的犯罪数据是这样的:
预测性警务模式,以及大规模杀伤性武器,价值模糊而复杂。他们可以对客户无法理解的技术魔术收取更高的溢价。他们通常使用数百甚至数千个不同的输入变量来进行预测。他们声称这是他们预测如此准确的原因。
我将反其道而行之,以展示大规模杀伤性武器的内部运作,以及制造一个大规模杀伤性武器是多么容易。
我将尝试预测:
给定一周中的第天和一天中的第时间,在给定的邮政编码中将发生的犯罪事件数量。
我将在 2016 年的数据上训练我的模型,然后用 2017 年的数据来测试我做得有多好。
在只选择了我想要的变量后,对每个邮政编码每小时每年的犯罪总数求和,得到如下结果:
换句话说,2016 年全年,在邮政编码为 94103 的地区,周五 17:00 至 18:00 之间,共报告了 265 起犯罪事件。
由于我将这些按犯罪数量排序,我们可以看到犯罪数量最高的总是发生在邮政编码为 94103 的地区。这已经给了你一个卖蛇油模型有多容易的暗示:“派警察到 94103 找犯罪!”
然而,这太简单了,如果客户知道我们只是预测已经最常发生的犯罪,没有人会为此付出太多。让我们把它变得更复杂。
训练/测试分割
数据科学家通常随机拆分数据进行测试,大约 70%用于训练,30%用于测试。然而,当涉及到时间因素时,通常会按时间顺序将其分开,看看我们是否能够预测未来。我会用 2016 年的数据来看我是否能预测到 2017 年的数据。
测试是机器学习的神奇之处。当我在人口研究所的时候,我们对世界进行预测,然后在一篇论文中提出。没人知道它们是好的预测还是坏的预测,但没人问。如果它们看起来合理、直观,这个项目就会受到称赞。
数据科学更严谨。我们将数据分为训练集和测试集。我们基于训练集创建模型,进行预测,然后将我们的预测与测试集的实际结果进行比较。
我们反复迭代,直到得到更好的结果。然后我们再次迭代,为了更好的准确性,我们愿意牺牲理解。
这是一把双刃剑。对于某些应用程序来说,它可能非常有用。例如,我们不需要确切知道图像识别模型是如何工作的。如果它能在提示时识别出某人的脸,这才是重要的。当我们做出筛选人的决定时,问题就出现了,我们无法向他们解释为什么他们会被选中,或者被歧视。
如果我们告诉某人,他们被解雇是因为我们的模型说他们表现不佳,然后我们无法解释我们的模型是如何工作的,他们永远不能对这个决定提出上诉。如果我们犯了错,谁会知道?如果我们晦涩的模型编码了常见的种族主义、性别歧视或阶级歧视假设,谁能站出来反对这种不公正?
尝试五种不同的模型
既然我们已经将数据分成了训练和测试两部分,我们就可以开始评估不同模型的表现了。
注意:所有这些模型都有不同的方法来调整它们(超参数)——为了简单起见,我将使用默认值,在这一点上我不会深入讨论,只是要知道通常有一种方法可以提高这些模型的精度。
1.线性回归
这是 19 世纪早期的一种快速简单的统计技术。线性模型试图通过数据画一条尽可能适合它的线。这个模型是有价值的,因为它是可以解释的。如果我们愿意,我们可以说每个输入在做出最终预测时有多重要。我们用 2016 年的数据训练模型,进行预测,看看它们与 2017 年的实际犯罪数量有多匹配。
我们的结果表明,我们可以用这个模型预测 63%的犯罪数量。这是一个很好的基线,但是我们可以用更新的技术做得更好。
2.随机森林回归量
简而言之,随机森林模型是一堆随机决策树一起工作。
简而言之,决策树就是在最有可能分裂的地方分裂数据,然后选择最有可能的结果。
例如,我们的模型首先注意到星期五是犯罪率最高的一天,而 94103 是犯罪率最高的邮政编码。然后,它检查所有的观察结果,并询问“它发生在星期五吗?”如果答案是“是”,它就预示着一定数量的犯罪。如果答案是“否”,它预测的数字会更小。然后它问“它发生在 94103 年吗?”如果答案是肯定的,预测值会更高,如果答案是否定的,预测值会更低。它以这种方式继续下去,然后对每个不同的输入进行预测。
让我们看看我们做得有多好。
哇哦。我们达到了 80%的准确率,对于额外的三行代码来说已经不错了。
这就是发现每个特征或自变量是多么重要:
这些结果仍有些许可解释之处。我们可以看到,决定这个模型预测的犯罪数量的最重要的特征是它是否是邮政编码 94103,它是一天中的什么时间,以及它是否是邮政编码 94102。它基于所有这些输入的组合来预测将会发生多少犯罪。
3.k-最近邻
在 KNN 模型中,我们开始失去解释我们到底是如何得到结果的能力。潜在的理论很容易理解,但解释一个特定的结果是如何产生的却不容易。
KNN 模型是不言自明的。它查看输入的最近“邻居”,并给出与其邻居最相似的答案。
例如,假设我们的模型看到一个输入“星期五,94103,下午 4 点”它可能确定“最近的邻居”是“星期五,94103,下午 5 点”和“星期五,94103,下午 6 点”它将获取在这两个邻居处发生的犯罪数量,对它们进行平均,结果将是我们最初的 4pm 输入的预测。邻居的数量,以及定义“平均”的方法可以有很大的不同,但直觉是相同的。
让我们看看我们是怎么做的:
这次开箱的 KNN 没有我们其他型号的表现好。如果我们找到一个最佳数量的邻居,这可能会有所改善,但我会保持简单,只是移动到下一个模型。
4.XGBoost
XGBoost 是一个屡获殊荣的算法,因在 Kaggle 比赛中表现出色而闻名。
简单来说,它也是一个树的集合,就像我们上面看到的随机森林。然而,不同之处在于,正如其名称所暗示的,random forest 随机拆分数据。然而,增强的树模型迭代地构造树,并且为了减少误差,对每个后续的树重新加权示例。换句话说,它构建树,比较它们做得有多好,然后构建越来越好的树。
我们精确度的微小提高。但是好到足以转移到下一个模型。
5.深度学习——多层感知器
现在我们已经到了无法解释我们是如何得到这些结果的地步。如果有人基于深度学习模型被收取更高的贷款利息,他们问“是什么因素导致了你向我收取的金额?”,我们就没有办法给他们一个答案。
如果我们正在影响人们的生活,并且无法解释原因,这就是数据科学变得非常危险的地方。如果我们犯了一个错误,或者如果我们在模型中引入了我们的偏见,这个模型几乎就是一个黑箱。
我将使用多层感知器回归器来看看我的预测有多准确。我选择了 4 个隐藏层,每个层有 100 个节点。我不会进行随机搜索来找到最佳的超参数,但是正如你所看到的,有很多选项可以调整。
我们现在可以预测一周中某一天某一小时某一邮政编码会发生多少起犯罪,准确率约为 87%。尽管我们甚至没有花时间调优超参数或获取更多数据,我们还是这样做了。
讨论
在尝试了五种不同的模型后,我们几乎达到了 90%的准确率。这是用最简单的方法做的。如果我们想改善我们的结果,我们可以做以下事情:
-使用更多的输入变量:天气、人口密度、到酒类商店或无家可归者收容所的距离、每个邮政编码的人口构成等等。
-调整超参数:我们可以进行“网格搜索”,以找到在 KNN 模型中使用的最佳邻居数量,随机森林模型中的树的大小,线性回归模型中使用的正则化以及深度学习模型中的许多选项。
-使用更多数据:2015 年、2014 年和其他年份的可用数据。
如你所见,还有很大的改进空间。但是我的观点是用最少的努力得到最好的模型。我想展示做出这些预测有多容易,以及我们失去可解释性有多快。
如果我们开始向我们预测会有更多犯罪的地区派遣更多的警察,警察就会发现犯罪。然而,如果我们开始向任何地方派遣更多的警察*,他们也会发现更多的犯罪。这仅仅是因为在任何特定地区都有更多的警察试图发现犯罪。*
这意味着我们的模型可能是错误的,但它看起来总是正确的。如果警察已经因为人们固有的种族偏见而经常去某个社区搜查,他们就会发现更多的犯罪。这将意味着模型将一次又一次地把他们送到那里,并将成为一个自我实现的预言。
数据科学家必须开始更加意识到我们的算法可能被滥用。我们必须开始考虑让我们的模型更加透明。我们必须意识到我们的模型是如何伤害人们的。我们必须做得更好。
预测结果见互动图此处。
对于代码,请访问此处的本项目回购。
数据科学的周期表
该周期表可作为导航数据科学领域主要参与者的指南。表中的资源是通过查看数据科学用户的调查选择的,如 O’Reilly 的 2016 年数据科学薪酬调查、 Gartner 的2017 年数据科学平台魔力象限、 KD Nuggets 2016 年软件民意调查结果,以及其他来源。表中的类别并不都是互斥的。
查看下面的完整数据科学周期表:
你可以在这里找到完整的图片。
浏览数据科学的周期表
你会看到表格的左边列出了与教育有关的公司:在这里,你会找到课程、训练营和会议。另一方面,在右侧,您将找到让您了解数据科学社区最新新闻、热门博客和相关材料的资源。在中间,您将找到可以用来开始学习数据科学的工具:您将找到编程语言、项目和挑战、数据可视化工具等。
该表将数据科学资源、工具和公司分为以下 13 类:
**课程:**对于那些想学习数据科学的人来说,有很多网站(公司)提供数据科学课程。你会在这里找到各种可能适合你的学习方式的选项:边做边学的数据营,Coursera 和 Edx 的 MOOCs 等等!
**新兵训练营:**本节包含为那些正在寻找更多指导选项来学习数据科学的人提供的资源。你会看到像数据孵化器或激励这样的训练营已经包含在内。
会议:学习不是你参加课程或训练营时做的活动。会议是学习者经常忘记的事情,但它们也有助于学习数据科学:作为数据科学的有志之士参加会议很重要,因为你将接触到最新的进展和最好的行业专家。表中列出的一些用户是用户!、 Tableau 大会和 PyData 。
**数据:**熟能生巧,数据科学也是如此。您需要查看和查找数据集,以便开始实践您在现实生活数据课程中学到的知识,或者制作您的数据科学作品集。数据是数据科学的基本组成部分,发现数据可能是最困难的事情之一。当你寻找很酷的数据集时,你可以考虑的一些选项是 data.world 、 Quandl 和 Statista 。
**项目&挑战、竞赛:**实践之后,你也可以考虑接更大的项目:数据科学作品集、竞赛、挑战等等。你会在数据科学周期表的这一类别中找到所有这些!最受欢迎的选项之一可能是 Kaggle ,但 DrivenData 或 DataKind 也值得一试!
**编程语言&分布:**数据科学家一般不只使用一种,而是使用多种编程语言;一些编程语言,如 Python,最近在社区中获得了很大的吸引力,Python 发行版,如 Anaconda ,似乎也找到了数据科学爱好者的道路。
**搜索&数据管理:**这个庞大的类别包含了你可以用来以某种方式搜索和管理数据的所有工具。一方面,你会看到像 Lucene 这样的搜索库,还有像 Oracle 这样的关系数据库管理系统。
**机器学习&统计:**这个类别不仅为你提供了机器学习入门库和 Python 等编程语言的统计,还提供了整个平台,如 Alteryx 或 DataRobot 。
**数据可视化&报告:**在对数据进行分析和建模之后,您可能希望将结果可视化并报告您所研究的内容。你可以利用像 Shiny 或 Matplotlib 这样的开源选项来实现这一点,或者全部回到商业选项上,比如 Qlikview 或 Tableau 。
**协作:**协作是数据科学社区的热门话题。随着你的成长,你也会发现团队合作的需要(即使只是和另外一个人!)在这种情况下,你会想要使用像 Jupyter 这样的笔记本。但是,即使您只是独自工作,如果您刚刚起步,使用 IDE 也会很方便。在这种情况下,可以考虑 Rodeo 或 Spyder 。
**社区&问&答:**提出问题并求助于社区是你在学习数据科学时可能会经常做的事情之一。如果你不确定在哪里可以找到你的数据科学问题的答案,你可以在诸如 StackOverflow 、 Quora 、 Reddit 等网站上找到。
**新闻、时事通讯&博客:**你会发现这个社区正在迅速发展壮大:关注新闻和最新趋势是必要的。像 Data Science Weekly 或 Data Elixir 这样的一般时事通讯,或者像 Python Weekly 或 R Weekly 这样的特定语言时事通讯,都可以在你的邮箱中提供你每周所需的数据科学信息。但是像 RBloggers 或 KD Nuggets 这样的博客网站也值得关注!
播客:最后,但绝对不是最不重要的,是播客。这些在很多方面都很棒,因为你会被介绍给专家面试,比如在成为一名数据科学家或具体的数据科学主题,比如在数据故事或会说话的机器!
你在想另一种应该加入元素周期表的资源吗?在下面留下评论告诉我们吧!
原载于www.datacamp.com。
数据可视化是如何诞生的
数据可视化的先驱
Nicolaes Visscher, Orbis Terrarum Nova et Accuratissima Tabula, 1658
回顾人类的历史,我们可以观察到许多情况,在这些情况下,人们找到了可视化地描述和记录他们经历的方法。洞穴壁画描绘了人与兽之间的战斗场景,埃及壁画让我们一窥生活方式和对法老、皇室和其他神灵的崇敬;以及农民生活的挣扎和艰辛。几个世纪后,世界各地的画家、雕塑家和其他艺术家都通过他们的艺术来塑造他们的世界观。
我们天生需要描述和解释我们周围的世界
在科学和工程领域,记录你的实验是至关重要的。科学家们也依赖笔记、图画、注释以及后来的图片——几乎任何种类的记录——来支持他们的假设,并推进科学界的集体知识。
在其他情况下,我们希望讲述一个比简单的结果报告更复杂的故事。
在本文中,我想分享并赞美数据可视化先驱们的工作,他们为当今如此流行和广泛的信息图和数据可视化技术铺平了道路。
查尔斯·约瑟夫·密纳德
密纳德是一名法国土木工程师,在欧洲多个建筑项目中工作。他对表现数据有敏锐的眼光,特别是在制图方面。
他最著名的视觉叙事作品“信息图”描绘了拿破仑在 1812 年入侵俄罗斯的企图。米纳德在一个单一的表现形式中结合了多种类型的数据:背景是一张地图,但在底部是每个地区记录的温度;拿破仑军队的规模用通往莫斯科的米色区域的宽度表示,用黑色表示他们的返回。还添加了经纬度供参考。
Napoleon’s Invasion of Russia (1812)
在米纳尔的可视化中,最令人印象深刻的是他能够以这样一种方式表示许多复杂的数据点和数据类型,即叙事——从俄罗斯到俄罗斯的艰难旅程——作为图像的焦点保留下来。
你的眼睛直接跳到米色区域,这让你感到好奇,于是你开始寻找它背后的故事。这是当你看其他标记时,比如他们经过的城市的名称,标注在逐渐缩小的边上的数字,或者有一条非常细的黑线代表一支被击败的,技术上被击败的军队的回归。
弗罗伦斯·南丁格尔
佛罗伦萨·南丁格尔出生于维多利亚时代的伦敦市中心,是现代护理实践的“母亲”。她也是“南丁格尔誓言”的灵感来源,这是对护士们遵守的希波克拉底誓言的改编。
除了对护理实践的启迪之外,她对统计学的兴趣使她开发了极区图。
Diagram of the causes of mortality in the army in the East (1854–1855)
Nightingale 的数据可视化用例是她工作的军队医院中死亡原因的表示。在收集了大约两年的数据后,她能够描述由可预防疾病(蓝色)导致的死亡,以及由创伤(红色)和其他未知原因(黑色)导致的死亡。
约翰·斯诺
( )不是那个 !)
斯诺是英国医生,也是伦敦流行病学会的创始人之一。
在 19 世纪早期,伦敦经历了几次霍乱爆发,摧毁了这座城市。
其中一次爆发发生在 1854 年,约翰·斯诺博士对此进行了密切观察。当时,人们普遍认为这种疾病的传播是由于污染和“糟糕的空气”——瘴气理论。为了更好地了解它的来源以及这种疾病是如何在伦敦人中传播的,斯诺从绘制受影响家庭的地图开始。
Original depiction of the London cholera epidemic of 1854
斯诺博士特别感兴趣的是,当地酿酒厂的工人没有一个表现出这种疾病,而几乎所有其他家庭都受到了影响。通过当地多方询问,他得出结论,这次疫情的源头是水质太差。原来啤酒厂工人喝的啤酒比水多。
在他的地图上查看水泵的位置,我们可以看到,与没有水泵的社区相比,水泵附近的死亡率更高。
在疫情爆发的中心——Broad Street——拆除把手,从而关闭水泵的建议导致疫情得到遏制,总体死亡人数逐渐停滞。
这些先驱和他们同时代人的工作为我们今天所知的数据和信息可视化以及信息图表的广泛使用铺平了道路,这是非常了不起的。
感谢阅读!
泊松分布
Photo by Tom Grimbert on Unsplash
前几天在常规通勤中,我听了另一个精彩的线性题外话集,名为“更好地了解一个分布:泊松分布”,我认为这将是一个很好的主题,可以用一些代码®作为博客帖子来解释。所以现在开始。
根据维基百科的说法,以法国数学家西蒙·丹尼斯·泊松命名的泊松分布是一种离散的概率分布,它表示在固定的时间或空间间隔内发生的给定数量的事件的概率,如果这些事件以已知的恒定速率发生,并且与上次事件发生的时间无关。
让我们理解这到底意味着什么。
环境设置
打扫
Cleanup
加载库
数据
在这个练习中,我在寻找国际足联的比赛数据,并使用我们在谷歌(谷歌数据集搜索)的朋友提供的最新资源,我发现了这个惊人的数据集从 1872 年到 2018 年的国际足球结果。这是从 1872 年到 2018 年所有足球比赛的数据集,总共 39669 场!
读入。
探索
看起来数据是完整和整洁的。一些有趣的观察-
- 我们有从 1872 年 11 月 30 日到 2018 年 7 月 10 日的数据。喔!
- 最大 home_score 值 31,最大 away_score 值 21?!一些比赛要看!
- 大约 25%的比赛是在中立地区进行的。这些都是世界杯比赛吗?
让我们生成一些更有趣的特性
泊松分布什么时候合适?
随机变量k
为泊松,需要满足以下 4 个条件(维基百科)
k
是一个事件在一个区间内发生的次数,k 可以取值 0,1,2,…即*k*
需要是一个整数(与更流行的高斯分布的一个主要区别,这里变量是连续的)。- 一个事件的发生不影响第二个事件发生的概率。也就是说,事件独立发生。
- 事件发生的速率是恒定的。该比率不能在某些区间更高,而在其他区间更低。
- 两件事不可能在完全相同的时刻发生;相反,在每个非常小的子间隔,恰好有一个事件发生或不发生。
或者
实际的概率分布是由二项式分布给出的,试验的次数远远大于人们所要求的成功次数。
现在,让我们首先确定我们的k
和interval
,看看它们是否满足上述 4 个条件。让我们探索以下 3 个选项-
k
是目标总数,interval
是 1 年。k
是目标总数,interval
是 1 天。k
是总进球数,interval
是 1 场比赛。
虽然我们保留了 3 个选项,使得条件 1 和 2 将始终成立,即目标的数量始终是一个整数,并且一个目标与另一个目标相互独立(在大多数情况下)。但是我们将需要探索每个选项的条件 3 和 4。
1.k
是目标总数,interval
是 1 年
正如我们在上面两个图中所看到的,即使目标的平均数在这些年中保持不变,但每年的目标总数增加了,这违反了我们的条件 3,即它是泊松分布。此外,根据条件 4,试验次数应充分大于成功次数,这在这种情况下也是违反的,因为我们有 147 次试验(即数据集中的年数)和大约 1000 次或更多的成功(即每年的目标总数)。
甚至在逻辑上,我们可以认为,如果一年的比赛次数多了,那么那一年的总进球数就会多,这就违反了条件 3。
基于以上所述,我们还可以假设我们的选项 2(即一天内的总进球数),虽然与选项 1 相比更接近泊松分布,但它仍然不会,因为一天内更多的比赛数将意味着更多的进球数,这将违反事件发生率需要恒定的条件 3。让我们为选项 2 设想一下。
2.k
是目标总数,interval
是 1 天
因此,即使成功的次数与试验次数相比相当低(满足条件 4),事件发生率也不是恒定的,它取决于选项 2 的匹配次数。因此,我们也拒绝将选项 2 作为泊松分布。
让我们最终探索选项 3。
3.k
是总进球数,interval
是 1 场比赛。
找到了。我们每场比赛的进球数保持不变,峰值约为 3 球,平均每场比赛 2.935642 球。进球数(‘事件’是进球)是一个整数,其中一个进球独立于另一个进球,比赛次数(即尝试次数)远远高于每场比赛的进球数(即成功次数)。因此,我们找到了我们的泊松分布!
泊松分布的事件概率
现在我们有了泊松分布,我们可以使用以下公式计算interval
中发生k
事件的概率:
P ( k 个事件中的一个区间 ) = e ^{-λ } * λ^{k}/k!其中,
λ
=每场比赛的平均场次,即每场比赛的平均进球数。
k
=概率估计的事件数,即目标数,
e
=欧拉数,
k!
= k 的阶乘
根据我们上面的探索,我们的平均进球数为 λ = 2.935642,我们可以将这个值代入上面的公式,计算一场比赛中任何数量的进球的概率。
举个例子,
P (一场比赛进 5 球)=e^-2.935642 * 2.935642^5/5!
P (一场比赛进 5 个球)= 0.096786787861
让我们用 R 来计算上面的。
## [1] 0.09647199
我们看到的值与上面计算的值相同。
我们还可以看到,随着事件数量的增加,即目标数量从 0 增加到 8,概率是如何变化的。
摘要
泊松分布的概率计算公式可以成为任何人评估事件发生概率的一个巧妙的小技巧。它还被广泛地用于工业中,例如估计 k 个顾客到达商店的概率以优化资源,或者估计网页已经经历了一些 k 次更新的概率以优化搜索引擎抓取网页的速率。
人工智能在脸书的力量
我们每天都在使用脸书及其提供的各种服务,即使我们没有意识到。
其中一项服务包括自动翻译。在过去的一天里,这些翻译已经用一种新的人工智能机制实现了。
在这个人工智能功能之前,脸书通过一个被称为“神经网络”的网络来处理他们的翻译。这个网络是一个简单的翻译配置机器,但现在已经更新,变得完全先进。
脸书在他们的公司博客中提到:“为使用脸书的 20 亿人创造无缝、高度准确的翻译体验是困难的”…“我们需要同时考虑上下文、俚语、打字错误、缩写和意图。”
这一新的高级功能的优点是简单明了的。旧系统确实为我们自动翻译了,但有时这个句子完全没有意义!
举个例子,
旧:土耳其语到英语
新:土耳其语到英语
你已经可以看到这种进步的好处了!
神经网络几乎总是有可调参数来控制模型的学习速率等事情。选择这些超参数的最佳集合对性能非常有益。
然而,这对于大规模的机器翻译来说是一个重大挑战,因为每个翻译方向都由一个具有自己的超参数集的唯一模型来表示。由于每个型号的最佳值可能不同,因此我们必须针对生产中的每个系统分别进行调整。
完成从旧短语基础到这种新的更现代的神经机器的转换,是脸书国际化之旅的一个转折点。
有关脸书新开发的更多信息,请参见:https://code . Facebook . com/posts/289921871474277/transitioning-totally-to-neural-machine-translation/
2017 年 GPU 技术大会(GTC)上人工智能(AI)、虚拟和增强现实(VR 和 AR)对医学成像的影响
This slide, like the picture below from InferVision (Chinese startup) are common with Indian and Chinese startups creating new interfaces generating reports (noting AI predictions) on the medical images.
今年的 GTC 组织了一场医疗保健跟踪,致力于人工智能和健康技术之间的应用。许多研讨会专注于使用 Nvidia 硬件、图形处理单元(GPU)应用机器学习算法来预测早期癌症检测的开始,许多会议分析解剖结构中的其他癌症肿瘤,如肺、乳腺和大脑。许多会议分析了大脑功能磁共振成像,特别是作为一种手段,推进对各种神经退行性疾病的研究,如阿尔茨海默病(AD)。
以下是会议的一些快速亮点,以及一些关于虚拟现实(VR)和增强现实(AR)演示的笔记,以及动态用户界面对医学研究技术应用的影响。
研究人员能够从用于查看人体解剖结构的各种扫描仪中获取图像,增强和扩大图像,检测病理,诊断疾病,在某些情况下,甚至可以帮助光谱的另一端,进行如上图所述的治疗和预后。
挑战
围绕数据质量(数据大小、注释、数据焦点),一些研讨会表达了与美国国立卫生研究院(NIH)科学家陆乐相同的观点。
然而,当通过“谷歌搜索”+众包(ImageNet 就是这样构建的)的传统方式很难获得注释时,无监督的图像分类(即没有地面真实标记)就很少被研究,非常重要,也很困难
“大数据”的传统定义倾向于在对数百万到数十亿用户的分析中讨论。然而,对于在健康、医疗和生物技术领域工作的研究人员来说,数据虽然丰富,但我经常听到这样的评论,即研究人员只限于这么多的数据集,并且局限于少数患者和规模较大的数据集(每个患者多个图像)。
斯坦福大学教授丹尼尔·鲁宾教授研究生课程“生物医学图像分析和解释的计算方法”,他讨论了这种斗争以及对更直观的机器学习(ML)工具的需求,许多了解计算机编程的生物医学研究人员不需要这些工具来加快医学研究的步伐。
同样,斯坦福大学电气工程博士候选人 Enhao Gong 发表了“利用 Nvidia GPUS 支持的深度学习增强多对比 MRI 重建以改善诊断”的演讲,他也有同样的观点。他的工作讨论了 Nvidia GPU 如何将他们的预处理速度提高 4000 倍和 100 倍,以进行推理和 MRI 的整体重建。鉴于大多数研讨会(以及 Nvidia 创始人兼首席执行官黄仁勋)不断重复谈论摩尔定律,生产良好硬件的限制不是我们最大的挑战,而是最大限度地优化从数据到算法和我们创建的应用程序。
点击这里观看黄仁勋的主题演讲。
如果数据继续被孤立在特定的医院中(数据集仍然很小),研究人员和临床医生将更难最大限度地发挥机器学习应用程序在医学成像方面的优势。如下面的幻灯片中所述,数据本身集中在一个特定的感兴趣区域(ROI)(意味着图像的一部分集中在图像中的结节、肿瘤或其他特定区域),这仍然不够,因为大部分数据可以是给定解剖结构的完整图像。
Slide from Stanford Professor Daniel Rubins’ talk “Deep Learning in Medical Imaging: Opportunities and New Developments”
研究人员提到的医学成像和机器学习的另一个主要挑战是数据质量(高分辨率图像之外)。
陆乐的会议“建立真正大规模的医学图像数据库:深度标签发现和开放式识别”讨论了与许多研究人员和那些在国家范围内工作的人所面临的挑战相比,典型的良好注释的 ImageNet(斯坦福大学教授和计算机视觉先驱费-李非的工作)在大小和规模上的差异。与数百万或数十亿用户不同,患者数据少得多,不到 100,000 人,每人有多张图像(CT 和 MRI)。在这里为 NIH 开源数据集做贡献。
为了更有效地将机器学习应用于医学成像以进行特征提取,在缺乏临床医生对数据集的注释的情况下,需要进行标记。在 Lu 的会议中,他讨论了他如何建立一个以胸部 x 射线(肺癌)为重点的大规模数据集,采用放射科医生预定义的常见疾病模式的数据标签,为每幅图像生成一份报告,从而实现疾病的自动检测/分类和疾病定位。下图显示了陆的应用程序中的自然语言处理和报告生成,以及另一家初创公司世博大厅的 Infervision。
This slide, like the picture below from InferVision (Chinese startup) are common with Indian and Chinese startups creating new interfaces generating reports (noting AI predictions) on the medical images.
At the GTC Expo, Chinese startup Infervision’s user interface displaying a medical report on MRI https://techcrunch.com/2017/05/08/chinese-startup-infervision-emerges-from-stealth-with-an-ai-tool-for-diagnosing-lung-cancer/
虽然报告生成很好(正如在 GTC 世博会、Infervision 和陆乐的演讲中看到的那样),但其中一些数据分析仍然有限,这就是为什么即使是放射科医生创建的虚拟现实工具(我将在本文结尾讨论)也试图通过沉浸式地查看他们的数据来改变研究人员的工作流程,就像 3D 可探索的解释。
英伟达的软件框架:数字
工程师兼研究员 Saman Sarraf 还介绍了他在深度 AD(深度阿尔茨海默病)方面的工作,内容是如何使用 Nvidia 数字进行高精度预测。你可以在 Saman 的 IEEE 论文这里和 Nvidia 博客上读到更多。
这是一个信息架构,概述了放射科医生开始分析患者数据的过程(在数据准备和预处理上花费了大量时间)。
From Nvidia blog: https://devblogs.nvidia.com/parallelforall/nvidia-digits-alzheimers-disease-prediction/#.WH7_9C6Lcvs.twitter
Sarraf 的工作是,像我参加的处理图像的许多其他会议一样,在卷积神经网络(CNN)模型上进行训练,并产生可以帮助研究人员的图像分类。
这里有一个来自龚恩浩工作室的视频,它解释了 CNN,在某种程度上,它将类似的技术可视化,以平滑图像并进行特征提取。
除了大多数关于神经网络的演讲侧重于监督学习和图像分类之外,我参加的最有趣的会议之一,Robert Zigon 关于“神经成像基因组学中的 GPU 数据挖掘”的演讲展示了机器学习、生物信息学、生物统计学和神经学的交叉,他分析了 MRI 体素的属性和阿尔茨海默氏症患者 DNA 序列中的单核苷酸多态性(SNP)之间的相关性。用户界面(UI)热图高度概括了来自 MRI 的灰质密度和 SNP 基因型之间的关系。当用户悬停在大脑的每个片段上时,能够实时地看到大脑,并且逐个体素地看到与它的每个部分相关的 SNP。
其他相关研究
很像 Enhao Gong 提出的专注于解剖结构图像重建的用例,他讨论了动脉自旋标记(ASL)以量化灌注图(脑血流),我很高兴地发现,在 Nvidia 提出的“使用 R 和 MXNet 进行医学图像分析的深度学习”期间,一项推动心脏病研究的培训利用 fMRI 数据来测量大脑中的血流。这个研讨会展示了亚马逊的深度学习框架 MXNet,用于训练 CNN 从体积 MRI 数据的时间序列中推断人类心脏左心室的体积。虽然不是专注于神经退行性脑部疾病,但该研讨会展示了如何将不同类型的机器学习算法应用于其他类型的医学成像,从而推动其他领域的医学研究,这是一种更全面的方法,涉及到将人体作为一个整体来考虑,而不是将单个器官或解剖结构与其他部分分离开来进行研究。
虚拟和增强现实演示
我尝试过的最好的虚拟现实演示之一来自一家瑞士公司,虚拟放射学让我想起了多伦多大学的工作,只有高分辨率,彩色的。看这里的视频多伦多大学的 demo (TVASurg 医学成像 VR 模块)黑白 MRI。
虚拟放射科首席执行官 Christof von Waldkirch 是一名受过培训的放射科医生,他展示了研究人员如何对图像进行切片和调整。对我来说,这无疑是我在 HTC Vive 的 healthtech space 上看到的最好的 VR 演示之一。
See the video of me here participating in their demo.
这是一个视频(特写)和更高分辨率的演示我做的。
尽管再次强调,虚拟现实、AR 的沉浸式新兴技术并不专注于脑成像,但它们正在以新的不同方式与健康技术和人工智能交叉。与我交谈过的许多在场的研究人员一样,虚拟放射学的联合创始人(以及我自己)在图像处理方面都遇到了同样的问题,在降低 MRI 的噪声(图像清晰度)方面遇到了困难,并且在发现任何数据洞察力之前,采取除平滑之外的不同方法是数据准备管道的很大一部分。
Y Combinator 支持的增强现实公司 Meta ,其首席技术官 Karri Pulli(前 Nvidia 研究员)在 GTC 期间简要介绍了 Spatial OS 和 Meta 的 AR 设计指南,Meta 的首席执行官 Meron Gribetz 在 GTC 第三天在斯坦福的图像系统工程(科学)中心增强现实研讨会上介绍了 AR 演示。
Meta 的设计基于神经科学。Gribetz 引用了 Dwight J. Kravitz 在 2011 年的开创性工作,指出人类在过去 50 年的计算中只参与了这两个视觉系统中的一个(背侧通路相对于腹侧通路)。传统的非直观的平面用户 2D 界面已经把我们的思维和交互限制在了屏幕(手机、桌面等)的范围内。)并且没有优化腹侧通路的使用,该腹侧通路理解与空间关系相关的物体,而增强现实有潜力做到这一点。他解释了人类在与我们创造的一些有限的图形用户界面(GUI)(如命令行)交互时,如何只锻炼大脑的特定区域。
“大脑中解析符号信息和语言的部分,这些区域代表了大脑相当小的一部分,我们单独使用它们。随着我们锁定多个皮层模块,随着你越来越多地与大脑互动,你在零学习曲线的情况下接近这条渐近线,计算范式将像整个操作系统中的‘缩放’。”
格里贝茨简短地演示了 Glassbrain,这是一个大脑的交互式 3D 对象,并解释了亚当·加扎利·UCSF 教授实验室如何表现白质束。他在独奏一个鼓时,使用了感恩而死鼓手的脑电图扫描。他们在 DTI(扩散张量成像)上覆盖颜色来创造它。这是在 GTC 第三天的斯坦福增强现实研讨会上。请看下面的 YouTube 视频。
他提到了发现大脑中 F4 的 Leonard Fogassi,大脑可以创建你正在触摸的物体的深度图,以及你的手在物体附近的位置。
“当我在这个大脑周围移动我的手时,我正在我的脑海中创建这个物体的内部 3D 模型。如果说外周神经系统的任何一部分,手掌拥有最高的神经元凝结度。如果我们直接接触全息图,我们有最高的自由度和控制精度。我们更深刻地理解物体,为什么我们这样做。这就是为什么我们提倡不要使用控制器或鼠标,因为它们会将两个 x-y 平面彼此分开,只会使您进一步远离这种微调多自由度控制。”
由于 Glassbrain 和虚拟放射学的高分辨率、彩色和交互式图形用户界面只是概念证明的开始,它展示了我们如何开始重新思考医学研究人员如何超越简单、黑白、平面设计或单调的报告与他们的用户界面进行交互,以让我们的思维流动。
结尾注释
自近年来人工智能爆发以来,医学成像和机器学习领域已经走过了漫长的道路,仍然在与各种挑战作斗争,其中许多挑战都是非技术性的,与数据收集和数据质量有更多的关系。在当前的 2D 界面上使用人工智能(在 VR 和 AR 之外的大多数讨论中占主导地位)与创建更多开源软件(工具)、开放数据以及直观用户界面(VR 和 AR)之间的融合,医学研究可以通过人工智能推进。VR 中的虚拟放射学和 AR 中的 Meta 只是查看医学成像(即使没有大量人工智能)如何改变用户界面以创建新的分析范式的几个例子。我很高兴看到这些新兴学科之间的新交叉可以进一步推动医疗技术的研究。
数据的力量
关于数据(或缺乏数据)如何帮助(或失败)发展中国家决策者的思考
前言
上周五,当我站起来在科特迪瓦教育部和 TRECC(一个由雅各布基金会领导的旨在改变可可产区教育的伙伴关系)之间的指导委员会会议上发言时,距离我第一次来到阿比让已经过去了 14 个月。
象牙海岸是一个充满活力的国家,反映了贯穿大部分大陆的矛盾。丰富多样的种族、语言和文化,以及充满武装冲突和政治紧张的历史。咖啡和可可等大宗商品推动了经济的增长,同时伴随着令人震惊的童工水平和令人沮丧的教育成就。
第一次旅行的目的是引发一场讨论,如何将巴西 MGov 的成功经验——Eduq+,一种 nudgebot 发送短信给家长,鼓励他们参与孩子的学校生活——应用于科特迪瓦的学校儿童。对巴西学生的出勤率、学习和成绩进步产生了惊人的影响(给政府带来了超过 1000%的投资回报),类似的影响能否在撒哈拉以南非洲更具挑战性的环境中复制?
有几个理由相信答案可能是否。首先,因为估计约 50%的科特迪瓦父母是文盲。此外,在能够阅读的人中,至少有一半报告说他们不能阅读正式的法语。短信在这种情况下有用吗?第二,因为象牙海岸的教师缺勤率被认为很高——在类似的环境中,教师缺勤率约为 60%——所以让家长参与可能对学习没有任何影响;毕竟,如果学生在学校很少学到东西,那么出勤有什么好处呢?
在接下来的一年里,一台重型机器开始运转,以确保能够成功实现可转移性。我们与当地教育系统的所有利益相关者进行了广泛的磋商,建立了当地的伙伴关系,并对邻国的不成功经验进行了审查,以便为我们的工作提供信息。
三个关键的变化带来了最大的机会,积极的影响在巴西发现将转移到象牙海岸。首先,Eduq+不仅可以通过短信联系到家长,还可以通过语音信息联系到家长。第二,也是最重要的,根据每个参与者的选择,音频信息将以 7 种不同的语言传递——简化法语和 6 种当地方言。第三,教师也将成为 Eduq+的目标,目的是鼓励他们少缺课,更有效地利用课堂时间。
为了了解哪些约束是可转让性的真正关键,每个创新都被随机分配(与宾夕法尼亚大学的 Sharon Wolf 联合进行的一项正在进行的研究)。在一些学校,家长和老师都收不到信息;在其他学校,要么只有老师,要么只有家长会收到信息;在其余情况下,父母和老师都将成为目标。每当父母被分配接收信息时,在这些学校中的一半中,父母被分配接收简化法语的文本信息(没有方言的书面版本),而在另一半中,父母被分配接收他们选择的语言的音频信息。
目标是跟踪每个版本的 Eduq+对学生出勤率、学习、成绩进步和辍学率的影响。
这就是我要分享的故事开始的时候。
缺失数据
在这个过程的早期,一个非常重要的问题引起了我们的注意:教育部没有关于学生成绩、留级率、辍学率甚至出勤率的系统数据。
在这方面,象牙海岸并不孤单:我敢说,撒哈拉以南非洲没有一个国家系统地跟踪这类数据。即使在像巴西这样的发展中国家,我们开始每年跟踪每所学校的学习情况(T4)也不过是 10 年前的事情。即便如此,出勤率数据通常也无法获得,需要与当地政府合作。
一个教育部没有数据会怎么样?我们做了什么来解决这个问题?
丢失数据的一些后果
当戈亚斯州在高中成绩排名中上升到首位时,教育秘书处将其主要归因于该州在学生连续多天缺课时做出快速反应的政策。据该州称,这被认为是辍学率的最佳预测指标,一旦政策出台,辍学率至少下降了一半。
该州不得不成立一个庞大的工作组,以确保出勤数据能够及时获得。虽然教师每天都以书面形式记录出勤情况,但他们通常只在学年结束时将此类数据输入在线系统,因为那时对早期旷课和辍学采取行动已经太晚了。
尽管听起来令人兴奋,但戈亚斯的政策实际上并不具有可扩展性:教育秘书处内部可以设立的呼叫中心职位数量存在物理限制,而且外包此类服务的成本很高。结果,可能使戈亚斯地位上升的关键政策之一不再存在,也没有被其他州系统地采纳。
在一项旨在创建这一政策的可扩展版本的实验中——使用 Eduq+及时通知父母他们孩子的出勤情况,这是一个与 Eric Bettinger (斯坦福大学) Nina Cunha (FH360)和 Ricardo Madeira (圣保罗大学)的联合项目——我们发现,即使是巴西最富裕的州圣保罗也没有实时信息系统来跟踪学生的出勤情况。
当然,这让学校系统付出了沉重的代价:我们的研究表明通过让家长关注孩子的学校生活,与家长的沟通能够将九年级学生的缺课率降低 15%,留级率降低 1/3。
数据的奇迹
在该研究的背景下,我们必须创建一个简单的系统,允许教师以粗略的方式在线报告儿童的每周出勤/行为,旨在尽可能方便、节省教师的时间,同时仍然向护理人员传递一些有用的信息。2/3 的教师在典型的一周内填写了关于他们学生的信息,即使没有金钱激励!
虽然 Eduq+甚至还没有触及其市场潜力的表面——巴西约有 4000 万学龄儿童——但它的规模每年都在增长,目前在该国约有 20 万活跃用户。
利用这一成功经验,象牙海岸的计划是为每所参与学校提供一台联网平板电脑,这样,每所学校的管理人员都可以在 MGov 的平台上填写教师和学生每周的出勤信息。
但就在那时,我们了解到——惊喜!—教育部甚至不知道学校在哪里……
所以我们从基础开始。现在,我们可以在地图上显示学校的每周教师和学生出勤率,这是我们与 TRECC 合作的第一年。
Eduq+’s dashboard for the Ivorian Ministry of Education
尽管看起来很简单,但这绝对是革命性的。它首次为学校系统提供了规划、监控和采取基于证据的行动所需的最基本的工具。
当你无法获得数据时…代理它
当然,这只是第一步。我们最终将能够以高频率展示我们对不同学校学生的读写和计算能力是否有所提高的最佳预测。
如果教育部没有每年一次的标准化考试,这怎么可能,更高频率的考试又如何呢?
答案在于借鉴流行病学和公共卫生的见解。当我们想要预测一种疾病是否正在传播时,我们并不完全依赖诊断计数,在社区分散、距离最近的诊所数英里之外的贫困地区,获得诊断计数可能非常缓慢,并且容易漏报。相反,我们依赖于更高频率的调查,这种调查遵循一种识别疾病的协议。这孩子一直感到不舒服吗?她发烧了吗?呼吸急促?如果答案是系统地是的,那么我们可以有把握地预测肺炎的发病率。
话虽如此,调查也面临挑战,比如零通胀:大多数参与者不回答(或少报)的倾向。有趣的是,利用良好的统计特性,虽然预测模型对个体来说往往很不准确,但对更多的聚合单元来说却越来越准确,比如村庄。
因此,现在有很好的模型来预测流行病的早期传播,而在为时已晚之前仍有时间采取行动。巴西创业公司 Epitrack 在巴西、美国和其他地方正是这样做的。
我们能为教育做同样的事情吗?这一类比表明,原则上我们可以,尤其是如果我们试图从学校获得基于个人报告的准确预测。
挑战在于,与预测疾病的探索不同,预测学习没有明显的方案。其实是科研人员还没有解决的问题。
此时此刻,MGov 正在巴西的背景下测试 10 种不同的协议,以评估什么是最好的"温度计"",以高频率(每两周一次)评估哪些学校正在改善,哪些学校没有改善。
不需要数据时
这里有一句忠告。仔细看看我们关于与父母沟通的研究表明,信息对于提高学习并不是真正必要的。吸引父母的注意力——换句话说,促使他们参与到孩子的学校生活中——足以导致我们在那项研究中记录的巨大成就。
然而,这并不是说这些信息与其他利益攸关方无关。教育系统知道在哪里采取行动仍然有巨大的价值,特别是当涉及到时间敏感的问题时,如学生在今年上半年的系统缺席,以及教师惊人的高缺勤率。如果运用得当,知识永远是力量。
数据不足时
然而,我们也必须面对这样一个问题,有时,仅仅获得正确的数据是不够的。巴西是一个典型的例子。它有学生水平表现的惊人数据。但是它仍然很少使用它们…
Scatterplot of the relationship between each school’s socioeconomic conditions and its students’ achievement
上图展示了社会经济水平相同地区的学校表现出的异常差异。IDEB 被计算为数学和语言评估的平均分,由学校的留级惩罚(因此,分数在 0 到 10 之间)。我们可以看到,一些条件相近的学校,学生成绩相差 7 分。
这种差异可能存在并持续的唯一原因是,政府没有系统地利用这种数据将学校配对,以纠正它们之间的不平等或促使它们相互学习。
人工智能如何帮助
人工智能可以帮助政府最好地利用数据,而无需等待昂贵而漫长的政治决策。
首先,将相关的学校联系起来(但最近的表现有系统的不同),比如通过自动共享模板来填写来自支持项目的资金申请,如巴西的 PDE Escola 。该计划允许低于全国 IDEB 平均水平的学校根据社区驱动的自我评估向联邦政府申请课程或实物投资。为什么教育部不自动与表现不佳的学校分享其他类似学校(反而有所改善)过去要求的内容?这可以通过人工智能轻松实现——这是一个唾手可得的果实。
另一个例子是教师培训。在巴西,教师的附加值很低:学生学得很少,90%的学生在高中毕业时没有达到该水平教学所需的最低数学技能。更具挑战性的是,新的共同核心课程标准要求教师改变他们的工作方式。该国如何确保教师接受在职培训来做到这一点?
一种方法是给老师发短信,系统地支持他们对新标准的理解,并分享资源帮助他们准备新的教案。然而,并不是每个老师都需要同样的支持。人工智能可以允许根据每个教师的需求定制培训计划,基于对这些计划的哪些特征可以最大限度地提高每个教室的学习效果的预测,利用我之前描述过的相同的"温度计"。
当然,技术总是伴随着承诺和风险:(1)伦理维度应该仔细考虑,(2)算法必须谨慎地与实验相结合,以确保它们不会复制不平等,(3)结果数据(或至少是这些数据的代理)必须以足够高的频率生成,以便及时进行微调。
MGov 正在努力解决这些问题。
编后记
如果我们不能为决策者提供更好的数据来支持他们的意见,或者我们不能利用技术来帮助政府直接利用更好的数据,而不是在复杂而漫长的政治决策中打转,我们就会让整整一代学生失望,他们想要学习,但却没有获得所需的工具和资源。
我们开始接受这是的正常业务。这需要改变。必须释放数据的力量,否则我们将继续辜负这些孩子的未来。
数据科学中设定目标的力量
人工智能项目管理
使用谷歌的目标设定方法 OKRs 来设定你的数据科学项目取得成功
T2奥格尔深知设定目标的力量。2004 年,早期投资者约翰·杜尔登向这家年轻的公司介绍了“目标和关键成果”(OKRs)。随之而来的是一个奇迹般的增长和创新的故事。长期担任谷歌首席执行官的拉里·佩奇认为,OKRs 对公司的成功产生了重大影响。谷歌并不孤单——亚马逊、Zalando 和英特尔至今仍在使用 OKRs。
Photo by Annie Spratt on Unsplash
首先,这篇文章解释了 OKRs 是如何工作的。其次,它旨在说服数据科学家使用 OKRs 来指导他们的项目。数据科学家经常会陷入持久的研究或优化价值较低的指标。结果,浪费了时间和资源,危及了成功的交付。OKRs 提供战略指导和可测量性,帮助您实现项目目标。
内容基于著名风险投资家约翰·杜尔登的著作《衡量什么是重要的》和个人对 OKRs 的体验。让我们学习。📗
设定目标的力量
“正确设定的目标已经成功了一半.”——金克拉
设定目标可以说是启动任何项目最重要的一步。虽然研究还不清楚正确设定目标的好处,但我们可以推断出它的优点和缺点。如果我们没有明确的目标,员工就无法合作,行动也不一致,我们也不知道是否达到了目标。简而言之,浩劫迫在眉睫。
Photo by Patrick Fore on Unsplash
因此,每个数据科学项目都旨在实现一个目标。目标的广度可能有所不同,从研究一个新模型到创建一个改进现有系统的原型。即便如此,准确的目标设定对于数据科学项目来说也是至关重要的。数据科学项目非常适合精确的目标设定,因为我们可以将模型的结果与所需的指标进行比较。
让我们探索由英特尔首创、谷歌完善的目标设定方法——OKRs。
目标和主要成果
O 目标和关键成果是一种透明地调整资源并对其进行优先排序以实现共同目标的方法。这种方法是由英特尔传奇人物首席执行官安迪·格罗夫在 20 世纪 80 年代创立的。OKRs 可以在公司、团队、项目或个人层面上被企业和组织使用。okr 被广泛用于在硅谷和欧洲的公司间协调战略计划。
okr 在项目开始时制定,并定义最终目标。下面是 Rick Klau 的个人简历,他在被谷歌收购后在 Blogger 工作:
您可以看到,Rick 宣布的目标是“提高 Blogger 的声誉”以及可衡量的关键结果。在每个季度末,这些关键结果被从 0 到 1 分级。
目标是*【什么】*。项目的目标是什么?他们…
- 表达目标和意图
- 既激进又现实
- 是有形的、客观的和明确的。一个理性的观察者能够判断目标是否达到
- 在以下情况下为公司提供明确的价值
关键结果是*“如何”*。我们如何达到项目目标?他们…
- 表达可衡量的里程碑
- 描述结果,而不是活动。“请教”或“帮助”是 OKR 的弱项。关注这项活动如何帮助实现目标。
- 包括完成的证据
OKR 超级大国
根据约翰·杜尔登的说法,OKR 框架提供了四个不同的超级大国。
OKRs 透明地将员工的工作与承诺的目标结合起来。okr 是可衡量的,在每个季度末进行评估。当达到 70%的关键结果时,okr 就是成功的。这促使员工树立远大目标。
接下来,让我们探索如何将 OKRs 的力量用于数据科学项目。
将 OKRs 应用到您的数据科学项目中
著名的人工智能先驱 ndrew Ng 在他的深度学习专业中教导说,每个数据科学项目都应该从定义一个可衡量的指标开始。该项目的目标是实现这一指标。这个目标指导你的项目的行动。
准确性、精确度和召回率或 F1 分数等指标是常见的数据科学指标。根据您的业务案例,每个指标都有明显的优势和劣势。当数据集高度不平衡时,精确度可能不是最佳指标。你会将你的算法与人类水平的性能进行比较吗?检测速度有多重要?
选择最有意义的指标来定义你是否已经解决了业务案例。分析每个指标的利弊超出了本文的范围,但是您可以在这里阅读更多相关内容。定义关键指标将阻止您在应该创建原型时进行研究,或者在已经达到指标时继续解决问题。
定义关键指标后,我们离定义数据科学 OKRs 更近了一步。在许多项目中,关键指标是目标的一部分是有意义的。它显示了我们想去的地方。接下来,我们需要定义关键结果来显示如何达到目标。
假设你在汽车行业工作。您发现需要检测城市环境中的行人,以警告卡车司机。您决定为卡车开发一个驾驶员辅助功能,以准确识别行人。卡车底盘抖动严重,因此一般的行人检测模型不能很好地工作。团队一致认为,第一季度 98%的检测率是一个合适的延伸目标。
接下来,您决定需要一个至少包含 10.000 个标记图像的数据集。你需要时间来做研究和实现第一个原型。最后,你需要时间和资源来迭代,直到你达到目标。让我们把信息转换成 OKRs。
这些 okr 指导您下一季度的行人检测项目工作。你在最后回顾你的 okr。你实现了你的主要目标了吗?如果你错过了他们,为什么?
将 OKR 方法应用到您的数据科学项目中,将使您保持成功的项目交付。
关键要点
- OKRs 允许你调整和优先化你的工作,设定延伸目标和跟踪你的进展
- 通过设置正确的指标和 OKRs 开始每个数据科学项目
- 不断衡量你达到 OKRs 的进度
每个数据科学项目都是不同的。然而,所有的项目都是从设定目标开始的。通过使用 OKRs,让您的数据科学项目取得成功。🎯
模拟的力量:生日悖论
生日悖论是这样的……在一个有 23 人的房间里,他们中的两个人有 50%的机会在同一天过生日。
好的,引入一个悖论的第一步是解释为什么它是一个悖论。有人可能认为,对于每个人来说,都有 1/365 的机会让另一个人和他们同一天生日。事实上,我能想到的和我同一天生日的人只有一个,他是我的双胞胎兄弟!既然我遇到的远远不止 23 人,这怎么可能是真的呢?
这个推理有几个原因是有缺陷的,第一个原因是这个问题不是问房间里是否有另一个人有特定的生日——任何一对人(或者更多!)可以共享一个生日来增加陈述为真的几率。
完整的答案很难计算,但是我想告诉你如何通过模拟实验来说服自己这是真的。模拟是对计算机或模型进行编程,使其表现得就像真实发生的事情一样。通常情况下,你这样做是为了让模拟的花费比实际的花费少得多。例如,将模型飞机机翼放在风洞中就是一种模拟。我用一种叫做 Python 的计算机编程语言模拟了生日悖论,这篇文章可以在这里的笔记本式中找到。的确,这比和 23 个人在一个房间里要容易得多。
下面我将而不是展示代码(同样,这里的已经结束了),但是我将描述模拟是如何工作的,并展示结果。
模拟
打电话给我们需要问的人数,才能得到重复的生日。这就是所谓的随机变量,因为它的值是未知的,并且可能会由于我们无法控制的条件而改变(比如谁碰巧在房间里)。
现在我们模拟一个实验,实现如下的 n 值。
- 随便选一个人,问他们的生日。
- 看看别人是否已经给了你答案。
- 重复步骤 1 和 2,直到生日被重复两次。
- 数一数被询问的人数,称之为。
进入步骤 4 构成了一个单独的实验。出来的数字可能是 n = 2 或者 n = 100 。这完全取决于谁在房间里。所以我们重复所有的步骤很多很多次,看看数字是如何下降的。我们重复的次数越多,我们获得的数据就越多,我们对正在发生的事情的理解就越好。
这是我们运行这个实验一百万次后的样子。
模拟生日悖论。横轴是 n ,在找到重复的生日之前我们需要询问的人数。我们做了一百万次实验,并记录了结果。
那么这些数字意味着什么呢?好吧,让我们看看发生了多少次 n = 2 比如。在这一百万次试验中,结果 2 出现了 2679 次,相对来说是 0.2679%。请注意,这接近 1/365 ≈ 0.274%,这是意料之中的,因为第二个人与第一个人具有相同的概率正好是 1/365。所以每一次出现的次数除以一百万,大概就是我们在一次实验中看到这个数字的概率。
然后我们可以绘制同样的数据,考虑到纵轴是在重复生日之前需要见 n 个人的概率。
与之前的图相同,但现在每个柱都被解释为一个概率。
将每个条形的值相加,总和为 100%。这是因为当我们做实验时,其中一个值必须出现。好,现在我们可以把这些概率加起来,从 n = 2 开始,一直加到 50%。从视觉上看,是这个数字将上面的彩色区域分成了两个相等的部分。这个数字就是我们有 50%的机会重复过生日所需要遇到的人数。你能猜到会是什么吗?
鼓声… 23 !Tada!模拟的生日悖论,模拟解决!
但是,等等!还有更多。
那些闰年的宝宝呢?其实生日平均分布的假设不是错的吗?如果我们真的在现实生活中尝试这个实验,我们会得到 23 或其他数字吗?
令人高兴的是,我们可以用真实数据来检验这个假设!至少对于美国的新生儿来说,你可以在 fivethirteight 的 github 页面找到数据。这是实际的分布情况。
1994 年至 2014 年美国出生人口分布,按年份分。
也许用眼睛看起来不太均匀。你可以清楚地看到 12 月 25 日和 12 月 31 日有巨大的下降。关于这一点已经写了很多,也有很多美丽的视觉效果。但是,我们的问题是这是否对生日悖论有影响。举例来说,也许没有多少人出生在 12 月 25 日这一事实意味着很容易在剩下的日子里找到同一个生日。让我们通过用生日的真实分布模拟实验来检验这个假设。
为此,我们执行与上面相同的 4 个步骤,但是从生日的实际分布中随机抽取答案。另外一百万次实验的结果绘制如下。
模拟出生人口真实分布的生日悖论。横轴是 n,在找到重复的生日之前我们需要询问的人数。我们做了一百万次实验,并记录了结果。
而且答案是一样的!生日悖论在生日的实际分布中依然存在。
书呆子狙击
上述讨论很好地证明了生日悖论对于出生的实际分布是稳健的。但是,这并不构成数学上的证明。一个实验只能提供证据。所以我将以一个技术性的问题来结束这篇文章,这个问题是给那些数学迷们的。(我接下来要做的也叫书呆子狙击。)
这里有一个广泛的问题:量化上述观察。我觉得这里不止一个问题。例如,应该可以将 50–50 阈值限制为与均匀分布的偏差的函数。
这篇文章最初发表于 2017 年 3 月 23 日的https://csferrie.com。
礼物:数据科学的圣诞故事
Bean Sprout Notes
乌拉贝克开始审视今年礼物的规格时,思绪纷乱。他的星球已经和不到一万光年外的姐妹太阳系中的对手交战了一个多世纪。他担心他将永远看不到结束所有战争的战争的结束,因为在每个城市和每个州都有每个阵营的游击队员,甚至可能在人类意识中共存。考虑到双方在真理、价值和人性上不可调和的立场,他认为他们的死对头成为他们圣诞礼物的唯一供应商是非常矛盾的。所有这些想法都强调了他自己团队工作的重要性——确保每年的礼物不会污染他星球上孩子们的思想和梦想,从而不可避免地导致对手的胜利。
乍一看,今年的礼物似乎足够传统。原型基本上是一个经典的谋杀推理游戏,即使它包含了最新的前沿技术。该软件通过虚拟现实设备交付,鼓励参与者合作解决一个经典的“谁做了”问题。玩家被引导从一个虚拟地点到另一个虚拟地点,寻找可以用来识别对手间谍高手的数据。集成的父母控制似乎提供了一个不错的额外津贴——参与者年龄组的生物统计学读数输入一个自适应算法,该算法生成每个场景的谜语、痛苦和快乐。竞争对手肯定操纵了游戏,他的工作只是了解如何操纵。
乌拉贝克很久以前就得出结论,尽管竞争对手的领导人确实很聪明,但他们的智慧在很大程度上被公众忽视了。他们的信仰体系基于理性思考,天真地认为人类能够看穿自己的偏见。在制造圣诞玩具方面,竞争对手的独创性是一种罕见的天赋,但却是对普通员工的诅咒。所有这些关于分析方法和基于事实的决策的讨论,对于那些想要即时满足和实时结果的人来说是太多了。这几个世纪人类进步的失败难道还不足以证明理性的谬误吗?现实世界太复杂,普通人无法关心,充满了太多的痛苦,任何人都无法承受…
在他自己的世界里,大众经常将数据误认为事实,操纵大师的力量早已占据上风。竞争对手既愚蠢又聪明——谁不想成为德乌斯人呢?【iii】预测性分析已经取代了描述性统计,只是在最终目标是指导人类行为的规定性分析方面显得苍白无力。后真理早已成为这个后现代主义世界的署名——第四次工业革命催生了数据的大规模生产,其唯一目的是证明其所有者的观点。在政治、经济和社会中,政治顾问总是占上风。
当然,他的团队的责任是确保这种人为的真理永恒不变。有传言说竞争对手已经改变了策略,这无疑是一个令人担忧的原因。到目前为止,他的检查员团队从未发现过陷阱,并在向公众发布之前重新设计了过去的礼物。他的团队一次又一次地测试新游戏,同时享受只有虚拟现实才能提供的刺激和乐趣。几周过去了,乌拉贝克变得越来越担心:这个软件看起来就像它声称的那样——一个基于角色的游戏,基于操纵者非常珍视的价值观。平安夜的早晨到来了,他必须做出决定,决定他做了。他命令他的团队用自己的数据集替换游戏的数据集,然后将软件上传到云端,以便全球分发到每个家庭的电子圣诞树。
圣诞节一大早,乌拉贝克就被自己孩子的恶作剧逗乐了。他们已经把礼物下载到了家里的虚拟现实耳机上,现在已经准备好去冒险了。尽管他很关心他的孩子,但如此多的清晨焦虑和喜悦只会加剧他最近的挫败感。他勉强同意玩这个游戏,心里只有一个想法——他要给他们上一堂值得操纵大师自己上的课。随着孩子们越来越深入虚拟现实,乌拉贝克确保将他们远远抛在身后。他们不断轻蔑的微笑和不断的大笑只会让他更加恼怒——为什么他们如此努力却收效甚微?在两个“短”小时内,他轻松赢得了比赛。然后,在他得意洋洋的时候,他嘲笑他的孩子们缺乏远见和狡猾。
事实证明,他发泄的愤怒是他的孩子们发笑的另一个原因。当然,他要疯了。一种内心深处的恐惧慢慢地但肯定地吞没了他……如果他们掉进了对手的陷阱呢?当他觉得自己再也受不了这种无聊的事情时,他最小的孩子开口了,“爸爸,你没看视频说明吗?这个游戏的目标不是赢,而是输。”
我谨代表商业分析研究所的合作伙伴和同事,祝您节日快乐,并祝您在 2018 年的个人和专业事业中取得成功!
改善管理决策是商业分析研究所的核心和灵魂。在巴约纳的暑期学校,以及在欧洲的大师班,我们专注于数字经济、数据驱动的决策、机器学习和视觉通信,我们可以帮助您将分析应用于您和您的组织。
Lee Schlenker 是 Pau 商学院的教授,也是 http://baieurope.com 商业分析研究所的负责人。他的 LinkedIn 资料可以在www.linkedin.com/in/leeschlenker.查看,你可以在https://twitter.com/DSign4Analytics的 Twitter 上关注我们
【我】这个故事的灵感来自联合国毒品和犯罪问题办公室的简报(2017 年),有效边境管理的数据分析:吉尔吉斯共和国的经验,以及多年前我十几岁时读过的一个短篇故事
【ii】说服大师的概念是在 Adams,S. (2017),Win Bigly:在一个事实无关紧要的世界中的说服,Portfolio
【iii】尤瓦尔·赫拉利认为,随着人类发展了创造人工生命的能力,我们剩下的更根本的问题是为自己的命运承担责任,纽约哈拉里(2017),德乌斯人:明日简史,哈珀
【iv】克劳斯·施瓦布认为,随着生物、物理和技术世界走到一起,数据和分析将构成第四次工业革命的基石,Schwab,k .(2017),第四次工业革命,皇冠商业
人工智能量子计算的现在和未来
量子计算仍处于起步阶段,目前还没有通用的量子计算机架构。然而,他们的原型已经在这里,并在密码学、物流、建模和优化任务中显示出有希望的结果。对于人工智能研究人员来说,优化和采样尤为重要,因为它允许以更高的精度更快地训练机器学习模型。
目前,加拿大 D-Wave 是量子计算领域的领先公司。他们最新的机器 D-Wave 2000Q 包含 2000 个量子比特,工作温度为 0.015K(比绝对零度略高*)。他们的目标不是在不久的将来制造通用量子计算机,但有一件事他们的设备可以做得很好——量子退火。*
D-Wave 2000Q 以毫秒级工作,上传输入数据,找到解决方案并读出。你可以很容易地重复整个过程很多次,以获得不同的解决方案。它的工作速度比模拟退火的现代 GPU 实现快数千倍。
量子退火非常适合从基于能量的模型(如玻尔兹曼机器)中进行训练和采样。值得注意的是,无监督学习对人工智能研究人员来说是一个很大的挑战,量子计算可能是关键。然而,数值精度存在问题。即使是半精度的浮点数也很难处理,所以目前大部分工作都是处理二进制变量。
D-Wave 正计划在 2019 年前为机器学习创造行业就绪的混合量子/经典计算机。此外,1QBit 已经在为他们的机器开发专门的软件。
QA 如何工作
简而言之,量子退火是一种控制量子系统能量减少的方法,它将量子位从叠加态移动到具有低能量配置的经典态。任务描述被编码为量子位之间连接的能量函数,通过退火,它们朝着某个最优配置移动。
如果转换进行得足够慢,该算法将以很高的概率找到基态(即最优解):
During the annealing process, probability of qubits ending up in the minimum energy state increases
量子耦合允许量子位同时探索所有潜在的解决方案,同时量子隧道允许它们穿过高能垒向“更好”的状态移动。这两种效应使得量子计算机能够比经典计算机更快地解决许多困难的优化问题。D-Wave 的这个视频更详细地解释了 QA:
IBM Q
另一个主要参与者是 IBM Q。蓝色巨人正在从事门模型量子计算,他们的机器是通用量子计算机。它们的应用范围更广,但同时也更难控制。IBM 最先进的处理器有 16 和 17 个量子位,真的很难进一步扩展。
IBM 处理器的更通用架构允许它们运行任何量子算法。例如,Grover 的算法可以找到一个黑盒函数的输入,该黑盒函数只需要对该函数进行 O 次(√N)计算就可以产生指定的输出。更不用说 Shor 的整数因式分解算法,它给许多经典加密算法的安全性带来了许多担忧。
对了,16 量子位版本通过 IBM Q 体验计划公开发售。IBM Watson 的认知服务在 AI 社区的声誉现在相当糟糕。也许,IBM Q 将能够改变这种局面。
在量子世界和 AI 的交叉点还有一件事——量子神经网络是对经典人工神经网络的一种固有的随机修改。这是一个有趣的研究方向,但是还没有任何有意义的成果。只有关于玩具问题的理论研究和模拟。
总的来说,量子计算看起来像是机器学习中随机模型的一个有前途的方向。随着 D-Wave 和 IBM 最近的进展,我认为我们可以预计到 2020 年量子计算机在人工智能中的实际应用。
相关论文:
最初发表于 认知混乱 。
价格是正确的:定价策略—第 1 部分
为你的产品/服务定价是一项复杂的任务。选择太低的价格,你可能会减少你的利润。把你的产品定价太高,你可能会失去顾客。这是如何帮助你找到合适价格的 2 部分系列的第 1 部分。
定价策略
你生意的一个基本方面是计算出你的产品向顾客收取多少价格。在以前版本的每日数据驱动中,我们假设您已经确定了价格,以便通过与您的收入相关的指标与您交谈,如客户终身价值。在接下来的两周,我们将抛开这一假设,更深入地讨论如何利用数据为您的企业制定定价策略。
在我们开始之前,让我自我介绍一下。我是道格·米塔罗通达,Outlier 的客户开发主管,我的整个职业生涯都在研究定价。我开始通过拍卖出售二氧化碳排放配额,然后设计公用事业的住宅电价,最近还帮助运动队和现场娱乐推广商定价门票。
通过所有这些经历,我学到的最重要的事情是,定价应该被认为是一个不断发展的策略。因为你公司的目标和你所处的竞争环境会随着时间的推移而变化,所以你的定价也需要进行战略性的调整。
接下来的两周,我们将深入探讨定价概念,通过回答以下关键问题,帮助您成为利润更高的企业:
- 在制定价格时,您应该考虑哪些因素?
- 你如何衡量客户对价格变化的反应?
- 你如何最大化每个客户群的收入?
- 什么时候打折或促销你的产品是有意义的?
为了回答每个问题,我会花一天的时间谈论理论方面,然后第二天用一个具体的例子,使用一个假设的公司,道格的甜点(因为我喜欢烘焙!).这家假想的公司在网上销售烘焙食品,还提供在线订阅服务,为客户提供食谱和技巧。
创建定价策略总是需要一些技巧的,但是在本系列结束时,希望你能更轻松地识别正确的数据和工具,为你的定价策略提供信息。如果一路上有什么问题,请给我发[线](mailto: doug@outlier.ai)。我是来帮忙的。
具体来说,我们将涵盖:
- 定价投入(理论)
- 定价输入(示例)
- 需求价格弹性(理论)
- 需求的价格弹性(示例)
定价输入(理论)
今天,我们将重点关注您做出定价决策所需的信息。当你第一次坐下来试图决定如何给你的产品定价时,有许多不同的输入可以用来缩小最优价格的范围:
- 销货成本(COGS),加上利润
- 目标收入除以预期客户数量
- 竞争对手的价格
- 您的产品对客户的价值
让我们考虑一下其中每一项的优势和劣势,以了解它们在您的定价策略中的位置。
销货成本(COGS),加上毛利
这是考虑定价最直接、最容易计算的方法之一。你有生产产品的固定成本和可变成本,所以只要你能在短期内弥补可变成本(并能找到弥补长期固定成本的方法),你就成功了!你仍然需要测试客户是否愿意支付足够的钱来弥补你的可变成本,但是知道你每单位需要赚多少钱有助于你理解你需要收取的价格来维持业务。但是如果顾客愿意支付比你的成本更多的钱,你将会在桌面上留下很多钱!
目标收入除以预期客户数量
另一个相对直接的输入是确定一个目标收入目标,并除以预期的客户数量,从而得出你应该向每个客户收取的费用。这个指标很容易计算,因为您的收入和客户目标是基于您公司当前的战略目标。收入和客户目标可以帮助你实现目标,但你不会知道是否有/足够多的客户愿意支付你计算的价格,或者相对于他们的支付意愿,你的价格是否偏低。
竞争对手的价格
了解竞争对手的价格以及与报价相关的相关产品,有助于您了解您的市场,尤其是客户愿意为类似的产品或服务支付多少钱。这种输入可以作为你的产品的基准,应该很容易衡量,因为大多数 SaaS 和电子商务公司的定价都可以在他们的网站上找到。
然而,你的产品在影响价格的重要方面不同于你的竞争对手。或者,在某些情况下,你正在开发新的东西,没有直接的竞争对手。此外,你不知道你的竞争对手已经深思熟虑地设定价格,以使他们的收入最大化。出于所有这些原因,将竞争对手的价格作为定价策略的唯一输入是一个坏主意。
您的产品对客户的价值
在制定定价策略时,牢记你的产品为客户提供了多少价值是关键。这种成本/收益分析肯定是你的客户在决定是否购买你的产品时有意识或无意识地问自己的问题!以这种方式思考定价会让你真实地了解人们对你的产品的看法,以及他们愿意为此支付多少钱。你得到的关于产品价值的信息有一个额外的好处,那就是帮助你确定哪些特性是最有价值的,或者哪些新特性是需要添加的。
与其他定价投入相比,产品价值是最难准确衡量的。一种方法是进行市场调查或与客户交谈;然而,顾客的反应是有偏见的,因为他们希望将他们的成本降到最低。因此,他们没有动力如实告诉你他们愿意为你的产品付多少钱。另一种选择是估计你的产品的直接收益,例如,估计你的客户的员工使用你的产品节省的时间。
那么,我该怎么做?
在确定产品价格时,最重要的数据是你要增加的价值。其他定价输入有助于完成定价叙述,但仅靠这些是不够的。例如,了解竞争对手的价格表明你对自己的行业很了解,并给你机会展示为什么你的产品更好,以证明你的价格是合理的。当你知道你要求的价格也将涵盖你的可变成本,并把你放在实现你的目标的道路上,你知道你有一个可行的业务!
定价输入(示例)
现在我们知道了在为我们的产品制定定价策略时应该考虑哪些因素,让我们来看看如何在 Doug 's Desserts 中实现这一点。Doug’s Desserts 是一家假设的公司,它在网上销售烘焙食品,还提供在线订阅服务,为客户提供食谱和技巧。
商品销售成本(COGS),加上毛利
Doug’s 甜品公司的烘焙食品生产成本很高,比如巧克力曲奇饼干,这些产品会邮寄给顾客,还有在线订阅服务。
假设我想在每种产品上赚取 50%的利润。然后,我需要以每打 6.00 美元的价格出售饼干,并以每月 1.50 美元的价格向每位客户在线订阅。
目标收入除以预期客户数量
在我公司生命的这个阶段,我的目标是每月收入 5000 美元,每个月有 1000 名顾客购买至少一打巧克力曲奇,因此我需要将曲奇的售价定为每打 5.00 美元*,以达到我的目标。我的目标是每月从 10,000 名在线订阅服务客户那里获得 10,000 美元的收入,即每月订阅 1 美元。*
你的竞争对手的价格
我在当地的 Safeway 卖 50 块巧克力饼干,售价 5.00 美元,每打 1.20 美元。但是,我的饼干的配料质量和味道都比西夫韦的好得多,所以他们不是真正的竞争对手!这篇在线评论称,在美国最好的商店购买的巧克力片饼干是泰特的,出售 14 块饼干,售价 5.99 美元,或每打 5.13 美元。
Cook’s Illustrated (我最喜欢的食谱网站)以每年 34.95 美元的价格出售他们的标准在线会员资格,或者说每个月 2.91 美元。但是他们有一个完整的测试厨房,用来测试每种食谱的数百种版本,所以他们的食谱和建议可能比我能提供的更好。也有很多免费的选择从广告中赚钱。
您的产品对客户的价值
购买巧克力饼干给我的顾客带来的好处是节省了他们购物、烘烤和清理的时间,而且与他们自己的(或我的竞争对手的)相比,我的饼干味道鲜美,质量上乘。他们的原料成本和我的差不多,但可能会贵一点,因为我可以批量购买。让我们假设我的消费者的原料每打要多花 25%,或者每打 5 美元。让我们假设每个顾客每月烘烤两打饼干,购物/烘烤/清理需要两个小时,他们的时间价值每小时 5 美元。这意味着每两打可以节省 10 美元的时间,或者每打可以节省 5 美元。所以对顾客的总价值是 $10.00 每打(在考虑我的饼干的上乘口感和质量之前)。
在线订阅也节省了我的客户的时间。让我们假设一个月花两个小时做饮食计划,我的食谱/菜单可以把这个时间减少一半。每小时 5.00 美元,对我的顾客的价值是每个月 5.00 美元(在考虑其他好处之前,比如用如此美味的食物打动他们的家人和朋友)。
我的产品为我的客户提供的理论价值超过了其他投入,所以这给了我一个很好的主意,我可以收取多少费用。但是直到我卖掉了我的产品,并与顾客交谈,这些价值才有点模糊。
我会把我的巧克力饼干定价为每打 7.00 美元,因为我知道我要向顾客解释我的产品比我的竞争对手优越多少。我将把我的在线订阅服务定价为每个月 2 美元,因为我还不确定我的价值是否会超过我的竞争对手。
这项研究为我的定价提供了一个很好的起点。明天我会讲,通过需求价格弹性的概念,当你改变价格时,你可以预期会发生什么。
需求的价格弹性(理论)
需求的价格弹性是衡量你的客户对你的产品的需求对价格变化的反应的方法。通过理解和衡量这一指标,您将对价格变动后的收入预期有更好的了解。
定义
产品需求的自有价格弹性被计算为响应自有产品价格百分比变化的产品需求数量百分比变化。
Price elasticity of demand equation
例如,如果你以每件 50 美元的价格卖出 100 件,在将价格改为 55 美元后,你卖出了 95 件,那么你自己的需求价格弹性是-0.5。此结果是一个介于 0 和负无穷大之间的无单位(因为它是以百分比变化来衡量的)、负数(因为价格的变化与数量的变化方向相反)。
解读
需求价格弹性最重要的方面是它与-1 的关系。如果需求的价格弹性介于 0 和-1 之间,那么数量的变化百分比小于价格的变化百分比。你可以通过提高价格来获得更多的收入,因为损失的销售额可以通过更高的销售价格来弥补。正因为如此,当需求的价格弹性在 0 和-1 之间时,称为无弹性*,因为顾客对你的价格变化并不敏感。*
另一方面,如果需求的价格弹性小于-1,则相反。你可以通过降低价格来获得更多的收入,因为新销售的数量会弥补较低的价格点。在这种情况下,需求的价格弹性被称为弹性*,因为顾客对价格的变化很敏感。*
测量和使用
有几种方法可以使用调查技术来测量需求的价格弹性,例如基于选择的联合分析或价格敏感度量表。然而,由于一些因素,如激励结构和潜在偏见,调查需要有所保留。对产品需求价格弹性最准确的看法是通过改变价格来观察顾客的反应。
重要的是要记住,需求的价格弹性在任何时候对所有消费者来说都不是一个恒定值。例如,您应该估计每个客户群的需求价格弹性,以及需求何时因季节影响而变化。
即使你不进行调查或改变价格来计算需求的价格弹性,也有许多因素会影响需求的价格弹性,你应该始终牢记在心。特别是,有许多相近替代品的产品具有很高的弹性,因为客户很容易转向更便宜的选择。此外,被视为奢侈品的产品具有很高的弹性,因为如果价格大幅变动,顾客可以不买也能继续消费。这些概念反映了贵公司的驱动目标——创造一种独特的产品,深深植根于客户的生活或工作流程中。
需求的价格弹性
今天,让我们来看看需求的价格弹性是如何对我假设的公司 Doug’s Desserts 产生影响的。在前面的例子中,我决定将我的巧克力饼干定价为每打 7 美元。假设按这个价格,我每月卖 500 打,但我想我可能定价过高,如果我降价 1 美元,就能卖出更多的饼干。在我把价格从每打 7 美元降到 6 美元后,我开始每月销售 750 打。
将这些值代入昨天的等式,我发现我的饼干的需求自有价格弹性为-3.5。
这意味着对我的饼干的需求是有弹性的,这可能并不令人惊讶,因为有许多接近我的巧克力饼干的替代品,特别是优质饼干,不是必需品。因为对我的饼干的需求是有弹性的,这一价格变化为我的企业带来了更多的月收入。
下周,我们将继续讨论定价策略,看看分级定价、折扣和促销。