我如何为数据科学增值?
与查尔斯·伯克合著的帖子
你想成为一名数据科学家,但如何成为一名数据科学家呢?你如何为这个不断扩张的领域增加价值?这个问题的灵感来自于我在一个数据科学班的经历,在那里我们试图利用数据开发“有意义的”指标。数据科学的一个流行刻板印象可能表明,技术技能——使您能够执行复杂的分析和创建美丽的可视化——在增加价值时是最重要的。但这在多大程度上是真的呢?技术能力是否限制了一个人处理数据的能力?我把我的经验分享给你。
我对此的看法是,打起精神来,有争议的和逆向思维的:技术技能会阻碍你增加价值的能力。为了让你相信这一点,我将告诉你为什么这个问题,*“我怎样才能增加价值?”*可能不是该问的问题;技术能力如何可能对数据科学家不利;不管背景如何,你都可以成功。我也将分享我认为最重要的技能。
为什么问题框架不好
首先,对我来说,“我如何为数据科学增加价值”这个问题的框架很差。问这个问题的一个更好的方式可能是:我可以在哪里贡献我的个人专长或见解?
“添加”这个词下意识地引导我相信,我真的必须通过我的分析来“添加”一些东西,以创造有意义的价值。然而,在数据的世界里,这不一定是真的。在数据世界(我称之为 Datatopia)中,数据科学家知道简单地清理数据是任何有意义的分析的开始。根据 CrowdFlower 的一项调查,数据科学家花费大约 60%的时间来组织和清理数据。原因很简单:如果你不能理解数据,弄清楚什么是相关的,什么是不相关的,那么随后进行的分析就没有任何意义。
有趣的是,这一阶段的分析往往需要你“减去”信息,而不是“加上”。例子包括过滤掉不必要的变量和观察值,找出重复和不一致的地方,决定关注什么。虽然这听起来微不足道,但这个简单的步骤在数据分析过程中有着巨大的优势。猜猜看,任何目光敏锐、对组织有深刻了解的人都能在最基本的层面上完成这一步。我的许多没有技术能力的同学只是通过加强敏锐的观察者来帮助清理和组织数据。
因此,在我看来,认为一个人必须添加一些东西(可视化或数据集或算法)来创造价值是固有错误的。您可以继续“减法”(正确的事情),并仍然在 Datatopia 中生成许多有意义的价值。
技术优势的劣势
虽然技术技能可以帮助你建立令人瞠目结舌的数据分析和可视化,但它可能会阻碍你跳出框框思考的能力。技术知识让你认识到相关工具和技术的可能性,并传授你实现同样目标的技能。尽管有了这些新发现的知识,你可能会看到无穷无尽的可能性,但你头脑中自由流动的想法已经在某种程度上被引导着沿着特定的路线、工具或方法思考。你的大脑开始把想法翻译成伪代码(这肯定很重要),但是把你的注意力从构思转移到想法如何变成现实。
在 Datatopia 中,创造力与将想法转化为现实的技术技能一样重要。“疯狂”或“开箱即用”的想法带来了巨大的、前所未有的洞察力,这是 Datatopia 中推理的主要目的。因此,虽然技术知识给了一个人巨大的力量,但有时也会限制他提出“疯狂”想法的能力。一旦一个疯狂的想法形成,协作和在线搜索代码或工具来填补你的知识空白往往会让这个疯狂的想法以某种形式实现。
“跳出框框”思考的优势是使非技术人员成为 Datatopia 中的一项资产,这也是为什么每个人都可以为创造有意义的价值做出贡献,而不仅仅是清理创造新颖分析和视觉效果的想法。
每个人都可以投稿
这些只是每个人如何为该过程做出贡献的几个例子。需要意识到的一件重要事情是,数据科学是一个跨学科领域,因此您可以成为具有不同关注点和专业知识的数据科学家。不要成为数据势利者。重申一下,如果你正在阅读这篇文章,你可能会很擅长使用 Python 和 R 之类的编程语言来可视化数据集,但希望不久之后,你也可能会作为一个超级明星在收集、查找、清理或用数据讲故事方面阅读这篇文章。虽然成为一名跨所有领域平衡的数据科学家很好,但事实是你不必如此。但是,很快,这可能比你想象的要容易。
例如,即使是现在,对于非技术人员来说,也有广泛的可能性。最近几个自动化工具的兴起使得几乎任何以前使用过计算机(例如,用于电子邮件或文字处理)的人都能够使用直观的工具来处理和可视化数据。例如, Plot.ly 拖放构建器可以创建(几乎)与 Python 的散景库相同的交互式图表。技术能力之后剩下的不是一个数据科学家的定义因素?我上面提到的东西,你,还有你个人对数据的贡献。
技术技能仍然重要
我不想给人一个错误的印象,拥有技术技能在很大程度上定制东西并使工具满足你的需求总是有利的。如果你有,请…组队!作为 Datatopia 的热心公民,我们都知道每个人都可以做出贡献,我不能强调合作的重要性,这就是为什么我的第一个可视化作品是在与齐威的团队合作中制作的,关于 2018 年世界幸福报告。我还与林明伦、贾米·贾斯丁亚诺和耶奥·邵杰在同一个数据集上工作,但侧重点和目的不同。
除了填补专业知识的空白,这种合作还是一个很好的媒介,可以促进同行之间的学习,并从 Datatopia 中擅长自己工作的其他公民那里“学习”技能。
最关键的技能
所以你现在可能想知道:在 Datatopia 中最重要的技能是什么?是合作吗?技术技能?即使每个人都可以做出贡献,一个人必须承担最大的重量。你说得对,一项技能确实举足轻重,而且每个人都可以掌握。让你高兴的是,当你问自己“我怎样才能给数据科学增加价值”的时候,你已经在实践最重要的技能了!
等等,什么?
是啊!Datatopia 最关键的技能是提问。正确的问题将指导数据分析的整个过程:从你从哪里获得数据,到你如何处理它,以及你选择如何呈现它。你的第一个或下一个数据作业是简单的谷歌搜索。
了解了这一点,欢迎 Datatopia 的同胞们,欢迎数据科学家!
但是我们如何知道如何问正确的问题呢?为此,你需要阅读我的下一个故事:在数据科学中,什么是正确的问题?
Bayes 牧师如何帮助你发现你的竞选是否成功?
因果影响包中使用贝叶斯结构时间序列模型的因果推理简介
Photo by dylan nolte on Unsplash
如果你从事营销工作,有时你做的事情看起来有点像彩票。这可能不是你想向上级汇报的方式,但你有多大信心认为你的活动真的带来了收入的增长?
在这篇文章中,我们将简要介绍一种技术,这种技术可能会帮助你在这些陈述中用一些数字来支持你的信心:贝叶斯结构时间序列分析。
营销因果的结构时间序列分析
如果你的公司有很大的优惠——可能在一月份有 25%的折扣——你可能会有一些预算来进行市场推广活动。如果你不告诉别人,这笔交易有什么用?
交易运行,你在电台和付费搜索上花费预算,当然,你的收入增加了。但是你的营销活动起到了什么效果呢?仅仅因为交易成功,它就推动了销售或收入增长吗?
如果你在互联网上花点时间,你可能会熟悉虚假相关性:一个提醒我们相关性并不总是意味着因果关系的网站。仅仅因为我们付费搜索支出增加并不意味着我们观察到的收入增加。
如需了解商业与数据科学和分析结合的更多信息, 在 Twitter 上关注 Chris。
暂停活动和地理分割测试的替代方法
有时,简单地说“让我们把活动关掉几天,再打开,看看对收入的影响”并不总是可行的。如果收入看起来不错,营销支出在预算之内,那么决定进一步调查的人是勇敢的。
所以,如果你不能进行干预性实验和随机对照试验,有没有一种方法可以让你感觉到你的营销活动是否有效?是的,有,R 的因果影响包使它变得非常简单。
营销人员的时间序列分析
回归对于营销人员来说是一个非常有用的工具。它是如此有用,以至于我不仅在这里写了它,我也在这里写了它。和这里的。哦,还有这里也有;我相当确信我会再写一次。
回归是一个很好的工具:它非常容易执行,相对容易正确执行,并且它给你容易解释的结果,这意味着结果容易报告和行动。
间断时间序列分析(ITS)是简单回归的一个有用的扩展。从根本上说,它考察的是一项活动是否对你的兴趣变量有影响。随着时间的推移,输出变量将被跟踪,您可以将何时执行干预作为另一个变量进行编码。关于 ITS 的精彩介绍可以在这里找到。
然而,当涉及数据中的季节性趋势或其他混淆问题时,简单的虚拟变量可能不够,分析可能会变得越来越复杂,需要进一步转换以包括一些额外的趋势。输入贝叶斯结构时间序列。
时间序列干预的因果推断
这不是一篇旨在详细讨论贝叶斯结构时间序列(BSTS)建模的文章。如果你对幕后发生的事情感兴趣,你可以从这里开始,进入之前和之后的兔子洞。
现在,我们只需要把 BSTS 看作是一种观察历史时间序列并预测其未来进程的方法,让我们能够比较干预后实际发生了什么。
统计数据可能不是最直接的,但是 Kay Broderson 和 Alan Hauser 的相当神奇的因果影响包使它变得容易。你可以在这里阅读论文,或者直接阅读文档,但是希望这篇文章涵盖了原理,这样你就可以决定它是否适合你。
吸血鬼猎人巴菲对婴儿名字的因果影响
这很容易用一个例子来说明 PPC 活动对网站访问量的影响,或者增加一个新的营销渠道来增加收入,但是其中的乐趣在哪里呢?如果您已经读到这里,我假设您有自己的问题和数据要处理,那么我们需要做的就是用一个工作实例来介绍这个概念。
还有什么比用吸血鬼猎人巴菲更好的例子呢?
如果你到了一定的年龄(像我一样),巴菲将成为偶像。但是——我肯定每个人都在问 BTVS 的成功是否导致了在美国出生的女孩取名为 Anya 的增加?让我们用 BSTS 模型和因果推断来找出…
R babynames 包与因果推理
伴随本文的代码在 GitHub 上,所以我在这里省略细节,直接跳到感兴趣的部分。
使用 R 中的babynames
包,我们可以访问每年用特定名字注册的孩子的数量。我们感兴趣的是,在 1998 年这个角色出现后,叫做安雅的孩子的数量是如何变化的。让我们快速看一下:
看起来在 1980 年左右有一个高峰(没有与 Buffy 相关的双关语),但事情似乎真正开始于 90 年代末和 21 世纪。这第一个情节看起来很有说服力,但是这种模式与我们预期的如果《魔法奇兵》没有出现在我们的屏幕上会有很大的不同吗?
我们可以使用CausalImpact
包对此进行研究。为此,我们指定干预的开始和结束日期(我们将使用 Anya 推出的年份和系列结束的年份),并将其与一些不应受干预影响的名称进行比较。
在这种情况下,我们将使用十个随机选择的普通女孩的名字,它们不是《魔法奇兵》中的主角,但这是一个需要深思熟虑的决定。如果你想看看付费搜索支出对收入的影响,你会用什么作为对照?
虽然CausalImpact
函数不需要它们,但是它们很有用,所以值得花时间考虑一下你可以使用什么。你可能会认为有机会议可能会起作用,但你的有机点击量会随着每次点击费用的增加而增加吗?因为顾客会接触到你的品牌,然后再去搜索你的品牌。
在我们的例子中,我们已经构建了一个数据的xts
时间序列,Anya 作为第一列,是我们感兴趣的变量,下面的名称是算法将用于计算的名称。
使用这些数据,CausalImpact
将绘制一个输出图,用虚线(蓝色阴影的置信区间)显示每年被称为 Anya 的女孩的预测数量,用实线显示被称为 Anya 的婴儿的观察数量。干预期显示为垂直虚线。
在我们的例子中,我们可以看到实线不仅在虚线之上,而且在置信区间之上。在输出中调用 summary 会得到这样的结果:
> summary(buffy_causal)
Posterior inference {CausalImpact}Average Cumulative
Actual 489 2447
Prediction (s.d.) 285 (71) 1425 (354)
95% CI [143, 400] [716, 2002]
Absolute effect (s.d.) 204 (71) 1022 (354)
95% CI [89, 346] [445, 1731]
Relative effect (s.d.) 72% (25%) 72% (25%)
95% CI [31%, 121%] [31%, 121%]Posterior tail-area probability p: 0.00201
Posterior prob. of a causal effect: 99.79899%For more details, type: summary(impact, "report")
告诉我们,我们预计平均每年会有 285 个女孩叫安雅,但我们观察到了 489 个。我们的 95%置信区间上限是 400,因此,由于我们观察到的 489 高于 400,我们的 p 值为 0.00201,即被称为 Anya 的女孩人数增加是由于偶然。
很有帮助的是,CausalImpact
包含了一个对summary()
有用的论点,我们可以将它包含在给我们的书面报告中:
> summary(buffy_causal, "report")
Analysis report {CausalImpact}During the post-intervention period, the response variable had an average value of approx. 489.40\. By contrast, in the absence of an intervention, we would have expected an average response of 285.06\. The 95% interval of this counterfactual prediction is [143.25, 400.32]. Subtracting this prediction from the observed response yields an estimate of the causal effect the intervention had on the response variable. This effect is 204.34 with a 95% interval of [89.08, 346.15]. For a discussion of the significance of this effect, see below.Summing up the individual data points during the post-intervention period (which can only sometimes be meaningfully interpreted), the response variable had an overall value of 2.45K. By contrast, had the intervention not taken place, we would have expected a sum of 1.43K. The 95% interval of this prediction is [0.72K, 2.00K].The above results are given in terms of absolute numbers. In relative terms, the response variable showed an increase of +72%. The 95% interval of this percentage is [+31%, +121%].This means that the positive effect observed during the intervention period is statistically significant and unlikely to be due to random fluctuations. It should be noted, however, that the question of whether this increase also bears substantive significance can only be answered by comparing the absolute effect (204.34) to the original goal of the underlying intervention.The probability of obtaining this effect by chance is very small (Bayesian one-sided tail-area probability p = 0.002). This means the causal effect can be considered statistically significant.
用因果关系概括营销因果
当然,这篇文章是一个快速的 5 分钟介绍营销因果归因使用贝叶斯结构时间序列模型使用因果影响包 r。
R 包比我在这里讨论的要多得多,因此非常值得阅读本文和文档,以及在线阅读其他一些例子。
然而,对于许多想要了解他们是否把钱花在正确的地方的营销人员来说,这个软件包是一个很好的起点,不需要时间序列分析和贝叶斯统计的广泛知识。
事实上,我要说的是,使用它最具挑战性的方面不是数学、语法或函数参数的选择,而是选择不太可能受所研究的干预措施影响的适当时间序列。
此外,您可能同时在不同的媒体、不同的人口统计数据和不同的地理区域开展一系列营销活动。当然,这将使您的数据分析比这里给出的简单例子更复杂一些。然而,虽然创建适当的数据集可能会带来更多的挑战,但下面的分析可能非常简单。
作为一个数据驱动的营销人员,我非常感谢谷歌的人们开发了这个,现在维护这个非常有用的 R 包。如果您想更详细地探索这种技术和软件包,我建议阅读论文并使用这个软件包,使用像这样一个简单的数据集感受一下附加选项。这里还有大量的工作要做,我甚至还没有看柳树或奥兹…
关于如何在业务分析中快速使用数据科学工具的进一步介绍, 在 Twitter 上关注 Chris。
人们如何在工作中变得更加数据驱动?
给希望在工作中采用更多数据驱动思维的非数据专业人士的建议
企业和整个世界产生数据的速度正在迅速超过个人装备自己处理数据的速度。
在许多努力的领域,人们已经明确认识到需要发展更好的处理数据的技能,并在决策中变得更加以数据为导向。提供高度智能和洞察力的数据越来越多地被忽视,而倾向于采用“直觉”方法来做出关键的商业决策。在之前的一篇文章中,我概述了在我们的工作人口中更好的普通数学技能的情况。
自从我强调了可用数据量和我们使用数据的能力之间的这种明显且不断增长的差距,我就收到了人们关于如何让在工作中变得更加数据驱动的许多问题。这些问题通常来自那些希望更熟练地处理数据的专业人士。他们通常来自那些注意到他们的许多人倾向于回避数据或在处理数据时感到紧张的领导者。
你不必是一个数学天才来处理数据,事实上你根本不需要会做任何数学或统计。但是你确实需要乐于查看数据,并意识到什么时候可能需要数学或统计学。如果你觉得自己没有资格做,你需要找一个能做数学和统计的人。
我举办了许多研讨会,帮助人们发展数据驱动的思维模式。在我的工作室里,我把它归结为三个组成部分,或者说人们在任何有数据的解决问题的情况下都应该采取的“精神行动”。他们来了。
1.DTA —不要相信任何没有使用数据的人
变得更加数据驱动的第一步也是最关键的一步是认识到假设和有数据支持的假设之间的差异。为了说明这一点,我经常给我的听众一个假设的情况,他们组织的一个高级成员提出了一个说法,例如:“搬到一个新的总部对我们的销售产生了负面影响”。
在一个数据驱动的组织中,只有当数据证明了它的表面有效性时,它才会被接受。有人做过分析,认为这个假设值得进一步研究吗?这种不经分析就被接受的说法并不罕见,甚至在某些环境中很常见。数据驱动的专业人员有足够的勇气指出这一点,并要求在数据中建立某种案例,以保证对索赔进行进一步的调查。
2.抛硬币测试
假设现在有数据显示有理由相信搬到新总部已经影响了销售。例如,有人已经表明,对于销售人员的样本人群来说,搬迁前三个月的人均销售额比搬迁后三个月的人均销售额高 10%。
在一些样本数据中看到某种模式或差异并不能证明这种模式或差异实际上普遍存在。我们都凭直觉知道这一点,为了说明这一点,我经常带一枚双头硬币去我的工作室。我逐步翻转硬币,没有告诉我的观众它是双头的,每次翻转我都问观众他们是否相信硬币是假的。我不可避免地看到,相信硬币是假的人的数量随着每一次翻转而增加,这证明人们对统计不确定性的想法有一种直观的感觉,并且他们相信某事变得确定的阈值是不同的。
与手头的问题相关,不确定性在于样本总体是否足够大,或者 10%的差异是否足够大,以自信地宣称该模式普遍存在。“在销售人员的抽样调查中,我们发现在我们搬迁总部之前,人均销售额更高”,这样说是没问题的。但是,如果没有合格人员进行适当的统计测试,你就不能说“在我们搬迁总部之前,人均销售额更高”。
3.马苏里拉奶酪测试
现在,让我们假设我们对数据进行了一些(相当简单的)统计测试,他们确定数据满足建立有意义的差异的要求,并且我们实际上可以对总部搬迁前后的销售差异做出一般的断言。我们现在可以说总部搬迁影响了销售吗?看一下这张图表:
是的,在美国,吃马苏里拉奶酪和获得土木工程博士学位之间几乎有着完美的关联。数据中到处都存在暗示性的模式和关系。更多信息请查看网站。
我们例子中的陈述非常具体——它表明搬到新总部导致销售额下降。仅仅证明销量下降并不足以证明这是由移动引起的。
要证明因果关系,还需要做更多的工作。例如,重要的是要消除这种差异不是由其他因素造成的。也许我们每年这个时候都会看到季节性销售下降?也许有一个新的竞争对手进入了市场?同样重要的是要看看是否有因果关系的机制,例如,销售人员平均来说见的客户越来越少,是因为搬迁使他们离他们更远了吗?
因此,变得更加数据驱动并不意味着你必须成为数学天才。作为第一步,当你在工作中听到假设时,试着围绕你提出的问题改变你的行为:
- 有没有支持数据?(差热分析)
- 它是否令人满意地证明了所声称的关系?(抛硬币测试)
- 有明确的因果关系吗?(马苏里拉奶酪测试)
变得更加数据驱动从根本上来说是一个行为改变的问题。拥有数学技能会有所帮助,并且随着时间的推移培养这些技能是个好主意。但是试着从这三个简单的步骤开始。
最初我是一名纯粹的数学家,后来我成为了一名心理计量学家和数据科学家。我热衷于将所有这些学科的严谨性应用到复杂的人的问题上。我也是一个编码极客和日本 RPG 的超级粉丝。在 LinkedIn 或Twitter上找我。
人工智能如何帮助应对气候变化?
人工智能和机器学习是一种使能技术,在减少能源生产、交通运输、食品生产、工业制造以及我们的家庭、办公室和城市的碳足迹方面发挥着关键作用。但这就足够了吗?光靠技术能拯救我们吗?
A resident cries as the Thomas Fire approaches the town of La Conchita, CA in Dec 2017. (https://bit.ly/37WD4K4/)
欧盟议会宣布气候紧急状态
2019 年 11 月 28 日,欧盟议会宣布全球气候和环境紧急状态。他们说所有的政治都是地方性的,而在全世界范围内,气候变化似乎正在得到报应。在旧金山周围的山上,破产的 PG&E 电力公司先发制人地切断了几天的家庭电力供应,因为它担心其老化的电气设备会与干燥的树木和植被相匹配。在欧洲,极端的洪水让古老的城镇沉浸在世界末日的景象中。在澳大利亚,由于熊熊的丛林大火产生的浓烟,很难辨认出标志性的悉尼歌剧院。在新德里,印度官员宣布进入公共卫生紧急状态,并分发了 500 万个口罩来应对有毒的空气污染。这一切都发生在过去的几个月里。
忽视气候变化问题变得越来越难。但技术和人工智能在解决这一问题方面发挥了什么作用?
气候变化技术和人工智能的组合方法
我们知道,我们需要一个技术开发和部署的组合方法来应对气候变化。这种投资组合可以跨越时间、风险和技术成熟度进行维度化。在近期,世界需要继续努力开发和安装可再生能源,如太阳能和风能发电。从中期来看,我们需要在开发高容量电池方面取得更大突破,以储存能量并为电动汽车提供动力。自动驾驶汽车和智能城市可以在减少碳排放方面发挥重要作用,但这项技术需要成熟,才能被信任用于我们的日常生活。从长远来看,我们需要对真正的转换能源进行基础研究,比如裂变核反应堆。社会需要考虑气候技术“登月”项目,这将需要大量的金融投资,但有可能解决问题的规模。在这个产品组合中,人工智能将成为所有这些技术的关键推动者。
技术创新的五个领域
正如 WEF 在 2017 年讨论的那样,将技术发展集中在我们社会的五个领域以应对气候变化至关重要:
1.电力 和 发电占所有温室气体排放量的 25%。持续并更多地关注风能和太阳能等现代可再生能源至关重要。下面的 WEF 图表显示,虽然现代可再生能源(绿色)自 1974 年以来显示出强劲的增长,但我们仍有很长的路要走。
从提高风能和太阳能的成本和效率,到关注海洋、地热和生物燃料能源,可再生能源领域还有很多研发工作要做。有机会扩大核能,并继续关注核聚变技术。然而,高成本问题和对安全的担忧减缓了核电的部署。
2.运输占全球相关二氧化碳排放量的 23%。公众着迷于电动汽车、公共汽车和卡车的好处,但要将这些车辆带到大众面前,需要解决两个主要问题— (1)降低电动汽车的价格,以及(2)增加电池的容量并减少充电时间。人们还关注替代燃料,如生物燃料,维珍大西洋航空公司(Virgin Atlantic airways)等公司声称,2018 年将进行世界上首次基于废物的生物燃料商业飞行。
The Beyond Meat Burger
3.食品及其供应链占全球排放量的 25%。当这个星球上有 70 亿人要吃饭时,这并不奇怪。农业已经看到大片森林被夷为平地,以支持放牧和种植喷洒化学物质以优化产量的牛饲料。技术投资包括对肉类替代品的关注,这些替代品使用先进的植物蛋白科学来复制肉类烹饪时复杂化学反应产生的独特鲜味。还有一些加入了甜菜根——甜菜——让汉堡“出血”不可能的汉堡和 Beyond Meat 是两家新公司,它们使用植物来获得类似肉类的味道——试试看,它们还不错,但仍然很贵,也不像我们想象的那么健康。根据最近密歇根大学的一份报告,一个植物汉堡产生的温室气体减少了 90%,能源减少了 46%,对水资源短缺的影响减少了 99%,对土地使用的影响减少了 93%。下一个前沿领域是实验室培育的肉类,牛肉、鸡肉或鲑鱼蛋白质在培养皿中培育。一直以来,人们都把重点放在技术上,以提高现有农业实践的生产率。
4.工业中的制造业占全球相关二氧化碳排放量的 30%。世界不断增加生产消费品和工业品的工厂,以满足日益富裕的中产阶级的需求。正在开发技术来帮助制造商提高生产率,减少能源消耗和有毒物质排放。尤其是碳捕获技术,被吹捧为捕获排放的一种方式。还有很长的路要走。
5.建筑 和 城市代表全球排放量的 20%。想想我们的家庭和办公室使用的所有照明、电力、供暖和制冷设备。我们如何转向更高效甚至零排放的供暖和制冷系统?谷歌在这方面发挥了作用,为家庭提供智能温度计,如 Nest,它可以学习我们的能源使用习惯。智能城市技术正在开发中。中国杭州的“城市大脑”项目致力于通过优化实时交通流量来减少交通排放。谷歌在多伦多的人行道实验室声称要重新想象整个城市。
人工智能用于应对气候变化的十个例子
人工智能是气候变化技术的关键推动者。虽然人工智能还没有得到很好的理解,媒体的叙述经常关注失业和道德偏见的负面后果,但人工智能将被编织到气候变化技术的结构中。
最新一波人工智能和机器学习专注于将算法应用于大量数据,以使系统更智能、性能更高。人工智能的最新化身——机器学习和深度神经网络——正在推动:
- 类固醇的测量和预测 —虽然数据科学和统计技术已被广泛用于气候科学,以帮助优化、分析、评估、分类和预测,但机器学习将这一点纳入了一个不同的联盟。工厂、供应链、人类可穿戴设备和手机中的传感器产生的数据在收集气候变化信息方面都发挥着关键作用。这些数据可以输入到更复杂的模型中,帮助我们更好地理解、定位和管理我们的气候行动。
- 视觉、听觉、阅读和理解等认知超能力。特别是,“视觉超能力”可以应用于各种重要的气候变化活动,例如查看和分析遥感数据以确定污染水平。
今天正在工作或正在工作的人工智能用例的十个例子:
- 建立更好的客户模型。人工智能正被美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration)等机构用来更好地预测飓风等极端天气事件,并从收集的大量气候数据中获得新的见解。
- 增加对污染物的监测、测量和问责。人工智能正被用于自动分析来自物联网传感器和遥感数据的数据,以识别污染物,如地面臭氧、颗粒污染、一氧化碳、二氧化硫和二氧化氮。这在很难确定污染物数量和来源的偏远地区尤为重要。它不仅能提供更准确、更透明的污染状况,还有助于推动问责。
- 优化交通流量,打造智慧城市。人工智能正被用于测量和优化城市的交通流量。仅仅是通过更好的交通信号时机来优化交通流量,从而减少闯红灯的汽车数量,就能对碳排放产生重大影响。例如,中国的“优步”,滴滴正在利用深度学习解决交通拥堵和优化导航路线。在印度,麦肯锡公司报告称,智能垃圾桶正在测试中,这意味着如果垃圾桶未满 75%,垃圾车不会捡垃圾。
- 利用智能人工智能设备改善建筑能耗,这些设备可以根据实际需要测量、预测和控制供暖和制冷系统。例如,美国圣文森特医院通过为其供暖和空调系统实施预测能源控制系统,实现了 20%的节能。许多人引用了 DeepMind 使用强化学习来降低其母公司谷歌数据中心功耗超过 15% 的例子。结合智能人工智能电表和电器我们应该会看到我们的建筑用电量大幅减少。
- 推出自动驾驶卡车 —虽然大多数关于自动驾驶汽车的讨论都集中在自动驾驶汽车上,但最有可能在近期使用的是自动驾驶卡车。据估计,智能自动驾驶系统可以比人类操作员减少 15%的燃料消耗。同样,监管机构更有可能批准自动驾驶在主要公路上行驶,因为它们比在拥堵的城市街道上行驶的混乱和不可预测性更可预测,也更安全。
- 更好地匹配电力供应和需求在智能电网允许消费者、输电线路、变电站、变压器和供应商之间的网络通信。人工智能将是在这样一个复杂的网络中更好地预测和控制供需的关键。例如谷歌的 DeepMind 开发了一个深度神经网络系统,通过基于天气预报和历史涡轮机数据预测供应,将风力发电的价值提高了 20%。他们的模型建议如何提前一整天向电网做出最佳的每小时能量输送承诺。
- 通过更好的供需匹配,提高物流和供应链的效率。人工智能正越来越多地被用于理解复杂且日益国际化的供应链的需求水平。例如,德国电子商务公司 Otto预测 30 天内将出售何种产品的准确率高达 90%,推动了自动化采购,并减少了 200 多万个包装的年退货量。在另一个例子中,施耐德电气通过一个人工智能模型来预测获取原材料并将其产品发送到 240 个全球制造工厂和 110 个配送中心的最佳方式,从而显著减少了运输需求。
- 优化食品供应链,提高 农业 产量。这是人工智能已经产生影响的一个领域。从更好地预测餐馆的需求,到减少食物浪费,再到帮助发展中国家的农民诊断和治疗农作物,人工智能开始发挥作用。例如,微软已经与印度农民合作,通过机器学习建议何时是播种作物的最佳时间,使产量提高了 3%。
- 通过数字化、连接和分析端到端制造流程,提高制造效率。例如,许多全球制造商正在使用预测性人工智能建模来提高涡轮燃烧效率,减少生产线上的错误和能源浪费,并通过先进的机器人技术提高生产效率。
- 帮助消费者减少碳足迹——人工智能驱动的消费者应用正在帮助我们测量和预测我们的碳足迹水平。使用游戏机制,我们可以开始将我们的可持续发展足迹与其他人进行比较。这一点在安-凯瑟琳·拜尔(Ann-Catherine Beyer)最近的一部短片中得到了令人震惊的体现,她想象了一个世界,在这个世界中,我们所有人都会根据自己的行为及其对可持续发展的影响获得或失去“环境信用分”。
Ann-Cathrine Beyer, member of “Econtrol” film team; winner of Young Talent Award at 2019 “KI Science Film Festival.” http://www.zak.kit.edu/6427.php
对于人工智能和机器学习的所有好处,我们也需要意识到计算机使用大量的电力。一些人认为信息和通信技术贡献了全球能源使用的 8%。
仅有技术是不够的
我们知道,解决气候变化等系统性问题并不简单。还需要紧急和综合地关注:
- 消费模式— 到 2050 年,世界人口预计将从 70 亿增至 100 亿。至关重要的是,通过我们对饮食、旅行和生活方式的日常选择,提高对我们个人碳足迹的认识。但我们也需要认识到,个人责任的背景是,社会中有很大一部分人正在摆脱历史上的匮乏,进入有抱负的中产阶级生活方式。看看中国吧,那里的中产阶级现在比整个美国都多,公民正在用一些人可能会描述为故意放弃的方式进行消费。
- 多国联盟和监管 政策 —世界各国政府和组织需要共同努力,制定明确的目标和政策,比如 2015 年巴黎气候协议。但是还需要更多的东西。我们将需要更多关于污染、消费和能源使用的立法,这无疑会被视为侵犯个人选择、自由和自由市场。在一个日益两极分化的社会中,这项立法将很难实施,在这个社会中,财富不平等正在推动反对体制法令的民粹主义抬头。
- 金融 激励 —应对气候变化的成本以万亿计。尽管中国在 2018 年对清洁能源投资了 1000 亿美元,640 亿美元,但这只是所需的一小部分。鉴于金融体系通常关注季度增长和利润等短期结果,问题就变成了我们如何切实激励政府、企业和组织进行长期投资。影响力投资背后不断增长的势头有助于将资本流向那些将环境、社会和治理(ESG) 目标与财务回报联系起来的组织。在多边层面上,欧洲中央银行的新任行长克里斯蒂娜·拉加德正在引领一场全球运动,让环境成为货币政策制定的重要组成部分。2020 年达沃斯之前的世界经济论坛(WEF)刚刚呼吁“更好的资本主义模式”。他们倡导“利益相关者资本主义”,采用“共享价值创造”的新衡量标准,将 ESG 目标作为标准财务指标的补充。有势头。今年早些时候,美国最具影响力的商业游说团体美国商业圆桌会议(US Business Roundtable)出人意料而又令人钦佩地呼吁建立一种超越简单盈利指标的资本主义形式。
人工智能将与智能材料、自动驾驶汽车和物联网等其他第四次工业革命技术一起,成为应对气候变化的技术创新的主要推动者。它将实现更高效的发电、更智能的城市和建筑、零碳运输、增强的食品供应链以及更高效的碳中和制造。然而,技术本身是不够的。我们需要改变我们个人的消费模式,而不是仅仅依靠购买碳补偿来减轻我们的负罪感。政治和金融体系将受到挑战,但我们需要务实,知道人类和企业的欲望和行为将会缓慢改变——我们想要更大的房子,而企业想要它们的利润。希望我们能尽快行动。
多亏了苏塞克斯大学最近的小组讨论
这篇文章的灵感来自我最近在 2019 年 11 月 29 日在英国苏塞克斯大学参加的关于影响投资、技术和气候变化问题的小组讨论。小组成员包括摩根大通可持续金融部 EMEA 资本战略主管 Neha Coulon、苏塞克斯大学科学政策研究部(SPRU)主任 Jeremy Hall 教授、牛津大学空间金融负责人 Matthew McCarten 博士、可持续发展解决方案社会企业 Pathfinder 的创始和管理合伙人 Jessica van Thiel 以及苏塞克斯大学商学院三年级本科生 Alex Martial。非常感谢这个小组的主持人伊莎贝尔·菲舍尔。
有用的人工智能、技术和气候变化文章
我发现以下文章和资源很有用:
- 麦肯锡公司关于技术如何推动新的环境解决方案
- 世界经济论坛 5 项可以拯救我们免受气候变化影响的技术创新
- 比尔·盖茨在这是我们应对气候变化需要做的事情
- 大卫·罗尔尼克等人谈用机器学习解决气候变化
(见下文)
关于西蒙·格林曼
西蒙·格林曼是最佳人工智能实践的合伙人,这是一家人工智能管理咨询公司,帮助公司利用人工智能创造竞争优势。西蒙是世界经济论坛全球人工智能委员会的成员;一位 AI 专家在 Seedcamp 常驻;并担任伦敦哈佛商学院校友天使会的联合主席。他在欧洲和美国的数字化转型领域拥有 20 年的领导经验。他拥有计算机人工智能学位。请通过直接给他发电子邮件或联系,在 LinkedIn 或 Twitter 上找到他,或在媒体上关注他。
#可持续发展#环境#气候变化#人工智能#机器学习#拯救环境
我们如何捕捉动态数据并将其可视化?
利用大动态数据提高生产力已经成为企业成功的关键因素。我们生活的数字世界正在不断产生不断增长的动态数据流。除了内部数据管理,在线获取公共数据和可视化数据也发挥着重要作用。
这篇文章将解释:
–为什么捕捉动态数据如此重要?
–动态数据如何有效推动业务增长?
–我们如何轻松访问动态数据?
–最后但同样重要的是,我们如何让动态数据变得高效?
1.为什么捕捉动态数据如此重要?
一般来说,通过持续监控动态数据流,您可以看得更清楚,行动更快。更具体地说,获取动态数据有助于:
1.1 加快数据驱动型决策
捕捉动态数据为您提供了有关市场新趋势和竞争对手的实时信息。将所有更新的信息放在手边,您可以大大减少因果之间的时间间隔。换句话说,您可以获得基于数据的洞察力,并更快、更容易地做出数据驱动的决策。
1.2 建立更强大的数据库
为了提高数据分析的质量 和决策的有效性,企业需要通过不断提取动态数据来建立一个全面的大容量数据库。
数据是一种时间敏感的资产。信息越老,收集起来越困难。随着信息量在规模和速度上每年翻倍,跟踪不断变化的数据以供进一步分析变得空前重要。
2.动态数据如何有效推动业务增长?
2.1 产品监控
产品信息,如定价、描述、顾客评论、图片,都可以在网上市场上找到,并不时更新。例如,发布前的市场调查可以通过在亚马逊上检索产品信息或者从易贝那里搜集价格来轻松进行。
提取动态信息还可以让您评估产品的竞争地位,并制定有效的定价和库存策略。这是一种监控市场中竞争对手行为的可靠而有效的方法。
2.2 客户体验管理
公司比以往任何时候都更加关注客户体验管理。
例如,提取亚马逊上某个产品的所有评论可以通过分析正面和负面反馈来帮助解读客户对该产品的感受。这有助于了解客户的需求,以及实时了解客户的满意度。
2.3 营销策略
动态数据分析让你知道过去哪种策略最有效,当前的营销策略是否有效,以及可以做哪些改进。提取动态数据使您能够实时评估营销策略的成功,并相应地做出精确调整。
3.如何才能轻松获取动态数据?
为了及时、连续地收集动态数据,传统的手工复制粘贴已经不再适用。在这种情况下,易于使用的网页抓取工具可能是最佳解决方案,具有以下优点:
3.1 免费编码
有了 web 抓取工具,像 Octoparse 你不需要事先有编程知识。从网上抓取动态数据对每个人和所有企业来说都很容易实现。此外,Octoparse 的一个新功能,称为任务模板,使每个人都可以在点击次数内捕捉数据。
3.2 适用于各种网站
不同的网站有不同的结构,所以即使是有经验的程序员,在写脚本之前也需要先研究网站的结构。但是一个强大的网络抓取工具可以用来快速简单地从不同的网站中提取信息,为你节省大量研究不同网站的时间。
3.3 计划提取
这就需要网页抓取工具支持云操作,而不是只在本地机器上运行。这样,scraper 可以根据您的首选计划自动运行以提取数据。强烈推荐八分云提取**、,其中、**支持根据您的需求随时随地抓取 web 数据。
4.如何才能让动态数据富有成效?
现在,我们可以快速高效地获取动态数据。为了最后的成功,我们还需要什么?
4.1 快速整合您的数据
很多时候,您的数据分散在不同的数据库中,集成数据变得非常耗时。这时候我们就需要一个像 FineReport 这样的软件,能够支持各种数据库,将多个数据源的数据组合起来,提取数据进行综合分析。
From FineReport
4.2 通过报告或仪表板可视化您的数据
数据可视化的重要性在于,它帮助人们更快地理解数据。图形和图表可以将看不见的信息转化为看得见的图形符号,直接清晰地表达出来,帮助你快速发现临界点。如果你想知道如何制作超酷的仪表板,你可以在这个博客 中探索更多制作销售仪表板的分步指南。
From FineReport
4.3 随时随地更新您的动态数据
记得数据是动态的吗?嗯,我们的仪表板或报告也应该是动态的,如果我们可以在任何地方查看它们的话。此外,如果我们有另一个数据源,并且我们需要将它更新到我们已经构建的仪表板或报告中,该怎么办?同样,您可以使用 FineReport 的数据输入功能来实现数据的实时更新。
From FineReport
最后的想法
如今,数据是推动业务发展的重要因素之一,有助于利用内部数据进行自我审计,并通过捕捉外部信息来跟踪行业趋势。借助数据捕获工具和数据可视化工具,您将对您的业务乃至整个行业有一个清晰的了解。
立即享受用数据推动业务发展的乐趣!
您可能也会对…感兴趣
用一个关于苹果的类比来理解聚类。
多元被定义为两个或更多的变量。这种形式的分析涉及两种算法,即聚类分析和降维。下面的文章将首先关注聚类分析。这种算法方法寻找数据中的自然聚类。一个集群被定义为一组位置相近或发生在一起的相似事物。
考虑一下这个类比。假设你有一盒不同颜色的苹果;红色、绿色和混合颜色。单独挑选每种颜色不仅耗费时间,而且很可能会出现人为错误。
然而,通过聚类分析,我们可以根据颜色对这些不同的苹果进行分类。有了这样的信息,人们可以收获诸如多少苹果属于哪种颜色、哪种颜色质量最好或哪种颜色质量最差的信息。
这种方法可能会应用于互联网上的各种算法,例如基于社交媒体的平台中的定向广告和推荐引擎。
对数据集中的不同变量进行分段或分类的第一步是使用一个称为降维的概念。这包括采用大量的变量,并将其减少到几个新的变量,最好地描述数据集。例如,对于每一个苹果,你可以测量平均质量、体积百分比或者用户能想到的任何东西。但是,如果所有这些变量高度相关,您可以将它们合并成一个新变量。
在这种情况下,如果你测量我们每个苹果的 100 个特征,仅仅通过观察数据很难理解我们苹果的分组。在这种情况下,聚类可以帮助您自动拉出这些组。
同样重要的是要注意,降维可以被认为是变量的减少。同样,如果我们有关于每个客户的 100 个变量,我们可以进行降维,以找到变量中的主要趋势。基于聚类变量而不是原始的 100 个批次,我们将更容易理解我们的苹果的模式。
在我们开始聚类之前,您可能希望删除或估计缺失的数据,并重新调整变量以进行比较。在此基础上,我们将探索几种聚类算法,人们可以使用这些算法来分析精心选择的数据集,因为并不是任何数据集都适合被聚类。
在本次演示中,我们将使用 R 中内置的 mtcars 数据集,其中包含汽车趋势道路测试信息。
我们首先从划分或分割聚类开始,这是一种根据相似程度将数据集中的观察值分成几组的技术。这些算法需要分析师具体确定要生成的聚类数。
图书馆需要:
factoextra 美化集群的可视化
#load data
data(“mtcars”)
sampleset <- mtcars
#remove any missing values
sampleset <- na.omit(sampleset)
#scale variables
sampleset <- scale(sampleset)
#ascertain the alternative number of clusters for k-means clustering
library(“factoextra”)
fviz_nbclust(sampleset,kmeans,method=”gap_stat”)
#compute and visualize k-means clustering
set.seed(123)
km.res <- kmeans(sampleset,3,nstart=25)
#visualize
library(“factoextra”)
fviz_cluster(km.res,data=sampleset,ellipse.type=”convex”,palette=”jco”,repel=TRUE,ggtheme=theme_minimal())
现在,您可以看到数据是如何根据相似性分为三类的。
在下一篇文章中,我们将探索另一种称为分层凝聚的聚类算法。
你如何使用聊天机器人来帮助你的生意?
人工智能(AI)在过去十年中取得了巨大的进步,这场 AI 革命中最有用的产品之一就是 AI 聊天机器人。它们有助于减少解决客户查询所需的时间,并减轻客户服务代理的负担。
根据 Gartner 的数据,到 2020 年,将近 25%的客户服务运营将使用聊天机器人。其中一个主要原因是品牌正在投资改善客户体验。多达 84%的组织预计将在 2017 年增加对客户体验技术的投资。聊天机器人市场预计到 2025 年也将达到12.5 亿美元。
现在我们知道了为什么聊天机器人会受到营销人员的欢迎,让我们更仔细地看看它们是什么。
什么是聊天机器人?
简单来说,聊天机器人是一个虚拟助手,通过短信与你的客户交流。你可以把它整合到你的网站、应用,甚至是即时通讯工具,比如 Facebook Messenger。
聊天机器人可以帮助你在没有任何人工干预的情况下更接近你的客户。当用户给聊天机器人发信息时,它们会自动行动。
虽然他们没有完全消除对人工客户服务代表的需求,但他们可以大大减少他们的工作量。
以下是人们更喜欢与聊天机器人互动的一些主要原因:
- 对许多人来说,与聊天机器人互动是一种娱乐。当人们无事可做时,他们也帮助人们消磨时间。
- 好奇心——聊天机器人对人们来说相当陌生,这激发了他们的好奇心。人们希望测试这些聊天机器人的能力,并了解它们对不同消息的反应。
- 社交因素 —它们有助于改善社交体验,也能推动你的业务转化。人们可以与聊天机器人交谈,而不用担心被评判,这对许多人来说是一种安慰。
- 生产力——每当人们需要帮助时,他们会很快得到,聊天机器人就是这样做的。
它们已经成为最近最大的自动化趋势之一。事实上,聊天机器人已经变得如此受欢迎,以至于 Facebook Messenger 在 2017 年超过了 10 万个聊天机器人。此外,大约 35%的消费者希望看到更多品牌使用聊天机器人。
现在你对它们的重要性有了一个概念,让我们来看看它们如何帮助你的企业在网上蓬勃发展。
聊天机器人如何帮助你的生意?
1.随时可用
当客户看到没有人在线帮助他们解决问题时,他们会感到沮丧。聊天机器人在这种情况下非常有用。他们可以全天候服务,随时解决客户的问题。
人们不喜欢等待很长时间来解决他们的问题。事实上,大约 37%的顾客希望他们的问题得到快速的回答。相反,你应该尝试尽早解决他们的问题,聊天机器人可以帮你做到这一点。这也许是为什么他们正在迅速取代其他形式的客户支持,如实时聊天和电话。
与人类不同,你可以让聊天机器人 24×7 工作来解决你的客户的查询。这有助于提高您的整体客户满意度。
精选的相关内容:
2.省钱
当你有一个客户支持团队时,你需要为他们的服务每月支付薪水。如果没有聊天机器人,你需要大量的员工来快速有效地回应你的客户。随着业务的增长,这些费用只会越来越多。
聊天机器人可能需要大量的一次性投资,但它们有助于减少您的经常性支出,即使您的组织在增长。当您的客户有一些简单的疑问时,您不需要客户支持团队的任何干预。相反,聊天机器人将处理与他们的对话,并解决他们的问题。
这可以让您减少品牌所需的客户服务代理的数量。此外,您可以让他们只解决复杂的查询,而不是在简单的查询上浪费精力。
人员规模的缩减可以帮你省钱。
3.提高客户满意度
对于企业来说,提高客户满意度至关重要。说到客服人员,他们与客户的对话取决于他们的心情。如果他们心情好,他们可以很容易地解答顾客的疑问。然而,如果他们的情绪不对,他们可能无法给客户一个满意的体验。
另一方面,聊天机器人受到代码规则的约束,它们完全遵守这些规则。他们总是尽可能以最礼貌的方式对待顾客,不管顾客如何和他们说话。这有助于提高你的客户满意度。
此外,您可能有会说多种语言的客户。您的代理很难用不同的语言与您的客户交流。然而,聊天机器人可以很容易地做到这一点,没有任何错误。这也有助于改善与他们的交流。
4.更多营销渠道
聊天机器人不仅仅是帮助你改善客户服务的工具。你也可以用它们来推销你的品牌和产品。
例如,您可以使用它们向您的客户发送报价。这可能是一种更个性化的联系方式。
精选的相关内容:
以下是他们如何帮助你:
- 提高参与度 —通过个性化与客户的沟通,他们可以提高你的参与度。他们甚至可以帮助您的客户完成简单的任务,例如向他们展示购买历史。
- 扩大覆盖面 —你可以通过聊天机器人,尤其是社交媒体,接触到你的整个客户群。手动实现这一点是不可能的。
- 销售漏斗中的无缝指导 —与人类不同,聊天机器人不会让你的客户等待回应。这有助于销售漏斗各阶段之间的平稳过渡。通过这种方法,你也许可以提高你的转化率。
- 推送通知 —聊天机器人可以预测客户行为,这使它们成为非常方便的营销工具。您可以根据客户的操作向他们发送推送通知。这有助于你在正确的时间接触到正确的人,并有助于转化率优化。
通过这种方式,你可以用他们以更个性化的方式来推销你的品牌和产品。与被动营销相比,当信息在正确的时间到达你的受众时,它可以产生显著的影响。
事实上, 77%的消费者表示,与聊天机器人的积极对话让他们更频繁地购买品牌产品。
5.私人秘书
人们可以使用机器人作为个人助理来简化他们的任务。机器人可以向他们发送与他们正在寻找的主题相关的建议或提示。
例如,你可以从机器人那里获得旅游提示或时尚推荐。他们甚至可以很容易地为你点餐。
例如,万事达卡为 Facebook Messenger 开发了自己的聊天机器人。这个聊天机器人通过告诉他们每个月花了多少钱,并显示他们的交易,让他们的客户更容易办理银行业务。这使得银行业务对他们的客户来说极其简单。
图片经由万事达
同样,他们也为商家提供了解决方案,使得直接通过 Facebook Messenger 进行交易成为可能。现在,消费者可以直接从赛百味、FreshDirect 和芝士蛋糕工厂订购食物。
通过与聊天机器人的互动实现直接购买,你可以让购买漏斗变得非常短。这反过来可以增加你获得转化的机会。
精选的相关内容:
6.展示新产品和服务
通过聊天机器人,你可以向你的观众展示你的最新产品和服务。他们始终保持友好的语气,这让你可以轻松地宣布你的最新产品和服务。
这些通知形式最好的一点是,它们在本质上具有很强的针对性。您可以选择将哪些通知发送给谁。这可以让你的相关客户觉得自己很特别,你也不会激怒那些觉得产品或服务不相关的人。
现在你知道了聊天机器人如何帮助你的生意,让我们来看看你如何建立一个。
如何构建聊天机器人
1.定义你的目标
在你开始开发你的聊天机器人之前,你需要弄清楚你的最终目标是什么。清楚地列出聊天机器人将为你的品牌服务的功能。这将有助于给你设计它的方向。
2.决定频道
你需要决定使用哪种渠道与你的客户沟通。这可能是 Facebook Messenger、你的网站、应用程序,甚至是 WhatsApp。精心设计和优化的登录页面可以帮助你推动更多的转换。要设计出优秀的登陆页面,你可以使用最好的登陆页面软件
3.选择你的创作方法
有两种方法可以构建聊天机器人。首先是从头开始创建一个定制的聊天机器人。第二种更简单的创建聊天机器人的方式是使用现成的软件。
4.定制并启动
不管你的创建方法是什么,你都需要定制你的聊天机器人来满足你的需求。你应该开发一个回答客户问题的数据库,并描述聊天机器人必须采取的行动。最后,你应该测试一下聊天机器人,看看它是否运行良好。
精选的相关内容:
最后的想法
聊天机器人可以让你的营销更加直接和个性化,从而帮助你扩大营销效果。您还可以在聊天机器人的帮助下,快速为客户提供解决方案,从而改善客户体验。此外,聊天机器人可以减少您的运营支出,甚至推动更多的转换。
本文发表在 谢恩巴克 的博客上。
关于作者
谢恩·巴克是内容解决方案和礼品公司的创始人兼首席执行官。你可以在推特、脸书、 LinkedIn 、 Instagram 上和他联系。
云计算能有多便宜?
Photo by Martijn Baudoin on Unsplash
如果你看一下许多云提供商的常规现收现付定价,你会发现它们的定价差异很大。三大巨头亚马逊、Azure 和谷歌都非常相似,与其他较小的云提供商相比有很大的差异。
为了尝试在云提供商之间进行同类比较,我使用了一种机器配置,所有被考虑的云提供商都可以使用他们的在线费率卡来提供。即 4 个 CPU 内核和 16GB RAM。显然,不同云提供商的配置之间会有一些性能差异,但这一细节将有待于未来的调查。我试图尽可能多地包括云提供商,以给出一个好的价格和选项的横截面,但这绝不是一个详尽的列表。
云提供商
- Amazon EC2 —最初的大规模云提供商,在全球许多地区的多个数据中心提供服务。使用 m5.xlarge 配置进行比较。
- 微软 Azure —微软的云服务,对云市场来说相对较新,但有大量的区域和数据中心。使用 D4 v3 配置进行比较。
- Brightbox —一家总部位于英国的云提供商,拥有两个位于英国的数据中心。使用 RAM 优化配置进行比较。
- Cloudsigma —一家在全球拥有多个数据中心的瑞士云提供商。使用美国数据中心的自定义实例进行比较。
- CloudWatt —一家法国云提供商,拥有两个运行 Openstack 的法国数据中心。用于比较的 n1.cw .标准-4 配置。
- Digital Ocean —在全球拥有多个数据中心的美国云提供商。通用配置用于比较。
- Exoscale —一家瑞士云提供商,其数据中心遍布欧洲。用于比较的超大型计算机配置。
- 谷歌 GCE——在规模和范围上与亚马逊不相上下。用于比较的 n1-标准-4 配置。
- GridScale —德国云提供商,托管在德国。使用自定义配置进行比较。
- IBM Cloud —一家相对较新的大型公共云提供商。使用 B1.4x16 配置进行比较。
- Scaleaway —一家法国云提供商,仅在其法国数据中心提供托管服务。用于比较的 GP1-XS 配置。
- Upcloud —一家拥有全球数据中心的芬兰云提供商。使用自定义配置进行比较。
- Vultr —一家拥有全球数据中心的美国云提供商。使用高频计算配置。
按需付费与按月付费
Comparison of Pay As You Go Hourly pricing to Monthly in $/hour
对于大多数云提供商来说,很明显,与只支付按小时付费的价格相比,按月预订计算可以显著降低成本。在三大巨头中,似乎只有谷歌为购买每月计算提供了显著的折扣。
一个巨大的成本异常值是 Scaleaway,他们的产品比任何其他提供商都便宜得多。我已经检查了价格多次,试图找到一个错误,但没有,他们似乎真的很便宜。
每月与预留 1 年
Comparison of Monthly to 1yr reserved pricing in $/hour
一些云提供商为使用预约定价模式提供折扣。所以你要承担这一年的每月费用。如果你知道这些服务将在一年内没有太大变化,那么对亚马逊来说,这可能是一个高达 20%的合理折扣。但是考虑到灵活性的降低,真的值得吗?
现收现付与可抢占/即时/低优先级
Comparison of Pay As You Go Hourly pricing to Batch processing in $/hour
使用低优先级、现货或可抢占的计算资源是真正的深度折扣所在。只有三大巨头谷歌、亚马逊和微软 Azure 提供这项服务,其他供应商只是为了比较而显示的。这些计算实例适用于可以随时中断或运行的短期工作负载,即批量计算。这对于渲染、ELT 工作流或大型数据集分析等工作负载尤其有用。它们不是用来运行 web 或应用程序服务之类的东西的,它们的可用性非常不稳定。如果您可以使用它们,它们的价格非常实惠,低至现收现付价格的 25%。
结论
对于云提供商来说,查看您将要运行的工作负载类型绝对是值得的,这样就可以利用批量工作负载的深度折扣。除此之外,货比三家是值得的。如果您不受地区数据保护要求的限制,那么有很多选择。
在大型云提供商中,似乎有一股强大的推动力将应用程序从裸计算即服务转移到无服务器架构上。无服务器、容器化应用程序和裸机计算之间的成本比较还没有让我满意。对于小规模和低流量的应用,有明显的成本优势,但对于较高的流量,成本优势并不明显。
后续步骤
- 对云提供商之间同等产品的性能进行基准测试。
- 云对象存储选项的比较。
- 集装箱服务的比较。
公司如何理解你
当给定一个关于用户购买咖啡习惯的数据集时,你如何理解这些数据,这些公司能在多大程度上预测你的习惯?
Photo by Javier Molina on Unsplash
背景
在 Udacity 数据科学纳米学位中,我一直在星巴克提供的数据集上进行我的顶点项目。我的目标是利用我在课程过程中学到的东西,并把其中的一部分以网络应用或博客帖子的形式展示出来。很明显,我选择了后者。
这篇文章总结了我与星巴克数据集的遭遇,以及我如何设法将其分解,从大量数字和字符中分辨出一些有用的东西。
问题定义和研究问题
星巴克正在提供描述一组用户交易的数据,这些用户在一段时间内接触到不同类型的优惠时,具有一些特征,如年龄、性别和收入。
Udacity 对这项任务的描述是:
每隔几天,星巴克就会向手机应用程序的用户发出一次报价。优惠可以仅仅是饮料的广告,也可以是实际的优惠,如折扣或 BOGO(买一送一)。某些用户可能在特定的几周内收不到任何报价。
并非所有用户都收到相同的报价,这是这个数据集要解决的挑战。
您的任务是将交易、人口统计和优惠数据结合起来,以确定哪些人口统计组对哪种优惠类型做出最佳响应。
你可能会认为,这有点令人生畏。如何对星巴克的顾客说些有用的话?继续下去;我告诉你。
我们需要设计一些研究问题。简单看了一下数据后,我列出了一些例子,如下所示。
- 有什么迹象表明报价有效吗?
- 总的来说,有没有哪种性别对报价反应更好?
- 一般来说,有哪个年龄段的人对报价反应更好?
我一路上还有很多其他的,但是没关系。迭代是过程的一部分,有些路径并没有引导到你期望的地方。你将会看到,在这篇文章中,我可能会介绍我在这个过程中发现的新问题。
我将在下面指导你完成我的过程,然而,代码中的细节可以在我的 github 上找到。我选择主要使用 jupyter 笔记本进行探索和绘图。助手函数放在 python 模块中,以防我以后需要它们,其余的细节可以在 README 中阅读。
韵律学
在这个项目中,我选择不建立一个模型,因为我相信它可以给出一个非常合理的客户群摘要,以及哪些人口统计将对每种报价类型做出最佳响应,而不必进入机器学习。
上述研究问题构成了我的衡量标准的基础。我将深入数据的启发式分析,着眼于用户的特点,他们的总体消费习惯,以及每一个提供的分布式。
原则上,我将关注用户在不同优惠和总体上花费的平均值和中间值。
在反复进行分析和功能工程之后,我还决定,对于不同的报价和总体情况,每小时花费的平均值和中间值会产生有趣的结果,因为它做了两件事。它衡量用户对要约采取行动的时间。因此,我们将持续时间和数量分离。这与这样的假设有关,即用户一完成或过期就忘记了该优惠,并且在看到它之前不知道它。因此,每个用户对报价的感知时间都非常不同,我们应该以某种方式将其规范化。
数据探索和争论
让我们进入数据。星巴克提供的数据在三个不同的表格中给出。
- portfolio.json:不同报价的数据,比如报价类型、奖励、持续时间和难度
- 关于用户的数据。年龄、收入、性别
- 关于用户行为的所有信息。测试期间所有事件的抄本。哪个用户在什么时间得到什么优惠,他们什么时候观看,他们购买了什么等等。
这些表中的每一个都包含需要组合的信息,以便能够告诉任何关于产品成功或谁应该获得下一个产品的信息。我们将在下面的数据探索部分再次讨论这个问题。
这是最难的部分。首先,您需要了解数据的概况,它是什么类型?给出了哪些值?是不是很多数据点缺失?有没有明显的错别字或者不切实际的价值观?
这很耗时,但不一定是最难的部分。
作为一名数据科学家,你需要详细了解数据。隐藏在数据中的不明显的小细节和因果关系可以帮助您做出建模选择。统计学和机器学习是研究相关性的好工具,但不能解释因果关系。然而,即使是小孩子也能解释许多计算机难以理解的因果关系。因此,作为人类,我们需要尽可能多地了解我们的数据。通常这包括重复、尝试和测试假设。
你做出的这些建模选择可以让数据变得非常有用,或者原则上可以迫使你丢弃大块的数据,仅仅因为你还没有真正理解它的全部含义。
Udacity 和 Starbucks 给出的项目的问题定义解释了数据的一些特殊特征。例如,用户可以完成要约,并且在没有看到给予她的要约的情况下接收奖励。然而,在我们开始分析之前,还有其他几个值得了解的细节和假设需要检查。
在“Starbucks Capstone notebook . ipynb”你可以找到我相对有序的数据探索。我将在这里总结这个过程,讨论我在这个过程中的发现,以及我是如何解决这个问题的。
投资组合数据
我从解释报价本身的投资组合数据开始。
The total portfolio data set
正如我们在上面看到的,只有 10 种不同的报价。该数据具有与渠道、难度、持续时间、报价 id、报价类型和完成时的奖励相关的特征。
没有缺失值,其他方面相对简单。然而,信道数据在列表中,这对于任何类型的分析来说都不是很容易使用。因此,我将该列转换为虚拟列,以指示使用了哪个通道。
OneHot encoded channel columns
因为我没有预见到我将直接使用这个表进行分析,但是作为支持信息,我没有在这里转换 offer_type 列。我发现在搜索和过滤时能够保留分类值更有用。
关于这个数据没有太多要说的,所以让我们继续讨论概要数据集。
剖面数据
简档数据集给出关于每个用户的注册信息。下面是它的一个片段。
User data
这里列的不多。但是,我们会立即看到 None 和 NaN 值。我们也惊讶地看到许多 118 岁的人!发生了什么事?
嗯,我们可以看到,如果我们过滤“无”性别,每个用户似乎也有南收入和 118 岁!在最后一行,我们基本上得到了证实,所有的男性都没有收入。这似乎是某种默认值。
但是,默认值并不意味着它没有用。了解的唯一方法是检查他们的交易数据,我们稍后会这样做。如果我们的用户没有任何信息,也没有进行任何交易,他们对我们来说就是一个黑匣子。目前我们将保留奇怪的老用户。
但是让我们看一些好的图表来更好地理解我们用户的分布!
下面我们先看所有用户的年龄分布,然后再看每个注册性别的分布。注意,O 代表“其他”性别。显然,我们所有的 118 岁的人都与未登记的性别有关,因为他们从性别特定的情节中消失了。除此之外,我们可以看到男性、女性和其他性别的人口相对平等。
The distribution of age for all users
Distribution of users with genders other than None
我做了一个测试,从我的数据中删除了所有与性别无关的用户,看看我们是否还剩下一些缺失的值。正如所料,所有丢失的数据实际上都与某种默认设置有关。
此外,我发现数据集中 17000 个注册用户中有 2175 个用户(12.8%)是默认配置文件。这很重要,但是我仍然有很多数据,即使我最终不能使用它们。然而,目前的想法是将他们视为“第四性别”或一个独立的群体。
我还检查了会员注册日期的默认值是否可以与某个事件联系起来。意味着分布非常集中。尽管下图显示了 2015 年第三季度的增长,但没有单一事件。当我研究绝对注册时,它也显示了同季度的显著增长,这可能与星巴克的营销活动或类似活动有关。
Quarterly distribution of the % of default user profiles registered in that quarter
此外,我们可以看到,男女性别分布相当均匀,只有 1.4%的人有其他性别。
Gender distribution\
从性别的收入分配来看,我们可以看到他们也是相对平等的。女性高收入者的比例比男性高。然而,另一个突出的例子是没有收入超过 102kUSD 的人。
Income distribution for females
Income distribution for males
Income distribution for Other
总之,关于用户群最令人惊讶的是默认的配置文件,这使得相当多的用户注册。我们需要深入了解这些用户是我们可以留住的,还是我们应该抛弃他们。不过,我想先看看他们的交易数据。
抄本数据
抄本数据本身也是一个非常简单的表格。它有关于事件的信息;发生了什么,用户 id,事件的时间和一个名为 value 的列。这很有意思。
Snippet of transcript data
然而,为了确定这一点,我检查了所有用户是否都出现在脚本数据中。如果用户那里没有数据,我们可以直接删除它们。幸运的是,情况并非如此。所有用户要么收到了报价,要么买了东西。然而,我后来发现,并不是所有的用户都收到了报价,也不是所有的用户都买了东西。
此外,我找不到任何形式为 None 或 Nan 值的缺失数据点。因此,我们可以关注有趣的部分,即值列。
这个专栏从一开始就有点神秘。它被格式化为一个字典,带有一个键/值对。在上面的第一行中,我们只看到关于接收一些 offer 的事件,这些事件似乎都遵循相同的提供 offer id 的模式。然而,隐藏在表面之下的是什么?
我过滤了条目多于 1 的字典的值列。我找到了金子。
offer types with more than 1 key in the value column
Offer completed 有两个键,一个表示与要约完成相关的要约 id,另一个称为“reward ”,表示用户收到的奖励值!
当展开整个列并将每个键分配给一个单独的列并将值分配给该列时,我用这些额外的列结束。
value column converted to separate informational columns with the keys as column names
优惠 id 是不言自明的。amount 列与交易事件相关,表示用户何时花钱买东西。当用户通过完成要约来解锁奖励时,奖励与完成事件相关。
因此,将这些列添加到我的成绩单数据中,我最终得到了一个表格,其中有获得要约的人、给出的要约、发生的时间、任何交易或奖励的金额以及发生的时间。
我们可以开始更深入地了解事件的细节了!
首先,我检查了没有事务的默认配置文件的数量,只有 89 个用户。基本上我们一无所知的用户,他们没有使用这个应用程序购买任何东西。他们是约翰和无名氏。
用户消费历史
在做了这个初步的清理后,我想更多地了解我可能面对的模式。
- 报价是如何呈现给用户的,每次总是一个接一个还是多个?
- 完成后,用户可以看到优惠吗?
- 累计支出看起来如何?
为了更深入地了解这些问题,我需要一些视觉效果。我首先做了一个时间表的快速模型,其中我指出了报价的开始时间和结束时间,以及奖励。只是想了解一下我要处理的事情。
如下所示,我们肯定有重叠的报价,而且不是两个而是三个。为了能够理解更多的数据,我需要更好地组织这些数据。
Offer history of one user. Green vertical lines are offers received events, the red are after the indicated duration, and the green boxes span from start to end and the height indicate the reward.
经过检查,我发现任何用户收到的最大报价是 6。因此,我可以将每个报价一个接一个地排列起来,而不必花费太多的空间。我还可以添加关于何时查看和完成报价的信息(如果有的话)。
下面给出了用户报价和消费历史的一个例子。更多的例子在我的 github 的 plots/gantt plots 文件夹中给出。
One offer is presented per subplot. The timeline is given along the x-axis, and the bottom plot is the cumulative spendings until that point. For each offer, the start, end, view and completion time is indicated. Transactions are given as black poles, where the height indicate the value (as denoted on the y-axis). The text gives more meta data about the offer like type, difficulty and reward.
这些图对于理解我的数据非常有用。首先,在用户看到报价和完成交易之间可能有相当短的时间。此外,在某些情况下,查看事件发生在完成之后,如上图中倒数第二个报价的情况。
此外,对于许多用户来说,他们会收到许多报价,这些报价的总长度覆盖了他们的大部分时间线。然而,实际的感知窗口要小得多。大多数情况下,从收到要约到看到要约需要时间。要约的完成往往发生在到期日之前很久。
我选择在查看报价之前将其定义为无效。这意味着在此期间进行的任何交易都不受要约的影响,因此不能归因于要约的效率。
要约完成后发生的交易的收益率相同。我假设对报价没有后效。一旦完成,它就被遗忘了。
因此有效窗口是从要约被查看之后直到要约完成或到期。
Valid windows shown as green fields
用特征工程构建矩阵
经过清理和调查,我决定建立两个独立的矩阵。正如我们最初看到的,数据表本身实际上是简单的数据。它们需要被组合起来,新的特征必须被设计来描述我们想要知道的东西。这是为上面的报价甘特图所做的,其中报价数据与交易数据相结合。
参数的详细信息可以在自述文件中找到。在这里,我将只是总结他们的理由。
轮廓扩展矩阵
一个矩阵将基于简档数据。正如我们在上面的图中看到的,用户在不同的窗口内部或外部进行交易。这可以在用户级别上进行汇总,这样我们就可以获得与任何有效窗口内和有效窗口外的总支出相关的特征。我们还可以汇总不同类型优惠的支出。
此外,我们可以总结每个用户的观看率、完成率以及观看和完成的比率。查看率描述了用户查看报价的频率,完成率也是如此。查看和完成要约的比率,或基本上是有意完成的比率,描述了用户在第一次查看要约后完成要约的频率。
然后,扩展的概况矩阵将用于调查总体人口趋势。用户群在花钱方式、对优惠的反应以及没有优惠时有什么趋势吗?
报价矩阵
报价矩阵用一条线表示给用户的一个报价。因此,原则上它显示了上面甘特图中显示的数据,以及一些额外的数据。
优惠矩阵将用于调查不同优惠之间以及不同优惠的人口统计群体之间的差异。与用户数据结合使用,我们可以调查哪个人口统计组对给定的优惠类型响应最好,应该向用户提供哪个优惠等。
由于该数据仅包含有效窗口内发生的交易的信息,而非整个优惠期的信息,因此我们无法直接说明与未收到优惠相比,优惠是否特别有效,只能说明优惠的相对有效性以及它们如何相对影响不同的用户群。
分析
最后,我们可以开始分析我们的数据,并尝试回答我们要回答的问题。
一般用户行为
然而,在我们直接回答这些问题之前,我想先了解一点更普遍的问题:
- 有什么迹象表明报价有效吗?
- 总的来说,有没有哪种性别对报价反应更好?
- 一般来说,有哪个年龄段的人对报价反应更好?
为了回答这些问题,我做了一个汇总表,下面是一些方框图。
下表显示了不同数据特征的中值和平均值结果。它是从概要扩展矩阵中产生的,该矩阵概括了用户的总体情况,而不是单个报价级别。
该表已按性别分列,其中 N 表示无,O 表示其他。None gender 是我们在数据探索阶段发现的默认配置文件的指示。
关于平均值和中值有一点需要注意。如果平均值和中值显著不同,这意味着少数用户具有非常极端的值,使得平均值偏离平均值。
在下面的总结中,我们可以看到,对于所有的支出参数,中值明显低于平均值。因此,与 50%的花钱者相比,确实有少数人在认真花钱。
Summary of spending and time spent in and out of valid windows
Spending in a valid window grouped by gender
Spending outside of valid windows grouped by gender.
我们看到女性的总支出中值最高。和其他人一起,他们远远领先于男性和默认概况。实际上,这里最大的异常是默认配置文件,它们看起来可能是应用程序的随机用户,而不是真正的经常性大买家。
我们还从这些值中看到,在有效窗口内花费的金额低于在有效窗口外花费的金额。但这是否意味着给予折扣和其他优惠是无效的呢?
根据支出的绝对值来下结论是不公平的。正如我们所看到的,在有效窗口的之外花费的时间往往比在有效窗口中花费的时间高很多倍。
意识到这一点后,我回去根据每个小组各自的持续时间将花费值标准化。
这导致了下面的表格,其中有每小时美元的单位,而不仅仅是上面的美元。
Normalized spending
标准化支出讲述了一个不同的故事。在有效窗口内,即在查看报价后,女性每小时的平均支出是男性的 4.7 倍。男性的花费约为 3.9 倍,默认配置约为 2 倍,其他人约为 4.4 倍。这意义重大!
中值数字要低得多,这进一步支持了这样的观察,即有些用户花费很多,而许多用户花费一些。然而,有效窗口内和有效窗口外的比率仍然很高,所有性别的每小时支出都高出两倍多。
我有问题的价值除以 0,因为许多报价实际上是在同一小时内查看和完成。为了解决这个问题,我在所有持续时间上增加了 1 小时。这是一个很好的近似说法,即花 1 个小时来查看和购买你想买的任何东西。实际上,这个单位可能是几秒,但在我们的例子中这无关紧要。
ratio between in a window and outside a window for the normalized values over genders.
看下面不同的年龄组,我们看到默认值实际上是作为一个单独的组分开的。他们的支出中值较高,由方框内的横条表示,但在四分位数上也有相当大的范围。
除了默认配置文件之外,年轻人和老年人的中位数实际上更高,对于 68-78 岁的用户,有效窗口中的支出高 2.5 倍左右,对于 18-28 岁的用户,高 2.6 倍。
Ratio between in a window and outside a window for the normalized values over age groups
因此,根据上述指标,我们可以说,要约在一般工作!
一般来说,女性似乎对某项提议的反应略高,紧随其后的是其他性别。男性有点落后。
年龄组不那么明显,差异分布更均匀,没有一个群体是突出的。相反,所有群体的反应都很好。每个年龄组的平均花费高出 2.2 到 2.6 倍不等。
报价类型
我们可以对报价类型做类似的练习。我设计了一些功能,总结了属于特定优惠类型的有效窗口内的消费以及在相应优惠类型的有效窗口内花费的相应时间。
因为我们无法知道购买是否受到一个或另一个报价的影响,如果有效窗口重叠,我就计算两者的数量。因此,实际支出数字是乐观的,不能用来直接预测数额,但它们可以用来比较反应。
Normalized spending for different offer types
看一下上表,我们看到中间值告诉我们,与完全不在窗口中相比,许多用户只是受到特定报价的轻微影响。并且至少 50%的用户不仅仅基于信息提供来购买任何东西。
然而,平均而言,折扣和 BuyOneGetOne 优惠的每小时支出明显高于没有优惠的每小时支出。这意味着有一些人在特定类型的优惠中随机或受影响地花费更多。
下面我们看到了按性别划分的不同年龄组的不同优惠类型的标准化支出分布。
如果我们把目光从误差棒非常高的子群移开,我们可以看到,在折扣优惠上,其他性别通常比 60 岁以下的女性有更高的标准化支出。然而,在 60 岁到 80 岁之间,趋势发生了变化。其他性别的样本相对较少,因而有较高的估计误差。
显而易见的是,总体而言,所有男性(不包括 98-118 岁的人)都不太可能为任何提议花钱。
摘要
总之,我们可以说,有一种趋势表明,女性每小时花更多的钱,并且至少比男性更容易受到任何报价的影响。另一个性别类别更接近女性。
年龄组更加随机,有迹象表明年轻人和老年人比中年人对报价反应更好。
然而,我们有相当有力的证据表明,人们因为收到的优惠而花费更多!
我发现这特别有趣,但也是最难的部分之一,挖掘数据,并试图设计新的功能,可用于推理。关于如何在我定义的报价或窗口之内/之外处理交易的选择会显著改变结果。数据科学家必须仔细选择定义,并根据这些选择得出结论。
我尝试了不同的设置和数据争论,看看我能找到什么重要的参数,这里显示的结果是基于我对一些要点的理解。可能我的理解是错误的,因此我将需要另一次迭代来微调方法和建模选择。
改进和未来工作
利用这些数据可以做更多的事情。报价数据框架不仅可用于绘制图表,还可用于理解报价是如何为用户构建的。
各种优惠类型的支出分布和其他相关数据有助于更好地了解不同用户群对各种优惠类型的反应。我可能会先这样做,以了解更多关于产品和用户组合的信息,并根据学习和发现的缺陷等来改善视觉效果。
此外,通过结合用户一般支出的工程特征、报价表和用户参数,我们可以建立一个机器学习模型,通过无监督学习方法来细分用户群。此外,我们还可以构建一个回归模型,根据用户资料预测用户的预期支出。
计算机如何看:图像识别和中世纪的杆臂
他们说,死亡是伟大的均衡器。它最终会降临到我们所有人身上,没有人能逃脱它冰冷的魔爪。这在历史上和今天都是正确的,但在中世纪的战场上,我想这句格言有着特别的辛酸。死亡无时无刻不在,并可能以多种形式出现——在锋利的钢片末端,在狂奔的马蹄下,或者从你因喝了别人刚刚拉屎进去的水而感染的无数疾病中的一种。
然而,中世纪的贵族们,秉承着自古以来富有混蛋的传统,不停地试图让生活的天平向他们倾斜。到了 15 世纪末,贵族们想出了一些非常有效的方法。随着金属加工技术的进步和高质量钢材供应的增加,出现了越来越精致和有效的板甲套装。它们非常沉重,而且价格惊人,主要被骑马的骑士所使用——这些地主非常富有,能够负担马匹和盔甲,以及两者的保养费用。这种盔甲让一个人几乎免疫于刀剑或长矛的攻击,幸运的穿戴者可以纵情于一个下午的屠杀而相对不受惩罚。
What a jerk
当然,农民对这种状况不太满意。从高尚的角度来看,他们开发了一套减轻这种新的战场威胁的工具,这是相当不明智的。这些工具都依赖于一项革命性的技术,这几乎完全抵消了板甲的优势。这一关键创新是你今天会认识到的——我们称之为“非常长的棍子”。在一根六或八英尺长的木杆末端放上一些锋利的钢,你就有了破坏贵族乐趣的完美工具。这些武器被称为“杆武器”。
至于怎样装饰这根长长的棍子最好,有四个主要的学派:
长钉是长棍子末端的一个极好的东西。矛也许是这方面最突出的例子,自从人类出现以来就一直在使用。杆子的后端可以插入地面,利用冲锋骑士的冲力攻击他,把他变成一个全副武装的烤肉串。
**剑刃:**剑或斧对板甲相当无效。但是把同样的刀片放在一根长杆的末端,你能施加的力会突然成倍增加。轻轻一击之前的一击可以变成一记重击,甚至可以劈开最坚固的盔甲。
锤子:突然向某人的头部施加巨大的力量会毁了他们的一天,不管这一击是否穿透他们的头盔。锤子将一击的全部力量集中在一个非常小的区域,通过盔甲将冲击力传递给穿戴者,极大地扰乱他们的计划。
**钩子:**源自各种现存的农具,钩子可以发现盔甲上的裂缝,而直刃可能会遗漏。这些武器也被用来把骑着马的对手从座位上拉起来,或者把步兵从他们的朋友身边拖走,以便更方便地进行谋杀。
在实践中,杆臂通常将这些方法结合成一个单一的多用途工具——一个背部带钩的斧刃,一个顶部带长钉的锤子,或者一个既能刺穿又能砍的长而重的刀片。在中世纪晚期持续不断的战争中,适者生存见证了不同形式的巨大繁荣,所有这些都旨在让可怕的事情发生在一根长杆所能管理的遥远的人身上。事实上,如此多的这种武器被制造出来,以至于追踪它们是一个相当大的挑战。
确定一个特定的钢铁花饰是 glaive、fauchard、brandistock 还是一个波西米亚耳勺会让任何人绞尽脑汁。幸运的是,在现代,我们可以调用人工大脑的力量。是的,这是另一种迫切需要应用机器学习的情况。
我们想要的是一种工具,可以简单地通过观察其形状来识别杆臂属于哪一类。我们希望将一个杆臂的图像转换成对其专有名称的预测。这是一个分类问题,就像我们在这个系列的第一篇文章中遇到的一样,根据某些身体特征,我们将恐龙分为食草动物或食肉动物。
但是有一个非常重要的区别。以我们的恐龙为例,我们的数据被非常方便地编码为每种生物的一组相关“特征”——重量、长度、是否有羽毛等等。对于我们的电极臂,我们的数据只是一组图像——电极臂的形状以每个像素的颜色值进行编码。
让我们想想这意味着什么。以下是我们关于恐龙的数据:
有了这些数据,算法可以确定恐龙的特征和饮食之间的关系:用四条腿走路使恐龙很可能是食草动物;体重轻更有可能是食肉动物,等等。通过结合这些因素,算法创建了一套规则,非常准确地将恐龙归入正确的群体。
但我们的极臂数据是一组图像——而不是定义的特征和类别,我们所有的是一行又一行的像素。如果我们将这些数据表示为行和列,它看起来像这样:
第一行:白色、灰色、黑色、非常黑、再次变灰、白色、灰白色、白色…
**第二排:**灰黑色、微黑灰色、黑色、黑色、更黑、灰色、浅灰色、白色…
特征(特定像素的内容)和类(图中的极臂类型)之间不存在明确的关系。顶行中左起第三个像素是黑色而不是白色,这一事实与图像是 bardiche 还是 bec-de-corbin 有任何明确的关系吗?不,不是的。对于传统的分类算法来说,这些信息完全没有意义。找到这些关系需要一种不同的、更复杂的方法。我们将深入这些文章中尚未涉及的机器学习领域:“神经网络”,或所谓的“深度学习”。
神经网络所做的,将它们与其他机器学习算法区分开来,不仅仅是学习如何将有意义的特征转化为对一行数据的预测,而是学习如何将复杂的非结构化信息转化为有意义的特征。神经网络采用多阶段或“分层”方法进行分类。我们的极臂识别器首先准备数据,将像素的原始值转换为图像的抽象信息。只有在最后阶段,它才会将这些信息转化为每一个职业所属的极臂的可能性——也许有 80%的可能性是戟,15%的可能性是贝克-德-科尔宾,5%的可能性是格莱夫-吉萨尔姆。最有可能的类别成为我们的最终预测。
该过程的最后一步与最简单的分类算法完全相同。真正使神经网络与众不同的是早期的“准备数据”步骤。他们是怎么做到的?对于大多数神经网络来说,答案是一个叫做“反向传播”的过程。之所以这么叫,是因为它涉及到最后一层,预测类“反馈”信息给第一层。第一层由一组非常简单的算子组成,称为“神经元”。它们得到这个名字是因为它们的运作方式在基本层面上模仿了大脑神经元的运作方式。但是不要被听起来复杂的名字所迷惑——它们的操作非常简单。神经元查看图像中的像素,并基于这些像素的值,传递自己的单一信号。
当神经网络第一次创建时,神经元完全随机地选择它们的阈值——它们进行猜测。网络对一整套训练数据进行预测,然后检查它做得如何。提供有用信息的神经元可以保持它们的值,但是那些将网络引入歧途的神经元的值会被调整。经过多次迭代,神经元被慢慢训练,以辨别哪些信息要保留,哪些要丢弃。在训练过程结束时,他们已经学会了将什么特征传递给最后一层,以最大化预测正确类别的机会。
为了实现我们的杆臂,我们需要一个非常大的杆臂图像集,每个都标有正确的名称。我们还需要各种不同的杆臂。我们希望确保网络正在学习区分例如 fauchard 和 bardiche 的一般原则,而不仅仅是学习识别我们选择的特定图像的细节。
收集这个数据集被证明是一项巨大的工作,不仅仅是因为我不得不费力地手工搜索、裁剪和过滤数十张图像,还因为事实证明对这些东西的名称没有达成共识。普通的中世纪农民似乎更关心如何生存,而不是帮助他们生存的武器的正确名称。一位消息人士自信地将“fauchard”定义为“glaive”的表亲,外加一个朝后的尖钉或钩子。另一个同样权威的消息来源声称同样的武器是一把改良的大镰刀——一把在杆子末端向前弯曲的刀刃。
我需要一个权威的来源,正如我以前多次做的那样,我转向了高级龙与地下城第二版玩家手册(修订版)。下面是这本庄严的大部头如何定义我的模型将分类的七类武器:
长斧:最简单的长杆武器之一,长斧是一把加长的战斧。一个大的弯曲斧头安装在轴的末端 5 到 8 英尺长。
贝克·德·科尔宾:一种早期的开罐器,专门用来对付板甲。镐或喙用来刺穿金属板,而锤面可以用来用力击打。末端装有短刃,用于对付无甲或无助的敌人。
浮屠:是镰刀和长柄大镰刀的衍生物,浮屠是一种长而向内弯曲的刀刃,安装在六到八英尺长的柄上。
Glaive:Glaive 是最基本的杆臂之一,是安装在 8 至 10 英尺长的轴上的单刃刀片。
圭萨尔姆:被认为源自一种修剪钩,这是一种精心制作的弯曲沉重的刀刃。
另一种组合武器,这种武器采用了基本的剑刃,并在剑刃后面增加了一个长钉或钩子。
戟:固定在一根五到八英尺长的轴上的是一把巨大的斧刃,倾斜角度以获得最大的冲击力。刀刃的末端逐渐变细,形成一个长长的矛尖或锥状长枪。背面是用于攻击装甲或下马骑手的挂钩。
我确信,这些定义会激怒许多军事历史学家,但对我来说,它们已经足够了。
除了收集每种武器类型的几十个例子,我还以另一种方式扩展了我的数据集,即“合成”额外的图像。这意味着拿起我现有的图像,翻转和拉伸它们,左右移动它们,并用随机噪声点缀它们。这意味着我收集的每一张图片都可以多次包含在我的数据集中。通过使用拉伸、处理、特别是翻转的图像,我们帮助算法关注图像中的一般形状和关系,而不是特定的细节。最后,图像被去饱和(所有的颜色都被去除),每边缩小到只有 40 像素。这减少了算法必须考虑的数据量,并大大提高了它的学习速度。
像机器学习中的许多事情一样,需要一点点修补才能让它正常工作。神经网络采用一系列参数和设置,控制其操作的几个深奥方面。例如,一个网络可以有两层以上,将原始数据浓缩成越来越丰富的有意义的特征。我就不告诉你细节了。
选择这些价值仍然是一种有点神秘的实践,更像炼金术而不是化学。但是测试过程与任何其他分类算法完全相同。在我们训练模型之前,我们留出一部分图像,从我们的模型中隐藏它们。这些坚持不需要经历拉伸、斑点和翻转的过程。相反,我们用它们来检查我们神经网络的准确性。在从一组训练图像中学习了它可以做的事情之后,它可以正确地预测它从未见过的一组图像的类别吗?对于每张图片,我们要求网络猜测其类别。它返回一个概率列表——每张图像属于给定类别的可能性。
Predicted classes for each of 25 test images — the image is shown next to the predicted probabilities of it belonging to each class. The correct class is in blue, and the label is red if the class was incorrectly predicted. In most cases, the model predicts the correct class with close to 100% probability.
我们的算法极其精确!除了四十张左右的测试图像中的一张之外,它对所有的图像都做出了正确的预测——将 bec-de-corbin 识别为戟。有了这些简单的类,以及如此清晰和小的图像,识别任务对于我们的算法来说是非常简单的。
有了如此好的准确性,很难相信网络真的学会了识别极臂,而不仅仅是记忆我们提供给它的图像的一些琐碎方面。有没有一种方法可以让我们深入了解算法的内部工作原理,从而更好地理解它是如何做出预测的?
你会想起以前的一篇文章,关于从文本中提取意义,我们可以使用一系列的数学运算将描述一部电影的单词集合转化为一组数值,这些数值包含了这部电影的“意义”的一些表示。通过我们的神经网络,我们已经做了一些非常类似的事情——拍摄一张极臂的图像,并将其转化为关于该图像的一些有意义信息的数字表示。它只是一系列数字,但它包含了图像中形状的一些信息。事实证明,我们极臂的这些数字表示具有一些非常有趣的性质,它们可以帮助我们更多地了解网络如何进行分类,以及它到底学到了什么。
就像我们的电影一样,我们可以计算我们的极臂表示(或“嵌入”)之间的相似性。我们可以测量数值之间的差异,并使用它来找到最相似或最不相似的图像。这揭示了一些有趣的东西。如果我们简单地测量图像中像素之间的差异,我们会发现表面上相似的图像,但它们可能代表完全不同的极臂。相比之下,找到相似的嵌入可以找到非常不同的图像,但它们代表了武器的相似设计。
在上面的图像中,我们选取了一个典型的 guisarme,并根据图像相似性,即它们有多少像素是相同的,以及根据嵌入相似性,即它们的数字表示之间的差异,找到了最相似的图像。基于图像相似性,最接近的匹配根本不是 guisarme,而是 fauchard,它恰好在帧中占据了相似的空间。但是嵌入的相似性找到了另一个 guisarme。有趣的是,它发现了这个 guisarme,尽管事实上它面对着与原来相反的方向。这证明了一种叫做的旋转不变性。因为我们训练我们的模型对我们的源图像进行翻转、拉伸和斑点变换,所以它学会了忽略这些因素——它已经知道,无论 guisarme 是面向左还是面向右,它都是 guisarme。
我们可以对这些嵌入的图像做的另一件事是计算平均值。例如,我们可以为我们的 glaives 取所有的嵌入,并取它们的平均值。这给了我们一个新的嵌入,它代表了“最华丽的”可能的华丽——“ur-华丽”。但是我们真的看不到那个 glaive 是什么样子——它只是一串数字。我们能做的是找到最接近理想的生活方式。我们可以从我们的测试集中选择 glaives,并从最“glaivy”到最“glaivy”对它们进行排序。我已经在下图中完成了,最相似的在左边,最不相似的在右边。左侧的 glaive 非常简单,没有什么特别的功能。相比之下,右边的 glaive 有各种奇怪的功能——挂钩和长钉。它几乎可以被当作伏尔加或巴尔迪什。
不过你会注意到,图片的顺序与你我可能的排序方式并不完全匹配。例如,第四个 glaive 在我看来与第一个非常相似,尽管嵌入显然不那么相似。这是一个重要的提醒——网络以神秘的方式运作。虽然它的结果有时可能与我们的期望一致,但有时也会使我们的期望落空。它不是人类,我们也不应该指望它能得出类似人类的结论。
我们可以对这些嵌入做其他的数学运算。我们可以把它们加在一起。如果我们把“glai vest”glaive 和“GUI sarmiest”guisarme 放在一起,然后把它们的嵌入相加,我们就能找到最能代表 glaive 和 GUI sarme 组合的图像。令人高兴的是,这个操作的结果是一个 glaive-guisarme——一个用类似 GUI sarme 的钩子修饰过的 glaive。
我们学到了什么?我们已经学会尊重中世纪农民的创造力,我们也学到了一些关于神经网络的知识。通过使用“隐藏层”,神经网络能够从非常复杂的来源中提取有意义的数据——在这种情况下是简单的图像,但也包括声音、电影和——我们将在未来的文章中看到——文本。他们可以使用这些有意义的信息对新数据进行分类(通常非常准确)。面部识别软件、更复杂的推荐算法、文档分类和许多其他系统都以这种方式利用神经网络。但是神经网络生成的嵌入也非常有用,并推动了一系列其他应用:谷歌的图像搜索部分使用了神经网络从图像中提取的信息。聊天机器人利用神经网络对问题和答案的含义进行编码。
人们很容易将类似人类的品质归因于神经网络的智能。毕竟,它们在某些方面是对人类大脑结构的模仿。如果它们能够模仿类似人类的行为,这一点也不奇怪。但重要的是要记住,这些系统的知识领域非常狭窄——它们被训练只做一件事——而且它们不关心如何去做。我们的极臂识别器非常擅长它的工作,我们对它生成的嵌入进行的实验表明,它在某种程度上识别了图像中与我们相同的一些特征。但我们也看到,它的一些结果相当令人惊讶。它做出了人类不会做出的选择。它很可能像关注更大的结构一样关注图像中的微小细节;它的程序中没有告诉它“应该”识别图像中的什么特征,所以它只关心什么有效。这是所有人工智能共有的特征,也是让它们既迷人又有时令人恐惧的品质。通过以一种有时非常不寻常的方式执行类似人类的任务,他们可以感觉像是洞察到一种真正陌生的思维方式——如果他们可以被称为“思考”的话。
感谢阅读!本系列上一篇文章《 一万次约会:强化学习演义 》此处可用*。这篇文章的所有代码可从*my github这里 获得。本系列的下一篇文章——关于文本生成——可以在 这里 找到。
计算机如何看
卷积神经网络简介
自动驾驶汽车如何阅读路牌?脸书如何在图片中自动标记你?一台电脑如何实现“皮肤科医生级别”的皮肤病分类?
在所有这些应用中,计算机必须“看到”世界:它接收电磁辐射的数字表示(例如照片),并计算出该辐射意味着什么。
计算机视觉是一个广泛的领域,它结合了人工智能、工程、信号处理和其他技术,使计算机能够“看”卷积神经网络(“CNN”)是一种计算机视觉模型。
在过去的几年里,由于在许多有用的任务上的出色表现,CNN 的受欢迎程度激增。CNN 用于第一段中描述的所有计算机视觉应用,从照片的标记方面到医学图像解释。这篇文章将概述 CNN 如何实现许多令人兴奋的现代计算机视觉应用。
背景
CNN 输入:图片在电脑中是如何表现的
对于计算机视觉应用,CNN 的输入是图像或视频。(CNN 也可以用在文本上,但是我们将把它留到另一篇文章中。)
在计算机中,图像被表示为像素值的网格——即正整数的网格。这里有一个简单的例子,像素颜色“白色”用 0 表示,黄色用 2 表示,黑色用 9 表示。(为了便于可视化,颜色仍然显示在“图片表示”侧,即使在计算机中只保存数字):
实际上,彩色图像是用三个数字网格相互叠加来表示的:一个网格代表红色,一个网格代表绿色,一个网格代表蓝色。每个网格的元素使用 0 到 255 之间的数字指定每个像素的红色、绿色或蓝色的强度。关于如何表现彩色图像的更多细节,参见RGB 颜色模型。
在这篇文章的剩余部分,我们将使用上面显示的简化的笑脸示例。
CNN 输出
CNN 的输出取决于任务。以下是针对各种分类任务的 CNN 输入和输出示例:
图片来源:蓝色餐厅,蒙娜丽莎,猫咪,黑色素瘤,胸片,滤泡状甲状腺癌
当针对任何任务训练 CNN 时,需要许多训练示例。例如,如果您要训练 CNN 进行动物分类,您将需要一个由数千张动物图片组成的数据集,其中每张图片都与一个二进制向量配对,指示哪些动物出现在该图片中。有关训练和测试神经网络的更多信息,请参见本文。
大意
在 CNN 中,不同的“过滤器”(数字的小网格)滑过整个图像,计算卷积运算。不同数量的不同过滤器将检测图像的不同方面,如水平与垂直边缘。CNN 中使用许多不同的过滤器来识别图像的许多不同方面。
此动画显示了一个 2 x 2 滤镜滑过笑脸图像的顶部:
CNN 的部分内容
像前馈神经网络一样,CNN 由“层”组成
CNN 中的单个层包括三种计算:
- 卷积:这是 CNN 的心脏。卷积运算只使用加法和乘法。卷积滤波器扫描图像,执行卷积运算。
- 非线性:这是一个应用于卷积滤波器输出的等式。非线性允许 CNN 学习输入图像和输出类之间更复杂的关系(曲线而不是直线)。
- 汇集:这通常是“最大汇集”,即从一小袋数字中选择最大的数字。池化减少了表示的大小,从而减少了所需的计算量,使 CNN 更有效。
这三种计算——卷积、非线性和汇集——用于构建 CNN 模型的“卷积”部分。仅使用这些操作来获得最终预测的 CNN 被称为“完全卷积网络”这与 CNN 形成对比,CNN 在卷积部分之后使用一些全连接层(全连接层是前馈神经网络的构建模块)。)
什么是“博学”
CNN 是一种机器学习算法。CNN 到底在学什么?
它学习在卷积滤波器中使用什么值,以便预测所需的输出。包含不同值的过滤器检测图像的不同特征。我们不想告诉模型它需要寻找什么特征来确定图片中是否有猫;该模型自己学习在每个过滤器中选择什么值,以便找到猫。
如果在末端有完全连接的层,CNN 也将学习在完全连接的层中使用什么数字。
卷积滤波器
CNN 过滤器是一个正方形的数字网格。过滤器的大小是在构建 CNN 时指定的。一些常用的过滤器大小为 2 x 2、3 x 3 和 5 x 5,但它们可以是您选择的任何大小。
当 CNN 在任何训练发生之前被初始化时,滤波器的所有值被设置为随机数。通过训练过程,CNN 调整滤波器中的值,以便滤波器检测图像的有意义的特征。以下是一些随机初始化的不同大小的卷积滤波器示例:
注意,在实践中,为随机初始化选择的数字会更小,并且它们不会都是整数(例如,随机初始化的过滤器值可能是-0.045、0.234、-1.10 等)。)
卷积运算
卷积是这样工作的。让我们取一小块笑脸图像,并对其应用卷积,使用值为(1、2、3 和-1)的 2 x 2 过滤器:
示例的设置:
- 我们正在使用的过滤器显示在左侧,以供参考,其值以蓝色字体显示。
- 与过滤器进行卷积的图像的 2 x 2 部分的值以红色突出显示。
- 中间的计算显示了卷积运算,我们将滤镜的元素与图片的元素进行匹配,将相应的数字相乘,然后求和得到卷积输出。
在最后一部分,你可以看到,为了得到最后的卷积值,过滤器滑出了我们的原始区域。我展示这一点是因为在实践中我们将卷积应用于整个图像,所以在我们为了示例的目的而选择聚焦的小区域之外仍然有真实的像素。然而,将图像作为一个整体来考虑,我们最终会用我们的过滤器达到一个“真正的边缘”,我们将不得不停止。这意味着我们卷积的输出会比原始图像稍小。
这是红色区域和我们选择的滤波器的卷积输出:
非线性
一旦我们完成了卷积,我们应用一个“非线性”这是一个非线性方程,它将允许 CNN 从整体上学习更复杂的模式。一种流行的非线性是 ReLU,或“整流线性单元这听起来很奇怪,但很简单:你用一个零代替每个负值。
统筹
最后一步是汇集。这一步会缩小表示的大小。通常,我们选择与过滤器相同维度的池窗口。我们选择了一个 2 x 2 的过滤器,所以我们选择了一个 2 x 2 的池窗口。
这里,我们将执行“最大池化”,在每个池化窗口中选择最高值。
也可以执行其他类型的池,比如平均池,我们取池窗口中所有值的平均值。池是有用的,因为它减少了表示的大小,从而减少了整体所需的计算量。
在一个卷积层中有许多滤波器
在上面的例子中,我们应用了卷积、非线性和池化,从 4 x 4 的像素平方变为 2 x 2 的表示,只关注单个滤波器。然而,实际上,一个卷积层使用许多不同的滤波器,所有滤波器大小相同,但值不同。
假设在第一个卷积层中,我们应用了 32 个不同的滤波器,每个滤波器的大小为 2 x 2。那么整个层的总输出大小是 2×2×32。每个滤镜检测图像的不同方面,因为每个滤镜包含不同的数字。
一个 CNN 有很多层
一旦我们有了 2 x 2 x 32 的表示,我们就不会停止。相反,我们可以进行另一轮卷积、非线性和合并,这一次将运算应用于 2 x 2 x 32 表示,而不是原始图像。第二轮是第二个“卷积层”现代 CNN 可能有 8 层或 99 层,或者设计者选择的任何层数。
具有许多层的 CNN 背后的关键思想是,较低层(更接近输入图像)的过滤器将学习简单的特征,如边缘在哪里,而较高层(更抽象)的过滤器将学习复杂的特征,如照片中的人脸或胸部 x 光片上的肺炎。
可视化卷积滤波器
有不同的方式来形象化 CNN 用不同的滤镜看到的东西。本文图 1展示了一家名为 AlexNet 的 CNN 的第一层滤镜在看一张猫的图片时是如何点亮的。这篇文章和这篇文章包含额外的过滤器可视化。Jason Yosinski 的视频“深度可视化工具箱”绝对值得观看,以便更好地理解 CNN 如何将低层的简单特征(如边缘)与高层的过滤器结合起来检测复杂特征(如人脸或书籍)。
结论
CNN 是理解图像的一个强有力的框架,并且涉及许多层上简单操作的重复应用。它们在工业和学术界广泛使用,并已经开始影响依赖图像的医学领域,包括放射学、皮肤病学和病理学。
特色图片
特色图片是列奥纳多·达芬奇的《蒙娜丽莎》,我借用它作为“情感分类”的例子(具有讽刺意味的是,因为人们对《蒙娜丽莎》表达了什么样的情感有不同意见,也因为我在车里一直在听莱纳德·达芬奇的传记。)以下是一些关于《蒙娜丽莎》的有趣事实:
- 蒙娜丽莎曾经有眉毛和睫毛,但很可能是在馆长清洗蒙娜丽莎的眼睛时被意外移除了。
- 艾尔沃斯蒙娜丽莎被认为是达芬奇蒙娜丽莎的早期版本,描绘了同样的主题。这是一幅比著名的《蒙娜丽莎》更宽的画,画的两边都有柱子。
- 《蒙娜丽莎》目前的色调是黄褐色。然而,各种研究表明,《蒙娜丽莎》曾经色彩更鲜艳,有明亮的红色和蓝色。她也可能腿上有一件毛皮大衣。
附加资源
在过去的几年里,我整理了一份与 CNN 相关的特别有用的资源清单。他们来了!
- “卷积神经网络(CNN):图解说明”是计算机械协会(ACM)的一篇优秀博文,提供了 CNN 设计和实现的细节。
- “理解卷积神经网络的初学者指南”是另一个很棒的帖子,特别是用鼠标的图画来解释 CNN 过滤器如何工作的部分。
- 卷积神经网络(CNN/conv nets):本文来自斯坦福的一门课程,CS 231n。
- vdumoulin/Github 上的 conv 算术包含了令人惊叹的动画,展示了不同种类的卷积滤波器如何应用于图像。它包括一些“花式卷积”技术,如转置卷积和扩张卷积。有关扩张卷积的更多信息,请查看“通过交互代码了解 Numpy 和 Tensorflow 中的示例了解 2D 扩张卷积运算”
- 亚伦·c·库维尔、伊恩·古德菲勒和约舒阿·本吉奥合著的深度学习书籍的第 9 章提供了对 CNN 的更技术性的讨论。
- Hvass-Labs/TensorFlow-Tutorials/02 _ convolution _ Neural _ network . ipynb是一个 Python 笔记本,带有 CNN 的 tensor flow 代码,解决了 MNIST 手写数字分类任务。
- 本文On Deep Learning for Medical Image Analysis(JAMA Guide to Statistics and Methods,2018) 是为医疗专业人士撰写的 CNN 综述。它还包含一个伟大的 CNN 的视频解释。这篇文章在付费墙后面,所以如果你在大学,你必须登录到你大学的图书馆资源才能访问它。
原载于 2019 年 5 月 5 日【http://glassboxmedicine.com。
计算机如何思考
这是人工智能的最终前沿。它是无数电影和小说中的明星,也是现代幻想中最大的恶棍和英雄。我说的是真正的“智能”机器,有时被称为“硬”AI,或“一般智能”。也就是说,人工智能是智能的“像我们一样”,是“有意识的”或“自我意识的”。
这是一个更多由哲学家和流行文化评论员讨论的主题,而不是人工智能的实际研究人员。它的术语定义过于松散,其结果的实际意义太小,无法引起大多数数据科学家或软件工程师的兴趣。哲学家和杞人忧天的记者可能会关心简单数学和有思维的生物之间的界限,但出于实际目的,目前人工智能的最先进水平似乎离任何真正智能的机器都很远,以至于这个问题没有意义。
The real question is whether the computers will want to date you
但我认为这是一个错失的机会。对人工智能实际应用的良好理解会给这个问题带来一个完全不同的、更有用的视角。事实上,我的信念是,关于我们如何与智能机器互动的问题远远不是一个遥远的问题或假设,而是与现在相关的问题,并且适用于我们每天都遇到的系统。
毫无疑问,对计算机智能的讨论必须从艾伦·图灵的《计算机器与智能》开始。在这篇论文中,他首先提出了什么将成为讨论“硬”人工智能或像人一样思考的计算机的定义性比喻之一。他称之为“模仿游戏”,也就是众所周知的“图灵测试”。我让他解释一下:
“……这个问题可以用一个我们称之为‘模仿游戏’的游戏来描述。“它由三个人玩,一个男人‘A’,一个女人‘B’,和一个审问者‘C’,他们可能是男性也可能是女性。审讯者呆在一个与其他两人分开的房间里。对于审讯者来说,游戏的目的是确定另外两个人中哪个是男人,哪个是女人。他通过标签 X 和 Y 认识他们,在游戏结束时,他说“X 是 A,Y 是 B”或“X 是 B,Y 是 A”。询问者被允许向 A 和 B 提问……我们现在问这个问题,“当一台机器在这个游戏中扮演 A 时会发生什么?”
这明确了计算机智能的问题。假设我们隐藏的对话者是一台电脑,而不是一个人,作为询问者,我们怎么知道呢?我们期望看到哪些不同?我们能想象出任何问题或一系列问题来明确区分一个有血有肉、有意识的人和一个由塑料和电线组成、无意识的机器吗?
He also had a pretty sharp haircut!
图灵并不打算把它作为一个实用的基准,尽管它经常被误解。图灵并不是在暗示能糊弄人的机器是“智能的”,不能冒充人的机器不是。这是对一个复杂得多的论点的愚蠢解释。图灵描述的是对智力问题本质的惊人洞察。图灵告诉我们,思考与非思考、意识与梦游之间的区别不在于机器*,而在于感知它的人*。换句话说,正如我们从图像生成的最新进展中了解到的,造假和真的做是一样的。图灵告诉我们的是,机器有没有思考并不重要。重要的是我们是否把它当看待。
让我解释一下。
从最简单的分类器到最复杂的深度学习系统,每一种人工智能算法都基于类似的原理。给定一组数据,一组关于世界的观察结果,算法试图构建一组规则——一个模型——来解释这些观察结果。对于简单的算法来说,这些模型非常简单:“一只长着羽毛的恐龙是这只更有可能是一只食肉恐龙”、“一个 14 岁后登基的君主会统治这只很多年。“对于复杂的算法来说,模型更难解释——图像识别算法(例如,识别中世纪武器)构建了所显示图像的抽象表示。对于人类观察者来说,这种表示是完全不透明的,但对于算法来说,它包含了区分格莱夫和戟、巴尔迪什和贝克-德-科尔宾所需的所有信息。一种算法创建了对新型汉堡的描述,它参考了大量的参数来决定是给我们一个“猪肉腌制的牛肉汉堡”还是一个“癌症治愈的牛肉汉堡”。但在所有情况下,这些算法都朝着同一个结果努力:尽可能减少意外。正确的答案是让世界少一点困惑,多一点安全。
在这方面,这些算法类似于人类。我不是人类认知方面的专家,但很容易想象人类的思维方式也是如此。观察婴儿在玩“躲猫猫”游戏时的喜悦,你可以看到这个过程发生在你眼前:“一张脸!令人愉快!但这是什么?脸没了!发生了什么事?它能在哪里?哦,在那里!厉害了!”婴儿对这一过程乐此不疲,似乎不管这一过程重复多少次。但是让他们高兴的不是完全的惊喜,而是期望的实现——婴儿的快乐随着他们学习游戏规则而增长。当这张脸消失时,快乐不在于惊讶,而在于当它再次出现时,他们的期望得到了证实。说这一过程是所有人类思想的基础可能过于简单,但很明显,在很深的层面上,我们的思维与预测过程有着很深的联系。
就像机器学习算法一样,我们构建模型来解释我们周围的世界。其中一些是非常简单的模型。玩躲猫猫的婴儿正在学习这些模型中最基本的一个:对象持久性,即世界上的对象继续存在,即使我们不能立即感知它们。这个模型对于帮助我们理解周围的世界非常有用。我们闭上眼睛,当我们重新睁开眼睛,发现世界与我们离开时大致相同时,我们并不吃惊。我们放下东西,走开,当我们再次需要它的时候,我们回到同一个地方去找它。这种期望对我们的世界体验至关重要,以至于我们很容易忘记它是一种心理模型——我们头脑的一种构造。我们仍然相信物体存在于我们的感知之外,不是因为我们有任何直接的证据,而是因为这样做对我们非常有用。
人类思维中还有另一个基本模型:心理理论。这是一种通过引用隐藏的精神状态的存在来解释另一个存在(或你自己)的行为的能力——信念、情感、意图、知识。这个模型允许我们通过把复杂的行为变成一种叙述来理解它。智力是我们告诉自己的一个故事,用来解释不可预测的行为。
也许人类创造的最复杂的模型就是我们所知的叙事。一个情节。对一系列事件的描述,通过一些因果联系、某种目的感和内在一致性——更深层次的含义——联系在一起。典型的例子来自 E. M .福斯特的《小说面面观》。
“国王死了,然后王后死了”是一个故事。但是“国王死了,然后王后悲痛而死”是一个情节。”
换句话说,一系列事件本身只是无意义的噪音。将它们转化为有意义的东西是某种因果感、必然性——可预测性。
在过去的九个月里,我探索了多种人工智能,从极其简单到极其复杂。我已经建立了一个模型,它可以将来自成千上万个数据点的信息压缩成一部电影的含义的数字度量。我做了一个模型,可以让画出新奇的艺术品。但是实际上最接近感觉的模型智能可能是所有模型中最简单的——它简单地引导屏幕上小点的移动。圆点的运动,追逐或逃跑,是由一些简单的规则控制的——几行代码和一些基本的几何图形。但是对于观察者来说,呈现出来的是一个复杂的人物和故事的世界。追的小点很友好,也很热切。逃跑的小点胆小害羞。友好点对害羞点的示好注定会不断被拒绝。这些个性和情节在法典中是不存在的。它们只存在于观看比赛的人的想象中。换句话说,它们的智力不是点的头脑的属性,而是观察者的头脑的属性。
The human mind is a pattern-forming machine
在系统理论中,他们用“涌现”一词来描述由许多简单得多的系统相互作用而产生的复杂行为现象。关于假设的“有意识”人工智能的一个普遍信念是,它的意识必须是一种涌现的属性——一个足够复杂的系统,具有足够的处理能力和足够的输入数据,将以某种方式“醒来”到意识。但我认为这种思维模式从根本上误解了智力是什么——它不是一种内在的品质,而是一种观察到的品质。
换句话说,在一个复杂的系统中醒来,将它从一个没有生命的机器转变成一个有意识的生物的神奇“火花”,不是它思考能力的产物,而是我们移情能力的产物。在未来的某个地方,不会有什么神奇的时刻,一台机器会跨过某个复杂的临界门槛,通过电脑屏幕回头看我们。这个门槛存在于我们每个人的内心,每天都在以微小的方式被跨越。
每当我们形成模式的大脑将一台机器的行为转化为个性时,这台机器对我们来说都是活生生的。每当我们咒骂一台不可靠的笔记本电脑时,每当我们默默感谢我们的音乐播放器做出了一个伟大的选择时,每当我们对电子游戏中的一个角色感到同情时,一个小小的意识就会短暂地复活。
这种思维方式向我们展示了一个多么令人兴奋的世界啊!从最简单的分类器到最复杂的图像生成器,每一种算法都是人类思想的产物,是人类信念的编码。它们不仅仅是工具,而是脱离实体的思想,是在这个世界上活动的智能碎片。当我们与算法互动时——当我们看到电影推荐时,当我们获得银行贷款预批准时,当我们通过安全门扫描时——我们正在与人类的一个小映像互动,一个微小的思维片段。他们接受训练的数据,他们考虑的数据特征,他们成功和失败的参数,都反映了创造它们的人的思想和愿望,希望和价值观。机器绝不是外星入侵者,也不是外来威胁,它只是一个承载我们思想和感情的新容器。从真正的意义上说,他们是我们的孩子。机器不会取代我们,它们是我们。
就像我们的孩子一样,他们继承了我们的偏见。我们已经看到了无数嵌入其创造者假设的算法的例子。在我最早的一篇关于这个主题的文章中,我展示了,例如,我自以为了解针织的狂妄自大是如何导致我创建了一个从根本上误解了如何推荐针织图案的模型。我们无法理解机器智能,这让它们披上了公正的外衣。我们从他们那里毫无疑问地接受了我们从一个人那里永远不会接受的判断。因为我们对他们的人性视而不见,所以我们对他们的易错性视而不见。
九个月前,当我开始这个系列的文章时,我写了关于工业革命和它所引起的剧变。我相信,类似的剧变很可能在我们的未来再次发生。但是我在这些文章中所学到的,也是我在这篇文章中试图论证的是,这些根本上是由人类因素引起的——由人类的信仰、人类的恐惧和人类的希望引起的。这些算法有时复杂,有时令人惊讶,但它们从未如此令人惊讶或如此复杂,以至于我们无法理解,并在某种程度上预测它们可能的优缺点。
对于人工智能的未来及其对我们世界的影响,我既不是悲观主义者,也不是危言耸听者。我相信,在未来,我们都将把这些算法简单地视为我们每天都在与之互动的人和系统的延伸。如果他们扩大和放大某些团体对我们的权力,那么我希望他们也将扩大我们抵抗这种权力的能力。我希望对这些算法、它们的起源和它们的潜力有更多的了解,这将有助于我们和它们一起建设一个更美好的未来。
感谢阅读!这篇文章是我自 2019 年初以来每月发布的一系列文章的结论。如果想从头开始,系列第一篇短文可用 此处 。
对话式人工智能如何改善社交讨论!
Photo by William Iven on Unsplash
在脸书、推特、博客和 WhatsApp 的世界里,你永远不知道什么会出错。你甚至不知道你分享的内容是对还是错。但你需要知道的是,每个分享的帖子都在产生影响——积极的或消极的。在某些国家,一些病毒内容的影响可能是毁灭性的。
考虑到所有这些现在或未来的挑战,这项研究工作由 Jigsaw 和谷歌反滥用技术团队发起。许多有趣的项目正在进行中—
对话式人工智能
Conversation AI 是一个合作研究项目,旨在探索将 ML 作为更好的在线讨论工具。
在这个项目中,研究人员一直在试图解决这样的问题—
- 机器学习方法如何帮助在线对话?
- 机器学习可以理解对话的哪些方面?
- 使用机器学习辅助在线对话的风险和挑战是什么?
该团队建立了一个名为**“透视 API”**的 API,可以实时分析某些内容的“毒性”。它也可以给内容制作者一个更好的视角(有人发表评论),警告他们关于毒性。开发正在进行中,可以根据要求进行预览。
我在哪里可以读到更多这方面的信息?
你可以在https://www.perspectiveapi.com/#/和https://conversationai.github.io/上阅读更多关于对话式人工智能的内容
Jigsaw 有一个博客也谈到了这个问题——https://medium.com/the-false-positive
这些都可以用在哪里?
该 API 有许多潜在的用例,其中一些将在下一页中提到—https://github . com/conversationai/perspective API/wiki/perspective-hacks
还有谁参与了这件事?
正如网站上提到的,有来自维基百科、纽约时报、**《经济学家》和《卫报》**的团队。
我如何尝试这个?
你可以从https://www.perspectiveapi.com/#/申请 API
你能给我看一些样品吗?
是的,这是一些样品
Experiment -1
还有一些,
Experiment -2
希望这一发展顺利,我们应该看到这些正在实施,以避免任何后果!
总的来说,这些努力是值得称赞和赞赏的。
嘿,如果你喜欢这个故事,看看中级会员!只要 5 美元/月!
你的会员费直接支持我和你阅读的其他作家。你也可以在媒体上看到所有的故事。
现在就成为中等会员吧!
对话聊天机器人营销如何成为电子商务的未来
对话聊天机器人营销如何成为电子商务的未来
如果你最近没有生活在岩石下,那么你一定熟悉最新的营销趋势- 聊天机器人。他们无处不在。 品牌正在使用聊天机器人完成几乎每一项可能的任务 在客户服务、更好的销售和营销、有效的团队沟通等方面。结果是富有成效的,可以肯定地说,机器人将会继续存在。
来自不同行业的不同投资者对聊天机器人的潜力充满信心,因此他们全心全意地为我们的机器人朋友的成长和发展做出贡献。随着技术进步推动增长,bot 技术确实取得了长足的进步。从简单的基于菜单/按钮的聊天机器人到上下文相关的人工智能聊天机器人,我们有丰富的选项可供选择。
在这篇文章的最后,我会让你了解聊天机器人的基本知识和它们的工作流程,聊天机器人在电子商务中的重要性,以及它们如何塑造营销的未来。
聊天机器人:基础知识
虽然我们经常使用聊天机器人并与之互动,但我们可能不知道它的基本术语和工作原理。让我们澄清一下聊天机器人的流言蜚语。
什么是聊天机器人?
聊天机器人是一种小型计算机程序,用于模拟人类对话的方式,并自动与真人互动,以帮助他们解决问题并完成任务。
聊天机器人营销可能在过去几年里蓬勃发展,但机器人已经存在了一段时间。这个概念可以追溯到 1950 年,当时艾伦·图灵发表了他关于人工智能的开创性论文计算机器和智能。这个概念的发展和进步导致了 ELIZA,一个由 Joseph Weizenbaum 在 1966 年设计的简单程序。从那以后,聊天机器人技术的发展只看到了上升,并以其在改善销售和营销方面的潜力让我们感到惊讶。
什么是聊天机器人脚本?
聊天机器人脚本可以被定义为预先计划好的对话消息,机器人对用户的查询做出响应。根据用户的选择和意图,机器人将遵循特定的对话流程。流中的所有响应组合起来组成脚本。
聊天机器人脚本对对话至关重要。聊天机器人的脚本取决于商业目标和购买者的旅程。编写聊天机器人脚本时,需要考虑以下几点:
专注于你的目标
保持简洁明了
表达清楚
自然而不机械
改变你的回答
您的聊天机器人脚本和响应还取决于您正在实现的聊天机器人的类型,这将带我们进入下一部分…
聊天机器人:类型
认为所有聊天机器人的工作流程和处理过程都相似是不正确的。由于对机器人的深入和广泛的研究,我们现在有许多聊天机器人类型可供选择。一些业务任务可以由基本的机器人轻松完成,而一些则需要高级机器人。
让我们来看看市场上有哪些不同类型的机器人:
基于按钮/菜单的聊天机器人
顾名思义,这些聊天机器人为用户提供了多个菜单或按钮供选择。根据用户选择的按钮,机器人会列出下一组按钮选项供用户选择。这形成了聊天机器人响应的多级分层结构。
这些是最广泛使用的聊天机器人,因为它们简单且不复杂。这些工具适合回答售前咨询和多个常见问题,并引导用户浏览您的在线商店或网站。当涉及到包含许多变量的复杂方程时,这些就变得无效了。
基于关键词的聊天机器人
这种聊天机器人使用人工智能(AI)来挑选和捕捉用户查询中的关键词。使用和处理这些关键字,机器人回答客户的查询。它的工作就像一些过时的搜索引擎,充分利用输入的关键字,并相应地回复。
这样做的好处是,机器人只会回答预先加载的内容,不会跑题。它们的局限性和它的优势是有联系的。这些将无法捕捉拼写错误,是高度相关的。
自然语言处理聊天机器人
这些都是最先进的,使用机器学习和人工智能为用户提供最佳体验。对于非技术人员来说,对话式人工智能聊天机器人的架构有点复杂,但它提供了它所承诺的东西。记住用户的偏好和特定的用户对话,随着时间的推移随机应变是他们的亮点。自然语言处理聊天机器人本质上是高度上下文相关的,采用以数据为中心的方法与用户进行交互。
他们甚至理解并考虑拼写错误的用户查询,以提供出色的用户体验。
在上面的例子中,你可能会注意到机器人在提问、初始化对话和继续流程方面相当聪明。
聊天机器人变革电子商务的不同方式
理解聊天机器人并没有看起来那么难 。它们易于与其他应用程序集成,这使它们成为不同行业的首选。在聊天机器人的众多使用案例和相关行业中,有一个明显的商业领域正在发生革命性的变化,那就是电子商务。世界各地的网店店主认为聊天机器人是解决他们共同问题的终极方案。
让我们来看看机器人是如何为店主和顾客改善电子商务游戏的:
更好的用户体验
在你的电子商务计划中加入对话机器人的最大优势可能是简化用户体验,并提供值得记住的独特客户体验。
我们举个例子来理解这一点。
作为顶级美容产品品牌之一,丝芙兰发布了其个人助理机器人,集成了 Kik 和 Facebook Messenger 等即时通讯应用。他们的助手的突出特点是,它允许用户尝试该品牌的新外观和美容产品。使用者可以清楚地知道一种新的口红或睫毛膏会给他们的面部外观和整体形象带来什么样的效果。用户提供他们的图像,剩下的由机器人负责。
这让顾客免去了去实体店试戴产品的麻烦。虽然机器人模拟不能取代自然的外观,但它无疑将用户体验带到了一个新的高度。
与丝芙兰类似,有许多品牌正在使用聊天机器人来增强在线用户体验,并使他们的在线商务变得更好。
改善客户服务
“只赚钱的生意是糟糕的生意”——亨利·福特
我们都明白,提供令人惊叹的客户支持是所有企业的头等大事。没有顾客就没有生意,品牌努力实现百分之一的顾客满意率。
聊天机器人在帮助客户方面找到了它们最重要的用例。事实上,许多公司将机器人纳入他们的商业战略,仅仅是为了这个唯一的目的。
客户服务中最大的挑战之一是为我们的客户提供全天候服务。机器人永远解决了这个问题。
考虑一个公司和支持团队,他们可以在一周的任何一天的任何时间为您服务!
许多人都像我们的支持代表一样,在典型的工作日朝九晚五的工作时间从事工作。在深夜或周末联系支持人员的想法从未有过,有了聊天机器人为我们服务,我们就有了巨大的竞争优势。
这无疑会给用户留下印象并建立信任。他们被确保有好的伙伴,并传播正面的口碑。
数据驱动的产品推荐
语音搜索智能设备和人工智能的兴起已经超出了全球营销人员和客户的预期。越来越多的人选择亚马逊 Echo、谷歌 Home 等智能音箱。人工智能和语音搜索等技术的结合正在改变人们在线购物的方式。
这方面的一个进步是将聊天机器人整合到家用设备和电器中,这已经在我们周围发生了。LG 的 SmartThinQ 家庭自动化中心就是一个完美的例子。它与亚马逊 Alexa 的集成将让你对你的家用电器 有很大的控制权。例如,它会自动估计您洗衣时使用的洗涤剂数量,并在需要时自动重新订购。
当技术彼此重合时,就会有无穷无尽的用例与可能性。对话机器人和电子商务也是如此。
自动化销售线索生成和确认
对于电子商务企业来说,中型到大型库存非常常见,客户有时会迷失在寻找所需商品的过程中。聊天机器人可以成为您的解决方案,轻松引导客户找到他们想要的东西,让他们的生活更轻松。
聊天机器人的高可扩展性使它们能够发起与网站用户的对话,并隔离感兴趣的用户。当我们将自然语言处理和人工智能添加到机器人的工作流程中时,它们实际上比我们常规的实时代理在线索生成方面表现得更好。
随着时间和技术的顺利发展,一些聊天机器人特别针对销售支持。随着时间的推移,这些系统会收集和存储客户信息,并自动将信息传输给销售团队以达成交易。
聊天机器人引导一代 慢慢被证明是营销人员最喜欢的聊天机器人应用,因为它为全球企业带来了大量的引导。
客户数据的宝库
尽管这一切都归结于使用数据来改善消费者互动和销售,但这是聊天机器人的最大用例之一。我们倾向于在交谈时分享大量信息,而不管对方是人还是机器人。对话式营销具有这种独特的优势,即学习和利用消费者的习惯以取得良好的效果。
聊天机器人存储了大量消费者数据,如过去的购买历史和一段时间内的购买习惯。下一次同一顾客访问商店时,这些数据被用来提供无缝的用户体验,并更容易地转换他们。
这些丰富的消费者数据也可以用来向这些客户做广告。了解客户的习惯并跟踪他们的购买历史就像是对未来有所了解。你可以在正确的时间向他们展示正确的广告,这将带来更好的转化率和销售额。
奖励客户忠诚度
企业在客户忠诚度项目上花费了大量的资金来奖励他们的忠诚客户,并把他们转化为品牌拥护者。这种做法没有错,但聊天机器人也发现了它们在奖励客户忠诚度方面的应用之一。
领先的时尚品牌正在树立使用对话聊天机器人与精通技术的客户互动的典范。英国奢侈品牌博柏利允许它的顾客和粉丝使用它的机器人做很多事情。
从查看时装秀的“幕后”外观到直接从应用程序购买服装,从向之前与机器人互动的用户发送推送通知到提供与公司代理的实时聊天,博柏利通过其先进的聊天机器人真正提高了标准。
另一个尝试聊天机器人增强用户体验的领先品牌是奢侈手表公司爱彼。
该公司是首批使用机器人的手表公司之一,最近推出了聊天机器人,允许用户浏览最佳手表系列,包括最受欢迎的手表。顾客可以评估一只手表的所有功能,或者找到并参观最近的商店,在现实生活中试用手表。
聊天机器人是一种独特而有效的方式,可以联系到老客户和忠诚的客户,并让他们感到受到重视。
完成交易
虽然许多企业仍然喜欢一个活生生的代理人或代表来完成销售,但这种情况正在逐渐改变。机器人有能力直接销售并为用户下订单,而不需要一些人类的接触。
早些时候,一些人曾批评机器人无法完成订单和销售。如今,风水轮流转。越来越多的人喜欢聊天机器人,因为他们知道他们将能够通过机器人完成购买。
一种被称为销售聊天机器人的特定类型的机器人正在被公司实施,以改善他们的销售漏斗。这些还提供了对第一次尝试没有转换的客户进行跟进的选项。
聊天机器人:统计
聊天机器人,甚至是电子商务聊天机器人,已经出现了。这不是什么新鲜事。聊天机器人的使用呈指数级增长,而且似乎不会很快放缓。
2016 年和 2025 年全球聊天机器人市场的规模(百万美元)
- 关于电子商务,34%的受访者表示,他们更愿意通过聊天机器人或虚拟助理——聊天机器人杂志
- 实时聊天软件作为客户与企业互动的一种方式,有 73%的满意度——G2 的 脸书聊天机器人指南
- 聊天机器人可以节省高达 30%的客户支持成本— Invespcro
- 21%的消费者认为聊天机器人是联系企业最简单的方式——ubi send
上述统计数据足以证明聊天机器人在包括电子商务在内的不同商业行业中的统治地位。这些还强调了一个事实,即人们如何容易地习惯于对话式商务,以及世界各地精通数字的观众如何接受对话式机器人。
结论
我们生活在这样一个数字时代,竞争激烈,顾客的购买决定完全取决于他/她获得的体验。顾客的期望是无限的,品牌每次都越来越难以实现。单靠人力是不可能提供无缝的用户体验的。
进入:对话聊天机器人
从一项完全引进的令人生畏的技术,到突破人们的日常日程,聊天机器人已经取得了一些有价值的进展。聊天机器人与其他应用程序集成的便利性以及它们的多种用例使它们被广泛接受。电子商务已经将聊天机器人纳入其核心营销战略。聊天机器人对电子商务网站的登陆页面转换和搜索引擎优化也有影响。
就像这个星球上的任何其他技术一样, 伴随着我们的 AI 机器人朋友 也有挑战和机遇。如果你还没有探索充满希望的对话聊天机器人世界,现在是时候了。如果你是世界上任何地方的网店店主,这就更重要了。
你对聊天机器人作为营销和商业的未来有什么看法?你已经在使用聊天机器人了吗?为什么不呢?
请发表你的意见。我在听。
创建人工智能学习小组如何提高我的技能并让我找到工作
这个想法是在人工智能专家亚历杭德罗·绍切多在我大学的一次演讲中出现在我脑海中的。这感觉真的很令人兴奋:有大量的学生对人工智能感兴趣,而在我的大学里没有这样的学习小组。那时我在等什么?
Photo by Kane Reinholdtsen on Unsplash
这就是创建一个学习小组如何提高我的人工智能知识并帮助我获得机器学习暑期实习的故事的开始。我从来没有怀疑过,它会对我和加入这个团体的同学产生如此大的影响。我不得不投入大量的时间来组织人工智能协会,这让我有时睡眠不足,但这绝对是值得的。这也是我最终获得机器学习工作的主要原因之一。希望这篇文章能启发你创建自己的 AI 学习小组!
我喜欢数据科学的原因是,它吸引了许多对人工智能和数据科学充满热情的志同道合的人。这就是为什么我想在 Linkedin 上与你联系!您也可以通过我的个人网站留下任何反馈和问题😉
它是如何开始的
University of Southampton AI Society logo
就在人工智能演讲结束后,我问了几个学生,他们对创建一个人工智能社会的想法有什么看法。他们似乎都很感兴趣,所以我决定进一步探讨这个想法。我联系了我的几个朋友来帮助我创建人工智能协会。他们很乐意帮忙,所以与此同时,我们开始准备发布活动。这是一大块要处理的工作,因为我们也在为即将到来的研讨会创建材料。启动活动非常成功:大约 60 名学生参加了我们的第一次活动。在本学期中,我们成功地保持了研讨会的高出席率,我们还聘请了 8 位不同的演讲者来主持研讨会!
你和他们一起学习
Photo by Priscilla Du Preez on Unsplash
就我个人而言,我从我的朋友那里学到了很多新的人工智能概念,我甚至不知道他们的存在。他们向我展示了许多有用的、不太受欢迎的 Python 库,并向我介绍了更多 AI 方面的小众主题。我还看到了许多不同的编码风格,它们帮助我适应更好的编程实践,并教会我如何审查代码。
学习小组的美妙之处在于它带来了一个对某个主题充满热情的社区。让自己负责和他人一起学习新概念和新技术要容易得多。如果你在代码中有 bug 或者你很难理解某个主题,你可以交流你的想法,让自己了解来自行业的最新消息或者互相帮助。我们都同时成为老师和学生。与在大学里的普通讲座相比,研讨会还能让你在会议期间更加投入和专注。通过行动学习更加有效,因为它也测试你的理解能力。
同龄人的压力有所帮助
我在图书馆呆了很多个晚上,为即将到来的研讨会准备代码和幻灯片。这绝对是一项耗时的任务,但我很感激这小小的推动帮助我扩大了知识面。没有不准备材料的选择,因为学生在等待下一次研讨会。
当你致力于某事时,你经常会发现自己要走出舒适区去实现它。它可以采取多种形式:举办研讨会,介绍演讲者或为学习小组编写代码。人们期望你会做到你所承诺的,这可以给你一点“踢屁股”来按时交付。从我的经验来看,这只是一个惊人的个人成长机会。
它显示了你的激情
Photo by Ian Schneider on Unsplash
有什么比创建一个学习小组来证明你的热情更好的呢?这表明你在努力扩展你在这个话题上的知识,并证明你可以采取主动。
在上个学期,我注意到在我更新了关于那个学习小组的详细信息后,我开始收到更多的面试邀请。最后,我得到了一家公司的暑期实习机会,面试中的一个主要问题是关于人工智能协会的😅
它让你被认可
Photo by Miguel Henriques on Unsplash
有几次,我发现自己处于这样一种情况:我第一次见到的人已经认识我了,因为我是人工智能协会的主席。他们有时候也会假设我一定是 AI 方面的专家,这是不真实的(我相信你只有完成 P.h.D,或者有了几年的工作经验,才能称自己是 AI 专家)。
领导一个学习小组可以扩大你对同一件事充满热情的人际网络!谁知道它什么时候会变得无价:也许你会找另一份工作,或者你会为你的生意争取第一批客户?
如何创建学习小组?
Photo by Jon Tyson on Unsplash
一点也不难!问问你的同事、学生或朋友,他们是否想创建一个学习小组。它可能有多种形式:从组织每周一次的非正式会议,到与演讲者或会议一起创造更大的事件。想想你和你的朋友能投入多少时间,找一个你能举办活动的地方。开始时可能会很难,但是请你的朋友帮忙并听取反馈,这将有助于你扩大你的学习小组!
感谢您阅读文章。如果你对创建学习小组的想法感到兴奋,请通过 Linkedin 联系我。我很乐意给你一些建议!
数据分析如何解决谋杀案
毫无疑问,你读过侦探小说或看过犯罪电视节目,在这些节目中,犯罪调查人员辛苦工作数月,试图解决谋杀案和其他案件。
他们花了无数的时间研究当前的和存档的数据,坚定地试图将这些点连接起来并弄清楚。不幸的是,所有的努力总是没有回报。然后,随着执法官员决定暂停对那些仍未解决的事件的调查,案件变得“冷”了。
然而,今天的执法官员可以使用一项前所未有的技术:大数据分析。让我们看看它如何帮助解决谋杀和其他犯罪。
处理比人类更多的数据
大数据分析软件的主要优势之一是,它可以比人类更快地评估大量数据,并发现他们可能错过的趋势。因此,从破案的角度来看,数据分析可以帮助抓住试图逃避逮捕的罪犯。
例如,科罗拉多州的一些社区安装了车牌阅读器,记录进出这些地方的每辆车的车牌号码。
一位支持使用这项技术的丹佛警察局长提到,70%的犯罪都与车辆有关。然而,一些人担心这项技术对隐私意味着什么,特别是如果网络罪犯获得了这些数据。
数据分析软件的速度和执法官员收集数据的各种方式为更有效地挖掘信息开辟了新的机会,并且与以前所需的方法相比,大大减少了人力资源需求。位于诺克斯维尔的田纳西大学甚至有一个谋杀问责项目,其中一个小组开发了一种算法来帮助连环杀人案。
此外,必须记住,数据分析工具收集的信息也有助于预防犯罪。印度警方也是使用这种数据分析的人之一。它们纳入了犯罪行为模式、犯罪周年纪念日、假释日期和条件等,因为它们依赖数据来帮助它们发现可以让人们更安全的有用模式。
家谱数据也能发挥作用
家谱网站和 DNA 服务,帮助人们了解更多关于他们的祖先已经进入主流。但是,这样的数据不仅仅可以告诉人们他们的家庭历史。例如,2019 年 5 月,警方披露了他们如何使用 DNA 信息和家谱网站上的数据来侦破一起数十年前的谋杀案。
研究人员使用了一个名为 GEDMatch 的遗传信息数据库,通过查阅数百人的大家庭树来拼凑信息。他们在前进的道路上遇到了挑战,但最终,结果比他们所希望的更加成功。因为凶手还供认了另外三起谋杀。
电话记录往往能提供线索
根据一项统计,多达 90%的 T2 世界数据都是在短短两年内创造出来的——从 2010 年到 2012 年。此外,如果你想想人们在给朋友发短信、玩游戏或使用云服务时产生的海量数据,很明显,数据科学家们在协助执法人员侦破犯罪案件时不乏可挖掘的数据来源。
呼叫详细记录(cdr)包括一个他们在调查期间可以查看的数据类型的示例。移动电话运营商出于商业目的而收集 cdr,一些较大的运营商每天会收集数十亿 cdr。CDR 包括信息,该信息包括识别码、呼叫的持续时间以及为接收机和呼叫者两者路由通信的特定蜂窝塔。
主要通过电话与人沟通的公司会定期捕获销售线索数据,以帮助他们管理客户需求。通过在电话中与客户交谈时实时了解有关客户的信息,电话营销专业人员可以定制他们的对话,使其最大程度地具有相关性。或者,企业可以使用呼叫数据通过电子邮件或邮政邮件向人们发送适用的通信。
2016 年,纽约州皇后区一名名叫卡瑞娜·韦特兰诺的女子跑步时被谋杀,检方用手机记录将这名最终被判有罪的嫌犯放在了犯罪现场附近。此外,手机的网络浏览器包含 137 个与犯罪相关的链接。
智能扬声器录音可能变得越来越重要
许多人喜欢智能音箱,因为它很容易融入日常生活。但是,一些涉及智能扬声器的谋杀案让人们想知道未来会怎样。
例如,在新罕布什尔州的双重谋杀案中,一名法官命令亚马逊发布亚马逊回声记录,称说话者可能拾取了攻击的部分内容。
检察官要求智能扬声器数据的情况仍然不常见。但是,随着越来越多的家庭急切地接受智能扬声器技术,随着执法官员彻底调查案件,这些设备包含的数据可能会越来越有帮助。
促进犯罪调查取得突破性进展
这个概述向你展示了执法官员已经在应用技术帮助他们查清谋杀案的一些方法。同样很容易看出同样的技术是如何帮助其他种类的犯罪的。无论犯罪者是否意识到这一点,他们都会留下数据痕迹,分析师可以利用这些数据来跟踪他们的行动和行为。
这意味着随着整体成功率的提高,调查人员花在审查案件上的时间可能会减少。
图像经由像素
数据分析如何帮助成为更好的企业家
了解商业智能(BI)和数据分析如何消除业务中的不确定性,并提供有助于决策和预测的见解。
商业智能和数据分析是任何成功的商业冒险不可或缺的一部分。业务分析在行业中有其专门的市场,并且通常是一种受欢迎的方法,以跳过猜测并加快增长速度。借助数据分析,您可以获得对业务的宝贵见解。这可以帮助你调整你的战略和投资,使你的投资回报率仍然非常有吸引力。
大数据和分析的兴起
大数据和数据分析的市场价值与日俱增,并将继续增长。IDC 预计,到 2025 年,全球创造的数字数据总量将达到 163 兆字节(10 亿 TB)T4。大约 60%的数据将由企业组织创建和管理。如果数据分析和 BI 不将这些单纯的数字转化为可操作的见解,海量数据将毫无用处。这解释了这两个领域在现代商业实践中的巨大重要性。
分析结果和发现有助于您做出明智的商业决策。它使信息收集、处理和分析更加准确和容易。您还可以借助自动化软件等技术来完成分析工作,并快速跟踪洞察力生成过程。
数据分析有很多方法可以帮助你成为一名成功的企业家。这篇文章将阐明这些优点-
快速追加销售和交叉销售机会
商业智能为您提供了绝佳的交叉销售机会。BI 工具可以帮助您收集数据,分析工具可以帮助您分析收集的信息。你可以在分析完数据后,适当地、更戏剧性地吸引你的客户。这些数据让你清楚地了解你的潜在客户、他们的反应和期望。这有助于你制定一个最适合你的企业的策略。整个过程会产生更好的交叉销售策略。
如果你想探索交叉销售领域,你首先需要知道你的客户的需求和期望。B2B 业务持有人需要仔细看看他们的客户评论。他们需要讨论吸引现有客户的点,以及为什么客户仍然与公司做生意。
就 B2C 公司而言,流程略有不同。他们通过调查、社交媒体活动、社交倾听和其他消费者评论计划等选项直接与零售客户联系,以了解客户的期望和需求。
这些整个过程的简单格言是让客户获得更好的服务,以便他们继续与公司保持富有成效的业务关系。要做到这一点,你可以为你的客户提供特殊服务。它适用于 B2B 和 B2C 公司。这将使你的客户满意,你将能够不费吹灰之力就获得更多的收入。
实现惊人的业务效率
商业智能和分析在很多情况下是救世主。它有效地回答了你对你的企业的所有疑问。这有助于你对正在发生的事情有一个清晰的认识,这样你就可以快速做出正确的决定,而不是被不正确的猜测弄得措手不及。如果你不想阅读关于你的业务的长篇报告,那么你肯定可以从 BI 那里得到帮助。
适当的 BI 可以让您在几分钟内获得大量数据的准确可视化表示。它还组织和总结收集的数据。因此,你可以在你面前得到最新趋势的正确图像。BI 使用治理、云仓储和其他工具和方法来及时提供有用的数据。您可以在任何地方、任何设备上访问收集的数据。这样从你这边节省了很多时间。
对于希望经常一目了然地监控其 KPI 的企业家来说,一个功能齐全、视觉上吸引人的 BI 系统将是一个福音。
削减成本
无论企业规模大小,成本都是其中一个重要因素。每个企业都是不同的,需要在正确的时间投入正确的资源。例如,在圣诞节或新年等节日期间,礼品店的销售额可能会上升。
另一方面,珠宝和花店在结婚季节或情人节会有额外的生意。这意味着,每个企业在一定时间内需要灵活的劳动力,并且在一年中的一定时间需要额外的努力和投资。
BI 可以帮助您确定一个完美的战略,以便您可以在正确的时间投资人力资源,如建模和人员配置预测。这减轻了成本开销的风险,并在数据分析和 BI 的帮助下更好地利用资源来最大化 ROI。
学习客户行为模式,更好地为他们服务
你的客户的行为可以成为创造收入的重要工具。如果你能知道他们在想什么,那么你就能为他们提供更好的定制解决方案。在这种情况下,商业智能可以帮助你。
您可以使用 Microsoft 365 dynamics for customer service来生成有用的报告,为业务中的洞察力生成增添巨大的威力。这些报告包含有关客户需求、期望、想要什么、购买什么、如何购买等的详细数据。
这有助于你理解他们的心态,从而让你思考以客户为导向的商业策略。这样,你可以给他们适当的服务,并在这个过程中获得丰厚的红利。
结论
为了发展,你的企业不能依靠水晶球凝视。你需要的是一种更全面的方法来做出准确的预测,并制定以增长为导向的战略。这正是数据分析和商业智能(BI)发挥作用的地方。
收集的数据可以转化为丰富的见解,并帮助您更快地做出决策,从而帮助您吸引客户以获得更好的投资回报。BI 还有助于做出更明智的决策和投资,并节省人力、时间和资金。
数据如何帮你赢得选举
《剑桥分析》影响了美国和英国的选举。他们是这样做的。
Source: http://el.ozonweb.com/wp-content/uploads/2014/01/Yayoi_Kusama_David_Zwirner_1.jpg
2018 年,数据分析公司 Cambridge Analytica 被披露获得了 5000 万脸书用户的数据,并利用这些数据进行高效的政治广告定位,一名前员工称之为“武器级”
自这起丑闻以来,关于数字世界中的脸书、数据安全和民主有很多讨论,这是理所当然的,而机器学习和人工智能技术的爆炸推动了人们对数据分析和算法设计的兴趣。在这些事情之间,人们也许能够形成一幅关于社交媒体在做什么,以及它是如何做的连贯画面。
但是理解这项技术并不全面。仅凭技术眼光,人们只能合理解释詹姆斯·布勒德——引用科幻作家伊恩·班克斯的话——“无限乐趣空间”——计算机生活的世界。我们并不生活在那个世界里,如果我们对数据和社交媒体的担忧——从根本上说——是关于它们如何产生影响,我们需要记住现实世界是什么。只有理解社交媒体如何影响现实世界的变化,才能让我们全面了解社交媒体实际上是如何工作的。
推动世界的杠杆
无限乐趣空间最好理解为一个相互关联的网络,在这个网络中,成千上万(如果不是数百万)的数据点被分析成相互关联的模式。空间来自于建立这些关联的联系,每个关联代表信息旅行的一个新维度。这就是无限出现的地方,也是人类思维存在的地方:巨大的相关结构可以被描述为由几十或几百个我们甚至无法想象的维度组成。电脑当然没有这个问题。
社交媒体收集的大数据只有在我们可以要求计算机进入无限有趣的空间并拉出一条我们可以使用的数据时才有用。这意味着我们需要了解这些数据是什么,我们需要知道我们需要什么数据。这就是行为洞察力发挥作用的地方。
行为经济学和认知心理学——统称为行为洞见——在过去十年中已经成为公共政策中极其重要的领域。轻推——决策制定方式的微小变化会对结果产生巨大且可预测的影响 —已被世界各国政府广泛采用。例如,通过让 401k 计划自动参与而非选择性参与,推动已经被证明可以增加储蓄。
比方说,如果我们想影响一个人去投票给某个候选人,轻推可能是我们应该做的。有些技巧相当直接——用红色来吸引人的眼球,用大写字母来传达信息的重要性。但这只是行为知情广告。个性化在哪里?精度在哪里?
精确制导导弹
当我们说有针对性的广告时,我们实际上谈论的是个性化的推动。通过使用大量的数据,行为科学家可以构建对个体非常有效的提示。这些是超推动——大数据和行为洞察的结合——这就是行为目标的工作方式。
你想赢得选举吗?也许你想让人们购买你的产品?或者,你想增加你的社交媒体追随者?好,我们开始吧。
第一步——控制
首先,做一些研究。找一个对照组,连同他们的社交媒体资料,找出一些行为特征。他们不耐烦了吗?他们厌恶风险吗?他们容易受权威人物或他人意见的影响吗?这些特征都可以通过相对简单的心理测试来识别。行为科学家花了数年时间来完善这些测试,它们具有无限的适应性(比如,如果你想确定谁有可能投票,这些测试可以做到这一点)。
第 2 步—地图
其次,在这个对照组上测试你计划的广告,并衡量其效果。如果你有兴趣让他们支持某个政治候选人,衡量一下他们在看到广告后投票给他们的可能性有多大。如果你对销售产品感兴趣,衡量他们购买该产品的可能性。目标不是找到最有效的广告;这是为了将效率映射到行为特征上。
第三步——桥接
第三,分析对照组的社交媒体数据。尝试找出心理测试发现的行为特征和社交媒体上的个人行为之间的模式。不耐烦的人点击率低吗?易受影响的人会发更多帖子吗?投票的可能性与年龄、地理或教育有关吗?
- 第三,分析对照组的社交媒体数据。尝试找出心理测试发现的行为特征和社交媒体上的个人行为之间的模式。不耐烦的人点击率低吗?易受影响的人会发更多帖子吗?投票的可能性与年龄、地理或教育有关吗?
第 4 步—申请
如果我们有一个 1000 万人的数据库,并且我们已经完成了前面的步骤,我们现在可以推断一个人是否可能不耐烦,例如,仅仅通过查看他们的社交媒体数据。然后我们可以针对他们做一个吸引不耐烦的广告。例如,一张图片可能比一篇文章更有效地向他们传达信息。这是过度刺激。
第 5 步—更新
最后,更新。测量点击率,测量网站流量,不断更新你的数据库,如果可能的话扩大数据库。每一次,推论会变得更准确,推动会更有效,数据会更有力。很快你就能建立起影响力的等级体系;一个人可能既急躁又厌恶风险,但后者可能主导前者,通过不断更新,可以发现这种动态。
最后,更新。测量点击率,测量网站流量,不断更新你的数据库,如果可能的话扩大数据库。每一次,推论会变得更准确,推动会更有效,数据会更有力。很快你就能建立起影响力的等级体系;一个人可能既急躁又厌恶风险,但后者可能主导前者,通过不断更新,可以发现这种动态。
恭喜你,你现在有了精确制导导弹。
下一个伟大的黑客
剑桥分析公司所做的仅仅是个开始。世界上有足够多的行为和数据科学家来维持超刺激和定向广告行业的繁荣。事实上,剑桥分析公司似乎在他们的方法上非常草率,不是因为他们被抓住了,而是因为他们没有使用控制组来识别行为特征——他们只是使用先前的研究从数据中推断出来。此外,如果你想赢得选举,你不需要说服别人投票给你,只是为了不投票给你的对手。因此,超轻推的可能用途是无限的。
战争和武器的语言也很恰当。超轻推可以武器化,与精确制导导弹相当。但是超级大国之间的军备竞赛即将发生,因此对数据的需求——以及获取数据的创造力——将会激增。但是这场军备竞赛,以及随之而来的战斗,不是为了我们人民的利益而战,而是为了政治候选人和他们所雇用的公司的利益而战。我们都应该为下一次伟大的黑客行动做好准备。
数据压缩如何工作:探索 LZ77
ZIP 格式是如何工作的?
在本帖中,我们将探索 LZ77,一种由伦佩尔和齐夫在 1977 年创建的无损数据压缩算法。这种算法在我们当前的系统中广泛传播,因为,例如,ZIP 和 GZIP 是基于 LZ77 的。
压缩
LZ77 依次遍历输入字符串,并将任何新的匹配存储到搜索缓冲区中。压缩过程可以分为 3 个步骤:
- 查找从当前位置开始的字符串与搜索缓冲区中可用模式的最长匹配。
- 输出三元组(o,l,c ),其中,
- o : offset,表示为了找到匹配字符串的开始,我们需要向后移动的位置数。
- l :长度,代表比赛的长度。
- c :字符,代表匹配后找到的字符。
- 向右移动光标 l+1 个位置。
让我们通过一个例子更深入地了解一下:
a b a b c b a b a b a a
最初,我们的搜索缓冲区是空的,我们从左边开始,在那里我们找到一个“a”。假设在我们的搜索缓冲区中没有任何匹配模式,我们输出三元组(0,0,a),因为我们没有向后移动(o = 0),并且在搜索缓冲区中没有匹配模式(因此“匹配”一个空字符串:l = 0)。在这个(非)匹配之后,我们找到字符‘a’,所以 c = a。我们向右移动 l+1 个位置,发现自己在第二个位置。我们将使用方括号[]来表示光标的位置。
a [b] a b c b a b a b a a
LZ77 encoding: (0,0,a)
到目前为止,我们的搜索缓冲区中没有任何以“b”开头的模式。所以编码过程和上一步类似:(0,0,b)。此时,事情开始变得有趣起来:
a b [a] b c b a b a b a a
LZ77 encoding: (0,0,a), (0,0,b)
我们之前发现了一个“a”甚至“ab”,但没有发现“abc”,所以我们需要向左移动 2 个位置(o = 2)并读取 2 个字符(l = 2)。我们可以找到的下一个字符是“c”,因此输出三元组将是(2,2,c)。我们将光标向右移动 l+1 个位置,发现自己在字符‘b’中。
a b a b c [b] a b a b a a
LZ77 encoding: (0,0,a), (0,0,b), (2,2,c)
我们已经找到了一个“b”,甚至“ba”和“bab ”,但没有找到“baba ”,所以我们将向左移动 4 个位置(o = 4)并读取 3 个字符(l = 3)。我们可以找到的下一个字符是“a”,因此输出三元组将是(4,3,a)。我们将光标向右移动 l+1 个位置,发现自己在字符‘b’中。
a b a b c b a b a [b] a a
LZ77 encoding: (0,0,a), (0,0,b), (2,2,c), (4,3,a)
我们快完成了!我们已经看到了一个 b 和一个 ba,但没有看到一个 baa。我们需要向左移动 2 个位置(o = 2),读取 2 个字符(l = 2)。在这个匹配之后,我们找到一个“a ”,所以最后的输出三元组将是(2,2,a)。
a b a b c b a b a b a a
LZ77 encoding: (0,0,a), (0,0,b), (2,2,c), (4,3,a), (2,2,a)
您可能已经注意到,考虑到在最坏的情况下,我们需要回到输入字符串的开头来寻找匹配模式(如果有的话),压缩阶段的时间复杂度似乎不是太好。这意味着,在 0-索引位置 p,我们需要在最坏的情况下向左移动 p 个位置。考虑一种边缘情况,其中字符串的每个字符都不同(因此我们没有利用数据压缩),我们需要处理第一个位置的 0 个字符+第二个位置的 1 个字符+第三个位置的 2 个字符… +最后一个位置的 n-1 个字符= n(n-1) / 2 = O(n2)时间复杂度。这就是为什么通常预定义搜索缓冲区大小的限制的原因之一,这允许我们重用多达例如光标左侧 6 个位置的内容。下面的例子可以帮助您说明这个概念,其中括号表示搜索缓冲区内的内容。
a b a b c (b a b a b a) [c] b a a a
在这种情况下,我们不会在搜索缓冲区中找到“c ”,因此,输出三元组将是(0,0,c)而不是(7,3,a)。然而,在最坏的情况下,在字符串的开头,我们可能不需要为每个处理过的字符付出代价来寻找一个匹配。总而言之,选择搜索缓冲区的大小成为压缩时间和所需内存之间的权衡:小的搜索缓冲区通常会让我们更快地完成压缩阶段,但最终的编码将需要更多的内存;另一方面,大的搜索缓冲区通常需要更长的时间来压缩我们的数据,但在内存使用方面会更有效。
限制先行缓冲区的大小也很常见,先行缓冲区是从光标处开始的子字符串。让我们用一个例子来说明这个概念,其中前瞻缓冲区用两个*符号表示。
a b a b c (b a b a c a) *[b] a b a* c a a
在这种情况下,我们有一个大小为 6 的搜索缓冲区和一个大小为 4 的先行缓冲区。假设我们的前瞻缓冲区的内容是“baba ”,并且它包含在搜索缓冲区中,那么在这个位置的 LZ77 编码将是(6,4,c)。请注意,在本例中,如果我们的前瞻缓冲区更大,则此位置的输出三倍会有所不同。例如,如果我们的前瞻缓冲区的大小也是 6,它将包含字符串“babaca”,它完全包含在搜索缓冲区中,因此,输出三元组将是(6,6,a)。
值得一提的是,这种算法也被称为“滑动窗口”算法,因为当光标在输入文本中“滑动”时,搜索缓冲区和前瞻缓冲区都会更新。
解压
让我们看看 LZ77 如何使用它的编码形式来再现原始字符串。LZ77 被归类为无损数据压缩算法,这意味着我们应该能够完全恢复原始字符串。同样值得一提的是,在 LZ77 的例子中,我们不能从一个随机的 LZ77 三元组开始解压缩:相反,我们需要从最初的三元组开始解压缩。原因很简单,编码的三元组基于搜索缓冲区。
为了说明解压缩过程,让我们尝试解压缩上一节中获得的编码,旨在获得原始字符串。因此,本例中的编码如下:
(0,0,a), (0,0,b), (2,2,c), (4,3,a), (2,2,a)
从(0,0,a)开始,我们需要向左移动 o = 0 个位置,读取 l = 0 个字符(那只是一个空字符串)。之后写 c = 'a '。因此,这个三元组的解压缩值是‘a’。此时,我们的解压缩字符串如下所示:
Current string: a
Remaining LZ77 encoding: (0,0,b), (2,2,c), (4,3,a), (2,2,a)
我们找到的下一个三元组是(0,0,b ),意思如下:向左移动 o = 0 个位置,读取 l = 0 个字符(空字符串)。之后,写 c = 'b '。因此,这个三元组的解压缩值是‘b’。我们的解压缩字符串现在看起来像这样:
Current string: a b
Remaining LZ77 encoding: (2,2,c), (4,3,a), (2,2,a)
我们找到的下一个三元组是(2,2,c),它更有趣一些。现在的意思是这样的:左移 o = 2 个位置,读 l = 2 个字符(’ ab ')。之后,写 c = 'c '。因此,这个三元组的解压缩值是“abc”。我们的解压缩字符串现在看起来像这样:
Current string: a b a b c
Remaining LZ77 encoding: (4,3,a), (2,2,a)
我们找到的下一个三元组是(4,3,a),意思如下:向左移动 o = 4 个位置,读取 l = 3 个字符(’ bab ')。之后写 c = 'a ‘。因此,这个三元组的解压缩值是’ baba '。我们的解压缩字符串现在看起来像这样:
Current string: a b a b c b a b a
Remaining LZ77 encoding: (2,2,a)
我们找到的最后一个三元组是(2,2,a),意思如下:向左移动 o = 2 个位置,读 l = 2 个字符(’ ba ')。之后写 c = 'a '。因此,这个三元组的解压缩值是“baa”。我们的解压缩字符串现在看起来像这样:
Fully decompressed string: a b a b c b a b a b a a
如果您检查前一节中要压缩的原始字符串,您会发现它们是相同的!
数据管理实践如何成功实现单一客户视图?
什么是客户单视图?
单一客户视图是一个集中的位置,它整合了您组织内客户的所有可知数据和信息,使您能够查看、查找和了解客户的各个方面。在您的环境中拥有客户的单一视图有助于您了解您的客户购买了什么以及如何购买。这些情报为您的销售和营销团队制定和发展战略提供了动力。
洞察困难?
从表面上看,提取、整合和集成是您所需要的。然而,它的实现和解决方案一点也不简单。客户与您的服务或/和产品的互动可能会很长,跨越多个线上和线下渠道和接触点。跨不同渠道和接触点管理、治理、整合和转换大量有价值的数据和信息非常具有挑战性。
数据管理实践有助于应对挑战
回顾构建单一客户视图的端到端流程和机制,可以揭示数据管理实践的哪些元素有助于解决这些挑战。
第一步提取:通过相似的列名,通过业务分析师的文档,通过系统分析师的知识,从不同的系统中提取您的客户的所有可知数据。但是
A. 贵公司有哪些可知的客户数据?
B. 您如何知道哪个(些)系统提取您搜索的客户数据?
要素:数据字典、企业数据流、数据谱系
第二步数据清理:根据 IT 提供的规则,清除客户数据中的所有噪音。但是
A. 在 2 个系统中遇到 2 个相似的客户名称,如何知道他们是不同的还是相同的?
要素:业务规则和数据质量管理
步骤 3 & 4 整合和加载:整合来自不同来源的客户数据,并通过使用跨不同部门和 it 部门的一些受污染的文档和数据模型将其加载到一个集中的位置
A. 钥匙是什么(姓和名?ID?生日?)您应该使用来合并来自不同表甚至不同系统的连接记录?
B. 如何将集成的数据组织到一个集中的位置,以便其他应用程序可以方便高效地使用它?
元素:数据建模、数据架构
这篇文章太长了,无法涵盖每一个元素的细节。我会尽我所能在这里解释它。
数据字典,或数据谱系
我们不想深入每个元素的学术细节。如果你感兴趣,数据管理协会(DAMA)有一套严格的定义。数据字典或数据谱系基本上是数据、系统及其相互关系的当前状态的文档。如果您的组织对其进行了良好的管理、更新和信任,那么打开此文档,您就知道在哪里可以找到您想要的内容。
业务规则和数据质量管理
业务规则和数据质量是数据管理中最有趣的话题之一。它基本上是一套解决数据相关问题的规则和流程。可能是任何问题。有些人认为 IT(数据分析师、数据科学家、内部开发人员或外部顾问)应该制定解决数据冲突的规则。事实上,它不是创建数据和使用数据的实体,至少在操作层面上是如此。相反,他们是为用户创建和使用数据开发系统的实体。他们也许能够猜出规则,但他们无法自己解决大多数与数据相关的问题,因为他们不是创建和使用数据的人。这就是为什么从逻辑上讲,企业(在运营层面上创建数据和使用数据的人)至少应该参与进来并接受咨询。
数据建模和数据架构
它更像是数据的蓝图。要盖一栋房子,买一些家具,然后把它们放入你的房子,你必须有一个蓝图(你如何设计和构建你的地方)。数据架构服务于这个目的。
我将有单独的文章单独解释每一个元素。但是到目前为止,我们应该已经理解了实施单一客户视图的困难以及数据管理如何帮助解决这些挑战。
数据可能如何破坏您的项目计划,以及为什么这实际上是一件好事
YML 高级项目经理詹姆斯·麦卡沃伊
数据。
这个词让所有项目经理、scrum 大师和项目团队都感到恐惧和兴奋。
我们知道我们想要它,但我们不能 100%确定一旦我们得到了它该做什么。
我们请求、提醒、追踪、测试并最终收到这些宝贵的数据,只是为了提出这些熟悉的问题:
- 我们在项目生命周期的什么地方适应它?
- 我如何使这些数据具有可操作性?
- 谁吃了我办公室冰箱里明明贴着标签的鸡肉沙拉三明治?(我知道是你,杰夫)
虽然回答这些问题是重要的一步,但我们必须首先探究为什么要问这些问题。
1.对数据的恐惧
当涉及到数据时,我们必须处理的主要问题是恐惧。
从根本上说,数据的固有性质会迫使我们重新思考我们的方向,否定我们的假设,或者让我们意识到我们正在试图解决错误的问题。
这些结果中的任何一个都会迫使你的项目方向发生重大转变。特别是对于项目经理来说,他们通常不喜欢看到他们的项目计划被冲进厕所,乍一看,数据可能会成为一个问题。
关于数据在项目中的含义以及我们如何减轻潜在的问题,数据确实提出了一个项目管理中常见的问题。事实是,这些问题比开发一个对用户完全无用的产品更容易回答。
正如 Shayna Stewart 在她的文章中所问的,消费者在我的产品中找到价值了吗?“数据——不管它有多可怕——允许我们在我们的产品可能被消费者接受之前回答这个问题。
2.项目管理生命周期
标准项目管理生命周期通常包括:
启动、计划、执行、绩效监控和结束。
在一个典型的数字项目中,如果我们合并数据,那么它通常在规划阶段。然后,通常在较小的程度上,性能监控阶段,甚至更糟,通常与一个没有历史知识的全新团队。
为了有效地交付以消费者为中心的产品,为我们的用户增加价值,我们需要在整个项目生命周期中整合数据的使用。
这意味着我们需要不断地回顾我们的方向,对照任何学到的见解,以及继续测试来验证我们的假设和我们通过项目做出的决策。
此外,我们在运行项目时所做的考虑将需要重新考虑。
作为项目经理,按时、按预算交付符合所有范围要求的项目是我们根深蒂固的理念。
我们都见过项目管理的限制三角——并且可能见过当其中一个限制受到影响时,项目的整体质量就处于危险之中。
3.交付的价值
在三角约束中通常没有考虑的是项目质量的不完整画面:除了这些约束,我们应该考虑价值。
我们都交付过超出预算或晚于计划的项目。所有这些情况都不好玩,但更糟糕的情况是交付消费者认为没有价值的产品。如果我们这样做了,那么它是否超出预算或延迟真的无关紧要,因为它已经是一个失败。
一个合理的论点可能是,价值已经被纳入质量因素,这在某种意义上是正确的。但是大多数情况下,项目领导对质量的关注是基于需求,或者至少是项目纲要。没有必要的数据,这些需求可能是错误的。
在这种情况下,我们如何计算质量只是我们需要考虑的一部分。当我们考虑对客户的总体价值时,我们对质量的定义会积极地改变,这是应该的。
但是有希望…
我们上面讨论的大部分内容都围绕着对恐惧和不确定性感到舒适。
我们必须知道和理解,数据提供的信息越多,就越有可能改变我们最好的计划。
此外,我们将数据整合到传统项目管理方法和流程中的越多,我们就越有可能看到这些担忧变成现实。
然而,作为项目领导,我们有办法避免上述潜在的陷阱。如果我们将数据整合到项目管理生命周期的每个阶段,并为这些新信息可能导致的潜在中断做好计划,那么当这种中断发生时,我们就不太可能感到惊讶。
我们知道项目总会有变化,但只要我们不忽略我们可能拥有的所有信息,不管有多可怕,我们都可以提前应对风险,并最大限度地减少最初导致这种恐惧的原因。
训练我们自己去理解改变是好的,颠覆是好的,最终为消费者的生活增加价值是最好的。
机器学习和数据挖掘如何创造更好的产品
数据科学:创造更美好的世界
博世以生产家用电器的质量而闻名。博世之所以能够成为顶级家电制造商,是因为它对质量的承诺。博世甚至记录了装配线上每一步的数据。通过记录生产过程中每一步的数据,博世可以应用先进的分析技术来改进生产过程。[1]2016 年,Bosh 在 Kaggle 上创建了一个开源竞赛,允许所有背景和经验水平的人使用数据科学技术来解决 Bosch 的内部故障。Kagglers 通过对装配线上的每个组件进行数千次测量和测试来预测内部故障。这将使博世能够以更低的成本向最终用户提供高质量的产品。[1]第一名、第二名和第三名的奖金为 30,000 美元,第一名奖金为 15,000 美元,第二名奖金为 10,000 美元,第三名奖金为 5,000 美元。
整个行业越来越需要通过数据挖掘传感器的先进故障检测方法。Vedika 等人在 IEEE Intelligent Systems Journal 中讨论了对高级算法的需求,这些算法可以提供磨煤机故障的自动早期检测和诊断,以便及时采取控制措施。Vedika 等人解释了火力发电厂磨煤机中的故障检测系统如何使用固定报警限值,这些限值是为分布式控制系统(DCS)中的过程变量配置的,一旦变量值超过其上限或下限,就会激活报警。系统只有在大面积损坏发生后才会对异常做出反应。[2]
当高级算法应用于从传感器挖掘的数据时,可以在检测到损坏之前检测到故障,从而节省材料、提高生产率、增加公司利润并降低消费者成本。[2] Vedika 等人在当前算法中引入了一个额外的步骤,称为自适应学习模型(ALM)。当前算法的启动和停止流程由工作人员启动。传感器在整个过程中收集数据,对数据进行预处理,然后供模型使用。该数据基于来自工厂的噪声寻找剩余信息,然后输出是否检测到故障。Vedika 等人在残差生成分析之后引入了自适应学习模型(ALM)。实施 ALM 是为了了解工厂内发生的机械磨损造成的偏差。
为了使用来自传感器的数据,Vedika 等人解释了 FD 应用的两种数据预处理要点。本文讨论了离线数据预处理的使用,包括预处理用于模型开发的训练数据集。[2]在线数据预处理包括在故障检测期间以在线模式对数据进行预处理。数据预处理主要用于减少数据中的缺失值、异常值和随机噪声。Vedika 等人解释了处理缺失值的常用方法,包括删除事例;使用平均值、中值和众数的插补;和 k-最近邻(k-NN)插补。[2]该杂志解释了 3σ编辑规则、z 得分和箱线图等统计模型如何最适合定量实值数据。为了去除噪声,提出了几种方法,例如线性滤波器、小波分析和 Savitzky-Golay 算法。从传感器中挖掘的数据用于检测系统中何时出现故障,从而允许技术人员在检测到真阳性时停止生产线。技术人员修复或调整生产线,根据调整重新训练数据,并在没有材料损失或严重损坏的情况下重启生产线。
在“预测性维护的数据分析和特征选择:冶金行业的案例研究”一文中,Marta 等人描述了如何在工业环境中应用机器学习和数据挖掘来预测组件何时可能出现故障。就在系统崩溃之前,组件被更换。InValue 是一家冶金行业的公司,它采用机器学习和数据挖掘技术来揭示由数据采集模块收集的关于设备操作和维护的新知识。[3]收集的关于特定操作参数的信息用于防止机器部件的损坏。当检测到劣化时,更换组件,防止 catestrophic 故障并最大化生产率。
物联网(I.O.T)和 5G 的实施越来越多的公司将在其流程中使用大数据。机器学习和数据挖掘将被用于发现未知事物,从而改善运营、提高生产率、治愈疾病并降低消费者成本。拥有领域知识的数据科学家将变得越来越吃香,或者拥有数据科学技术知识的领域专家将成为工业未来的关键?
引用的作品
[1]Marta 等,“预测性维护的数据分析和特征选择:冶金行业的案例研究”,*国际信息管理杂志,*第 46 卷,第号,第 252–262 页,2019。
[2]B. P. P. S. Vedika Agrawal,“提高工业应用中故障检测系统的可靠性”, *IEEE 智能系统,*vol . vol:33,no. 3,PP . 28–39,2018。
[3]Kaggle,“博世生产线性能”,2016 年。【在线】。可用:【https://www.kaggle.com/c/bosch-production-line-performance. 【2019 年 8 月 25 日获取】。
数据科学如何帮助解决气候变化
数据驱动的解决方案将引领向清洁能源的过渡
Photo by Bogdan Pasca on Unsplash
气候变化是真实的。
尽管许多科学家同意我们已经为时过晚的事实,但是人们才开始意识到这个问题。人民带来了政治,政治带来了金钱。
这就是为什么在接下来的几年里,能源领域的研究将会受到重大推动,而数据科学将会在这场大战中扮演重要角色。在数据中发现新的模式是为我们渴求能源的世界获得强有力的解决方案的一条清晰的道路。
在这篇文章中,我们将看看一些有问题的案例,在这些案例中,机器学习和数据驱动技术被证明可以提供很好的解决方案,这可能使该领域成为对抗气候变化的战争中的主要角色之一。
对能量的渴望
降低二氧化碳排放量的最简单的解决方案之一是消耗更少的能源,这些能源通常是通过燃烧化石燃料产生的。
但是从过去几年的趋势来看,电力需求似乎并没有减缓:随着电动汽车的兴起(尽管它们对环境的影响肯定低于化石燃料汽车),这种日益增长的需求不太可能很快停止。
此外,现在我们倾向于把电池放在任何地方:自行车里,衣服里,甚至鞋子里。而电池需要的电力。很多电。因此,减少我们日常生活中需要能量的场合的数量远不是一个简单的解决办法。
终于到了引入能效概念的时候了。
Photo by Vlad Tchompalov on Unsplash
数据科学创造一个更节能的世界
是真的,清洁能源来了。
但不幸的是,100%的能源来自可再生能源的时间并不那么近。我们需要用有效利用不洁能源的方式来弥合我们向清洁能源过渡的差距。此外,即使在一个理想的绿色社会,确保效率处于最高水平也不是一项无用的任务。
但是为什么一个数据科学家会对能源效率感兴趣呢?应该是机械、土木工程师、建筑师的工作,不是吗?
嗯,有,但是没有。
查看数据并找出模式可以极大地帮助在每个领域(包括能源效率)找到通常现成的解决方案。
Photo by Stephen Dawson on Unsplash
数据中心:为什么它们很重要
让我们来看一个案例:世界各地的数据中心使用地球产生的 3% 能量。太多了!
这种巨大能量使用的原因是需要将保持在某个温度,避免过热和电子元件故障。因此,如果不使用清洁能源来运营数据中心,就会对二氧化碳排放产生重大影响。让我们不要忘记经营这些地方的成本。
这就是为什么 2016 年 Deepmind (谷歌收购的一家人工智能公司)成功地将谷歌一个数据中心的能耗降低了 40% (来源)。把这个告诉任何一个 IT 工程师,你就会而不是被相信。
令人难以置信的结果是通过将机器学习算法应用于一个由传感器数据组成的数据集而实现的,这些数据是在该中心多年的运营中获得的。该算法的目标是基于许多参数,如温度、功率和冷却设定点,预测未来 PUE (功率使用效率,即总建筑能耗与 IT 能耗的比率)。
最终训练出来的预测模型,对整个环境有**【意识】,能够做出更聪明的**、非线性的决策,并且能够以一种实质上更高效的方式操作数据中心,同时保持温度在可控范围内。
虽然传统的工程师拥有制造单个组件的专业知识,可能是更高效的冷却风扇,数据科学家能够着眼于全局,通常会找到更简单、更强大的解决方案来解决问题。
强化学习:一个更广泛的解决方案
为什么止步于数据中心?
我们的学校、办公室、房子呢?
众所周知,供暖和制冷占据了任何建筑的电费的很大一块:2011 年的一项研究 显示,提高建筑效率代表着降低温室气体排放的最大机会。
如果我们能找到一种方法创造一种算法使 HVAC 系统更加有效总的来说,二氧化碳排放量将大大减少,连同能源账单。最大的障碍是缺乏获取数据的传感器和每个不同建筑的独特性。
强化学习可以解决这个问题。
许多最近的研究提出了强化学习(RL,机器学习的一个分支,其中代理与环境交互,在奖励函数定义的特定目标处变得越来越好)作为解决方案:应用这种算法来提高不同建筑的效率显示出令人难以置信的和有希望的结果,其中高达 70% (!!!)减少 HVAC 能源使用量(来源)。
RL 中不需要传感器数据。
在实际建筑的计算机模拟中,一个代理被给予对加热和冷却的自由控制,在那里它可以自由探索其决定的后果,并且学习如何消耗更少的能量同时保持期望的温度。由于安装了简单的智能恒温器,这使得解决方案灵活适用于各种建筑、经济高效和易于实施。
Results from the paper
但那是不是全部。
向 100%可再生能源的过渡伴随着**的缺点,**数据科学可能会再次提供解决方案。
电网的不稳定性
太阳能和风能都是高度不可预测的:这就是为什么专门向电网供应这些种类的可再生能源可能会对整个电网的稳定性产生负面影响****。此外,我们还必须考虑到街上越来越多的电动汽车,以及它们随之而来的对大量电力的需求,这也是一个问题。
因此,我们可以将一个**“值”与产生的清洁能源相关联,这与特定时刻电网的电力需求**相关联。如果该值很高,这意味着将电力输入电网会使电网更加稳定和可靠。
Photo by Jason Blackeye on Unsplash
对于特定的风力发电场或太阳能发电场,有没有办法最大化这个【价值】?
这是 Deepmind 在最近的一项研究中再次试图回答的问题:研究人员对可用的天气预报数据和风电场的涡轮机数据应用了神经网络来预测 36 小时后的电力输出。然后,经过训练的网络允许提高所产生的能量的值(大约 20% ,从而在最需要的时候为电网做出贡献。
该行动了
正如本文所述,一些数据驱动的解决方案正在接受测试,以帮助降低温室气体排放并引导我们走向完全可再生的未来。而且现在有更多的正在被研究。
非常需要这些发现的真实实施:如果你感兴趣,这个领域的机会比以往任何时候都多。
现在是时候了。
数据科学有能力为这场战役出力,而且知道它能做多少,它绝对应该。
数据科学如何帮助您的企业增加收入
知识是商业中的终极力量,而数据是创造这种力量所需的燃料。许多报告估计,全球的数据量将上升到 44 万亿千兆字节,使用数据科学来利用这些数据的力量是非常有价值的。
数据科学利用现代科学方法、算法、流程和系统从数据中提取知识,并利用这些数据做出重大决策,这对于任何企业来说都是一项关键的战略实践。
如果我们采取一种基于数字、事实和统计的分析方法,它可以提供一个合理的解决方案,这种解决方案起初可能并不明显。这是因为数据提供了洞察力,使越来越多的企业利用 it 的力量做出基于证据的决策,促进员工培训和了解他们的客户。
在本文中,我们将探讨一些有意义的方式,通过这些方式,您可以投资于数据科学技术或数据科学专家,从而为您的业务增加宝贵的经验。
提高决策技能
对公司的每个决策者来说,指尖上有数据是强制性的。如果您不遵循这一策略,那么非结构化数据很有可能会出现问题,这需要高度预测性的分析工具来从中获得深刻的见解。
通过在数据科学的帮助下获得数字和统计数据,您的企业可以创建预测模型来模拟许多可能性。这样,企业就可以了解哪种解决方案最合适,并帮助他们获得准确的结果。此外,通过记录绩效指标并随着时间的推移对其进行分析,您的企业在决策时会变得更加明智和高效。
接触潜在受众
随着数据量的不断增长,收集重要数据对于您的客户和企业来说可能是一项实时任务。由于贵公司从客户处收集的每一份数据——无论是来自社交媒体,还是网站访问或电子邮件调查——都包含重要的机密数据,需要对这些数据进行分析,以便更有效地了解您的客户。
借助数据科学,您可以将数据点与从客户处获得的信息相结合,以获得更深入的见解,并更有效地锁定受众。这是指你可以为特定的群体量身定制你的服务和产品。
寻找最优秀的人才
招聘可能是最累人的工作之一,但有了数据科学,这个过程会变得更快、更准确。由于社交媒体、公司数据库和招聘网站的存在,人才网站上有了所有的数据点,公司正在研究这些数据点,并利用分析方法来寻找最适合组织的候选人。
挖掘现有的求职者数据表明,要寻找完全符合你公司文化的员工,而不仅仅是看上去不错。如果你收到一堆申请人,并且希望尽快填补这个职位,这一点尤其正确。在数据科学方法的帮助下,你往往会更聪明地工作,而不仅仅是更努力地工作,这可以确保你用准确的匹配来填补组织中的空缺。
影响产品/服务的相关性
据说,数据科学方法可以探索过去的见解,与竞争对手进行比较,并分析市场,从而建议何时何地销售你的产品或服务最好。这非常有助于公司理解他们的产品如何帮助他人,并质疑现有的业务流程。
这种通过数据科学进行的持续分析和思考有助于深入了解市场对贵公司产品和服务的反应。当你认真审视你的产品是如何被使用最多的,并允许重新思考你的模式,以确保你提供以客户为中心的解决方案。
培训你的员工
让您的员工随时了解最新的更新可能是一项艰巨的任务。在这种情况下,数据科学可以获得员工需要了解的见解,因为从中获得的知识可以用于增加在线知识或文档软件,这些软件包含重要的知识供员工参考。
通过提取我们所有的硬数据,并为员工提供他们可以随时访问的适当统计数据和事实,您可以创建一个聪明的团队,他们可以使用这些见解来推动更多的业务。
结束了!
将所有数据科学方法整合到您的业务中可以以不同的方式增加重要的价值,包括决策、招聘、培训、营销等等。数据分析可以帮助您做出明智的决策,让您的组织以明智和战略性的方式进行投资。因此,尽最大努力使用数据科学并发现绩效背后的洞察力是每个企业都应该发现的有价值的强大工具。继续学习!
作者简介:
维卡什·库马尔在 Tatvasoft.com**软件外包公司 担任经理。有时,他在管理活动时确实有空闲时间,在此期间,他喜欢写作和探索新的技术趋势和主题。Vikash 还在各大平台上发表了他的署名,并从 2014 年开始写博客。你可以在 Twitter 和 LinkedIn 上关注他。
用数据科学优化数字营销
什么是数字营销?
数字营销是利用数字技术,主要是在互联网、手机和任何其他数字媒体上进行的产品或服务营销。作为一名数字营销人员,你的战略是一系列行动,通过精心选择的在线渠道帮助你的公司实现目标。具体的营销渠道包括付费媒体、收入媒体和自有媒体。
在这篇博客中,我想分享我过去在数字营销领域的经验,以及我目前在数据科学领域的经验,以及数字营销可以从数据科学成果中受益的方式。
数据科学让营销人员能够访问通过各种渠道整理的有用数据组,包括有机(网站分析/SEO)、电子邮件营销、社交媒体等。
网站流量(SEO 和 SEM)
有机流量是数字营销的最大渠道之一,并在数据科学和人工智能领域不断增长。有机营销是一种数字方法,包括所有来自谷歌、雅虎和必应等搜索引擎的网站流量。
“89%的美国互联网用户在购物前会在网上搜索,即使最终购买的是当地的商店”——HubSpot
与付费搜索或 SEM 不同,有机流量(SEO)包括许多因素,这些因素与让您的网站位于搜索引擎结果页面的顶部有关。这些因素是:
- 页面标题(70 个字符以下)
- 元描述(155 个字符以下)
- H1 和 H2 标题文本(通过描述来分解主要内容)
- 替代文本(每个图像需要一个标题)
- 内容中的关键字(至少一次,粗体)
一个网站从搜索引擎优化(SEO)中获得免费的“有机”流量。这是提高网站流量的质量和数量以及品牌曝光率的做法。当我们在谷歌上搜索“DC 的酒店”时,你会注意到谷歌搜索页面显示了可以点击的 DC 主页。
SEM ,或搜索引擎营销,是使用付费策略来增加搜索可见性的行为。品牌付费让广告作为搜索结果出现在搜索引擎结果页面上。有了 SEM,品牌付费让广告作为搜索结果出现在搜索引擎结果页面上。
自从谷歌建立通用搜索以来,搜索引擎结果页面的“SERPs”已经不仅仅是十个蓝色链接了。搜索结果现在包括图片、视频、购物广告、本地搜索结果以及最近的特色片段。
数据科学与搜索引擎优化?
数据科学正在迅速改变我们优化网站流量的方式。数据科学家通过数据积累、解释和反应来增加搜索引擎的功能。
“数据科学专注于消除 SEO 中的猜测。不要假设什么有效,特定的行动如何影响你的目标,而是使用数据科学来了解什么给你带来了想要的结果,以及你如何量化你的成功。Airbnb 等品牌已经在这么做了,你也可以。”—搜索引擎观察
机器学习与搜索引擎优化
机器学习是在分析搜索引擎优化时使用算法来计算趋势、价值或其他特征。
**模式检测:**搜索引擎正在使用机器学习进行模式检测,帮助识别垃圾邮件或重复内容。
**基于特定查询的定制信号:**此时显示的结果类型主要基于查询类别或短语。这意味着机器学习可以在某些查询中对变量或多或少地赋予更多权重。
这可能是因为搜索引擎正在“学习”特定用户的偏好,并可以基于过去的查询提供最感兴趣的信息。例如,如果你在谷歌上第一次搜索“大都会人寿体育场”,然后在第二次搜索“喷气机”。电脑会根据你之前的成绩输出足球队。
总体而言,研究发现,由机器学习定制的个性化搜索将结果的点击率(CTR)提高了约 10%。
图片搜索了解照片
用户与这些结果交互的方式可以在未来塑造他们的 SERPs。
电子邮件营销
电子邮件营销是使用电子邮件向一群人发送商业信息的行为。发送给潜在或当前客户的任何电子邮件都可以被视为电子邮件营销。
数字营销人员使用从数据科学项目中积累的信息来估计买家喜欢什么,他们喜欢如何购物,以及他们未来最有可能购买的时间。以下是电子邮件营销的几个例子:
**发送个性化电子邮件:**电子商务网站使用数据科学来生成有针对性的电子邮件,其中包含迎合客户独特风格的产品建议。个性化电子邮件作为高度相关的定制材料在收件箱中脱颖而出。个性化电子邮件使电子邮件更容易被打开和点击。
个性化电子邮件通过在正确的时间向正确的人发送正确的内容来增强客户体验。
丝芙兰对 VIP 身份的顾客使用私人邮件。见下图,他们个性化的电子邮件,把一个客户的名字。
阿迪达斯按性别个性化:
**通过有针对性的电子邮件推动购买,或重新吸引一段时间没有购买的客户:**数据科学家根据客户过去的购买情况推动电子邮件营销的未来销售。使用数据根据客户以前连续购买同一产品的情况,确定客户何时需要补充产品。
**发送将潜在客户转化为客户的电子邮件:**对于来自某公司的潜在客户促销电子邮件,他们通常会收到一系列旨在鼓励他们购买的欢迎电子邮件。例如黑色星期五销售、样品销售和新客户交易的 10%。
数据科学家收集**人口统计数据,**营销人员可以分离和测试电子邮件营销的各种前景,以确定哪种效果最好。可以发送关于多个消息和优惠的测试电子邮件,然后可以观察点击率来确定电子邮件活动的表现。
将销售线索转化为客户需求是专门的营销活动……其中电子邮件活动根据客户行为进行学习、调整和改进。这些营销工具有 算法,可以自动调整时机、内容和个性化。
**发送相关产品建议:**预测分析有助于确定分析师发送给个人客户的电子邮件内容和报价。您可以确定客户购买的频率,以便营销人员可以找到发送有关其产品的电子邮件的最佳时间和频率。
对客户进行细分:
您可以根据客户的偏好、地区、性别、年龄和购买选择将他们分成不同的类别。作为一名数据科学家,您可以创建一个电子邮件板块,向他们发送独家优惠、新产品、公司新闻和其他个性化信息。
借助数据科学的电子邮件营销,消费者可以收到根据其偏好定制的相关活动。
聚类—客户细分示例:
Kimberly Coffey 执行了一个客户细分项目,该项目举例说明了数据科学在购买行为中的作用。她使用无监督聚类技术(K-means、潜在类别分析、层次聚类等)进行客户细分。她指出,“当细分可以与具体的东西联系起来时(例如,**客户终身价值、产品倾向、渠道偏好、**等),客户细分结果往往对企业最具可操作性。).
主要原因是聚类从连续变量(通常)创建组,所以如果您想要创建组,聚类可以很好地为您找到组之间的界限。在存在感兴趣的因变量的情况下,它通常作为输入变量包含在聚类分析中,因此可以根据该结果变量来解释聚类。聚类也可用于探索性目的——它可能有助于在不同的结果变量级别上了解典型的客户特征。"
总的来说,在数据科学和机器学习的帮助下,谷歌已经能够根据以前搜索和点击率收集的数据来改善用户体验。电子邮件营销人员已经能够根据购买力改进他们的内容和信息。