TowardsDataScience 博客中文翻译 2016~2018(四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

4 更快速简单的 Python 数据可视化代码

原文:https://towardsdatascience.com/4-more-quick-and-easy-data-visualizations-in-python-with-code-da9030ab3429?source=collection_archive---------8-----------------------

想获得灵感?快来加入我的 超级行情快讯 。😎

数据可视化是任何数据科学或机器学习项目的重要组成部分。您通常会从探索性数据分析(EDA)开始,以获得对数据的一些见解,创建可视化确实有助于使事情更清楚、更容易理解,尤其是对于较大的高维数据集。在项目接近尾声时,能够以一种清晰、简洁、有说服力的方式展示最终结果是非常重要的,这样观众(通常是非技术客户)才能理解。

你可能已经看过我的上一篇文章 用 Python 编写的 5 个快速简单的数据可视化代码 ,其中我们经历了 5 个基本的可视化:散点图、线图、直方图、条形图和箱线图。这些都是简单而强大的可视化,你绝对可以用来从你的数据集中提取伟大的洞察力。在这篇文章中,我们将会看到更多的数据可视化!这些将会更详细一些,在你完成了上一篇文章中的基本内容之后,你可以使用它们从你的数据中提取更深层次的信息。

热图

热图是数据的矩阵表示,其中每个矩阵值用一种颜色表示。不同的颜色代表不同的量级,矩阵指数将被比较的两个项目或特征联系在一起。热图非常适合显示多个特征变量之间的关系,因为您可以直接看到颜色的大小。您还可以通过查看热点图中的其他点来了解每个关系与数据集中其他关系的对比情况。颜色真的提供了简单的解释,因为它是如此直观。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在说说代码。与 matplotlib 相比,seaborn库可以用于更高级的绘图,通常是需要更多组件的东西,如许多颜色、图形或变量。matplotlib用于显示图形,numpy用于生成数据,pandas用于处理数据!绘图只是一个简单的 seaborn 函数,如果你发现一些视觉上特别愉悦的东西,我们还可以设置颜色映射。

2D 密度图

2D 密度图是 1D 版本的简单扩展,增加了能够看到两个变量的概率分布的好处。让我们看看下面的 2D 密度图。右边的图例使用颜色代表每个点的概率。最大的可能性,也是我们数据的集中点,似乎是 0.5 左右的大小和 1.4 左右的速度。如你现在所知,2D 密度图对于快速识别我们的数据相对于两个变量最集中的地方非常有用,而不是像 1D 密度图那样只有一个变量。当你有两个对你的输出非常重要的变量,并且想看看它们如何一起对输出分布贡献时,这是特别强大的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

seaborn 的代码也非常简单!这一次我们将创建一个偏态分布来使事情变得有趣。如果你觉得某些颜色和/或阴影在视觉上更令人愉悦,大多数可选参数都是为了让事情看起来更清楚。

蜘蛛图

蜘蛛图是显示一对多关系的最佳方式之一。也就是说,你可以绘制和查看几个变量相对于单个变量或类别的值。在蜘蛛图中,一个变量相对于另一个变量的显著性是清楚而明显的,因为面积和长度在特定方向上变得更大。如果你想看几个类别是如何与这些变量相关联的,你可以把它们并列起来。在下面的图表中,很容易比较复仇者的不同属性,并看到他们各自的优势所在!(注意这些数据是随机设置的,我没有偏向任何一个复仇者;) )

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这一次,我们将能够直接使用 matplotlib 来创建我们的可视化,而不是 seaborn。我们需要计算每个属性所处的角度,因为我们希望它们沿着圆的圆周等距分布。我们将在每个计算出的角度放置标签,然后将该值绘制为一个单点,其与中心的距离取决于其值/大小。最后,为了清晰起见,我们将使用半透明颜色填充连接属性点的线条所包含的区域。

树形图

我们从小学就开始用树形图了!它们是自然和直观的,这使得它们很容易解释。有直接连接的节点具有紧密的关系,而有许多连接的节点不是很相似。在下面的可视化中,我绘制了一小块来自 Kaggle 的 口袋妖怪的统计数据 :

HP,攻击,防御,特殊攻击,特殊防御,速度

因此,最势均力敌的口袋妖怪 stats wise 将紧密地连接在一起。例如,我们看到在顶部,阿柏怪和法罗是直接相连的,如果我们检查数据,阿柏怪共有 438 个,而法罗有 442 个,非常接近!但是一旦我们转移到 Raticate,我们得到的总价值是 413,这与阿柏怪和费罗是完全不同的,这就是为什么他们是分开的!随着我们沿着树向上移动,口袋妖怪越来越基于相似性被分组。绿色组中的口袋妖怪彼此之间的相似度比红色组中的任何东西都要高,即使没有直接的绿色联系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于树形图,我们实际上要使用 Scipy!读入数据集后,我们将去掉字符串列。我们在这里这样做只是为了让我们的形象化,但在实践中,为了更好的比较和结果,将这些字符串转换成分类变量会更好。我们还设置了数据框索引,以便我们可以正确地使用它作为引用每个节点的列。最后,在 Scipy 中计算和绘制树是一个简单的一行程序!

喜欢学习?

推特上关注我,我会在那里发布所有最新最棒的人工智能、技术和科学!也在 LinkedIn 上和我联系吧!

4 每个数据科学家都应该学习的技能

原文:https://towardsdatascience.com/4-must-have-skills-every-data-scientist-should-learn-8ab3f23bc325?source=collection_archive---------2-----------------------

本·罗戈扬

我们想继续上一篇关于如何让成为一名数据科学家的文章,学习一些高级数据科学家应该具备的其他技能。我们希望通过为高级数据科学家设定明确的目标,在业务经理和技术数据科学家之间架起一座桥梁。这两个实体不得不面对非常不同的问题。当他们在同一页上时,双方都受益。这就是为什么前一篇文章如此关注交流。这看起来很简单,但是随着每年新技术的不断涌现,技术和业务之间的差距不断扩大。因此,我们发现经理和数据科学家有一个清晰的期望路径非常重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Both business and IT knowledge are very specialized. However, due to this specialization of skills, most businesses see a gap between the two specializations. Our role is to help fill it!

我们发现,当数据科学家开始他们的旅程时,他们非常关注技术方面是有益的。这意味着编程、查询、数据清理等。然而,随着数据科学家的成长。他们需要更多地关注设计决策和与管理层的沟通。这将成倍增加更有经验的数据科学家的知识的影响。而不是陷入日复一日的编码中。他们可以做出更高层次的决策,并在年轻的数据科学家遇到困难时帮助他们。当更有经验的数据科学家利用他们的经验来帮助做出简化复杂系统、优化数据流的设计决策,并帮助做出最相关项目的决策时,他们自己和他们的公司都会受益更多。

能够简化复杂的事物

数据科学家倾向于在每个问题和每个解决方案中使用他们知道的每种技术和算法。反过来,这产生了难以维护的复杂系统。

数据科学确实需要复杂和抽象的建模以及过多的复杂技术(从 HadoopTensorflow )。鉴于这个领域的复杂性,开发复杂的系统和算法是很有诱惑力的。有一种诱惑,涉及 4 或 5 种不同的技术,并利用每一个新的热门算法或框架。然而,像大多数其他领域涉及一些工程。出于多种原因,降低复杂性通常更好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

If If John von Neumann, Erwin Schrödinger and Albert Einstein can help us understand the complexities of their very math and physics driven fields, then we data scientists can’t hide behind complexity., Erwin Schrödinger and Albert Einstein can help us understand the complexities of their very math and physics driven fields, then we data scientists can’t hide behind complexity.

工程师的作用是简化任务。如果你曾经建造过或见过一台鲁布·戈德堡的机器,你就会明白把一项简单的任务过度工程化的想法。一些数据科学家的算法和数据系统看起来更像是用胶带和口香糖粘在一起的疯狂的捕鼠器,而不是优雅但有效的解决方案。制造更简单的系统意味着随着时间的推移,系统将更容易维护,并为未来的数据科学家提供根据需要添加和删除模块的能力。如果你创建了一个简单的框架,下一个接替你位置的数据科学家会感谢你的。另一方面,如果你使用 3 种不同的语言,2 种数据源,10 种算法,却没有留下任何文档,那么你就会知道未来的工程师正在低声咒骂你的名字。

简单的算法和系统也允许更容易的加法和减法。因此,随着技术的变化和更新的需要,或者一个模块需要被取出。一个贫穷的未来数据科学家不会被你的代码困在玩一个叠衣服的游戏中。如果我删除这段代码,一切都会分崩离析吗(你听说过技术债吗?)

了解如何在没有主键的情况下网格化数据

强大的数据专家应该提供的一个重要价值是将可能没有内在主要或明显联系的数据集捆绑在一起。数据可以代表一个人或企业的日常互动。拥有在这些数据中发现统计模式的能力使数据科学家能够帮助决策者做出明智的选择。然而,您希望结合在一起的数据并不总是在同一个系统上或相同的粒度上。

那些处理过数据的人会知道,数据并不总是很好地集成在一个数据库中。财务数据通常与 IT 服务管理数据分开保存,外部数据源可能没有相同的聚合级别。这是一个问题,因为发现数据中的价值有时需要来自其他部门和系统的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Data meshing requires building pieces at the same level of granularity. One way to think of it is having one large puzzle piece being joined together by another large piece created by lots of smaller puzzle pieces of data.

例如,如果您获得了医疗索赔、信用卡和邻近地区的犯罪率,并想弄清楚这些社会经济因素是如何影响患者的,该怎么办?。一些数据集可能是一个人一个人的水平,而其他的可能是一个街道或城市的水平,没有明确的方法来连接数据集。进行的最佳方式是什么?这就变成了一个设计问题,一个必须记录,两个必须思考。

每种情况都是不同的,因为有许多方法来网格化数据。它可以基于地区、特征、消费习惯等。这就是为什么经验很重要。一个有经验的数据科学家对如何连接数据有直觉。主要是因为他们已经尝试了上百种不奏效的方法。通常情况下,你越能把两个数据集逐个人地结合起来就越好。因此,如果地区或城市恰好是连接的最低级别(最低级别是指数据的粒度,如个人级别、家庭级别、街道级别、城市级别、州级别或许多其他分组),那么这将是一个很好的起点。

能够对项目进行优先排序

作为一名数据科学家,你必须知道如何解释可能不会成功的项目的 ROI。这只是关于良好的直接沟通(我们的团队永远不会停止谈论沟通)。这是关于能够清楚地表达价值以及区分长期和短期目标的优先次序(再说一遍,说起来容易做起来难)。

团队总是有比他们能处理的更多的项目和项目请求。更有经验的团队成员需要带头,帮助他们的经理决定哪些项目实际上值得承担。在可能没有最高投资回报率但有很大成功机会的快速项目和更有可能失败但也提供很大投资回报率的长期项目之间有一个微妙的平衡。

在这种情况下,最好有一个决策矩阵来帮助简化过程。

项目的经典决策矩阵之一是一个重要性和紧迫性的 2 乘 2 矩阵。这个矩阵可以在大学的大多数商业课程中找到,而且非常简单。这就是它伟大的原因!

我曾在拥有非常聪明的人的公司工作过。然而,每个项目都被视为优先事项,如果你没有听说过这句话,我们就在这里说。

如果一切都是优先的,那么什么都不是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Choosing the right projects requires making had calls. Not everything is a priority.

其他很多公司都有这个问题。这就是为什么对于数据科学团队中有经验的成员来说,清楚地阐明哪些项目真正应该现在做,而不是以后做是很重要的。因此,使用简单的矩阵就可以做到这一点。

(就像我们在上一篇文章中所说的,简洁很重要。使用矩阵来帮助指定 ROI 会有所帮助)。

当有简洁和直接的交流时,项目继续向前发展,信任建立起来。

能够开发健壮和优化的系统

制作一个在受控环境中运行的算法或模型是一回事。将一个健壮的模型集成到一个实时的处理大量数据的系统中是另一回事。根据公司的不同,有时数据科学家必须自己开发算法。然后要么是开发者,要么是机器学习工程师,负责把它投入生产。

然而,情况并非总是如此。较小的公司和团队可能会让数据科学团队将代码投入生产。这意味着算法需要能够以合理的速度管理数据流量。如果您的算法需要运行 3 个小时,并且需要实时访问。它不会投入生产。因此,良好的系统设计和优化是必要的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

As data grows, and more and more people interact with a system. It is important your model keeps up.

数据科学是一个复杂的领域,需要了解数据、统计、编程和主题。为了发展,数据科学家需要能够将这些复杂性简化并提取到算法中。他们需要能够更加专注于设计决策。这有助于最大化他们的知识和经验。

摘要

当高级数据专家超越他们的技术能力时,他们为自己和他们的公司提供最大的影响。他们带来的价值是他们的经验,它可以帮助指导年轻的开发人员做出更好的设计决策,并帮助管理人员做出更好的决策,决定哪些项目将有最好的投资回报。反过来,这放大了他们的参与对团队的影响。

创始人开始像数据科学家一样思考的 4 个步骤

原文:https://towardsdatascience.com/4-steps-for-founders-to-start-thinking-like-a-data-scientist-ee71cc75dd52?source=collection_archive---------9-----------------------

当你不知道如何开始你的创业公司的数据之旅。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

There are steps you can take to embark on your data journey — for free and without a data scientist.

让我们来角色扮演:

你是一个刚创业一年的创业者。事情进行得很顺利,产品正在获得一些动力,并且您正在不断完善您的长期发展计划,并可能(手指交叉!)收购总有一天。与几个月前相比,你和你的联合创始人现在分散得更开了,但目前为止还不错,因为营销、销售甚至产品开发任务都完全在你的掌控之中。

这就是你开始冒险的原因!

但是…你不断读到的所有“大数据”、分析和机器学习的东西,是的,它们不在你的领域。

你知道你需要某种数据角度,因为你知道潜在的客户会问这个问题。但是你不确定要做什么,怎么做,甚至不确定从哪里开始。

  • 选项:聘请数据科学家?也许吧,但绝对不是现在。(即使你这么做了,也不那么容易。为莫妮卡·罗加蒂缓缓鼓掌
  • 选项:外包分析?也许吧,但你到底想让他们做什么
  • 选项:将它带进内部,构建您自己的工具、仪表板等。?也许有一天,但这是一个很大的承诺,你现在最好把时间和资源花在别的地方。

那还剩下什么?以下是你可以采取的 4 个步骤——免费的,即使你对数据最不感兴趣——开始像数据科学家一样思考,并在你的数据之旅中推动你的公司前进。

  1. 创造一个问题景观
  2. 制作你自己的词汇表
  3. 跨越 UX 鸿沟
  4. 构建数据路线图

注意:数据科学家做的远不止这四件事,这篇文章绝不是要贬低专业人士的工作。这只是对不关心数据的人的一些鼓励,让他们迈出第一步或第四步,而不需要花费大量的资源。

创建问题景观:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Creating a question landscape will help you identify what you already know, and anticipate what you will need to know in the future.

如果使用数据的目的是能够回答你自己的问题,或者你的客户或投资者的问题,那么预测问题将会有助于你决定在充实你的数据策略时去哪里。一种开始的方法是列出一堆你可能会遇到的问题,并把它们分成三类:

你现在能回答什么问题?

如果您对当前的数据进行一些挖掘,您可以回答哪些问题?

有哪些问题是因为还没有数据而无法回答的?

例如:

  • “在过去 30 天内,您下载了多少次?”可能属于第一类。
  • “在过去 30 天内,您最常使用的用户的年龄统计数据是多少?”可能会陷入第二种。
  • 以及“你的顶端和底端四分之一用户的平均会话长度是多少?”可能会落入第三种。

创造这一景观的目的——有些是地图上的区域,有些是地图上的——就是说,

“好吧,我们可以回答这个、这个和这个,而且我们知道(或者至少相当肯定)最终我们需要回答这个、这个和这个……所以让我们开始计划我们需要如何实现这个目标。”

“到达那里”可能是使用当前数据返回到信息中,或者您可能需要现在就将它烘焙到您的产品中,以便您可以在以后获得该信息。但至少进行对话并预测你将不得不回答的问题会让你领先。

制作词汇表

我问你一个问题:你对日活跃用户的定义是什么?

现在,如果我问你公司的每一个人,他们会有完全相同的答案吗?(不准作弊!)

虽然看起来显而易见,但创建一个术语表和/或将文档添加到您的报告中确实非常重要。现在公司里的每个人可能都会回答 DAU 的问题,但是当你的公司有 30 个人的时候会发生什么呢?50?100?当你有几十个驱动你的产品开发和商业策略的清晰指标时,你真的相信他们会在同一页上吗?

这种组织的价值是无限的,虽然它看起来像是可以放在后面的事情,但你越早开始记录,对它越自律,以后回来咬你的可能性就越小。

弥合 UX 差距

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bridge the UXr and UXi gap by using data and then you can make educated product decisions.

所有的产品人脑子里都有一个理想的 UX。这是人们以你想要的方式与你的产品互动的乌托邦,理想情况下,你的 UX 设计足够强大,足以在大部分时间带领他们到达那里,或者至少带领他们接近那里。

但是不管你的 UX 设计有多好,UX 现实(UX r )很可能与你理想中的 UX (UX i )不同。

你如何将你的客户从他们目前的 UXr推向你的 UXI

用数据。

假设您没有想要的转化率,那么客户流失是什么让您了解如何提高转化率?用户在哪里掉线?是所有用户还是特定人群?

也许你已经有了帮助回答这些问题的数据,或者也许你需要得到它(见上面的“创造一个问题景观”),但是不要猜测——用数据来弥合你的 UX 和 UX 的差距,做出明智的产品决策。

构建数据路线图

数据路线图本质上与产品路线图相同——它是一种向内部团队和外部利益相关者传达方向和进展的工具。我建议花一天时间,或者至少半天时间,和你的团队一起坐在白板前(最好是场外),认真思考数据将在你的公司中扮演什么角色。无论是核心还是外围,它都将存在,您需要有一个指南来指导您如何管理所有相关任务。

这篇文章中,我谈到了构建数据路线图如何回答一系列问题,从而帮助您的公司成长。但是如果在这一点上这些对你来说太模糊了,那么开始完成上面列出的三个任务:列出一堆你能够并且想要回答的问题,制作一个度量定义的词汇表,并且找出你的产品的 UX r 和 UX i 之间的差距。

[## 您的数据路线图可以回答的 10 个问题

“什么是数据路线图?”我们先来回答这个问题。(而且我们不会把它算进 10。)

medium.com](https://medium.com/@mdschindler/10-questions-that-your-data-roadmap-can-answer-8db0bb0aa235)

至少这样你会对下一步做什么和怎么做有一些内在的行军命令。然后,当你准备外包分析,甚至建立自己的数据团队时,你会对目标有一个很好的想法,当他们交付时会有什么价值。

进行正确根本原因分析的 4 个步骤

原文:https://towardsdatascience.com/4-steps-to-conducting-a-proper-root-cause-analysis-8d11dcce9e47?source=collection_archive---------1-----------------------

“排除所有其他因素,剩下的一定是真相。”夏洛克·福尔摩斯

我们所有人都害怕那种老板会问“为什么收入下降了?”唯一比这个问题更糟糕的是没有任何答案!您的业务每天都在发生许多变化,通常您会希望确切地了解是什么推动了给定的变化,尤其是在变化出乎意料的情况下。

理解变化的根本原因被称为根本原因分析。根本原因是最终导致变化的行动或事件。请注意,根本原因本身可能不会导致变更,它可能会引发一系列其他事件,最终导致变更。当然,给定变化的根本原因可能不止一个。

例如,假设我们经营一家名为 Sean’s Snowshoes 的大型连锁零售店。如果我们的收入下降,可能是由于以下原因之一:

  • 竞争降低了他们的价格,导致我们的销售额减少。
  • 一场大规模的暴风雪使我们的顾客呆在家里,而不是在我们的商店里。
  • 我们的一个主要营销活动结束了。
  • 我们改变了让顾客困惑的优惠券策略。

….或者其他几十个潜在原因中的一个!

正如你所想象的,根本原因分析可能是复杂和具有挑战性的。本周,我们将介绍一系列技术和工具,帮助你在这些困难的水域中航行。具体来说,我们将涵盖:

让我们开始帮助 Sean 的雪地靴进行根本原因分析,确定我们需要考虑的所有影响因素。

离群值 **监控您的业务数据,并在发生意外变化时通知您。**我们帮助营销/发展&产品团队从他们的业务数据中获取更多价值。 今天安排试玩。

  • Outlier 是 Strata+Hadoop World 2017 观众奖得主。

根本原因分析:确定影响因素

根本原因分析的第一步是识别所有促成问题变化的因素。业务变化有两种主要的促成因素:

  • 内部。这些都是你所采取的行动,这些行动导致了你的企业发生了变化。示例包括新产品发布、产品更新和营销活动变更。
  • 外部。不管你愿不愿意,这些事情都会发生在你身上。例子包括竞争性价格变化、用户行为转变和自然灾害。

我们的目标是列举每一个可能的因素,这两种类型,可能有助于我们正在分析的变化。我们在这个阶段越全面,就越有可能找到根本原因。

让我们回到 Sean’s Snowshoes 的例子,这是一家零售连锁店,在 1 月 21 日收入有所下降。我们希望找到这种下降的根本原因,因此首先我们将汇集一份可能导致这种下降的所有内部和外部因素的列表:

  • 1 月 21 日:我们开始了新的营销活动。(内部)
  • 1 月 20 日:我们一些最大的商场开始施工。(外部)
  • 1 月 20 日:我们的一项主要营销活动结束了。(内部)
  • 1 月 19 日:我们开始了新的在线优惠券促销活动。(内部)
  • 1 月 18 日:一场大规模的暴风雪袭击了我们所有的工作地点。(外部)
  • 1 月 17 日:421 号店、439 号店和 456 号店新聘经理。(内部)
  • 1 月 10 日:竞争对手在选定的地点降低了价格。(外部)

要避免的一个重要陷阱是假设促成因素必须与变化同时发生。例如,由于收入在 1 月 21 日下降,我们的第一直觉可能是识别 1 月 21 日发生的所有事情。然而,真正的因素(以及根本原因本身)很可能发生在收入下降之前。根据它们触发的事件链,起作用的因素可能发生在问题变化的几天、几周甚至几个月之前。

请注意,每个因素都有一个与之相关联的日期(或时间),这样我们就可以构建一个导致(和跟随)变更事件的时间表。事实上,如果你的潜在因素列表足够短,你应该现在就做!不幸的是,在现实世界中,这个列表可能会太长,你首先需要缩小范围。

接下来,我们将讨论如何根据影响变化的可能性对因素进行排序,并以此缩小列表范围。

根本原因分析:排序因素

有了你的潜在因素清单,是时候开始将它们削减到最有可能导致变化的原因了。评估数百个潜在因素可能是不可能的,但如果我们能把它减少到几十个,这就成了一个可管理的问题。最好从一开始就指出变化的指标和组成变化的部分开始。

让我们回到 Sean’s Snowshoes 的例子,一家零售连锁店的收入下降了。收入本身很容易理解,因为它是我们从销售中获得的现金总额。但是,收入可以由许多不同的因素分解:

  • 存储位置
  • 客户位置
  • 产品
  • 星期几

通过查看每个维度(以及所有维度的组合)的收入,应该会清楚哪些细分市场导致了收入下降。是一家特别的商店吗?一些具体的产品?特定的日期或时间?您希望确定哪些部分在总体变化的同时发生了变化,以及哪些部分的数量最多。

以下是肖恩雪地鞋收入的一些精选维度的图表:加州的收入、销售围巾的收入和 456 号店的收入。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sample data for our shop

该图帮助我们确定哪些方面是变化的驱动因素,哪些方面可能是副作用:

  • 总收入(蓝色)在右侧明显下降。我们的目标是找到这种变化的根本原因。
  • 加州(黄色)的收入显然是总收入的重要组成部分,而且确实与总收入同时下降。然而,它没有总收入下降那么多,而且恢复得很快,所以看起来不像是下降的原因。
  • 围巾(紫色)的收入与总收入同时大幅下降,但这只是总收入的一小部分。总收入中如此小的一部分更可能是副作用,而不是根本原因。
  • 456 号店铺(绿色)的收入是总收入的重要组成部分,当总收入下降时,其收入也大幅下降。这是一个明显的落点来源。

一旦您有了看起来与变更相关的最重要的部分,您就可以使用它来选择最有可能影响这些部分的因素。如果我们重温昨天的潜在因素列表,我们可以排除那些不会影响 456 号店的因素。具体来说,任何影响所有商店的变化都不太可能比可能影响该商店的因素起作用:

  • 1 月 21 日:我们开始了新的营销活动。(内部)
  • 1 月 20 日:我们一些最大的商场开始施工。(外部)
  • 1 月 20 日:我们的一项主要营销活动结束了。(内部)
  • 1 月 19 日:我们开始了新的在线优惠券促销活动。(内部
  • 1 月 18 日:一场大规模的暴风雪袭击了我们所有的工作地点。(外部)
  • 1 月 17 日:421 号店、439 号店和 456 号店新聘经理。(内部)
  • 1 月 10 日:竞争对手在选定的地点降低了价格。(外部)

当然,在你的分析中,你会有成百上千个不同的维度和组合需要检查。像我在这里所做的那样绘制它们是不可行的,因为与每个指标相关的维数太大了。为了帮助简化问题,您可以使用我们的系列中关于集群的技术,称为层次集群。层次聚类的目标是以层次结构中最重要的聚类形式汇总数据,这是突出显示哪些维度可能与更改相关的好方法。只要你按照总的百分比和变化幅度的组合进行分类,这个层次结构应该能够完成我们通过上面的观察所做的事情。[1]

接下来,我们将介绍如何利用我们已经确定的少数高可能性因素,并确定其中的根本原因。

根本原因分析:分类因素

现在我们有了一个较短的潜在原因(因素)列表,按影响的可能性排序,我们需要确定哪一个是根本原因。每个因素可分为四组:

  • 相关结果。这些因素是同一根源的其他症状。例如,如果收入下降,我们的销售税征收减少,销售税的减少不是收入减少的原因,而是根本原因的另一个副作用(导致收入下降的原因)。
  • 无关因素。这些因素看起来可疑,但实际上与所讨论的变化无关。
  • 促成因素。这些因素虽然是导致连锁反应的事件链的一部分,但不是根本原因。例如,如果收入下降,购买总数下降,购买总数的减少可能是收入下降的原因,但不是购买本身下降的原因。
  • 根本原因。这是引发导致变化的一连串事件的因素。记住,可能不止一个!

我们的第一步是将所有高可能性因素排列成一个时间表。在你的时间线上确定因素发生的顺序并不总是像检查它们发生的时间一样容易,有时你需要依靠你对业务和内部流程的了解。

如果你还记得 Sean 滑雪板的例子,很明显,456 号店是我们 1 月 21 日收入下降的核心原因。以下是我们确定的与 456 号店相关的因素的时间表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A timeline describing likelihood factors

按照时间来组织这些因素,当它们开始向我们讲述一个故事时,更容易对这些因素进行分类。

  • 1 月 10 日:竞争降低了附近商店的价格。这几乎是下降前的两周,不太可能是根本原因,因为我们会在更早的时候看到收入变化。判决:无关
  • 1 月 18 日:助理经理辞职。这可能是 1 月 17 日招聘新经理的结果。充其量这只是一个促成因素,但更有可能是出了什么问题的另一个症状。判决:相关因素
  • 1 月 20 日:停车场建设开始。这可能是罪魁祸首,因为如果顾客不能停车,他们可能无法到达商店。然而,像这样的施工是另一个决定的结果,因为施工人员不会自己出现。这是导致变化的事件链的一部分,但不是根本原因。判决:促成因素
  • 1 月 17 日:聘用新经理。这是我们最有可能的罪魁祸首,因为它发生在下降之前不久,新经理将不得不批准停车场的建设开始。判决:根本原因

很明显,这是一个简单的例子,但是我希望它能给你一个重新创建时间线和对因素进行分类的过程是如何为你工作的感觉。

你可能已经注意到,根本原因分析很像侦探工作。你从一些证据开始,排除可能的嫌疑,希望重建事件的时间线。就像侦探工作一样,有些事情你今天就可以开始做,这将有助于你在未来更好地进行根本原因分析。我们明天将回顾其中的一些。

根本原因分析:为根本原因分析而设计

正如您在本文中所看到的,确定根本原因可能具有挑战性。确保您能够可靠地识别根本原因的最佳方法是设计您的业务流程,使其更容易。关键是要确保你已经记录了所有你需要的数据,并且很容易获取,以便找到根本原因。

以下是一些最佳实践:

  • 记录你的行动。在共享日历上跟踪重要的业务决策和行动。这将让你很容易地识别出所有可能导致变化的内部因素。
  • 追踪外力。监控所有可能影响你业务的外部力量,包括竞争、经济和政府政策。有许多服务将为你做这件事,但是你的任务是识别最重要的,因为你不能监控整个世界。
  • 对你的数据进行分段。确保您的度量是分段的,以便您可以有效地评估任何给定分段促成变更的可能性。如果你不能对你的指标进行细分,你将不得不花费大量的时间通过其他方式来消除潜在的因素。
  • 绘制您的流程图。你的业务流程应该被写下来,这样你就可以找出促成因素和根本原因之间的区别。

你能做的越多,将来你就能越快、越容易地找到问题的根源。

一句提醒的话:在你做了许多根本原因分析之后,当一个新的变化事件发生时,很容易依赖你的直觉。它可能看起来和感觉起来像你过去分析过的其他人,这使你很容易根据你以前的经验得出结论。这是危险的,因为你假设未来和过去一样,而许多其他事情可能已经改变了。即使你认为你知道根本原因,也要仔细分析,确保你没有遗漏任何东西。

回顾:识别业务变化的根本原因包括三个步骤。首先,找出所有可能导致变化的因素。第二,使用您的指标分段从该集合中选择最可能的因素。最后,重新创建变化的时间表,并使用它对因素进行分类,确定其中的根本原因。

离群值 **监控您的业务数据,并在发生意外变化时通知您。**我们帮助营销/发展&产品团队从他们的业务数据中获取更多价值。 今天安排试玩。

  • Outlier 是 Strata+Hadoop World 2017 观众奖得主。

当我们所有的工作都没了,确保乌托邦

原文:https://towardsdatascience.com/4-steps-to-ensure-utopia-when-our-jobs-are-gone-859801f95bd3?source=collection_archive---------6-----------------------

重新定义自我价值,呼唤你的代表(x2),成为艺术家(比喻意义)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

‘Rick and Morty’ warn us all of what might happen 😃

本文无意危言耸听,恰恰相反。这意味着人类要为人机合作的下一阶段做好心理准备。随着我们离奇点更近一步,我们会发现,在所有行业中,我们都有更多的时间,更多的控制权交给了计算机和算法。如果我们能正确地过渡到这个时代,对人类来说,这将是一个非常积极的时代。

这篇文章旨在教育读者一种新的思维模式和工具集——激励我们所有人确保公司、联邦监管机构和个人采取正确的步骤来实现人工智能的未来。

“我不在工厂生产线上工作。我的工作目前还不错。”
-每个人都曾经

假的。让我带你浏览几个已经取代工作的现有计算机程序。做好准备,这 5 个例子会让你大吃一惊。

1)电影预告片视频编辑器

洛杉矶电影预告片剪辑师的平均工资:42328 美元

https://www.engadget.com/2016/09/01/ibm-watson-movie-trailer-morgan/

为了 2017 年推出恐怖电影《摩根》(Morgan),20 世纪福克斯公司(20th Century Fox)接洽 IBM,为该电影制作预告片。IBM 团队给沃森提供了一系列恐怖电影,直到它理解了每个场景的情感。使用自然语言处理、计算机视觉和正确的训练集,沃森随后观看了电影《摩根》,并“立即聚焦于总共 6 分钟的 10 个场景。人类编辑仍然需要安排场景来讲述一个连贯的故事,但沃森的参与将这个过程缩短到了 24 小时。预告片通常需要 10 天到一个月才能完成。”

2) MLB 棒球裁判

MLB 裁判的平均工资——12 万美元,最高 35 万美元/年

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当观众在电视上观看现场棒球比赛时,他们不仅得到了球员的高清特写镜头;他们还得到一个又一个统计数据,几乎是实时编辑的,告诉他们诸如球的速度、投球的准确性、运动员的速度等等。这是如何做到的?它是体育场内摄像机和传感器的昂贵组合,物体内传感器(蝙蝠和基地),将数据发送到亚马逊网络服务器,这些服务器处理这些数据,并将其发送回直播电视工作人员,他们将这些信息输入他们预先设计的计算机图形包,并将其呈现给美国各地的电视。传感器和摄像头已经就位。服务器已经就位。从 2006 年开始,PITCHf/x 就出现在每一个体育场。唯一缺失的是人们普遍更喜欢电脑裁判,而不是人工裁判。每年关于电脑裁判员的讨论越来越热烈。作为一个小的下一步,已经提出将球/撞击传感器信息仅直接提供给人类裁判。

3)皮肤科医生

美国全国平均工资—【293610 美元

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

diagram of a machine-learning process to identify skin problems

2017 年,斯坦福大学的一组研究人员训练计算机像皮肤科医生一样准确地识别皮肤癌痣和病变的图像。他们在 2000 种皮肤病的 13 万张图像上训练了一种深度学习算法。结果详细记录在 Nature 中,显示人工智能在挑选致命皮肤病变方面的表现与 21 名委员会认证的皮肤科医生一样好。

在未来,一个简单的手机应用程序可能会帮助患者自己诊断皮肤癌——美国最常见的癌症。

据《连线》报道,“斯坦福的 robo-derm 在这一点上可能是纯研究,但有很多人工智能初创公司(超过 100 家)和软件巨头(谷歌、微软、IBM)正在努力将深度学习应用到医院、诊所甚至智能手机中。”

来源:有线CNN

4)华尔街交易员

平均工资差别很大,根据经验、利基(对冲基金与大银行)和合伙人级别,从 8 万美元到 1100 万美元不等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

original image from the movie ‘The Wolf of Wall Street’

华尔街交易是最容易替代的工作之一。它没有多少“人性”。

然而具有讽刺意味的是,到 2025 年,通过使用人工智能,金融机构的成本收入比可能会提高 28%。这是因为他们正在削减雇佣人力的成本。2017 年,金融公司将在人工智能相关技术上花费超过 15 亿美元,到 2021 年每年花费 28 亿美元,这还不包括他们对人工智能创业公司的投资。

2014 年,高盛投资并开始安装一个名为 Kensho 的人工智能驱动的交易平台。核桃算法是一家初创对冲基金,从一开始就被设计为致力于人工智能。臭名昭著的怪异对冲基金公司 Bridgewater Associates 雇佣了自己的团队来建立一个人工智能系统,该系统实际上可以自己运行操作。

来源: AI 将大幅裁员高盛解雇

5)出租车、Lyft、优步司机

纽约市的 Lyft 司机——平均每小时 28 美元

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们听到最多的行业。像梅赛德斯、宝马和特斯拉这样的公司已经发布或即将发布自动驾驶功能,使汽车具有一定的自动驾驶能力。谷歌已经正式将他们的无人驾驶汽车项目纳入自己的公司,名为 Waymo

客观地看,Lyft 在 2015 年初约有 10 万名司机,2016 年初超过 30 万名。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

‘Rick and Morty’ understand

这份职业清单还可以继续下去——教师、农民私人助理卖汉堡包的人、精神病学家、图书编辑、零售商收银员,最终代理生母,以及(我个人最喜欢的)机器学习计算机科学家。

当然,在未来十年左右的时间里,计算机和人类将会合作,因为我们人类仍在填补这些空白。但这就是为什么我们需要现在就做好准备,走在它的前面!当然,非常有才华的人仍然会因为他们独特的视角、视野或声誉而被雇佣。但对于我们其他人来说,我们现在应该做些什么来确保乌托邦呢?

拥抱乌托邦:2017 年我们可以立即采取的 4 项行动

现在,在 2017 年,我们可以采取几种不同类型的行动,以确保我们在这场人工智能革命中领先一步:1)重新定义我们的幸福和自我价值的来源,2)确保我们人类的需求得到基本普遍收入的满足,3)确保人工智能和人类之间的正确动力到位,以及 4)成为一名艺术家(在隐喻意义上)。

1。重新定义自我价值和幸福

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Learn to let go. More time to dance.

我们需要思想上的转变来重新定义我们的自我价值,不是从我们朝九晚五的工作中,而是从我们是人,我们还活着这个简单的事实中。所以我们中的许多人只有当我们变得富有成效时,或者当我们的老板告诉我们我们做得很好时,或者当我们的工作得到了金钱上的回报时,才会感到高兴。我们需要简单地学习如何在这些事情之外快乐。我们需要学会如何放松,用其他活动来充实我们的一天。如果你和我一样,甚至去瑜伽也是你更喜欢的事情,因为这是你可以从你的日常“待办事项”清单中检查出来的另一件事。

试着想想一个时间自由的新世界为你打开的所有可能性。你知道那个你每天早上 9 点到下午 5 点穿着西装去的 salesforce 办公室吗?如果你愿意,现在你可以去那里打水枪。去吧,像个孩子一样跑来跑去!

2。基本普遍收入

More of this commencement speech can be watched here: http://money.cnn.com/video/technology/future/2017/05/31/capturing-carbon-dioxide.cnnmoney/index.html

如果我们不工作,我们的钱从哪里来?我们如何负担得起我们的房子,我们的食物,我们的基本需求。我们如何积累财富,让我们自豪地把财富传给我们的孩子。要回答这些问题,我们需要进行政治思考。我们需要重组我们的税收体系。随着所有这些工作的消失,通勤者减少,基础设施减少,开销减少,有更多的钱可以支配。作为公民,在 2017 年的今天,我们需要确保我们的政治家充分理解这一新的经济流,并采取大胆措施为所有人创造基本收入。这一想法不仅得到了全球经济学家的支持,还对缓解美国目前日益加剧的极端贫富差距产生了间接的积极影响。甚至马克·扎克伯格在他的 2017 年哈佛毕业典礼演讲中也宣扬这一点。

举个例子,让我们回头看看棒球裁判,他现在失业了。在一个完美的世界中,MLB 将因使用人工智能而被征收重税,亚马逊也是如此,这些税收将通过政府渗透到该国的每个人。这就是所谓的“基本普遍收入”。这个想法是,仅仅为了成为人类和活着,你的政府应该有足够的钱来确保你的人类需求得到满足。这不会让你变得富有,但会让你活得健康。大多数计划建议推出这一概念,仅用$ 10K/人/年,称之为政府援助或补贴。

这不是一个新的想法。第 17 届 BIEN(基本收入地球网络)大会将于 2017 年 9 月 25 日至 27 日在葡萄牙里斯本举行。在考虑所有显而易见的反驳之前(这是共产主义,人们会变得懒惰,等等),请仔细阅读这个话题。

行动号召:前往5Calls.org了解谁是你的众议员和参议员以及他们的电话号码。打电话给他们,说:“我在你的选区,我正在读关于基本普遍收入的书。我希望对人工智能辅助收入征税,因为我正在为计算机人工智能导致的大量失业做准备。我希望你能投票通过这个想法,我希望这个问题对你很重要。谢谢。”

3。确保正确的动力动力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Let’s be clear about who’s in control here.

你有没有打开优步并请求搭车,看到司机在 4 分钟之外,然后点击“确认”后,应用程序刷新并把你切换到 10 分钟之外的司机那里?你有没有想过,“他们为什么要这么做?”此外,你是否曾试图就此事或任何其他问题联系优步?几乎没有办法与优步取得联系,问他们关于他们如何做决定的问题,或者为什么这款应用会让你在不同的司机之间换来换去,或者你可以做些什么来确保这种事情不会发生在你身上。(补充说明,优步是一家极具欺骗性和操纵性的公司。下次你和一个低电量的朋友和一个 100%电量的朋友同时抓取优步搜索,看看他们是如何捕食人的。

把那个看似无关紧要的优步“4 分钟对 10 分钟”的问题放在脑后,现在让我们考虑一下经典的电车问题。一辆电脑控制的手推车有一瞬间的时间来决定它应该杀死 1 个重要的人还是 5 个不重要的人。它会做什么?这可能对你来说很可怕,但这是一个真实的问题。作为非计算机科学家公民,我们需要给我们的政治家留下深刻印象的是,围绕人工智能需要有严格的规则和条例。现在为此而努力的人是 Elon Musk 和 Sam Altman,他们的组织是 Open AI。

行动号召:再次使用5 calls . org,告诉你的代表,算法必须透明。如果一台医用电脑会提示一个病人有自杀倾向,我们需要知道原因。如果一个人被加入禁飞名单,我们需要知道原因。如果房屋贷款没有被批准,我们需要知道原因。

成为一名艺术家

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Be free!

艺术家是少数几个有动力去创造、制造、学习、探索世界并与世界互动的社会成员,而不是被金钱价值或通过预定的步骤爬上公司阶梯所驱动。一个艺术家知道如何在清晨醒来,追寻自己的好奇和渴望。为艺术而艺术是纯粹的。它是有表现力的,因此是人类的。我是被一个艺术家养大的。我被教导通过绘画、粘土、编织、写作、表演、舞蹈,通过像 photoshop、动画、定格、甚至代码这样的计算机工具来培养对自我表达的热爱。但那些只是我的媒介。任何媒体都可以是艺术家媒体。任何人都可以成为艺术家——你只需要像艺术家一样思考。科学家可以成为艺术家。一个科学家站在新发现的边缘,追求世界上的真理——这就是艺术。一个计算机开发者可以是一个艺术家。他们开发应用程序不是因为他们会因此变得富有,而是因为他们希望看到这个世界上存在这样的东西。找到你喜欢做的事情,只是为了做而做,像艺术家一样去做。

是的,当然计算机也能创造艺术,但是它们永远不会剥夺我们创造艺术和表达自己的能力。在未来,我们没有金钱或竞争优势的负担,我们创造东西,因为它让我们快乐。无论你做什么,像艺术家一样去做。

无论你做什么,像艺术家一样去做。

来源和阅读材料:

如果你对基本的普遍收入感兴趣,有这么多的来源,只要开始搜索(避开它!为了获得公正的结果,不要谷歌“基本普遍收入”,尽可能阅读一切相关信息。

除此之外,以下是我在撰写本文时使用的 3 个来源:

[## 资本之后的世界

人类梦想着一个没有人需要工作的富足世界。了解更多关于阿尔伯特·温格的新书…

worldaftercapital.org](http://worldaftercapital.org/) [## 谁拥有未来?

谁拥有未来?在 Amazon.com 的杰伦·拉尼尔。符合条件的优惠可享受免费运输。“才华横溢”和“大胆地…

www.amazon.com](https://www.amazon.com/dp/1451654960/?tag=mh0b-20&hvadid=3520383689&hvqmt=b&hvbmt=bb&hvdev=c&ref=pd_sl_682i7s1bgh_b) [## 人工智能有一个很大的问题:即使是它的创造者也无法解释它是如何工作的

去年,一辆奇怪的自动驾驶汽车被投放到新泽西州蒙茅斯县安静的道路上。的…

www.technologyreview.com](https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/)

成为你想在世界上看到的改变。

-甘地

找到正确的深度学习模型的 4 个步骤

原文:https://towardsdatascience.com/4-steps-to-finding-the-right-deep-learning-model-f35a9d7988b6?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

by Skitterphoto on Pixabay

首次应用深度学习时避免初学者的错误

如果你一直在寻求让你的应用程序具备机器学习能力,你会注意到有大量的 ML 模型和模型实现,它们可能适合也可能不适合你的任务。尤其是如果你对特定类型的模型不是很熟悉,那么选择你的项目采用什么样的模型实现可能会让不知所措。

作为模型仓库的一部分,在与数百名工程师和他们的 ML 项目交谈后,我整理了这 4 个步骤,当你选择下一个机器学习模式时,你应该明白!

1.理解问题域

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Originally from PublicDomainPictures.net

虽然您可能正在构建热狗定位器,但您正在寻找的模型可能不被称为“热狗定位器”。用户和 ML 研究者对模型的不同看法会使我们很难找到正确的模型。

对于热狗定位问题,它是“计算机视觉”类别下的“对象检测”问题。事实上,还有一个数据集存在,它在热狗周围有边界框,叫做 COCO

当你考虑你手头的问题时,把它转化成正确的 ML 术语的最简单的方法是考虑你的输入。是文字还是图片?这些通常分别对应于自然语言处理(NLP)或计算机视觉(CV)。从那里你会想更深入地研究那个领域,找出存在哪种子问题,比如 NLP 中的情感分类。此外,您可以探索可能已经包含感兴趣的项目的数据集(例如热狗)来缩小在该特定数据集上训练的模型的范围。有时,正确使用术语可能很棘手,因此使用用户友好的 ML 模型搜索工具,如 ModelDepot ,可以帮助您快速找到并理解对您的用例有帮助的模型。

2.找到“正确的”精确度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Machine Learning” from xkcd

显而易见,准确性是您应该非常关心的事情,但是简单地相信任何准确性数字都不会有好结果。在考虑准确性时,有几件事需要记住。

准确性度量

根据您正在解决的问题,有大量不同的指标。ML 中的每个特定问题域都有一组相关的标准度量。弄清楚哪些指标对你来说是最重要的,这一点极其重要!

例如,如果我们正在构建一个信用卡欺诈检测系统,并且只考虑correct_predictions/all_predictions(又名。准确性)我们可以简单地开发一个总是返回“非欺诈”的模型,并获得 99%的准确性,因为大多数交易都不是欺诈!因此,为你的任务选择正确的指标很重要

报告的准确性

报告的精度是判断模型是否满足应用要求的良好开端。几乎总是,模型的原始论文将报告模型的准确性度量。如果他们使用的指标和你正在使用的指标不同,确保你理解他们使用的指标和你正在使用的指标之间的关系。但也要明白,他们的数据集可能与你手头的任务不同,他们的问题有 2%的改善最终对你来说可能不会太重要。

你自己的准确性

如果您发现一些似乎具有合理的报告准确性度量的东西,您将想要亲自测试该模型,以查看该模型将为您做得有多好。理想情况下,您有一个模型期望接收的输入测试集(例如。邮件、评论等。)和相应的预期输出。在您自己的数据上测试模型是确保它在您的用例中表现良好的最佳方式,尽管这也是最费力的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

In-Browser Live Demos on ModelDepot

有一些方法可以快速演示模型,比如使用 ModelDepot 的在线演示功能。您可以快速地向模型提供示例输入,并在不到一分钟的时间内看到模型的结果。您还可以在在线环境中试用该模型,如 Google Colab 以跳过设置本地开发环境。

3.了解您的数据

根据你有多少数据或者愿意收集多少数据,你寻找模型的方法会有很大的不同!从头开始构建不是唯一的方法,实际上可能是最差的方法,这取决于您的数据!让我们深入一些案例。

我有很多数据

如果您有大量的训练数据,您会希望寻找具有易于访问的训练脚本的模型来从头开始训练您的模型。让 DL 模型收敛可能非常困难;为了让你的生活更轻松,你应该在 Github 上寻找看起来很活跃的项目。在一个模特周围有一个支持性的社区会对你有很大的帮助。

我有一些数据

如果你只有一些数据,你也许可以使用一种叫做“迁移学习”的训练技术。迁移学习允许您在类似的领域采用预先训练的模型,使用少量的训练数据来调整模型,使其能够很好地解决您的特定问题。您将希望寻找易于“剖析”和重新训练的预训练模型。你可以在 Tensorflow HubKeras 应用找到一些。

我只有少数几个例子

别担心!举几个例子是一个很好的开始。寻找专门预先训练的模型,并使用您的示例作为“测试集”来评估这些模型对您的数据的执行情况。幸运的是,你可以在几个地方找到预先训练好的模型,例如每个框架的各种模型动物园: TensorflowCaffeONNXPyTorchModelDepot 还为预训练模型提供了一个更通用的搜索界面,以帮助选择正确的 ML 模型。

4.挑选建筑

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Accuracy vs Speed Tradeoff (Figure 2 from https://arxiv.org/pdf/1611.10012.pdf)

我们现在可以看看模型背后的架构,如果 1)模型对您自己的数据具有可接受的准确性,2)很容易重新训练或带有预训练的模型。

精确度、速度和尺寸

最大的实际考虑之一是速度与精度的权衡。研究人员开发了各种各样的架构来匹配应用程序在现实世界中可能遇到的不同用例。例如,也许你的模型应该运行在计算受限的移动电话上,所以你可能正在寻找一个轻量级和快速的 MobileNet 架构。否则,如果您不受计算限制,但希望获得最佳精度,那么您可以使用最先进的技术来保证最佳精度,无论模型有多慢或多大。

一些型号可能会有轻量级的变体,如 PSPNet50 vs 全 PSPNet ,它减少了层数,使其更快更薄。其他时候,你可以使用诸如修剪量化的技术来使模型更小更快。

搞定了。

有了这四个步骤,你就可以从知道你想解决什么问题,到尽快选择几个能最好地解决你的问题的模型。

还有其他的考虑,比如 ML 框架、代码质量或者模型作者的声誉,但是这些考虑通常是一种奢侈品,当你超越了将 ML 集成到你的产品中的 PoC/MVP 阶段时,你就可以负担得起了。让我知道你如何决定在评论中寻找 ML 模型的想法!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Best of luck searching for your next ML model!

零售品牌用来连接线上和线下个性化的 4 项技术

原文:https://towardsdatascience.com/4-technologies-retail-brands-use-to-bridge-online-and-offline-personalization-79d0cc040ed3?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Alexandre Godreau on Unsplash

Amazon Go 创造了最先进的购物技术。为了将人们从耗时的结账通道中解救出来,购物者只需下载 Amazon Go 应用程序,然后通过他们的 Amazon 帐户登录。一旦到了位于西雅图的商店,他们只需要在入口处扫描手机,然后像往常一样购物。

该品牌专有的 Just Walk Out 技术然后使用计算机视觉、传感器融合和深度学习来检测谁从商店货架上拿走了什么商品。根据这些数据,一旦人们手里拿着产品离开商店,智能商店就会计算他们的总数,并通过应用程序从他们的亚马逊账户中收费。

将店内和网上体验融合在一起,亚马逊可以真正了解顾客是谁,跟踪他们的行为,进而提供前所未有的个性化便利。

并非所有品牌都能创造全渠道个性化的专有技术,但市场上已经有大量技术可以帮助他们搭建桥梁。让我们探索 4 项技术,帮助品牌创造个性化的、真正的全渠道品牌体验。

人工智能(AI)让消费者乐于在线上和线下消费。

亚马逊知道如何将客户数据转化为收入流。贝恩公司对 522 名购物者的研究显示,顾客第五次购买的东西比第一次多 40%。对于亚马逊来说,这是通过数据积累对客户进行 360 度全方位了解来实现的。例如,一个开始每月购买一件商品的顾客,通过人工智能提供的相关推荐,转变为一个月购买几件相关商品的顾客。

一旦一个品牌花费了所有额外的费用来收集数据并从中提取偏好见解,然后培养顾客对其他产品的兴趣,那么在店内体验中从头开始了解她将是一种耻辱,就好像从头开始获得顾客一样。这意味着收入的损失:波士顿咨询集团的一项研究发现,通过营销获得一个新客户比留住一个现有客户要贵 500%。

这就是为什么像亚马逊这样的聪明品牌知道利用在线数据来通知店内购买,反之亦然。每一次购物活动——无论是在线还是店内——都意味着品牌可以使用更多数据,通过 360 度视角更好地了解他们的客户。如果没有店内和在线客户数据的结合,真正的 360 度视角还没有实现。

例如,通过记录客户在 Amazon Go 商店的购买情况,亚马逊允许依赖人工智能根据这些店内购买和行为提供相关的在线建议。最终,有了相关的全渠道推荐,顾客会花更多的钱,并感激品牌给了他们这样做的机会。

beacon 与数字技术合作,增强体育迷的线下体验。

93%的美国职业棒球大联盟(MLB)公园、53%的美国国家篮球协会(NBA)体育场和 47%的美国国家橄榄球联盟(NFL)体育场都采用了体育信标技术,为服务人员带来个性化体验,并增加球队及其赞助商的收入。

例如,下载金州勇士队应用程序的人被识别为球迷。该应用程序然后提供突发的球队新闻,实时统计数据,球员简历和比赛日历。当球迷亲自参加比赛时,他们可能会收到座位和特许看台的 3D 地图,实时交通更新,以及将比赛照片和视频上传到脸书的能力。

反过来,beacon 技术允许 Oracle Arena 获得额外的好处,如当球迷进入不太理想的区域时,能够提供座位升级的推送通知,跟踪球迷的步行路线以更好地了解客户行为,提供球队商品的近距离营销,甚至帮助球队赞助商与球迷联系。

其他团队安装信标技术也有利于他们的赞助商。例如,当麦当劳赞助密尔沃基雄鹿的应用程序时,他们也通过安装在镇上商店附近的信标联系粉丝。反过来,麦当劳可以通过发送到团队应用程序的推送通知向粉丝进行营销。

最终,beacon technology 通过增加收入创造品牌优势,粉丝享受个性化的全渠道体验。在安装后的第一个季度,来自应用营销的收入覆盖了 Warrior 的室内营销基础设施和信标成本的一半。而且,尽管——或者可能是因为——所有的个性化追加销售和推送通知,该应用在谷歌 Play 商店享有 4.7 星的评级。

增强现实帮助消费者融合他们的实体和在线家庭。

家得宝通过他们的增强现实(AR)应用程序将线上和线下的品牌体验联系起来。如果顾客想更换家里的门,他们可以在网上浏览门的选择,甚至可以查看当地家得宝有哪些门。一旦他们找到了自己喜欢的门,他们可以点击“在你家看到这个”标签,然后将手机举到物理门上,以增强现实的方式查看门安装后的样子。

顾客可以从应用程序中购买柜门,并在店内取货。或者,在店内,他们可以通过基于手机的店内导航找到商品,然后购买。

通过 AR,家得宝的客户成为室内设计师,混合和搭配品牌产品以获得完美的外观。然后他们可以在网上订购,并在店内取货。此外,产品推荐基于顾客所在地区的流行趋势。其结果是在线和线下品牌体验的无缝和个性化的桥梁。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Brian Metzler on Unsplash

物联网(IoT)通过个人表现跟踪提升一个品牌的收入。

安德玛通过物联网智能鞋将他们的线上和线下品牌体验联系起来。他们的 SpeedForm Gemini 2 Record 配备的通过嵌入鞋的泡沫鞋底的物联网传感器设备和他们的同伴 UA MapMyRun 应用程序来跟踪跑步者的时间、节奏、持续时间、距离等。成绩数据通过蓝牙技术发送到应用程序,允许跑步者在与应用程序同步成绩数据之间最多跑 5 次。

听起来像跑步者的梦想吗?这也是一个品牌的梦想。心率、跑步地图和个性化音频指导等表现数据可以告诉安德玛,跑步者是一个随意的、当我喜欢它时的表演者,还是一个更专注的马拉松教练。通过跟踪跑步者的表现和鞋子状况,安德玛赢得了提供替换产品、增强表现的配件等的绝佳机会,并通过及时、相关、因此受欢迎的 MapMyRun 推送通知。

线上和线下品牌体验的沟通对消费者和品牌都有好处。在所有频道上,体验都是个性化的,这是消费者愿意做的隐私交易。埃森哲称,缺乏个性化仅在 2016 年就让品牌损失了 7560 亿美元。

没有为 360 度全渠道个性化做好准备的品牌正在出局。

对于今天 60%的高管和营销人员来说,个性化仅限于一个渠道,并且只集成在他们的部分技术堆栈中。全球只有 22%的品牌承认有跨职能团队跨渠道执行个性化。

虽然品牌可能没有认真对待全渠道个性化,但消费者是认真的。《哈佛商业评论》发现与只与一个品牌渠道互动的人相比,全渠道零售客户的店内支出多 4 %,网上支出多 10%。

为了在未来的个性化客户体验(CXs)上竞争,品牌必须努力实现真正的 360 度全渠道视图以及与客户互动的能力。这意味着发展跨职能团队和端到端技术基础设施,不仅要对今天的线上和线下客户行为进行 360 度全方位的观察,还要准备好将新兴技术和渠道整合到组合中,以便对客户进行持续、可预测的 360 度了解和拓展。

关于人工智能(AI)在物流中的作用要知道的 4 件事

原文:https://towardsdatascience.com/4-things-to-know-about-the-role-of-artificial-intelligence-ai-in-logistics-f14323301900?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

确保公司的供应链工作流程在尽可能高的水平上运行的最重要的方法是拥有一个运转良好的物流团队。随着职业世界的日益数字化,越来越多的公司正在将人工智能(AI)添加到他们的供应链中,以便通过减少花费在计算如何、在哪里以及何时将包裹发送到某个地方的时间和金钱来最大化他们的资源。

从补充库存到寻找正确的运输方式和处理不可预见的路障,智能自动化公司如 WorkFusion 在开发智能算法方面表现出色,这些算法可以处理各种变量,并通过其机器人流程自动化平台 RPA Express 生产物流解决方案。如今,设定运输价格是一项既需要人力又需要智能软件的任务,因为这两者可以共同努力,根据当前的市场条件来确定货物的公平价值。

以下是关于人工智能及其在物流中的作用,你应该知道的四件事:

1)常见问题及解决方案

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最近的技术突破和托运人日益增长的需求推动企业探索人工智能以及它可以为物流团队提供的解决方案。该技术可以在供应链中提供的一些最常见的解决方案是资源管理、通过减少冗余和风险缓解来降低成本、支持传统预测技术、通过优化路线来加快交付、更好的客户服务等等。借助合适的智能自动化业务,公司能够无缝更新其 IT 系统,并增强其数据分析流程,以支持其物流流程。

2)负载成本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测货物的价格可能会很棘手,因为运输成本会随着季节的变化而变化,甚至会根据每天或每天的时间而变化。人工智能可以帮助监控这些条件,并根据交货时间和货物的“路线”和目的地选择正确的价格。这些算法监控一系列参数,如交通、天气和社会经济挑战,帮助公司达成双方都能同意的公平价格。即使将一件物品从旧金山运送到洛杉矶的成本与将一件物品从洛杉矶运送到旧金山的成本不同,即使由于各地的经济和路线不同,所有其他物流因素都相同。

3)优化库存

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能还在信息的民主化和可访问性方面发挥着作用,因为该技术可以提供公平的报价,以确保双方获得公平的交易,同时还可以监控库存和装载能力,以便卡车在执行交付时不会犹豫不决。该技术还可以保护和管理供应商库存以及可供交付的卡车数量。智能算法会提前提供这些信息,这样客户就可以知道特定库存和卡车的准确价格和可用性,以便未来送货。AI 还提供数据分析,以了解哪些承运商过去以什么价格和服务水平运送了什么货物。

4)应对突发情况

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当涉及到物流业务时,要做好意料之外的准备,因为一系列情况可能会影响产品的预期交付日期。飓风和洪水等自然灾害、承运人破产和员工罢工都会影响公司物流工作流程的自然进程。人工智能可以被训练从应急计划中学习,这些计划可以保证未来在紧急情况或中断的情况下采取纠正措施。如果天气袭击了原来的配送中心,该技术可以利用过去中断的信息来适应不断变化的环境,将卡车重新安排到不同的配送中心。

结论

物流和供应链是一个复杂的世界,需要大量的规划、弹性和在不可预见的情况发生时进行调整的能力。借助正确的人工智能平台,公司能够自动化物流工作流程,并为因道路建设或恶劣天气而脱轨的车辆选择备用路线。该技术还可以确保公司的库存得到补充,并确定哪些车辆最适合运输特定的货物,从而有助于减少确定运营物流所需的资金和时间。

关于 SAP HANA 的文本分析,我们不知道的 4 件事

原文:https://towardsdatascience.com/4-things-we-did-not-know-about-text-analysis-with-sap-hana-f6c8b3a79bf0?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: SAP

当谈到数据挖掘和文本分析时,我们并不缺少强大的软件和工具,让我们能够以对我们的业务有意义的方式分割信息。有一篇关于 KDnuggets 的文章提供了一个令人印象深刻的文本挖掘和分析软件列表,既全面又令人难以置信。

然而,在数据科学界,知道 SAP HANA文本分析有关的人并不多。因此,这篇文章是对使用 SAP HANA 进行文本分析的介绍。手续相对简单;重要的是可能的应用。

事不宜迟,我们开始吧。

为了便于说明,我使用了从 Kaggle 下载的亚马逊移动评论数据集的一个子集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A subset of Amazon mobile review data set — Text Table

在大多数情况下,我们需要在包含文本的表的列中创建一个索引表。索引表是进行文本分析的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Index Table Creation

“客户的核心声音”提取是一种标准配置,它提取核心配置之外的实体和事实,以支持情感和请求分析。这种配置是必不可少的,因为它识别与令牌相关的积极和消极情绪。这允许我们在与特定主题相关的语料库中评估观点。当我们执行这个时,它会创建一个索引和一个包含我们情感分析的表,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Core-Voice-Of-Customer Extraction — Index Table (1)

让我们详细看看索引表的列。

  • 文本表和索引表必须具有相同的 ID 列。
  • 因为我们在前面将我们的配置指定为“客户的核心语音”,这决定了我们的“TA 规则”列。
  • “TA_COUNTER”是对文档中的所有令牌进行计数的令牌计数器。在这种情况下,所有文档都是文本表中的十行字符串。
  • 文档在“TA_TYPE”列中派生了许多实体类型。
  • “TA_TOKEN”列表示这些实体的实际值或令牌。
  • “TA_LANGUAGE”列表示文档的语言。

情绪分析

也被称为“客户之声”,这是事实提取模块中一个有趣的部分。可以基于一组规则提取单词并为其分配匹配的情感,该组规则包括提取客户情感、请求、表情符号和脏话的要求。情绪可以分为强或弱、积极或消极等等。

  • 文本分析认识到,句子“充电口松了”的实体类型是情绪,单词“好”是强烈的肯定陈述,因为它在句子“到目前为止还不错!”。
  • 然而,句子“100 美元之后,我有一部可用的手机”中的“可用”一词是一种微弱的肯定陈述。
  • “loose”的实体类型是个小问题,因为“loose”这个词在句子“充电端口是宽松的”中。
  • 请求撤离。从上表中,已经提取了句子“电话不应该以它所处的状态出售”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Core-Voice-Of-Customer Extraction — Index Table (2)

  • 此外,文本分析识别出“电话”、“儿子”和“卖方”的实体类型是主题,“100 美元”是货币,“2.5 年以上”是时间段。
  • 单词“dang”与“damn”拼写错误,因此,它被归类为一个人。

语言分析

  • 如果我们在配置期间选择“LINGANALYSIS_BASIC ”,我们将简单地将输入文本分离成它的元素(标记化),如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_BASIC Configuration

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_BASIC — Index Table

  • 如果我们在配置期间选择“LINGANALYSIS_STEMS ”,我们将得到词干或字典形式(词干)的标识,如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_STEMS Configuration

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_STEMS — Index Table

例如,从上表中可以看出,“got”的词干是单词“get”,“need”的词干是单词“need”。

  • 如果我们在配置过程中选择“LINGANALYSIS_FULL ”,它将为我们提供标记功能(单词词性的标记)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_FULL Configuration

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LINGANALYSIS_FULL — Index Table

标记让我们有能力识别一个单词所属的语法类别。从上表来看,“problems”和“problem”是名词,“decide”和“decide”是动词。它识别并标记上下文中每个单词的词性。标记有助于我们理解句子或段落的意思。

语言

SAP HANA 支持 31 种语言。我今天只使用 5 种语言。为了便于说明,我创建了一个玩具桌子,上面有 5 行文字:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Text Table with Five Languages

这个句子来自关于麻省理工学院的最新消息。德语、日语、韩语和中文翻译是通过谷歌翻译完成的。如果不准确,我道歉。

下面是我们从上面的文本表中导出的索引表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sentiment Analysis for Five Languages — Index Table

我认为 SAP HANA 文本分析在识别四种语言方面做得相当不错(这里漏掉了韩语)。

宽容词干

目前有英语、荷兰语、德语和意大利语版本。该默认行为允许处理非标准拼写,以更好地最大化召回。让我们看一个例子。

  • 步骤 1,创建单行文本表格:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tolerant Stemming — Text Table

这里我们可以看到一些问题;“andrew”要大写,“daughterinlaw”在“in”前后要有连字符,“Birthday”不要大写。

  • 步骤 2,使用以下查询创建索引表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 步骤 3,选择列,使用以下查询创建结果表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 第 4 步,让我们看看我们的结果表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tolerant Stemming — Result Table

“安德鲁”被词干改为大写,“生日”被词干改为小写,“弟媳”被词干改为连字符。

自己试试

SAP HANA 文本分析包含很多我在这里没有涉及的功能。除了可用的文本数据之外,我们有许多选择来采用文本分析,提取我们需要的实体和事实。

如果你想做同样的实验,你可以很便宜地做到。学习新东西不一定要很贵。您可以下载 SAP HANA express edition 并报名参加关于使用 SAP HANA 平台进行文本分析的免费课程。然后让我知道学习进度如何!

人工智能改变教育行业的 4 种方式

原文:https://towardsdatascience.com/4-ways-ai-is-changing-the-education-industry-b473c5d2c706?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于人工智能(AI)的最新进展,学术界对学生来说变得更加个性化和方便。这项技术有许多应用正在改变我们的学习方式,让无法去上课的学生可以通过电脑或智能设备接受教育。受益的不仅仅是学生,因为人工智能还帮助自动化和加速管理任务,帮助组织减少花在繁琐任务上的时间,并增加花在每个学生身上的时间。

来自电子学校新闻的最近的一项研究发现,随着我们走向一个更加互联的世界,到 2021 年,教育行业人工智能的使用将增长 47.5%。该技术的影响将存在于从幼儿园到高等教育的任何地方,提供了利用个性化工具创建适应性学习功能的机会,以改善学生体验。这项技术或许能够更好地告知学生,基于他们特定的叙述,他们的工作前景可能会是什么样子,从而帮助他们超越他们的学术生活。WorkFusion 正在帮助组织使用智能自动化平台来改善教室中的评分和归档流程。

以下是人工智能改变教育行业的四种方式。

  1. 管理任务的自动化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如前所述,人工智能在自动化和加速组织和教授的管理任务方面具有巨大的潜力。给家庭作业评分、评估论文和给学生的回答提供价值是教育工作者花费最多时间的地方。人工智能已经可以自动完成多项选择测试的评分过程,以便让教育工作者花更多时间与学生一对一相处,但该技术可能很快就能做得更多。软件开发人员正在创造新的方法来给书面回答和论文评分。录取过程也将受益,因为人工智能可以自动处理和分类文书工作。

2)增加了智能内容

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

智能内容的概念现在是一个热门话题,因为机器人可以像人类一样创建具有相同语法能力的数字内容,这项技术最终进入了课堂。人工智能可以帮助数字化教科书或创建可定制的学习数字界面,适用于所有年龄范围和年级的学生。一个名为 Cram101 的系统利用人工智能将教科书中的内容浓缩成更容易理解的学习指南,其中包括章节摘要、练习测试和抽认卡。另一个名为 Netex Learning 的平台允许讲师和教授在各种设备上设计数字课程和内容,包括视频、音频和在线助手。由于人工智能,数字讲座和视频会议等虚拟内容现在也成为现实。

3)智能导师和个性化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能不仅仅可以将一堂课浓缩成抽认卡和智能学习指南,因为它还可以根据学生在课堂材料上遇到的困难来辅导学生。在过去,学生们能见到他们的教授的时间是有限的,这意味着办公时间或希望他们回复电子邮件。现在有像卡内基学习这样的智能辅导系统,它们使用来自特定学生的数据,以便给他们反馈并直接与他们合作。虽然这种人工智能应用程序仍处于早期阶段,但它很快就能成为一名成熟的数字教授,帮助学生满足任何领域的教育需求。此外,这些平台将很快能够适应各种各样的学习风格,以帮助每一位教育工作者和学生。

4)虚拟讲师和学习环境

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

甚至你真正的讲师可能很快就会被机器人取代。嗯,不完全是,但已经有虚拟人类向导和协调员可以通过使用手势识别技术以自然的方式思考、行动和与人类互动,对语言和非语言线索做出反应。随着南加州大学(USC)创新技术研究所等机构开发智能虚拟环境和平台,更加数字化的学习环境也正在成为现实。该组织使用人工智能、3d 游戏和计算机动画来创建真实的虚拟角色和社交互动。这项倡议不仅仅包括虚拟辅导员,因为增强现实可能很快也会成为教室的一部分。

连接学术界的世界

我们已经处于教育的未来,因为美国和全球其他地方的机构已经将人工智能添加到课堂上,希望它能让学生的工作更容易。这项技术还将用于改善管理任务和改善讲师管理课堂的方式。此外,该技术将为全国的机构节省数十亿美元的管理成本,减少管理费用,为更少的员工有效运作铺平道路。

数据可视化可以提高销售和营销一致性的 4 种方式

原文:https://towardsdatascience.com/4-ways-data-visualization-can-improve-sales-and-marketing-alignment-24af8706498d?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

骗局被揭穿了:一张照片的价值远远超过 1000 个字。这是科学。我们的大脑本质上是巨大的图像处理器——研究表明,传输到大脑的 90%的信息是视觉的。

你可以利用这种视觉力量来解决当今增长驱动型组织中最大的内讧问题之一——销售和营销之间的错位。

销售和营销之间的分歧最常见的原因是缺乏对彼此工作的理解。如果销售团队没有完成新业务,他们倾向于将其归咎于营销活动带来的低质量线索,而营销团队则将其归咎于杂乱无章的销售开发流程。

解决这类分歧的最佳工具是冷冰冰的硬数据。数据不容易被质疑,但首先它必须被理解。这就是数据可视化的用武之地。利用大脑对图像的偏好,您可以创建数据的可视化表示,这将使您的销售和营销团队更加高效和准确。

在你开始之前,你需要确保你有适合这项工作的工具——通常是一些 CRM 软件和营销自动化的组合,尽管许多销售/营销团队也使用第三方数据可视化工具来增强他们的本地报告能力,提供更多动态插图。

让我们仔细看看您的组织应该创建的一些销售和营销图表:

1.视觉引发变化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Hubspot

创造什么

显示合格销售线索转化为交易的百分比及其来源的动态图表。这些可用于将收入归因于营销活动。

为什么要创建它

在一项针对吸烟者的研究中,研究人员发现,那些看到反对吸烟图片的人比那些看到吸烟后果文字的人更有可能戒烟。这要归功于图像引发的情感反应——视觉记忆和情感记忆储存在大脑的同一个区域。

您可以利用这种联系来帮助触发销售和营销策略的变化,从而提高一致性。清晰展示该部门贡献高价值线索的方式的营销图表将推动销售人员更加努力地从这些来源获得未来的线索。与此同时,当营销人员看到他们的收入贡献中缺乏直观传达的方面时,他们更有可能采取快速行动进行改进。

显然,收入图表没有反吸烟广告那样的情感分量,但在一个充满利益相关者的房间里看到这种可视化的体验,将比收入的模糊概念更能推动变革。

2.视觉创造速度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Klipfolio

创造什么

共享 CRM 仪表板,直观显示销售线索渠道和当前正在进行的交易。

为什么要创建它

阅读电子表格中列出的数据报告可能需要几分钟时间。但是研究表明大脑可以在 13 毫秒内解读图像。这是破纪录的速度,正是在快速变化的销售和营销环境中做出反应所需的速度。

使用视觉效果来展示销售线索在渠道中的位置,这是一种改变游戏规则的方式,可以改善您的销售和营销渠道。

只需一瞥,销售团队就可以清楚地看到潜在障碍出现在他们的终端,并快速解决它们,进一步提高他们对营销对其渠道的贡献的理解。

同时,营销团队可以快速查看他们的销售线索在开发过程中的进展情况,并使用该信息调整营销活动。

3.视觉识别模式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Our brains are hardwired to quickly detect patterns.

创造什么

可视化分析过去的购买趋势,以建立更准确的理想客户档案,从而产生更高质量的销售线索。

为什么要创建它

当你阅读一份很长的报告或数据表格时,很难注意到模式。至少,你需要一支荧光笔(可能还需要一些阿司匹林)来记录所有的信息。

视觉效果不同。我们的大脑天生就能注意到物体之间的关系,快速准确地捕捉模式。

销售和营销团队可以利用这种力量来注意买家行为的趋势——最高转换率的流量来自哪里,他们的人口统计细节是什么,谁负责这些线索,等等。

理想的客户档案和渠道模式将很快出现,从而更好地瞄准高质量的销售线索,并在销售端进行更好的战略规划。

4.视觉效果令人难忘

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: Cyfe

创造什么

追踪带来最多和最少新业务的来源和活动的图表。

为什么要创建它

任何老师都会告诉你,让学生将信息锁定在长期记忆中的最佳方式——不仅仅是为了下一次突击测验——是将概念与相关的视觉效果配对。

事实上,研究表明,口头陈述三天后,听众成员只能记住 10%的内容。但是在口头和视觉演示三天后,观众能记住 65%的内容。

你不仅可以利用这一点来协调你的销售和营销团队,还可以维护这一点。每月(或每隔一段时间)创建图表,跟踪各种来源和活动的成功情况。

如果您不想构建新的可视化,您也可以构建一个仪表板,从您的活动中实时提取数据,并以图表、滚动条、计量器和其他插图的形式呈现出来。可视化地表示这些数据不仅可以帮助两个团队的成员在日常工作中记住每个来源的价值,还可以帮助他们注意到不同周期之间发生的变化。

如果你仍然需要数据可视化的力量的证明,看一看地图。毕竟,当你把它分解开来,地图是坐标和地理数据的图像表示。想象一下,试图从一个包含城市名称、纬度和经度的电子表格中找到自己的路。

轮到你了

视觉效果不错。将它们用于您的组织中的数据,您的营销和销售团队将很快找到折中的方法。

如果你没有预算订阅昂贵的第三方数据可视化工具,你也可以开始创建自己的营销图表,用这个免费工具显示实时数据。

本帖 原版 最早出现在 Visme 的 视觉学习中心

数据科学家面试失败的 4 种方式

原文:https://towardsdatascience.com/4-ways-to-fail-a-data-scientist-job-interview-d9c4c85c683?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo: Pixabay/www_slon_pics

“数据科学家”可能是本世纪最性感的工作。但是雇佣一个可不是那么回事。事实上,这对公司来说是极其痛苦的。对于有志之士来说,在核心数据科学领域获得一个完美的职位也是一件大事,这个职位不仅仅是一个荣耀的头衔,还能提供更多的东西。

虽然机器学习很难,但训练一个能让机器学习的人可能会更难(T2)。一个人通过专业知识的各种递增阶段发展成为一名多产的数据科学家。

对于试图确定一个的公司来说,这就像大海捞针。在 Gramener 雇佣数据科学家多年后,我看到了市场上一些明显重复出现的技能差距模式。虽然有数百种方法会导致面试失败,但这些方法可以归纳为四大途径。

拒绝的四种途径

考虑到在成千上万的申请者中只有少数人能够胜任这个丰富的机器学习职位,了解大多数人失败的地方是有帮助的。对于任何有抱负的数据科学家或希望升职的人来说,这些都是应该避免的明显陷阱。

意识到自己的弱点是改正它的第一步。

成为一名真正成功的数据科学从业者需要掌握一套专业技能。除了轻松的类比,还有什么更好的方式来说明这些角色的细微差别呢?我们将把这种成为数据科学家的经历与成为狙击手的经历进行比较,狙击手是另一项需要非凡技能的酷工作。

我们开始吧…那么,数据科学家面试失败的 4 种方式是什么?

1.用机器学习的流行语粉饰简历

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Inês Pimentel on Unsplash

和任何工作一样,在简历中加入行业术语可能很有诱惑力。数据科学并不缺乏术语。虽然这种装点门面的行为确实提高了简历被人力资源部门的自动评分机器人选中的几率,但这可能会很快适得其反。

不难发现,纸上声称的 高级 分析 技能实际上只不过是对 excel 数据透视表、SQL 查询或谷歌分析的基本熟悉。即使我们把浪费的时间放在一边,这种拙劣的策略也为巨大的失败和更大的消极情绪埋下了隐患。

对于我们有抱负的狙击手来说,这种行为等同于穿上士兵的服装,拿起一把枪,而没有投入训练成为一名士兵所需的时间。虽然听起来很荒谬,但一只羊披着狼皮去打猎一点也不好玩。

2.将建模简化为仅仅进行库调用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Zhen Hu on Unsplash

许多声称对建模了如指掌的候选人,除了解释模型函数调用和参数之外,还极力解释。甚至在问像随机森林这样的技术做什么之前,一个更重要的问题是为什么首先需要它。

公平地说,一个模型只需一行库调用就可以启动并运行。但是,机器学习远不止这些。人们需要理解,比如说,逻辑回归在哪里比 SVM 更合适。或者,当简单的外推比 ARIMA 或霍尔特-温特斯等预测技术更有效时。

一名优秀的狙击手需要做的不仅仅是瞄准射击。其实射击只是狙击学校里 20%的课程。一个人需要细致入微的技能,如耐心、纪律和良好的观察,才能从远处估计目标范围。

3.缺乏数据分析的基本要素

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Daniel Cheung on Unsplash

虽然对机器学习技术的直观理解可以成为候选人的一大优势,但他们往往就此止步。投资于实践培训,以掌握更基本的技能,如统计和探索性数据分析,往往被忽视。

建模只占分析生命周期的一小部分。在任何一个成功的 ML 项目中,超过一半的时间花在数据准备、争论和方法上。几乎四分之一的时间是在模型解释和推荐中。

即使候选人在项目中标榜 90%的准确性水平,当他们努力解释什么是 p 值时,这是一个悲剧。看到他们在解释为什么我们需要模型的置信区间时信心下降,令人心碎。

在所有学科中,牢牢掌握基础知识是至关重要的,狙击手首先需要成为一名优秀的步兵。如果一个人不会修理在战斗中卡住或走火的枪,那么优秀的枪法还有什么用?

4.无法应用分析来解决业务问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by James Pond on Unsplash

显然,掌握我们迄今为止讨论的所有方面是一项艰巨的任务。但我们仍然错过了链条中的一个关键环节,这也是大多数面试嘎然而止的地方。

数据科学家的最终使命是解决一个业务问题,而不仅仅是分析数据或构建一个伟大的模型。这是数据分析的圣杯。人们需要构建正确的业务问题,并逐步形成解决这些问题的一系列步骤。甚至在将任何数据加载到工具之前。

当被问到企业如何解决客户流失问题时,当候选人带着数据分析的想法冲进来时,这是一个谈话杀手,或者更糟的是,抛出模型名称来预测流失。一个更好的开始是调查客户为什么注册,他们期望的价值,以及什么影响业务。

想象一下,一个狙击手专家知道所有的一切,但不能隐藏和伪装在地下或选择正确的目标来消灭。这样的人是真正的危险人物,对他们自己的部队来说,内部的危险比敌人更大。

总结:追求数据科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by James Pond on Unsplash

总之,人们必须通过以下方式对数据科学进行严格的追求:

  • 通过重新构思问题并逐步形成一系列步骤来应对挑战,从而解决一个业务问题
  • 基本技能应用于统计和探索性数据分析,感受数据并迭代分析方法,
  • 选择一系列分析技术或机器学习模型,然后为业务用户设计和解释结果
  • 以及展示这些技能,并正确定位自己的专长,实现理想的角色契合

所以,祝你好运,弥合差距,并在分析人才市场创造一个凹痕!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Plugging the 4 common failure points in Data science interviews

如果你觉得这很有趣,你会喜欢阅读我最近写的关于如何获得非直觉超能力以在数据科学职业生涯中更快提升的文章:

[## 让你在数据科学职业生涯中不可或缺的 4 种超能力

了解数据科学行业的这些最大挑战,以避免职业生涯停滞不前

towardsdatascience.com](/4-superpowers-that-will-make-you-indispensable-in-a-data-science-career-6571e8e7d504)

对数据科学充满热情?随时在LinkedIn上加我,订阅我的 简讯

激活数据科学职业生涯的 45 种方法

原文:https://towardsdatascience.com/45-ways-to-activate-your-data-science-career-6a0d9c664e84?source=collection_archive---------1-----------------------

我们询问了 LinkedIn 小组成员,他们在成为成熟的数据科学家时面临的最大挑战是什么。一些最常见的挫折是:

不知道从哪里开始

缺乏经验

无法形成网络

难以联系到合适的人

作为回应,我们从 SuperDataScience 播客嘉宾那里收集了 45 个我们最喜欢的想法,来(重新)激活你的职业生涯。

这里引用的许多专家都将参加我们的活动, DataScienceGO 。为了有机会向他们请教,加入我们的,2018 年 10 月 12 日至 14 日,圣地亚哥!

当你开始的时候

学习

1.给自己时间。 Kimberly Deas 建议花一年时间学习数据科学的诀窍,从 C++这样的脚本开始,以适应编程的语法,并以此为基础进行构建。

2.**阅读!**播客嘉宾给了我们很多建议,我们无法一一列举,但这里有一些:

*信号和噪音,*内特·西尔弗

大数据:一场将改变我们生活、工作和思考方式的革命,维克托·迈尔·舍恩伯格和肯尼斯·库克 ier

*金钱球:赢得不公平游戏的艺术,*迈克尔·刘易斯

心灵的未来,*,*加来道雄

数据灌肠,克里斯蒂安舵

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.混合你的学习途径。单调带来了厌倦。参加网络课程?试着订阅一份杂志。只看课本?为什么不在上班的路上听听播客呢?向经历过你的人学习!

实践

4.不要拘泥于理论,要把你学到的东西应用到现实生活中去。艾玛·威特在分析她的体育锻炼数据时就是这样做的。

5.用 Excel 训练。克里斯·达顿说,对于初学者来说,Excel 是掌握数据科学基础的好方法,因为你可以看到你在处理数据时是如何操作数据的。

6.从 Python R 开始我们大多数播客嘉宾都有偏好。如果您不确定应该使用哪一种,Python 更加用户友好,可能是绝对初学者的最佳入门路线。

7.通过案例研究进行实践。Damian Mingle 说,数据科学家必须将他们的知识应用到现实世界的数据集中。

8.认清你的弱点。计划每周回顾,评估你可以如何改进。

9.构建自己的应用程序。它不需要被广泛使用:为了方便他的网上购物,保罗·布朗用 Python 开发了一个基本的脚本,这样他就可以在网上看到最好的折扣了!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

10.练习向外行人解释复杂的问题。 Greg Poppe 说数据科学家必须能够向最终利益相关者传达见解,他们中的许多人并不了解该领域。(作为额外的奖励,卡洛琳·麦科尔说,在悉尼,能够与利益相关者建立融洽关系的有效演示者可以获得 2 万到 3 万美元的加薪。

参与

11.根据丹尼尔·怀特纳克的建议,加入点对点导师计划。对于许多需要“认识正确的人”的数据科学初学者来说,这些程序可以很好地规避第 22 条军规。

12.**暗中获取导师。**不要在 LinkedIn 上联系潜在客户要求指导,而是通过询问他们对你工作的看法来发起讨论。

13.在线发布。这会给你一些东西给面试官看,并证明你的奉献精神。

14.**在社交媒体上升级你的游戏。**不要只发表自己的看法。博·沃克主张询问社区他们将如何解决问题。

15.帮助市民科普。正如加斯·佐勒所说,回馈社会总是有回报的。许多公民科学项目正在寻找志愿者。

16.定制您的邀请以建立联系。没有包罗万象的介绍。如果你在挣扎,得到回应的最好方法是解释为什么你特别想和他们联系。

17.参加竞赛。 Eu Jin Lok 指出,竞赛可以磨砺你的数据科学技能,并让你接触到需要它们的项目内部人员。

当你准备申请的时候

交际

18.培养你的人际网络。大卫·塔纳斯科维奇说,你只需要建立一个你非常了解的人际网络,然后向外拓展。如果你不知道在哪里,在线团体和数据科学事件是一个很好的起点!

19.保持社交。正如卡洛琳·麦科尔所说,公司经常在大型活动中推广新技术——确保你能到场观看。

20.保持消息灵通。阅读有关数据科学的最新新闻。它们不仅仅是面试中的话题;他们会让你在游戏中保持领先。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

促进

21.管理你的 LinkedIn 个人资料。安迪·克里贝尔注意到招聘人员正在关注 LinkedIn——确保关注你的数字足迹!

22.**写一份出色的简历和求职信模板。**理查德·道恩斯建议强调为什么你应该被考虑,以及你将给公司带来的好处。

23.**拥抱你的经历和教育。**像 Erika Dorland 一样,考虑如何将“不太相关”的主题在面试中表现为优势。

过滤器

24.关注你的兴趣,寻找与兴趣互补的工作。不要走老路,因为你认为这是找工作最安全的方式。正如 Nadieh Bremer 所说,当你充满激情时,你更有可能取得成功。

25.将公司分为大公司和小公司。是的,有特斯拉和 SolarCity,但也有更小的公司会给你更多的责任。

26.**分析竞争。**调查你未来公司雇佣的人,找出你们技能的相似之处。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

准备

27.准备相关问题例如:“你对数据科学家的定义是什么?”以及“公司的其他数据科学家如何投资于他们的个人培训和发展?”

28.拿出过去工作的例子 …并准备好谈论它们。尼古拉斯·塞佩达对他在 Tableau 课程中进行的一项练习的解释可能是他获得这份工作的原因。

29.带来价值,即使是面试!Sam Flegal 建议识别公司正在使用的工具,然后研究这些工具提供的数据。你的奉献将会脱颖而出。

当你作为一名数据科学家工作时

(重新)发现

30.复习基础。Deepak Prasad 表示,你的数据科学基础知识应该一直很扎实。

31.在你开始一个项目之前,把问题框起来*。对于加斯·佐勒来说,数据科学家最重要的技能是思考如何思考问题。在解决问题之前,考虑问题的相关性和背景。*

32.了解你为什么使用选择的工具。大卫·文丘里说,我们为什么使用特定的工具来完成一项任务,这背后总是有原因的,所以了解每个工具的用途是很重要的。

33.提升自己的技能。乔希·科尔森喜欢有“成长心态”的人——不断学习,寻求反馈,改善现状。

适应

34.要灵活。Harpreet Singh 说,最好的数据科学家是那些提出问题并从中形成假设的人,而不是一头扎进一个项目的人。

35.积极主动。Damian Mingle 希望数据科学家学习如何从业务问题中创建数据科学解决方案。这样做可以让你的角色成为公司未来的一部分。

36.找一个导师,最好是你能定期见面的人。不要害羞,也不要做不必要的选择:保罗·布朗说,他的一些导师只是看到了他的潜力的经理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

37.纵观全局,问问自己所做的事情是否有价值。如果你没有为公司提供价值或收入,考虑一种不同的方法。Richard Hopkins 认为,理解如何在操作环境中使用数据经常被忽视。

38.不要忘记可视化工具。了解数据的形态有助于其分析。Tableau 对简化 Megan Putney 的工作产生了巨大的影响,因为它让她一眼就能找到她需要的数据。

39.与合适的人交谈。 Ruben Kogel 让面临类似工作挑战的人联系起来。类似的主题开始出现在他们的讨论中,这使他们能够迅速找到最佳解决方案。

生产

40.成为评书高手。维塔利·多尔戈夫的导师建议他带客户踏上旅程,首先将问题可视化,然后提供合理的解决方案。

41.要有选择性。Harpreet Singh 说,为了产生更大的影响,拥有领域专业知识是至关重要的。在你职业生涯的这个阶段,你将拥有足够的基础知识,可以专攻某个专业。

42.创建在线课程(上)。比起像 Udemy 这样的课程网站,YouTube 是一个很好的试水平台。Ulf Morys 建议观看 Geoffrey Hinton 关于神经网络发展的系列演讲。

43.**创建在线课程(二)。**当你更有信心的时候,访问 Udemy,搜索与你的主题相关的术语。检查你的主题是否有需求。为创建内容和制作课程制定路线图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

支持

44.促进那些你没有直接受益的介绍。谁知道那件好事将来会对你有什么帮助呢?

45.成为咨询师。珍·安德伍德说,拥有一家公司的好处是她可以专注于让她振奋的项目。

这些是我们从 SuperDataScience 播客中获得的顶级建议,每一条都是精心挑选的,目的是让你离重新开始你的职业生涯更近一步。

但是,如果您希望获得更多信息,请与我们提到的许多专家会面,并加入数百名其他数据爱好者的行列,让他们的数据科学职业生涯更上一层楼,点击此处,参加我们 2018 年 10 月 12 日至 14 日的直播。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Click here to reserve your seat!

歌词 49 年:基于 Python 对 1970 年至 2018 年流行音乐语言变化的研究。

原文:https://towardsdatascience.com/49-years-of-lyrics-why-so-angry-1adf0a3fa2b4?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在过去的 49 年里,歌词变得更具攻击性和亵渎性了吗?我们使用 SpaCy 和 Keras 进行调查。

背景

这篇文章最初是作为一个关于流行音乐与几年前相比是好是坏的争论开始的。有几个理论可以解释为什么特定时间范围的音乐会引起我们的共鸣,这肯定会影响我们对音乐和艺术等主观事物的公正性。这里有一篇关于神经怀旧的优秀文章,详细讨论了这个问题。

但对我来说,作为一个数据驱动型的人,我认为某种程度的定量分析可以发挥作用。如果我能够浏览 1970 年至 2018 年的音乐,并从自然语言处理(NLP)的角度调查歌词,我会发现什么?我的意思是,我知道90 年代末的音乐是有史以来最好的音乐(见上面的神经怀旧文章),但我如何证明/反驳这一点呢?我怎么能测量如此主观的东西呢?

我还想向其他研究人员/数据科学家/爱好者提供一些例子,说明如何收集、构建基于开源网页的数据,然后用于 API 调用。此外,我想展示如何使用空间来标记歌词,这样它们就可以通过一个训练有素的人工神经网络来输入。我使用 Requests、BeautifulSoup 和 SpaCy 进行收集和数据准备任务,使用 matplotlib 和 seaborn 进行可视化,使用 Keras 和 Tensorflow (GPU)来训练 ANN,然后用它进行预测。

关于附带代码的说明

您还会从 github repo 中的许多代码中看到,我专注于线性和可读性,以便其他人可以挑选适合他们目的的代码部分。它通常不会针对性能进行优化,我真正关注的是调查。你可以在这里找到 github 的所有源代码。

假设

在更多的争论之后,我们想出了下面的衡量标准,这些标准将被用来测试歌词,看看它们在 49 年间是如何变化的:

  • 每首歌的总字数作为复杂性的度量。
  • 每年最常用名词的变化。
  • 副词的年使用量。
  • 每年歌曲中出现的亵渎性/争议性词语(本身就是主观的)的数量。
  • 歌曲中攻击/敌意的程度(我们将为此任务建立一个 Keras 序列模型)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设如下:

  • 从 1970 年到 2018 年,单词量和语言复杂度都有所增加。
  • 几个常见的名词出现在歌词的整个范围内,但最常见的名词会随着时间的推移而变化。
  • 随着时间的推移,副词变得更具攻击性。
  • 歌词中的亵渎性在过去 20 年(1998 年至 2018 年)显著增加。
  • 现在的歌曲比 20 世纪 70 年代更具攻击性。

辅助实验(即将推出…)

我还将遍历歌词数据,查看特定的新术语何时出现在歌词中,这些新术语以前从未出现过。诸如“互联网、黑莓、iPhone、恐怖主义、经济衰退”之类的术语(在未来某个日期出现)。

我们开始吧!

数据收集

我们使用三个数据集来运行这个实验:

  1. 我们将自己收集一个数据集,其中包括 1970 年至 2018 年间的 3400 多首歌词。
  2. 来自 www.freewebheaders.com的禁止/限制词列表,我们将用来评估歌词中亵渎的感知水平。
  3. 来自 Kaggle (最初用于检测网络巨魔)的训练数据集,我们将用来训练 Keras 顺序神经网络。然后我们将旋转训练好的神经网络来预测一首歌是否被认为是攻击性的。

初始收集(网页抓取)

我在网上找不到任何现成的歌词数据来做这个实验,所以我看了看 billboard.com 的年终 100 首歌曲。虽然他们有追溯到 70 年代以前的记录,但他们的数据集中有很多空白,包括 1991 年至 2006 年的前 100 名名单。幸运的是,有另一个网站(bobborst.com/)是由一个真正的音乐爱好者策划的,所有 2017 年之前的内容都可以在那里找到。

因此,大部分种子数据将从http://www.bobborst.com/收集,其余数据将从 billboard 收集。

我使用 Python 的请求库来获取数据,然后使用 beautiful soup(https://www.crummy.com/software/BeautifulSoup/bs4/doc/)来执行收集。这是一个有趣的任务,因为一个网站是由 html 表组织的,另一个是由 div 组织的,所以我需要两个不同的转换。收集到的数据被存储在一个名为“所有歌曲”的熊猫数据框架中

完整的代码片段见下面 Github 上的函数。

def collect_songs_from_billboard(start_year,end_year):

随着初始数据收集的完成,我现在有了 4900 首歌曲的艺术家、排名、歌名和年份。虽然我真的很专注于歌词,但我没有实验所需的东西。这就是 https://genius.com/发挥作用的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

all_songs.head()

歌词和元数据收集(通过 genius.com)

快速的谷歌搜索将我们带到了一个名为lyricsgius的库,它很好地包装了 genius.com API。然后,我们可以使用一个循环来遍历 all_songs,以便收集每首歌曲的歌词。这个 API 还为我们提供了专辑、发行日期、任何相关的 URL、歌曲作者以及歌曲的任何主要艺术家。下面是其工作原理的一个片段(完整代码见 Github)。

api = genius.Genius("YOUR API KEY GOES HERE", verbose = False)
try:
    song = api.search_song(song_title, artist = artist_name)
    song_album = song.album
    song_album_url = song.album_url
    featured_artists = song.featured_artists
    song_lyrics = re.sub("\n", " ", song.lyrics)
    song_media = song.media
    song_url = song.url
    song_writer_artists = song.writer_artists
    song_year = song.year
except:
    song_album = "null"
    song_album_url = "null"
    featured_artists = "null"
    song_lyrics = "null"
    song_media = "null"
    song_url = "null"
    song_writer_artists = "null"
    song_year = "null"

我们需要在这里使用 try/except,因为在 Billboard/鲍勃·博斯特存储艺术家/歌曲的方式与 genius.com 存储艺术家/歌曲的方式之间经常存在差异(例如,and vs &,以 The 开头的披头士乐队,等等)。我在检查一些遗漏时处理了其中的一些,但总体上决定看看我从最初的 4900 首歌曲中获得了多少。API 调用不是很快,所以遍历整个集合需要大约两个半小时才能完成。

调查数据(阶段 1)

一般数据特征

在我扔给 genius API 的 4900 首歌中,我拿回了 3473 首。我用《熊猫》和《T4》来观察歌曲年复一年的分布情况,看看有多少没有出现,以及这是否会对剩下的实验产生巨大的影响。

我运行了两次 API 集合,一次没有任何替换,一次替换了 Beatles、Jackson 5 和&。结果如下:

  • 无替代:3378 条记录(占记录总数的 68.9%)。
  • 替换:3473 条记录(占记录总数的 70.9%)。95 项记录的增加。

一些手动的进一步检查显示,有几首歌曲的标题在两个数据集上不匹配。我们可以花更多的时间来检查异常,但我们将继续了解我们没有 100%的数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Songs with Lyrics

从上面可以看出,我们在 1990 年获得的数据量最多,在 2010 年获得的数据量最少。在我们继续进行的过程中,我们会记住这一点。

数据准备

对于数据准备,我们希望获得三样东西,2 个用于特征目的(这将有助于我们对语言复杂性的轻量级评估),更关键的一个是从歌词中提取名词、动词、副词、停用词和特殊字符,以便执行一些更核心的分析。

空间标记化

SpaCy 是一个相当工业化的 NLP 库系列,可以快速跟踪数据准备,并可用于基于其预训练模型的所有其他类型的文本分析。我强烈建议在这里阅读初级读本。

对于这个实验,我编写了一个函数,它获取动词、副词、名词和停用词词类(POS)标记,并将它们推入一个新的数据集。然后,我们将它们提取出来,并返回到一个丰富的数据集中,使我们能够进一步调查数据准备好通过我们的亵渎检查和我们的攻击性人工神经网络。检查名为的函数:

def add_spacy_data(dataset, feature_column):

欲知详情。

我还使用 split 和 set 来计算每个数据集中的单词数和唯一单词数。让我们来看看新增加的数据。

调查数据(第 2 阶段)

我们现在可以看到我们丰富的数据集,其中包含更多细节:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Enriched Row Example

我们在这里看到,我们有动词,名词,副词,语料库,字数,独特的字数现在可供我们使用。在这种情况下,我们删除了停用词,因为它们本身通常没有太多意义,我们希望将重点放在有影响的词上。让我们进一步看看单词故障。

歌词(原创内容)

[Verse 1] When you're weary Feeling small When tears are in your eyes I will dry them all I'm on your side When times get rough And friends just can't be found Like a bridge over troubled water I will lay me down Like a bridge over troubled water I will lay me down  [Verse 2] When you're down and out When you're on the street When evening falls so hard I will comfort you I'll take your part When darkness comes And pain is all around Like a bridge over troubled water I will lay me down Like a bridge over troubled water I will lay me down  [Verse 3] Sail on Silver Girl Sail on by Your time has come to shine All your dreams are on their way See how they shine If you need a friend I'm sailing right behind Like a bridge over troubled water I will ease your mind Like a bridge over troubled water I will ease your mind"

语料库(删除了停用词、标点和小写字母)

verse 1 when be weary feel small when tear eye I dry I be when time rough and friend not find like bridge troubled water I lay like bridge troubled water I lay verse 2 when be when be street when evening fall hard I comfort I will when darkness come and pain like bridge troubled water I lay like bridge troubled water I lay verse 3 sail silver girl sail Your time come shine all dream way see shine if need friend I be sail right like bridge troubled water I ease mind like bridge troubled water I ease mind

副词

when when when just not when down out when when so hard when all around how right

名词

verse tear eye side time friend bridge water bridge water street evening part darkness pain bridge water bridge water time dream way friend bridge water mind bridge water mind

动词

be feel be will dry be get can be find will lay will lay be be fall will comfort will take come be will lay will lay sail sail have come shine be see shine need be sail will ease will ease

我们将绘制词频(总的和唯一的),以及每年使用的平均词频,看看我们是否能证明我们的复杂性增加和名词在 49 年间的演变。

每年平均字数和独特字数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Songs Collected, Average Words, and Unique Words per Year

从上面的图表中我们可以看到,从 1970 年到 2018 年,每首歌的单词量一直呈上升趋势,一般来说,独特的单词随着总单词量的增加而上升。我们还可以看到,收集的歌曲总数似乎对这两者都没有直接影响。我们也可以用一个堆叠的条形图来看这个,看看是否有更多的见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Songs Collected, Average Words, and Unique Words per Year (Stacked Bar)

这有助于我们确定 1978 年出现了最低数量的独特词,也支持了一个假设,即(通过独特性和字数的衡量)歌词随着时间的推移变得越来越复杂。我们也可以用 matplotlib 的 subplot 特性来叠加多个维度。这将有助于我们想象是否有任何明显的相关性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Songs Collected, Average Words, and Unique Words per Year (Multi Axis)

从这个角度来看,我们确实可以看到独特的单词和总单词彼此密切相关,并且收集的歌曲数量似乎与这些值没有明显的关系。其实当一些最复杂的歌词出现的时候,收藏其实是比较低的。由于我们对字数和唯一字数都进行了平均,如果数据导致了过大的问题,我们会看到收集未命中的下降。

看起来我们歌词最复杂的年份是 2004 年和 2005 年。下面我们就来看看他们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Most Words, 2004

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Most Words, 2005

我们可以在这里看到,在这两种情况下,前 5 名都是说唱/嘻哈歌曲,这在这种情况下是有意义的,因为这两种类型都是词重于当时的一些更流行的歌曲。您可以检查代码以获得更多与数据交互的方式,但是可以说使用独特的单词得到的结果是相似的。我没有能力收集歌曲的流派信息,但我认为你会看到这些流派在这个时间段非常流行,这将再次支持字数的增加。

我们来看一两个字云。

我写了一个函数,将 wordcloud 库包装成我喜欢的格式和字体包,并在这里通过它推送了一些年的数据。实际上,我在日常调查中大量使用词云来识别异常值和术语,这些异常值和术语可能会使我构建的模型产生偏差。他们也可以很漂亮。**请注意:**由于一些歌词可能包含亵渎的内容,这可能会显示在单词 clouds 中。

我们将看看最低复杂度和最高复杂度的年份,看看每个年份中最常见的是什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1972 Word Cloud

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2004 Word Cloud

在单词 clouds 上面,看起来像诗句出现了很多。那是因为它们在歌词里是位置标记。我们可以回过头来把它们当作停用词,但是由于它在整个数据中似乎是一致的,我们或许可以继续下去。如果我们再回来,我们可能要清理它。单词云非常适合这个。

现在来看看这些年来最常见的术语。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Nouns over the Years

从上面的形象化来看,好像爱情在 1993 年达到顶峰,然后被婴儿取代,接着被什么取代,但那真的是一个代词,所以我们可以倒向时间。宝贝在 2012 年过得很好。这支持了我们的假设,即歌词的主题随着时间的推移发生了变化,即使我们把它限制在所有年份看到的词。

亵渎分析

现在我们理解了数据,我们知道字数增加了,主题也变了,看起来我们的收集没有因为每年记录的差异而有太多偏差。我们现在可以继续分析歌词中亵渎的频率。

关于偏差的一点注记

我们用来检测脏话的字典是基于当今的文本、对话和媒介,所以它可能偏向于更现代的歌曲。我们可以凭直觉认为,今天的歌曲有更多的公开的亵渎,但我没有一个更古老、更隐蔽的亵渎形式的列表来进行这个实验。记住这一点,让我们继续。

我从 www.freewebheaders.com 下载了一本字典,里面有他们列出的 facebook 等网站的禁忌词汇。你可以在链接上读到更多,但只有在你不容易被冒犯的情况下才真正打开文件,它包含一些相当可怕的语言。然后,我遍历数据集,查看这些词何时出现,将它们与歌词一起存储,然后计算出现的频率。结果如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bad Words per Year

这张图表支持了我们的假设,即近年来有更多的脏话,但这里有三个有趣的点:

  • 从 1991 年起,亵渎行为显著增加。这可能是由于图表中增加了以前审查过的内容。
  • 90 年代中期和 2000 年代中期亵渎行为有了显著增加。这很有趣,因为它发生在 20 多年前。
  • 2018 年是有记录以来最世俗的一年。因为在写作中,脏话通常与积极性无关,这似乎支持了我们的攻击性增加假说。

攻击性分析

为了进行攻击性分析,我在 Kaggle 上找到了一个数据集,其中包含标记为攻击性/非攻击性的短信。我寻找一个隐蔽/公开/非攻击性的,但没有任何运气。

数据集包含 20,001 条消息,经过简短的空间处理(与歌词使用的方法相同)后,数据准备好传递到 scikit-learn 的计数器矢量器,然后,单词包数据准备好,传递到 Keras 顺序模型。你可以在这里找到一个不错的关于 Keras 入门的轻量级教程。

我为模型尝试了几种不同的配置,但是当我将特性限制在 250 个时,产生了最积极的影响,考虑到源数据的简短性质和缺乏主题复杂性,这是有意义的。它可能不会像我们在完美世界中希望的那样将许多歌曲归类为攻击性,但我们正在寻找攻击性的上升趋势,并且该模型将平等地应用于所有数据。

Keras 模型相当深,我添加了多个下降层来帮助避免过度拟合。当我向模型中添加更多的层时,我会稍微提高精确度,并且数据集足够小,很容易测试。

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense_49 (Dense)             (None, 128)               32128     
_________________________________________________________________
dropout_25 (Dropout)         (None, 128)               0         
_________________________________________________________________
dense_50 (Dense)             (None, 512)               66048     
_________________________________________________________________
dropout_26 (Dropout)         (None, 512)               0         
_________________________________________________________________
dense_51 (Dense)             (None, 512)               262656    
_________________________________________________________________
dropout_27 (Dropout)         (None, 512)               0         
_________________________________________________________________
dense_52 (Dense)             (None, 250)               128250    
_________________________________________________________________
dropout_28 (Dropout)         (None, 250)               0         
_________________________________________________________________
dense_53 (Dense)             (None, 250)               62750     
_________________________________________________________________
dropout_29 (Dropout)         (None, 250)               0         
_________________________________________________________________
dense_54 (Dense)             (None, 250)               62750     
_________________________________________________________________
dropout_30 (Dropout)         (None, 250)               0         
_________________________________________________________________
dense_55 (Dense)             (None, 128)               32128     
_________________________________________________________________
dense_56 (Dense)             (None, 128)               16512     
_________________________________________________________________
dense_57 (Dense)             (None, 128)               16512     
_________________________________________________________________
dense_58 (Dense)             (None, 1)                 129       
=================================================================
Total params: 679,863
Trainable params: 679,863
Non-trainable params: 0
_________________________________________________________________

git repo 中有两个 Jupyter 笔记本,一个有收集和分析代码,另一个有 ANN 训练代码。如果您自己运行这个,请确保在您尝试将它加载到分析代码之前,首先训练 ANN。那里有关于如何保存、加载和管道化你的模型的例子。

让我们看看我们的 ANN 预测了什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Aggressive Songs Per Year

从上面我们可以看到,我们的攻击性预测模型认为很多歌曲都是攻击性的,但它本身的趋势看起来有点下降,这与我们的假设相反。我们可以通过再次使用 matplotlib 的子图/多轴特性来查看它们的叠加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里,我们可以看到,当你缩放这两个图时,给定收集的歌曲数量与发现的攻击性歌曲数量,歌曲在 2002 年一直在攀升和反转。我们有理由怀疑我们的模型在预测方面的整体准确性,但这种基于遥远但可用的数据集(网络欺凌消息)的轻量级方法可以帮助我们了解情况。在这种情况下,我认为有足够的指标让我想要寻找更丰富的数据集和更复杂的方法来建立一个攻击检测模型。

结论

所以我们在这里。我们收集了自己的种子数据,用它从 API 中提取更多的数据,为文本分析准备数据,对照亵渎词汇的字典进行检查,建立一个人工神经网络来检测攻击行为,然后根据我们的数据运行它。让我们重温一下我们的假设,看看我们学到了什么。

  • 从 1970 年到 2018 年,单词量和语言复杂度都有所增加。
  • 支持。我们可以看到,通过测量频率和独特性,歌词已经变得复杂。
  • 几个常见的名词出现在歌词的整个范围内,但最常见的名词会随着时间的推移而变化。
  • 支援。我们现在知道爱在 1996 年失去了价值,但从未真正消失。1993 年和 2012 年是宝宝最好的时光。
  • 随着时间的推移,副词变得更具攻击性。
  • 不支持。我甚至没有画出图表,因为数据是如此不确定。请随意查看 git repo 并进行探索。
  • 歌词中的亵渎性在过去 20 年(1998 年至 2018 年)显著增加。
  • 支持。2018 年是有记录以来最亵渎的一年。
  • 现在的歌曲比 20 世纪 70 年代更具攻击性。
  • 可能支持。我们怀疑我们的人工神经网络(82%基于它自己的数据)相对于歌词数据集的准确性,但它确实支持更多研究的需要。

感谢阅读,让我知道你还想看什么!

推荐引擎可以为企业带来的 5 大优势

原文:https://towardsdatascience.com/5-advantages-recommendation-engines-can-offer-to-businesses-10b663977673?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ref — www.avari.com

在我们之前的博客中,我们已经解释过什么是推荐引擎以及它们的工作方式。实现推荐引擎的主要目的是让客户购买更多的产品。如果不能,那么它就违背了拥有推荐引擎的目的。

现在既然有了产品推荐引擎主要靠数据运行。您的公司可能没有足够的存储容量来存储来自您网站访问者的大量数据。您可以使用 Hadoop、Spark 等在线框架,这些框架允许您将数据存储在多个设备中,以降低一台机器的可靠性。Hadoop 使用 HDFS 将文件分割成大块,并将其分布在集群中的节点上。这使得数据集的处理速度更快、效率更高,相比之下更传统的超级计算机架构依赖于并行文件系统,计算和数据通过高速网络分布。

最后,我们使用 MapReduce 编程模型处理大数据集。这样,我们可以同时在分布式文件系统中运行该算法,并选择最相似的集群。因此,任何组织都可以使用开源工具开发自己的推荐引擎架构,我们可以使用我们的专业技术帮助他们实现该引擎。

产品推荐引擎的优势

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ref — http://www.business2community.com/strategy/product-recommendation-engines-mean-business-0893268

你不需要通过市场调查来确定一个顾客是否愿意在一个能最大限度帮助他们找到合适产品的商店购买。他们将来也更有可能回到这样的商店。为了了解推荐系统的商业价值:几个月前,网飞估计,它的推荐引擎每年价值 10 亿美元。

以下是企业使用推荐引擎可以获得的 5 个好处:

收入— 多年的研究、实验和执行主要是由亚马逊推动的,如今,不仅在线客户的学习曲线减少了。许多不同的算法也已经被探索、执行和证明,以驱动相对于非个性化产品推荐的高转化率。

客户满意度— 很多时候,客户倾向于在上次浏览时查看他们的产品推荐。主要是因为他们觉得会找到好产品更好的机会。当他们离开现场后又回来时;如果他们以前的浏览数据是可用的,那将会很有帮助。这可以进一步帮助和指导他们的电子商务活动,类似于实体店的经验丰富的助理。这种类型的客户满意度导致客户保持。

个性化— 我们经常接受朋友和家人的建议,因为我们相信他们的意见。他们比任何人都清楚我们喜欢什么。这是他们擅长推荐东西的唯一原因,也是推荐系统试图模仿的。您可以使用间接积累的数据来改善网站的整体服务,并确保它们符合用户的偏好。反过来,用户会有更好的心情购买你的产品或服务。

**发现——**例如,iTunes的“天才推荐”功能,Amazon.com 的“经常一起购买”会做出令人惊讶的推荐,这些推荐与我们已经喜欢的东西相似。人们通常喜欢被推荐他们喜欢的东西,当他们使用一个与他/她的选择非常相关的网站时,他/她必然会再次访问该网站。

提供报告—个性化系统的组成部分。向客户提供准确和最新的信息,使他能够对自己的网站和活动方向做出可靠的决定。基于这些报告,客户可以为滞销产品提供报价,从而推动销售。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ref — www.avari.com

当然,进行网上销售是令人满意的,但如果你能做得更多一点呢?电子商务组织可以使用不同类型的过滤(协作、基于内容和混合)来创建有效的推荐引擎。很明显,亚马逊在这个原则上是成功的。每当你买一个动作人偶,就会根据内容本身推荐更多的东西给你。例如,DVD 是根据你刚买的动作玩偶制作的。

向客户推荐优秀产品的第一步就是要有勇气投入到更好的转化中去。请记住——真正吸引客户的唯一方法是与每个人单独交流。

有更先进和非传统的方法来驱动你的推荐过程。这些技术即深度学习、社会学习和张量分解基于机器学习和神经网络。这样的认知计算方法可以让你的推荐者的质量更上一层楼。此外,随着最近聊天机器人的采用,它可以与推荐引擎相结合,提供产品的后续服务。可以肯定地说,产品推荐引擎将随着机器学习的使用而改进。并创建一个更好的客户满意度和保留流程。

5 大数据可以给零售业带来的惊人改善

原文:https://towardsdatascience.com/5-amazing-improvement-big-data-can-bring-to-retail-2c70bdd5a871?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在公司开展业务的方式中,数据正在慢慢取代经验和传统。它已经在不同的垂直领域证明了自己的价值,包括金融、医疗保健,当然还有零售。这场革命始于 20 年前杰夫·贝索斯关于个性化的宣言。他是第一个理解大众营销将会终结的人,而拥有数百万个版本的单一商店来满足每个顾客的怪癖,将会推动销售。

数据让您以客户为中心

作为零售商,将客户放在每一项举措的核心位置,只会刺激增长和投资回报。但首先,你必须尽可能地了解你的客户。收集个人数据通常是一个令人不快的过程,但大多数客户会向定制服务投降。当然,你应该在尽力帮忙和打扰之间保持一条微妙的界限。通常,记住以前搜索和订单的细节,建议补充产品并确保运输细节是最新的被认为是安全的。

多渠道的流行给组织带来了一个新问题。跨各种平台分析客户旅程的每一步,以提升再营销力度并确保销售,是大数据的最佳使用案例之一。来自it transition的研究人员了解到,在销售漏斗中小心翼翼地跟踪客户,创造全渠道体验,可以提高客户的忠诚度。

数据减少流失

关注客户的需求是确保你不会总是试图取代现有客户群的一种方式。研究表明,吸引一个新客户的成本是保持现有客户的七倍。数据可以揭示长期客户的模式,并帮助公司识别新的线索和最有可能在未来产生相对更多利润的客户。通过针对这些类型的客户量身定制促销活动,零售商可以创造更强的纽带。实现这一目标的有效方法是使用聚类算法,将客户分成自然的群体,并解决每个群体的需求和特殊性。

数据改善供应链

大数据不仅有助于满足客户需求,还有助于履行管理职责。库存分析是避免供应过剩并确保你总是有足够的畅销商品的最好方法之一。通过考虑趋势、季节性和其他关键因素的预测分析,基于大数据的模型可以帮助零售商获得正确数量的产品或正确数量的原材料。通过销售的 SKU 的实时可视化,有可能实现实时订购以补充它们。通过将内部数据与外部信息(如天气或公共新闻)聚合,组织可以提高效率,并使系统高度适应真实的市场条件。

策略计划

不仅供应链可以由大数据驱动,长期计划也是如此。着眼于购买模式,零售商可以创造更合适的定价模式,摆脱传统的季末销售。对不太受欢迎的产品进行动态促销和战略性销售,可以显著提高收入和利润率。例如,很多旅游网站根据特定目的地的需求和浏览器 cookies 识别的客户位置,制定自适应的价格模式。

推荐引擎可以分析过去的购买,并发现推荐购物车的补充产品的模式。当然,你不需要步塔吉特的后尘,在家人知道之前宣布怀孕,但是确定食谱的成分并推荐一瓶合适的葡萄酒会很受欢迎。

成本降低

已经实施大数据分析的公司注意到,受影响的流程也会改变员工的工作方式。虽然在最初的实施阶段,与大数据相关的修改可能会影响日常工作流并减慢业务速度,但在实施之后,情况会相反。

通过业务流程再造,有可能最大限度地降低成本,实现某些流程的自动化,并腾出更多时间专注于核心任务,而不是从事算法运行数据已经涵盖的管理工作。

大数据采用障碍

大多数公司仍然徘徊在探索阶段,看看技术能提供什么,起草可能的路线图,评估挑战和机遇。不到四分之一的零售公司处于参与阶段,测试试点项目并运行一些计划,只有微不足道的百分比已经做出了重大努力,类似于亚马逊的努力。目前,大多数组织仍在努力进行部署。

第一个障碍是定义大数据项目的范围。公司需要回答的最关键的问题是什么?他们应该分析哪些数据源?这些已经有了吗?数据干净可靠吗?

第二个挑战与分析此类数据的技术有关。大多数公司负担不起专门的数据科学团队,或者说这没有任何商业意义。幸运的是,有足够多的咨询公司提供适合任何预算和目的的解决方案。资助它似乎不再是一个真正的障碍。

第三,安全和治理问题不容忽视。操作大量客户数据会转化为运营风险。网络犯罪的威胁正在上升,但目前几乎没有公认的行业标准来帮助打击这些威胁。

IoT 是下一步吗?

虽然目前公司正试图从现有数据中获得所有可能的见解,但随着大数据分析提供的优势成为主流,他们将寻找新的来源。

保持竞争优势的一个可能的解决方案是部署物联网。这些可能包括跟踪传感器、与顾客手机互动的店内信标,以及指导购物助理的偏好。尽管目前这听起来像是科幻小说中的东西,但简单的传感器甚至忠诚度应用程序可以帮助零售商获得更多信息,了解我们喜欢什么,我们准备支付什么价格,以及什么让我们感到不舒服并离开商店,无论是在线还是离线。是的,大哥在这里,但他是好意。

5 2017 年人工智能和数据预测

原文:https://towardsdatascience.com/5-artificial-intelligence-and-data-predictions-for-2017-2d700fcb1751?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo credit Julian Hibbard

人工智能环境和为其提供动力的数据,看起来与一年前大不相同。下面的预测大致考虑了未来一年的公共景观、需要考虑的一些挑战以及如何让事情朝着正确的方向发展。

预测#1。洞察数据将取代大数据

“大数据”一词在 2016 年炙手可热,但没有人能就“大”的真正含义达成一致。数据的大小(来自任何来源)不会神奇地赋予重要性。数据的价值来自于从中发现的洞察力。

将会有一个围绕数据的新对话,询问任何给定情况、流程或业务环境的核心是什么,以及更好的信息如何能够发挥优势。(数据)尾巴不要再摇了。

更好的理解依赖于一个明确的观点,这要归功于对特定领域、情况或一系列经验的了解。拥有这些技能的人,能够“只见树木不见森林”,将会变得更有价值。

2017 年将是更需要对数据进行深思熟虑的洞察的一年,因为行业领导者意识到了数据的力量。工程只能解决部分问题;也需要不同的观点来为我们最紧迫的问题提供更好的解决方案。

预测二。后真相世界的数据

很大一部分公众越来越不信任官方数据或信息来源。走向后真相世界观的趋势将变得更强,并影响更多的公共和私人领域。

科学事实,一个专家或者行业的观点在呈现给大众的时候不能再作为一个奇点。任何事实都需要更充分的讨论来支持,以便更好地为主题提供信息。

使用既没有行话又没有居高临下的清晰英语至关重要。将更需要解释所提出的任何数据背后的理由,包括任何方法的背景和缺点。

任何数据或事实都需要考虑到受众。在上下文中使用讲故事来说明将有助于理解想法。这种对教育的需求应被视为与迄今为止尚未成功接触到的受众交流的机会。

未能让(所有)公众参与进来将导致日益扩大的分裂,这将影响到社会的方方面面,从政治到教育,从医疗到安全。持续缺乏外联将严重阻碍科技进步。

数据是让 AI 运转的燃料。没有数据,人工智能就变得没有活力。我们需要公众理解数据的重要性,如何使用数据,以及最终如何帮助他们。

预测三。公众对信息的需求。

与上述预测形成鲜明对比的是,公众将继续要求更多的数据来帮助做出明智的决策。当病人越来越多地使用搜索引擎和可用信息在线研究他们自己的情况时,这在医疗领域可以最明显地看到。

对帮助决策的更多信息的需要和渴望将扩展到生活的所有领域。随着对数据的访问变得更加自由,所有企业、组织和政府都应该接受并适应与消费者、受众或公民之间的关系变化。这一挑战应该正面应对,并成为战略规划的一部分。

应该减少对广告、公关或围绕公共传播的“宣传”的依赖,代之以更直接、更有深度的信息。一个消息灵通的受众可能是传播信息的最佳代表。

越来越有能力做出明智决定的公众可以成为一股强大的力量。企业、组织和政府都应该鼓励这种行为,成为信息来源和对话的一部分。现在,信息比以往任何时候都更能被视为力量,被视为塑造世界的方式。

预测#4。数据将被连接

孤立的数据将变得相互关联,因为组织意识到如果将数据留在存储中,它们将毫无价值。只有当数据被考虑、检查和测试时,它才变得有用。

此外,上下文中的信息比孤立的信息更有价值,因此,我们将看到更多的数据伙伴关系。这种情况会发生在不同的领域,不同的数据集提供了上下文,在同一个领域,对更广泛的数据集的不同观点是有价值的。

像 Google BigQuery 这样的方法将从网站分析扩展到更多领域,主题越来越多样化。

信息不是零和游戏,赢家通吃。相反,它在本质上越来越具有协作性,每个参与者都可以带来独特的视角并提出新的问题。

预测五。不使用人工智能的公司将会落后

虽然不会有一年人工智能接管,但人工智能的力量将变得对公众可见。最明显的例子就是无人驾驶汽车大规模出现在我们的街道上。到那时,没有嵌入该技术的汽车公司将被甩在后面,退回到旧的做事方式。

每个公司都应该考虑如何在他们的业务中潜在地使用人工智能。应该收集数据并检查流程。早期采用者获得了丰厚的回报。随着人工智能提高核心能力,其影响力将变得更加强大。任何迟到的人都将有一个非常陡峭的学习曲线,不仅是对技术,还有对数据应该采取的新方法。

在那些具有前瞻性思维、拥抱人工智能和新可能性的公司和那些无法适应的公司之间,将会出现分裂。速度和影响将比我们见过的任何一次技术颠覆都要大。

5 份数据科学摘要

原文:https://towardsdatascience.com/5-bite-sized-data-science-summaries-a5afb8509353?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本着团队合作的精神, Next Rewind 视频系列要求一群人从谷歌云 Next SF 2018 中挑选五个最喜欢的演讲,并在不超过五分钟的时间内对着镜头进行讨论。

5 个最喜欢的演讲。5 个视频摘要。5 分钟或更少。

我去了吗?你打赌!部分原因是因为我喜欢和大家分享让我开心的东西(惊喜!)部分原因是因为一年前我真的不擅长在摄像机前说话——除非我强迫自己练习,否则我永远也征服不了它无情的一眨不眨的眼睛。运气好的话,我会学着在应该指右边的时候停止指左边…

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Niiiice pointing over there, buddy.

5 个最喜欢的演讲

以下是 2018 年我最喜欢的 5 个演讲,以及我选择它们的原因。我有从 300 多个演讲中选择的优先权,所以这些话题不是多余的!我认为数据科学爱好者最欣赏的就是他们。

所以,事不宜迟,以下是我的清单,从最基本到最基本排列。

#1 真正的企业已经将人工智能用于娱乐和盈利!

如果你听过这样的观点,*“当然,这是一些闪亮的数学,但你不能用它做任何实际的事情。”*再想想!这太像 2008 年了。在过去的十年里,发生了很多变化。请允许我说一段简短的历史课题外话,这段视频里没有。

人工智能花了半个多世纪被大肆宣传,而不是发生。你可能会认为这是因为算法不存在,但深度学习(你称之为“AI”的那个东西)是 60 年代的孩子

许多算法从 60 年代就有了,但那时工具还不太好,处理能力也不够强。

真正的原因是工具还不太好(相当于原型无线电的软件,只能由研究生使用,他们用胶带和梦想建造了它;在它附近呼吸,它就会分解)并且处理能力不够。

在云技术出现之前,除非你先建立一个数据中心,否则你无法建立一个原型。

云技术改变了这一切。云提供商与任何想尝试的人分享他们的硬件,这意味着人工智能是一个先试后买的提议,这在十年前是不可能的。

云提供商也在构建考虑到通用消费的工具,它们比过去好得多。这是我喜欢人类的一点:每当有人发明了一个有用的工具,其他人就会站出来让它更容易使用。与 19 世纪 90 年代的收音机相比,今天的收音机更容易安装,并且更有可能在高速飞行到最近的墙壁时幸存下来。

许多人没有意识到,今天应用人工智能的故事实际上是一个关于云的故事。

当然,没有数据,所有这些都是没有用的,这也是人工智能不断上升的另一个原因!世界正在收集比以往任何时候都多的数据,因此企业现在有燃料让人工智能运转起来。所以我要说的是:人工智能现在是真实的,这很令人兴奋!

这就是为什么我选择了一个用例演讲:人们需要知道这不再是科幻了。AI 在这里,太棒了!

但是后来我遇到了一个问题, Rajen 最初的演讲是如此密集的用例,以至于总结它们是不可能的(这是一个多么大的问题啊!)所以我用我的 3 分钟原创演讲中挑选出一些很棒的建议,并鼓励你们去看看完整的东西,沉浸在示例盛宴的巨大规模中。

My summary of the original talk “Create Customer Value with Google Cloud AI” by Rajen Sheth

#2 什么是机器学习,我怎么吃?(没有博士学位)

嘿,你知道我会抓住任何机会强调研究人工智能和应用人工智能是不同的学科 …如果我能为应用方面大声疾呼,你很难指望我放弃这个机会,对吗?

我们需要更多工程师和技术爱好者能欣赏的语言基础和应用的直白对话。

Lak 的原始演讲完全跳过了博士后队伍的标准线性代数,而是直接用工程师和技术爱好者可以欣赏的语言谈论基础知识和应用,因此它已经为我赢得了巨大的分数。它还用真实用例的例子来渲染想法,然后通过散布四个优秀的建议来完成交易,这是我选择使用的那些宝石我的 3 分钟详述:

My summary of the original talk “Leverage AI on the Cloud to Transform Your Business” by Lak Lakshmanan

#3 现在可以用 SQL 做机器学习了(!!)

如果你庞大的数据库不会进入你的机器学习,那就把机器学习带入你的数据库吧! BigQuery 刚刚为您提供了 SQL 中的线性和逻辑回归。现在,您不必知道导出数据库的痛苦,就可以将它插入到您的 TensorFlow 设置中!

如果你是一名专家分析师,你的货币是速度,但对大规模数据集的机器学习需要永远。

为什么会如此激动人心?如果你是一个专家分析师,你的货币就是速度 T21。你越快发现一个数据集中是否有潜力,你就能获得越多的赞赏。唉,如果你在大规模运营,你可能已经习惯了花费几乎永远的时间来导出数据,以尝试哪怕是一个基本的机器学习模型。不再!

这个。是。即时。满足感。

BigQuery ML 不仅为那些以令人瞠目结舌的规模运营的人加速了分析,而且本着超额完成的精神,它还提供了额外的可爱东西,如 ROC 曲线和特征分布分析。我用我的 2 分钟滔滔不绝,给你一个当你加速时它看起来是什么样子的偷偷峰。如果你受到了启发, Naveed 和 Abhishek 的原话有完整的演示。

My summary of the original talk “How to Do Predictive Analytics in BigQuery” by Abhishek Kashyap and Naveed Ahmad

#4 数据科学家,你不再需要基础设施黑带

这是一个关于更好的工具的故事,这些工具使数据科学家能够做更多他们喜欢的事情,而不是那些感觉像是苦差事的事情。这也是关于更广泛的授权:更好的工具使获取技术民主化,让人们成为自己光明未来的建筑师。我已经在另一篇博文中对此大加赞赏了(没有这些无聊的部分,你怎么称呼人工智能?但是,把家务杂事抛开,让人们可以专注于创造性和做他们喜欢的事情,这让我陷入了狂热的激情,所以这就是为什么库伯弗洛的演讲在我的最爱列表中——这绝对是朝着那个方向迈出的一步。

数据科学家们,你们希望能够将可扩展的机器学习带到混合云环境中,但请看着我的眼睛,告诉我你们真的希望将宝贵的建模和分析时间花在 be learning Kubernetes 上,并弄清楚诸如基于作业提交的自动扩展、优化的虚拟机和数据泄漏预防之类的事情。没有吗?好吧,幸运的是你不需要。

我用我的 3 分钟带你了解机器学习可组合性、可伸缩性和可移植性的基础知识,然后从大卫的原话中向你展示 Kubeflowelastic file(数据可移植性)可以做什么的精彩演示。

My summary of the original talk “Machine Learning Made Easy with Kubeflow and Elastifile” by David Aronchick

#5 TensorFlow 走上了越来越可爱的轨道

好吧,让我们现实一点:不管怎样,前 5 名将会有一个张量流的位置。这是数据科学饮食中的主食。我很高兴——而不是顺从地选择劳伦斯的原话,因为它突出了令人敬畏的新功能,使 TensorFlow 不仅比以往更好,而且更友好。我对这个非常兴奋,甚至在制作视频之前我就写了博客。如果你不喜欢看东西,可以获取 9 关于 TensorFlow 你应该知道的事情中的文字。或者在下一段得到这个总结。(效率!)

TensorFlow 是数据科学的工业车床,专为大型数据集上的最先进的人工智能而设计。

如果你在处理巨大的数据集,或者如果你在追求人工智能的最新发展,那么 TensorFlow 可能就在你的雷达上。这是数据科学的工业车床,在早期,它似乎也从工业车床那里获得了用户友好的建议。如果你尖叫着跑开,回来吧!它现在更可爱了,而且有一些令人难以置信的新功能。

我用我的 2.5 分钟向你展示我最喜欢的亮点,其中包括自我表达的机会,如果 Python 是你的母语,你会发现更容易接受,如果你不是 Python 爱好者,你也可以在其他语言中使用它——包括 JavaScript(你好,在浏览器中做任何事情!).在数据处理、模型共享以及在手机和烤面包机上支持机器学习方面也有所改进。

My summary of the original talk “What’s New with TensorFlow” by Laurence Moroney

其他 300+的演讲也很棒,但这五个温暖了我数据科学心中的一个特殊位置。希望你喜欢它们!(查看下一个倒带视频系列,查看各种技术主题的 flash 摘要。)

感谢阅读!YouTube 课程怎么样?

如果你在这里玩得开心,并且你正在寻找一个为初学者和专家设计的有趣的应用人工智能课程,这里有一个我为你制作的娱乐课程:

Enjoy the entire course playlist here: bit.ly/machinefriend

喜欢作者?与凯西·科兹尔科夫联系

让我们做朋友吧!你可以在 TwitterYouTubeSubstackLinkedIn 上找到我。有兴趣让我在你的活动上发言吗?使用表格联系。

预测性业务分析的 5 个关键步骤

原文:https://towardsdatascience.com/5-critical-steps-to-predictive-business-analysis-110b0dedbc9b?source=collection_archive---------9-----------------------

如何设计结论性的 A/B 测试实验?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为一名数据工程师,当我在解决一个问题时,我经常问自己,如果这个问题没有数据会怎么样?如果我不得不在不知道市场/用户会如何反应的情况下进行设计变更,那该怎么办?有没有更靠谱的决策方法?

这篇文章将带你经历五个关键步骤,为 A/B 测试设计一个可靠的结论性实验。以下是我们将涉及的要点:

  1. A/B 测试介绍。
  2. 选择正确的业务指标。
  3. 统计评论。
  4. 设计实验。
  5. 分析

市场上有许多 A/B 测试软件。在这篇博客中,我不会关注任何特定的 A/B 测试工具,而是关注它的工作原理。我将讨论一种统计方法,来测试电子零售商的新登录页面是否会帮助他们增加平台上的用户参与度。

1.A/B 测试介绍

首先,到底什么是 A/B 测试?

A/B 测试是一种在线测试新产品或新功能的实验方法,将产品的两个不同版本暴露给不同的用户群。第一个版本是现有功能或旧功能,称为控制组,新功能称为实验/变化组。

假设有两组用户,一组可以访问控制组——现有功能,另一组可以访问实验组——您计划推出的新版本。根据您收集的数据,您可以决定哪个版本的产品更好。

因此,A/B 测试有两种变体:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 A/B 测试我们能实现什么?
我们可以使用 A/B 测试来测试各种各样的东西,从一些新功能到在线门户/仪表板,到 UI/UX 的添加,或者应用程序的不同外观。你也可以测试用户可能没有注意到的功能,就像亚马逊确定的那样页面加载时间每增加 100 毫秒,销售额就会减少 1%

所有的大玩家——谷歌、亚马逊、微软、网飞、贝宝等等都使用 A/B 测试。举几个例子:

鉴于该方法在行业中的广泛使用,以及使用 A/B 测试我们能实现什么,我们需要知道

有什么不为的? 因此,如果你试图用 A/B 测试来记录人们对一个全新的产品或小工具或新的用户体验的反应,你获得真实数据的机会非常低。以下是你应该问自己的问题,以确定你是否应该使用 A/B 测试:

  • 这个实验可以在短时间内进行吗——比如 2 个业务周期?
  • 我能控制实验进行的环境吗?
  • 我能为实验定义可测量的指标吗?
  • 我能收集到足够的数据来支持我的决策吗?

例子

接下来是我们将从现在开始使用的示例案例研究。有一个名为 Edufin.com 的虚拟电子学习平台,专门专注于金融课程。Edufin 遵循以下客户漏斗:

  1. 登录页面访问量——漏斗顶部用户互动次数最多。
  2. 浏览不同的课程
  3. 创建帐户
  4. 注册一门课程
  5. 完成一门课程

问题陈述:Edufin 对他们现有登录页面的转换率有点怀疑。他们想对一个新的登录页面进行实验,并从那里记录一些数据点,并找出登录页面在观众面前的表现。

因此,我们这里的初始假设是:推出一个新的登陆页面将会提高平台的转化率。这里的转换率是学生在课程中的注册率。

我们将把剩下的 4 个步骤合并到这个例子中,并尝试设计一个稳健的实验。

2.选择正确的业务指标

对于任何电子学习平台,最终目标都是让大量学生完成课程。这是评价我们实验成功/失败的正确标准吗?答案是否定的,因为完成一门课程可能需要几周或几个月,我们需要在短时间内完成。

另一种方法是记录登录页面上查看课程按钮的点击次数。“查看课程”按钮将我们引向客户漏斗的第二个阶段。在这里,我们可以对实验运行的环境进行评论。可能有这样的情况,我们在实验组有更多的点击量,但是在控制组有更高的转化率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在上面的例子中,蓝点代表访问登录页面的用户数量,而黄点代表页面的点击量。显然,新页面上的访问者数量更多,但点击率在对照组中更多(访问者数量/点击数量)。那么,这是一个好的衡量标准吗?等等,这些点击是独一无二的吗?假设有 2 个用户访问了这个页面,其中一个没有点击,另一个因为沮丧而点击了 4 次,也许这个页面加载很慢。这里的 CTR 是 4/2 = 2。这仍然具有误导性,因为它没有告诉我们它将产生的影响。在此基础上进行改进,我们可以在这种情况下使用概率,即**点击独立访问者总数的独立访问者的数量。**对于我们讨论的情况,这将为我们提供 0.5。

因此,点击率是最适合实验的指标。
一般的经验法则是,当你想测试一个功能或产品的可用性时,使用等级,当你想找出它能产生的影响时,使用概率

因此,您决定的指标应该

  • 适应时间跨度
  • 提供统计上可靠的数据点
  • 帮助我们实现最终目标。

3.统计评论

A/B 测试是一种统计假设测试,在这种情况下,预测登录页面#B 将比登录页面#A 执行得更好,然后观察并比较来自两个页面的数据集,以确定#B 是否比#A 有统计上的显著增强。

不要忘记,议程不是测试哪个页面表现更好,而是找出目标受众对登录页面的反应。

统计分析允许我们使用我们知道的信息,以合理的准确度预测我们不知道的结果。

从任何数据集开始,你应该询问数据的结构。这告诉我们数据的可变性。在统计学中,我们有几种类型的分布,可以帮助我们设定一些关于数据可变性的准则?

我们知道,这里有离散数据(而不是连续数据),有成功(点击)和失败(没有点击)两种情况。因此,我们有一个非常坚实的案例来使用二项式分布作为我们的数据。选择正确的发行版是成功的一半。使用二项式的样本标准误差来估计我们期望的总体综合可供订货量的变化程度。当我们谈论可变性时,我们实际上的意思是,对于 95%的置信区间(行业标准),如果我们在理论上一次又一次地重复实验,我们会期望我们围绕我们的样本构建的区间均值在 95%的时间内覆盖总体中的真实值。

在运行该实验时,我们假设变异 B 将比变异 A 具有更高的总体 CTP。我们不是向所有 100,000 个访问者显示这两个页面,而是向一个样本显示它们,观察会发生什么。

  • 如果变化 A(原始)有一个更好的 CTP 与我们的访问者样本,那么没有必要采取进一步的行动,因为变化 A 已经是我们的永久页面。
  • 如果变体 B 具有更好的 CTP,那么我们需要确定这种增强在统计上是否显著,以便我们得出结论,这种变化将反映在更大的群体中,从而推出新的登录页面变体 B。

接下来,我们需要注意由于数据的可变性而产生的不同类型的错误。这里,零假设是两个数据集之间没有关系的基线假设。因此,我们案例中的理论是,在我们的控制(变化 A)和我们的实验(变化 B)之间,点进概率没有差别。

对于 A/B 测试,这意味着我们可以自动假设新的登录页面不会产生更多的销售线索,而原来的登录页面是我们应该继续前进的。

定义统计显著性 假设变异 B 在我们的样本中表现更好。我们如何知道这种改进是否会转化为整体受众?我们如何避免犯错误?

答案是统计学意义。
当我们可以以 95%的把握说变异 B 的 CTP 的增加超出了样本可变性的预期范围时,我们在 A/B 测试中确立了统计显著性。样本可变性被定义为当相同的变化被显示给相同的样本群体时,点进概率的变化。

统计显著性与两个变量直接相关:

  1. p 值:或计算概率,是当研究问题的零假设(H 0 ) 为真时,发现观察到的或更极端的结果的概率
  2. 显著性水平:****显著性水平是假设无效假设为真,拒绝该假设的概率。行业标准是上面说的 5%。

只要 p 值小于显著性水平,我们就有统计显著性命题。

4.设计

A/B 测试实验的先决条件之一是我们需要在一个受控的环境中运行它。这可以解释为,假设我们可以控制在我们的控制和实验中的页面浏览量,我们必须决定多少页面浏览量可以产生统计上显著的结果。这被称为统计功效也就是说,如果我们看到一些有趣的东西,我们应该有足够的功效来得出这个有趣的东西具有统计学意义的结论。

一个可靠的测试所需要的时间会根据一些因素而变化,比如你的转换率,以及你的网站有多少流量;一个好的测试工具应该告诉你什么时候你已经收集了足够的数据来得出一个可靠的结论。

功率与特征或变化的大小成反比。您想要检测的变化越小,或者您希望对结果增加的信心越小,测试就需要越大。因此,我们将需要更多的页面浏览量来有更多的统计能力来总结我们的结果。

5.分析结果

对结果的分析包括对收集的数据进行统计数学运算。以下是实现这一点的步骤:

  1. 记录控制组和实验组的页面浏览量,比如 P₁和 P₂,以及 C₁和 C₂.的点击量
  2. 不要相信你的眼睛,因为它可能会出现一个页面比另一个页面有更多的点击。开始计算差值的置信区间。
  3. 计算汇集的概率:P = (C₁ + C₂) / (P₁ + P₂).
  4. 计算合并的标准误差:SE = √P(1-P)((1/C₁)+(1/C₂)
  5. 将估计的差异计算为 diff =实验概率-控制概率。
  6. 计算实验的误差范围 SE * 1.96(置信水平 95%的 Z 得分)。
  7. 置信区间的下限是(diff —误差幅度),上限是(diff +误差幅度)。
  8. 根据统计显著性水平和置信区间值,您可以决定是否应该启动新的登录页面。

结论

如果你有一个网站,你有你想要你的用户完成的动作(例如,购买,注册一个时事通讯)和/或你想要改进的指标(例如,收入,会话持续时间,跳出率)。通过 A/B 测试,您可以测试哪个版本的登录页面在转化率(即,您作为目标衡量的已完成活动)或指标值方面的改进最大。

这里有一个配置实验的谷歌指南:

[## 配置和修改实验

在任何时候,每个视图最多可以有 12 个正在运行、正在设置或正在进行的实验…

support.google.com](https://support.google.com/analytics/answer/1745216)

本质上,样本大小、测试的时间窗口和度量标准必须提前决定。统计学意义不应该是停止测试的唯一标准,否则你的结果可能毫无意义。测试结果将在统计显著和不显著之间振荡。当测试到达终点时,显著性应该成为讨论的焦点。

A/B 测试的投资回报可能是巨大的,因为即使是登录页面或网站上的小变化也会导致潜在客户、销售和收入的显著增加。你所需要做的就是在设计实验和决定正确的度量标准时要小心谨慎。

既然我们都同意使用 A/B 测试可以实现什么,那么是时候测试你的创新想法了,并看到它们蓬勃发展。

T&C *——如果你不同意,请在下面留言,我很乐意回答你!

企业需要了解的 5 种数据挖掘技术

原文:https://towardsdatascience.com/5-data-mining-techniques-businesses-need-to-know-about-20fd723800b2?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Balaji Panigrahy

随着信息从多个来源(网站、手机、社交媒体和其他数字渠道)流入,组织如今被大量数据所淹没。但仍然没有答案的问题是,企业如何利用这些数据。答案在于数据挖掘。

让我们来看看五种数据挖掘技术,它们可以帮助企业从所有数据中获得可操作的见解。

1)分类分析:将数据分类到不同的集合中,以达到准确的分析或预测。应用分类分析的一个例子是当银行试图确定谁应该得到贷款时。通过对数据库进行分类分析,他们可以定义预测因素——年收入、年龄等。和预测值属性-对应于预测值的数值。使用 IF/THEN 分析,他们可以决定某人是否有资格获得贷款。例如,如果年龄超过 20 岁,收入等于或超过每月 50000 卢比,他们就有资格获得贷款。

2)关联规则学习:迄今为止,关联规则学习的最大应用是预测客户行为。这是因为该技术有助于识别不同变量之间的关系,并在数据中建立隐藏模式。这种数据挖掘技术广泛用于分析销售交易。
在线零售等行业中关联规则学习的一个例子可能是——购买产品“A”和产品“B”的用户可能会因后续需求而购买产品“C”。

3)异常或异常值检测:这种技术挖掘数据集中的异常值。离群值/异常是不符合预期行为的模式。当不符合预定义模式的事件发生时,数据分析师将其归类为干扰,并将其从剩余的数据集中删除。此外,当检测到异常值时,分析师试图找出是什么导致了预期模式中的干扰。系统健康监控和故障检测是离群点检测的两个应用。

4)聚类分析:在这种技术中,数据对象基于相似性被分组到聚类中。其思想是以这样一种方式对数据对象进行分组,即关联度在每个簇内最大,在簇外最小。例如,妄想症、精神分裂症等一系列症状。需要在精神病学中得到正确的诊断,以便开始正确的治疗。

5)回归分析:在这种类型的分析技术中,有一个响应变量和一个或多个预测因子。预测变量是独立的,响应变量是相关的。该技术用于研究改变预测值如何改变响应变量的值。请注意,只有改变预测值才能改变响应式的值,反之则不然。回归分析作为一种预测技术,长期以来一直被用来研究因果关系。在商业中,回归分析可以用来预测即将发生的事件。例如,保险公司使用回归分析来找出有多少人会成为盗窃的受害者。
优化业务流程是回归分析的另一个应用。例如,一家公司可能希望了解并优化客户呼叫的等待时间和成功销售的次数,以找出客户呼叫被应答的最佳等待时间。

讨论的五种数据挖掘技术中的每一种都可以帮助企业从数据中获得有价值的见解,并使用它解决棘手的业务问题。将原始数据转化为知识是做出更好、更明智、更明智决策的关键。

现在可以收听 5 个数据科学、人工智能和机器学习播客

原文:https://towardsdatascience.com/5-data-science-ai-and-machine-learning-podcasts-to-listen-to-now-e5078b18d184?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能、机器学习和数据科学是当今技术和创新领域最热门的话题。有充分的理由,每天发生的突破使空间以令人难以置信的快速发展。我的 twitter feed 是我阅读新闻文章数量的证明,但我最喜欢的数据科学新闻消费方式是通过播客。

在这篇博客中,我与你分享了一些我最喜欢的人工智能和机器学习播客,这样你也可以了解该领域的最新趋势。无论你是一名希望获得各种主题知识的高管,还是一名磨练机器学习专业知识的从业者,我的播客列表都将满足你的需求。说完,现在就来欣赏你需要听的五个数据科学、人工智能和机器学习播客吧!

工业中的人工智能|作者丹·法盖拉

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

丹是专注于人工智能的市场研究和咨询公司tech emergency的首席执行官和创始人。他的公司位于旧金山,帮助高管们完善人工智能和机器学习技术的战略采购。他的播客旨在介绍人工智能,是我向非从业者、高管和领导者推荐的,他们希望对人工智能应用有非常广泛而浅薄的了解。我很欣赏丹采访高技术 SME 的能力,如数据科学家和 MI 研究人员,但在一个可消化的格式。这个播客也有一个非常一致的日历,每周发布一次,时长 30-60 分钟。

数据怀疑论者|作者凯尔·波利奇

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

凯尔的数据怀疑论播客将让你了解所有数据科学、机器学习和人工智能方面的新闻、话题和讨论。他的播客讨论了相关的机器学习或数据科学问题,然后对应用程序/主题进行了评论。我真的很喜欢这个播客中的讨论水平,虽然讨论可能相当技术性,但我不觉得他们是分析师、数据科学家和计算机科学家无法接近的,他们至少有一些工作知识或对行业有更深的了解。谈话的质量和支持这个播客的社区让我不断回来。DataSkeptic 每周发布一次,运行时间为 30-60 分钟。

线性题外话|作者本·贾菲和凯蒂·马龙

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个播客又短又甜。本和凯蒂通过关注不寻常的机器学习和神经网络应用,使一些极具技术性的话题引人入胜。这个播客是为数据科学家和机器学习实践者设计的——但对话总是很有趣。该节目每周发布一次,时长 15-30 分钟,非常适合我骑车上班。

奥莱利数据展示|由奥莱利传媒

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

O’Reilly 播客揭示了实践者为解决一些及时的大数据和/或数据科学主题而采用的应用程序和方法。这个选择是我展示的所有播客中最普通的。主题主要集中在数据和数据科学,而不是专门的机器学习。由于与奥赖利媒体的联系,采访的质量非常高,并围绕着方法的技术应用。他们倾向于每两周发布一次播客,但是他们的时间表确实有点不同。这是我的播客系列中最不稳定的。但当它到来时,它总是值得一听。

偏导数|作者乔纳森·摩根

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我最喜欢的一首,偏导数,绝对值得一听。有些人甚至会说这是“数据社区的汽车话题”偏导数在讨论数据科学的一些非常技术性的方面时,总是引入书呆子文化参考。乔纳森(数据科学家/软件开发人员)、维迪亚(计算机工程师)和克里斯(政治学博士)三人组进行了巧妙的对话,夹杂着诙谐的戏谑。每次听这个组合,我都会学到新的东西。

我有没有漏掉一个播客?请给我留言,我会将它添加到我的播放列表中!

5 数据科学、人工智能和机器学习播客现在可以收听(更新)

原文:https://towardsdatascience.com/5-data-science-ai-and-machine-learning-podcasts-to-listen-to-now-updated-12a4cb20a740?source=collection_archive---------10-----------------------

我对播客很着迷。从 15 分钟形式的快速复习到长达一小时的复杂主题深入探讨,这是我消费数据科学内容的首选媒介。你看,我是个跑步者。周末我会在芝加哥花几个小时训练,为长距离比赛增强耐力。播客格式允许我带着我最喜欢的数据科学专家上路,以最大限度地利用我的时间,让我可以同时学习和培训。

在这篇更新的博客中,我与你分享了一些我最喜欢的人工智能和机器学习播客,这样你也可以了解该领域的最新趋势,同时享受你喜欢的东西。无论你是一名希望获得各种主题知识的高管,还是一名磨练机器学习专业知识的从业者,我的播客列表都将帮助你跟上时代。如果你是一个播客迷,尝试一下这些优秀的数据科学节目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

线性题外话|作者本·贾菲和凯蒂·马龙

这个播客又短又甜。这也是我推荐的 5 个播客中我最喜欢的一个。在线性题外话中,你可以期待随意的对话、有趣的轶事和令人敬畏的内容。两位主持人很好地发挥了彼此的优势;而且节目很有娱乐性。

Katie 是该小组的数据科学家。她为二人组评估的许多模型带来了专业知识和实践知识。我总是从她的解释中学习,因为她总是解释为什么以及如何完成。Ben 是这个团队的工程师,他在思考特定的实现和给出开发人员对解决方案的看法方面做得很好。

他们是否在讨论不同的统计方法来理解一双跑鞋是否值得购买;或者你可能如何使用 Shapley 值来理解特征如何在深度学习算法中工作——他们的讨论总是有趣且有启发性的。这个播客是为数据科学家和机器学习实践者设计的。该节目每周发布一次,时长 15-30 分钟,非常适合慢跑或 5 公里跑。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

奥莱利数据展示|由奥莱利传媒

O’Reilly 是计算机科学、数据科学、数据基础设施和工程教育内容的可靠来源。该播客是一个宝贵的资源,揭示了实践者为解决一些及时的大数据和/或数据科学主题而采用的应用程序和方法。

本·洛里卡在招聘嘉宾方面做得非常出色,这些嘉宾在数据科学、工程架构和语言的技术应用方面拥有深厚的专业知识,使我们能够导航和使用这些工具。因此,采访的质量相当高。奥赖利倾向于每两周发布一次他们的播客;当然,他们也宣传他们的会议、出版物和讲座。我可以忍受公司的旋转,由于高生产价值和播客的广度和深度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本周机器学习& AI |由山姆·查林顿

TWiML&AI 是这个列表中的两个新成员之一。由备受推崇的机器学习顾问和演讲者 Sam Charrington 主持的讨论,你可以期待一些高质量的内容。

TWiML Talk 为数据科学家、开发人员、商业创新者和其他机器学习和人工智能爱好者提供了一个平台,分享他们关于机器学习研究、技术、商业、文化等方面的想法。该播客非常适合那些希望通过清晰、简洁和周到的解释了解复杂主题的高管和经理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据怀疑论者|作者凯尔·波利奇

凯尔的数据怀疑论播客将让你了解所有数据科学、机器学习和人工智能方面的新闻、话题和讨论。他的播客讨论了相关的机器学习或数据科学问题,然后对应用程序/主题进行了评论。我真的很喜欢这个播客中的讨论水平,虽然讨论可能相当技术性,但我不觉得他们是分析师、数据科学家和计算机科学家无法接近的,他们至少有一些工作知识或对行业有更深的了解。最近他的播客转向了“假新闻”分析;我正在挖掘它。

谈话的质量和支持这个播客的社区让我不断回来。林作为主持人增加了一些轻松的时刻;但在她的片段中可能会有点傲慢。我不认为这削弱了一个强大的播客。DataSkeptic 每周发布一次,运行时间为 30-60 分钟。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

会说话的机器|由手提袋制作

第二个进入我的前五名的新节目,会说话的机器是一个很好的播客。在第四季中,主持人凯瑟琳·戈尔曼和尼尔·劳伦斯对我们行业中的热点话题进行了深刻的讨论。此外,你知道他们有四年的内容检查持久力!我非常兴奋能把这首好歌加入我的播放列表。

我有没有漏掉一个播客?请给我留言,我会将它添加到我的播放列表中!

每个电子商务公司都应该做的 5 个数据科学项目

原文:https://towardsdatascience.com/5-data-science-project-every-e-commerce-company-should-do-8746c5ab4604?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着互联网上的每一次点击,数据都在增加。为了理解这些庞大的数据并将其用于公司利益等,我们需要不同数据科学技术的帮助。

每天,人们只需点击一下鼠标,就可以在网上买卖东西,但为了让客户参与网站或改善客户体验,公司使用数据科学/机器学习,即在亚马逊网站上,当你寻找一种产品时,你会看到数字推荐。这些建议是通过机器学习算法生成的。它从用户过去的活动和购买中学习。这些公司存储客户的每次点击、客户阅读的每次评论、客户在社交媒体上分享的每个故事等数据,并使用这些数据来了解他们的客户或创建一个平台来帮助新客户。

它是如何开始的?

当你在网上购物时,你有没有感觉到,为什么他们以某种方式制作这个东西,或者为什么这个东西会在这里展示?或者想,这个东西怎么知道我在找什么?所有这些问题只有一个答案,那就是数据科学。电子商务是数据科学/机器学习技术的最大消费者之一,那些没有实施这些技术的人显然在下降。

[## 电子商务行业中的数据科学和机器学习:内部人士谈论工具、用例…

机器学习已经毫无保留地吞没了我们的个人和私人空间,延伸到仅仅是…

海王星. ai](https://neptune.ai/blog/data-science-and-machine-learning-in-the-e-commerce-industry-tools-use-cases-problems)

在本帖中,我们将讨论一个电子商务公司应该做的 5 个主要项目,以提高客户体验以及他们的收入或业务。

1.推荐系统

你记得在亚马逊、网飞或任何电子商务网站上看到过推荐吗?在过去的几年里,推荐系统已经接管了基于互联网的业务,为许多业务增加了价值。

简介

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在了解推荐系统在电子商务中的好处之前,让我们先了解一下推荐系统的基础知识。

维基百科的定义,

一个推荐系统是信息过滤系统的一个子类,它试图预测用户对一个项目的“评分”或“偏好”。

推荐系统不仅仅是上述定义所描述的。它用于根据特定用户过去的搜索或其他客户的搜索或购买数据来筛选选择。它为用户提供了电子商务网站的个性化视图,并帮助他们选择相关产品。例如,在亚马逊网站上寻找新手机时,你可能也想买一个手机壳。亚马逊将通过分析客户以前的购买或搜索数据来决定这种可能性。

热门推荐技巧

有很多方法可以建立一个推荐系统。这些技术中的每一种都以不同的方式过滤或提供推荐。有以下三种主要的已知技术

  1. 协同过滤
  2. 基于内容的过滤
  3. 混合推荐过滤

在协同过滤中,将基于收集的关于用户在网站上的活动的数据,并通过发现他们的活动与其他用户的活动之间的相似性来给出推荐。这是电子商务公司中最受欢迎的技术,因为这种特殊的技术在向客户推荐之前不需要了解商品。它只是试图找到不同用户兴趣之间的相似之处。

与协同过滤不同,基于内容的过滤基于用户的简档和项目描述提供推荐。这种技术可以根据用户过去喜欢的东西为他们筛选出产品。

混合推荐系统是协同过滤和基于内容的过滤的结合。混合技术可以用在许多不同的方面。我们可以使用协作过滤和基于内容的过滤分别进行预测,然后合并它们的结果,或者使用一种技术进行预测,将其结果作为另一种技术的输入。混血儿的一个最好的例子是网飞。

现在,我们对什么是推荐系统有了一个清晰的认识,我们将进一步讨论它们如何为企业增加价值。

电子商务网站中推荐的重要性

有很多电子商务网站,其中一些很难区分,因为他们出售类似的产品。在这种情况下,电子商务企业需要考虑如何让客户参与到网站/产品中来。我敢打赌,你们大多数人一定在想,为什么我们要在推荐系统中讨论这个问题。

想象一下,你正在一个电子商务网站上购买衣服。网站 1 没有实现任何推荐系统,因此作为用户,你必须浏览许多不同的产品。这可能会使顾客远离网站 1,因为在网站 1 上购物非常耗时。另一方面,他们的竞争对手网站 2 有推荐系统,结果网站 2 会比网站 1 更吸引人。每当用户点击一个产品,他或她就会在网站上看到类似或相关的产品推荐。

据观察,一个网站越吸引人,就会有越多的人去那里购物。这将最终增加电子商务公司的收入。

2.顾客终身价值建模

你们中的许多人可能听说过“有价值的客户”这个术语。这是什么意思?是什么让客户变得有价值?

简介

维基百科定义

客户终身价值是对整个未来与客户关系的净利润的预测。

该定义明确指出,客户终身价值建模是计算客户在其一生中能为公司带来多少收入。此外,这是一个计算出来的数字,由客户的购买和与电子商务网站(或任何其他企业)的互动历史来预测

在我们试图理解为什么对一个企业来说了解客户的价值是重要的之前,让我们看看它是如何被计算出来的。

计算客户终身价值

有许多文章描述了计算客户终身价值的步骤。为了简单起见,这里我们将讨论在 optimizesmart 文章中使用的公式。

文章阐述了计算客户终身价值的基本公式,即

(平均订单价值)x(重复订单数量)x(平均客户寿命)

平均订单价值-所有先前订单的平均值

重复销售次数——下订单的次数

平均客户寿命——一个人成为你客户的时间

客户终身价值在电子商务网站中的重要性

客户终身价值是客户将为公司带来的预测金额。但是单个客户能带来多少收入,我们为什么要关心这个?

假设一家公司有 2k 个老客户,通过计算所有这些客户的未来现金流,该公司可以预测未来的收入。公司为什么要知道自己未来的营收?公司根据对未来收入的预测,决定未来工作的策略,例如,他们可以承担多少工作或需要做多少额外工作等。不仅如此,这些公司还可以决定关注哪个客户。比方说,客户 A 将在未来十年带来 5000 英镑的收入,而客户 B 只会带来 1000 英镑的收入。看着这些数字,公司将决定营销策略,并试图保留来自客户 A 的现金流。

此外,CLV 在许多方面帮助电子商务企业

  1. 定义公司的目标——增长、支出、未来销售、净利润等。
  2. 优化企业营销策略。
  3. 调整活动和广告。
  4. 根据客户的购买决定交叉销售和追加销售。
  5. CLV 有助于决定客户获取成本,即吸引客户的成本。

这是任何电子商务业务都需要考虑的基本指标之一。它有助于企业决定他们的支出,并了解他们的忠诚客户。

3.客户保持-流失模型

客户流失模型是每个电子商务企业应该考虑实施的项目之一,以增加其业务的价值。由于流失模型与客户保持相关,我们需要首先了解什么是客户保持?

客户维系

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

维基百科的定义,

客户维系指的是一个公司或产品在一定时期内维系其客户的能力。

客户保持是商业的一个重要方面,但是为什么呢?一旦顾客去电子商务网站订购了某样东西,他/她就有可能回来买更多的东西(只要他们满意)。留住客户有助于创造更高的客户终身价值。拥有新客户是好事,但现有客户比新客户带来的收入更多。

拥有忠诚的顾客有很多好处-

  1. 拥有现有客户的可靠数据,有助于企业拓展市场。
  2. 顾客欣赏你的营销策略,并愿意尝试新事物。
  3. 从客户处收到的实时反馈。
  4. 现有客户带来更多新客户,他们是营销的最佳来源。
  5. 留住顾客也有助于吸引新顾客。看到一个公司给他们现有的客户奖励和额外的好处,它会吸引更多的人。

现在我们知道了客户保持对企业的好处,我们将试着了解如何实现客户保持。

有许多方法来实现客户保留,但最常用的模式是-流失模式。

流失模型

流失模型有助于识别最有可能转向不同电子商务网站的客户。一旦确定,公司可以采取行动,以保持其现有的客户。现在的问题是,流失模型如何识别这些客户?该模型可用于计算流失率,根据业务的性质,可以使用不同的指标。一些常见的指标是-

  • 失去的客户数量
  • 客户流失百分比
  • 经常性业务损失的价值
  • 经常性价值损失的百分比

客户流失模型在电子商务中的重要性

流失模式在许多方面有利于企业。在电子商务中实施流失模型的几个优点是

  1. 流失率有助于识别流失客户,因此企业可以开展保留活动。
  2. 流失模型可以帮助企业维持 CLV。
  3. 它帮助企业跟踪进展。
  4. 从流失模型中获得的信息对 BI 活动非常有帮助。

你可以在这里获得更多关于客户流失模型的信息。

4.欺诈检测

大多数电子商务企业专注于获得更多的客户和创造更多的收入。为了实现他们的目标,这些公司希望他们的网站高效。如果公司不能提供安全保障,效率就无法拯救企业。

简介

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据维基百科的文章,

欺诈是一个价值数十亿美元的行业,而且每年都在增长。

普华永道 2016 年全球经济犯罪调查显示,超过三分之一(36%)的组织经历过经济犯罪。

鉴于欺诈风险如此之高,在线企业应该考虑实施的另一个项目是在线欺诈检测。生活在一个数字世界里,每次点击都会发生数百万笔交易,似乎很容易在网上被抢劫。

网络诈骗有很多种方式-

  • 身份盗窃
  • 退款欺诈
  • 友好欺诈
  • 纯粹的欺诈
  • 三角欺诈
  • 关联欺诈
  • 商家身份欺诈
  • 预付费用和电汇诈骗

网上欺诈的清单非常庞大,欺诈者也变得越来越聪明。因此,为了有一个成功的电子商务业务,公司将需要考虑实施安全措施。例如,在线订购产品,但没有收到在线展示的产品。订购该产品的客户将不会再次使用该网站,并且可能会提供差评。这最终会吓跑新用户,还会影响业务收入。

现在的问题是,这些公司如何发现欺诈行为?在数据科学和机器学习技术的帮助下,这些欺诈者很容易被发现。为了使用数据科学技术,这些公司必须列出任何可能的欺诈行为。一些表明潜在欺诈的可疑行为示例如下-

  • 送货地址与帐单地址不同
  • 同一项目的多个订单
  • 非同寻常的大订单,次日发货
  • 用不同的卡给同一个地址下了多个订单
  • 意外的国际订单

使用 DS/ML 可以检测到上述可疑行为。一些常用的技术-

  • 数据挖掘——检测、验证、纠错以及填补缺失或不正确的数据
  • 时间序列分析
  • 聚类和分类以在数据中找到相关的组。这有助于异常检测
  • 匹配算法,以避免任何错误警报,估计风险,并预测当前交易或用户的未来

电子商务中欺诈检测的重要性

任何关心客户安全和商业信誉的公司肯定会考虑在公司内部安装欺诈检测系统。欺诈检测系统可以从多方面帮助公司-

  • 提高客户保持率
  • 增加公司收入
  • 减少未识别的交易
  • 帮助增加公司的品牌价值

我们看到了在线公司及其客户如何因在线欺诈而遭受损失,以及这种数据科学/机器学习如何有所帮助。

5.重要评论-改善客户服务

许多公司使用内容营销来吸引顾客,但是为了留住忠诚的顾客,提供最好的服务是很重要的。改善客户服务在这里意味着什么?又是如何实现的?此外,数据科学如何帮助改善客户服务?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

企业经营客户服务由来已久。传统的客户服务方式是通过电子邮件、邮件和电话联系客户,请他们对公司的产品和服务提供反馈。这些天来,公司,尤其是在线企业,在他们的网站上为他们的产品设置了评级和评论部分。但是,手动在线阅读每一篇评论并不容易。不仅如此,有时也很难理解那些评论,例如,包含不正确拼写或速记单词的评论等等。这就是数据科学发挥作用的地方。

使用数据科学技术,例如 NLP(自然语言处理),可以提取网站的评级和评论。这种技术有助于检索用户评论,并理解为什么给出差评。例如,单词云是一种显示单词在文本集合中有多重要的流行方式,N-grams 有助于寻找单词关联。这些技术和其他技术有助于数据科学家理解评论。

一旦评论被提取出来,数据科学家可以进一步分离它们并进行情感分析。有了这些信息,电子商务可以通过优先考虑将产生最大积极影响的产品更新来有效地最大化用户满意度。

摘要

通过这篇文章,我们讨论了电子商务公司应该考虑实施的不同项目。这些项目可以通过客户保留、良好的评论、增加的品牌价值、改善的客户服务和对客户的良好推荐来增加他们的业务价值,这将为客户提供更好的体验,而且还可以帮助公司销售更多的产品。还有许多其他项目,但这 5 个是任何电子商务企业的必需品。

参考

  1. Hortonworks
  2. 顾客满意的好处和重要性
  3. 数据科学
  4. 流失模型客户保持

创建更有说服力的图表和图形的 5 个数据故事技巧

原文:https://towardsdatascience.com/5-data-storytelling-tips-for-creating-more-persuasive-charts-and-graphs-150f3544b4e8?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与数字打交道通常不被认为是一份性感的工作。毕竟,像会计和数据录入这样的职业在这个数字时代并不是最令人兴奋的职业。

但是,就像曾经平淡无奇的电脑极客现在统治着世界一样,数据分析师目前被视为“就业市场的独角兽”

根据 LinkedIn 的说法,理解大量杂乱数据并从中找到独特见解的能力是就业市场上最热门的技能之一。

原因显而易见:自 2013 年以来,创造的数据比之前人类历史上的总和还要多。

因此,不仅对数据科学家有很高的需求,而且对那些知道如何以有效和有说服力的方式可视化和呈现数据的人也有很高的需求。

这就是数据叙事的用武之地。

数据、视觉效果和叙述的组合是热门的,新的数据科学技能是未来每个人都需要的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Information source: Forbes

对于那些不喜欢数字的人来说,这可能真的是个坏消息。

但在你开始恐慌之前,让我们从一些简单的事实开始,这些事实将帮助你理解我们的大脑是如何处理视觉效果的,以及你如何利用这些原则来改进你的图表。

相关:糟糕的信息图表:你永远不想犯的 11 个错误

视觉大脑及其工作原理

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与你在高中所学的相反,人类的视觉比仅仅处理物体反射的光要复杂得多。

虽然我们显然可以看到 180 度角内的一切,但实际上我们只能完全准确地看到那些在我们视野中心的东西,在一个非常狭窄的 2 度范围内。

那我们怎么会看不到一团模糊的东西呢?

由于被称为迅速扫视的快速眼球运动,我们能够感知位于剩余 178 度角内的物体。在没有注意到的情况下,我们的眼睛会快速跳动,并注视着场景的不同点,以从这些综合信息中创建一个准确的视觉地图。

虽然这些运动是无意识的,但我们的眼睛会优先关注它们所注视的东西。例如,明亮的颜色,不常见的形状和移动的物体会立即吸引我们的注意力,即使它们不在我们面前。(来源:阿尔贝托·凯洛的功能艺术)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Information source: The Functional Art

一旦光被编码成电信号,大脑就会提取主要特征,从粗略的形状和颜色开始,然后才开始真正处理和识别人面前的东西,使用长期记忆中的大量信息。

为了获得更直观的解释,你也可以观看 Payman Taei 描述我们如何感知物体背后的科学原理:

我们的视觉大脑被差异所吸引

因此,我们的眼睛实际上首先聚焦在突出的关键点上,而不是像相机一样捕捉整个场景。这就是为什么我们的视觉大脑会立即注意到差异和对比

看看下图就知道了。你花了多长时间才看到前两幅插图中的熊?最后一个呢?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个简单的练习揭示了我们的大脑更善于识别颜色而不是形状的差异。

我们的大脑被设计用来识别模式

你知道吗,在你有意识地意识到之前,你的感官一直在处理来自环境的各种信息。

这被称为前注意力处理,如果没有它,我们会浪费大量时间去理解我们周围的世界。

令人欣慰的是,我们的视觉大脑通过自动检测物体之间的差异和相似性,让我们的事情变得简单。

例如,看看下面这张图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你是否立即关注了中间的一个大矩形?在第二部分中,您可能马上就注意到了一个矩形与其他矩形不同,它是垂直方向的。

这是你的视觉大脑:它被设计用来注意模式,并立即检测这些模式的中断。

视觉大脑的 5 个数据故事技巧

既然我们已经对我们感知物体的方式背后的科学有所了解,让我们看看这些知识如何转化为创建有效和有说服力的数据可视化的实用技巧,这些技巧来自《哈佛商业评论》的指南Good Charts

1.我们的眼睛不会遵循特定的顺序。

创建有效的数据可视化需要学习新的语言和新的语法规则。

阅读有文字的页面和阅读图表的第一个区别是,在西方文化中,你阅读的顺序是从左到右,从上到下。对于第二种,没有预先确定的顺序——你只是去你的眼睛带你去的地方。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

步伐也不一样。你不是一行一行地阅读,而是从一件事跳到另一件事,在某些部分花的时间比其他部分长。

这意味着创建有效的可视化效果,有意识地将观众带入一个预定义的视觉旅程,尤其具有挑战性。

2.我们的眼睛首先关注突出的东西。

当我们看下图这样的图表时,我们不会一下子看到所有的东西,而是集中在一个显著的点上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Information source: Prison Policy Initiative

图表中最突出的是最右边的峰值。这幅图的中心信息非常清楚:自 20 世纪 70 年代以来,美国的监禁率呈指数增长。

最好的数据故事讲述者利用这一原理,通过一个清晰易懂的信息创建图表和图形

3.我们的眼睛可以同时处理几件事情。

每当你有一个超过 5 到 10 个变量的图表时,单个的单元开始失去它们的个性,被我们的眼睛视为一个单一的整体。

考虑到这一点,你应该简化你的图表,让它们突出你想要表达的一个要点。

以这张图表为例。你首先注意到的是中间的峰值、绿线和单词“断电”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果目标是通过声明性图表(而不是探索性图表)传达明确的信息,那么你会发现这里没有明确的信息。

例如,假设您想要揭示即使在停机后性能评级仍持续下降,那么观众必须努力找到这一趋势,因为背景中的峰值会分散对绿线的注意力。

在这种情况下,最佳解决方案是消除客户服务呼叫数据的数量,并专注于停机前后的客户服务评级。

4.我们试图在数据中寻找意义。

另一个重要的事实是,我们的大脑被设计成立即寻找联系,并试图在数据中找到意义。

如果你看这个图表,你会发现你的大脑无意识地将标题中的橙色和橙色的点联系起来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“这一定意味着橙色的点代表表现最好的人,”我们的视觉大脑总结道。

不对。实际上,表现最好的是那些绘制在图表右上角的,与颜色的选择无关。

知道了这一点,我们必须做出明智的设计决定,并且有意识地分配颜色,以提高你的视觉功能。

5.我们受文化习俗的指导。

有些习俗我们认为是理所当然的。例如,在西方文化中,我们都直观地知道,当可视化时间时,它从左向右移动,而不是从右向左;或者蓝色代表冷,红色代表热。

视觉隐喻也是如此:我们都把金字塔和等级联系在一起,或者把两个事物的比较和等级联系在一起。

如果你忽略了这些惯例,那么不言而喻,你的视觉效果将难以解读。

看看这个图表,当时间放在 Y 轴上而不是 x 轴上时,从中提取意义是多么困难。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何改进数据叙事的示例

下面是一些如何改进图表和图形的例子,让它们不只是简单地显示数据 ,而是讲述一个故事 ,摘自科尔·努斯鲍默《用数据讲故事一书

以前

此条形图显示了一年中收到和处理的票证数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在…之后

如果你的目的是传达一个信息,并推动某人采取具体行动(在这种情况下,雇佣两名新员工),那么这就好得多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过选择线形图而不是条形图,收到的票据数量和处理的票据数量之间越来越大的差异变得非常明显。

以前

这是另一个没有叙述性或清晰消息的数据显示的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在…之后

现在看看以完全不同的方式呈现的相同数据集。差别很大,对吧?核心信息是显而易见的:节目结束后,更多的孩子对科学感到兴奋。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Create charts like this with Visme.

使用单个图表而不是两个独立的图表可以让观众快速了解调查结果。此外,使用一些颜色,而不是五六种颜色,以及一个有效的标题有助于读者快速掌握项目前后结果的差异。

以前

另一个无效图表的例子是准确的,但没有传达或说服观众采取特定的行动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在…之后

在这张图表中,我们的眼睛立即被蓝色条、灰色线和代表平均价格点的蓝点所吸引。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

核心信息是显而易见的:要有竞争力,理想的价格在 150 到 200 美元之间。

以前

乍一看,这个饼图似乎足够清晰,但深入分析后,您会发现它并不遵守让查看者快速掌握信息的几个约定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正常情况下,我们会期望人工尺度上的值按顺序排列,从“完全不感兴趣”到“非常感兴趣”但是在这种情况下,值是根据每个响应的百分比排列的。

我们还期望颜色的变化与人工标度相对应,一种颜色在标度的一端,第二种在相反的一端,中间有中间色调。

在…之后

乍一看,这要容易理解得多。根据价值等级排列,我们很快了解到大多数人对这种特殊的产品不感兴趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

轮到你了

既然你已经学会了一些更有说服力和更有效的数据故事的简单原则,你可以试试用这个 免费图表和信息图表工具创造你自己的可视化数据故事

如果你有任何自己的数据讲述技巧想要分享,请在评论区给我们留言!

本帖 原版 最早出现在 Visme 的 视觉学习中心

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值