数据科学团队构建指南(一)

原文:Data Science: Create Teams That Ask the Right Questions and Deliver Real Value

协议:CC BY-NC-SA 4.0

一、了解数据科学

在本章中,我首先定义了什么是数据科学家以及他或她做什么。然后,我将介绍用于收集、清理和分析数据的不同类型的软件和工具。一旦您了解了数据科学中使用的不同类型的软件和工具,我将简要回顾一下关注组织知识的重要性。

定义具有多重含义的多学科实践

那么什么是数据科学家呢?数据科学家比其他类型的科学家更难定义。如果你是政治科学家或气候科学家,你有一个既定项目的学位。在“数据科学”成为一门定义明确的学科之前,“数据科学家”一词就已经被广泛使用。即使是现在,自称数据科学家的人也来自各种不同的领域。作为一门学科,“数据科学”仍在自我梳理中。有点像早期考古。只要拿起铲子开始挖掘文物,任何人都可以自称为考古学家。如今,要成为一名考古学家,你必须读完大学,花上几年时间做研究。像早期考古学一样,数据科学更多的是一种实践,而不是一门学科。

如果你以科学的方式处理数据,你就是一名数据科学家。你是否选择称自己为数据科学家仍然取决于你自己。肯定有一些群体比其他人更适合“数据科学家”这个头衔。如果你是一名统计学家或数据分析师,或者你在生物科学领域工作,你可能会说你一直是一名数据科学家。一些自称数据科学家的人实际上是数学家;其他人来自系统和信息工程,有些甚至来自商业和金融。如果你与数字打交道,并对数据略知一二,你可以很容易地称自己为数据科学家。

现在,随着对数据科学家需求的增加,将会有更多的运动来创建标准化的技能集。你已经开始在伯克利、锡拉丘兹大学和哥伦比亚大学的新项目中看到这一点。新的学位项目将允许公司在招聘时依赖一套通用的技能。目前来看,情况并非如此。事实上,仍然存在一些危险,数据科学家将被视为任何与数据打交道的人,并且可以更新他们的 LinkedIn 个人资料。

思考数据科学的最佳方式是关注科学而不是数据。在这种情况下,科学使用科学方法。你应该进行实验,用经验方法来观察结果。经验主义是科学家通过实验和问题对数据做出反应来获得洞察力和知识的方式之一。一个数据科学家应该每天都使用这项技能。经验方法是知识和实践的结合。你可能使用了经验方法,却没有意识到这一点。

作为一名教练和培训师,我必须经常出差。这通常意味着我发现自己在不同的酒店。我总是惊讶于世界上有这么多不同类型的水龙头和固定装置。我一直纠结的一件事是如何处理酒店淋浴的复杂性。过了一段时间,我意识到处理这个问题的最好方法是使用经验方法。首先,我得猜猜怎么打开淋浴。我先问一个经验性的问题。我如何打开淋浴?然后我做了一个实验。当我按下一个按钮,水就充满了浴缸。如果我按下另一个,莲蓬头就会启动。打开水后,我必须转动不同的旋钮,看看是否能控制温度。如果我拧一个旋钮,它会变得太热。如果我拧另一个,它会变得太冷。所以我问问题,重新评估,直到我能让水变得舒适。我不想用理论的方法。我可以从理论上解释如何让水变得舒适,然后我就可以转动一个转盘,跳进淋浴间。问题是我可能会被冻僵或烫伤。

数据科学家一直使用同样的经验方法。他们对数据提出问题,并做一些小的调整,看看是否能获得洞察力。他们转动旋钮,问更多有趣的问题。

就本书的目的而言,我将数据科学家视为使用经验方法从数据中获得洞察力并专注于科学方法的人。我们强调的是“数据科学”中的科学,而不是数据。

使用统计和软件

因为数据科学仍然是由实践定义的,所以特别强调使用通用工具和软件。请记住,数据科学家就像第一批考古学家。因此,把软件想象成你进行发现所需要的刷子和镐。但是,尽量不要太专注于学习所有的工具,因为它们不是你需要知道的全部。让一个人成为数据科学家的是科学方法,而不是工具。数据科学家需要的工具分为三大类:

  • 保存数据的软件:这些是电子表格、数据库和键/值存储。一些流行的软件包括 Hadoop、Cassandra 和 PostgreSQL。
  • 用于清理数据的工具:数据清理,也称为数据清理,通过修改或修正数据或删除重复的、格式不正确的、不正确的或不完整的数据,使数据更容易处理。用于清理数据的典型工具是文本编辑器、脚本工具和编程语言,如 Python 和 Scala。
  • 帮助分析数据的统计软件包:最流行的是开源软件 environment R、IBM SPSS 预测分析软件和 Python 的编程语言。其中大多数包括可视化数据的能力。你需要这个来制作漂亮的图表。

保存数据

让我们先来看看你需要知道的保存数据的工具。你会经常听到的一个术语是大数据。大数据听起来像 20 世纪 60 年代恐怖电影的标题。你想象一个戴着猫眼眼镜尖叫的女人被堆积如山的数据吞噬。大数据是指大到不适合大多数数据管理系统的数据集。有些人混淆了数据科学和大数据,因为它们同时被炒作,经常被混为一谈。但是,请记住,数据科学是将科学方法应用于数据。这并不假设您的数据必须很大。事实上,有一本名为《数据智能:利用数据科学将信息转化为洞察力》的好书,作者是 John W. Foreman, 1 ,书中介绍了仅使用电子表格的数据科学统计。

然而,数据科学中最活跃的领域之一是围绕大数据,并且有专门设计来处理大数据的软件。开源软件包 Hadoop 是目前最流行的。Hadoop 使用分布式文件系统将数据存储在一组服务器上,通常称为 Hadoop 集群。集群还在服务器上分配任务,这样您也可以在服务器上运行应用程序。这意味着您可以在数百甚至数千台服务器上存储数 Pb 的数据,并对集群中的数据运行处理。Hadoop 集群上运行的两个最常见的进程是 MapReduce 和 Apache Spark。MapReduce 批量处理数据,Spark 可以实时处理数据。

清理数据

收集完数据后,您很可能希望使用一些工具来清理数据,使其更有用。清理数据通过修改或修正数据或删除重复的、格式不正确的、不正确的或不完整的数据,使处理数据变得更加容易。假设您正在收集数百万条客户的推文,其中可能包含文本、图片甚至视频。在收集这些数据时,您可以创建一个脚本,将所有传入的 tweets 分成各种类型(文本、图片、视频等)。这将允许您使用不同的参数分别分析这些组。如果您经常进行这种分析,那么最好创建一个小的 Python 应用程序来执行集群上的操作,而不是创建一个在 tweets 传入时执行该操作的脚本。

数据科学家可能会花费高达 90%的时间来调整和清理数据,以提高其可用性,因此自动化这一过程对于这一步至关重要。

分析数据

最后一组工具是用于分析数据的工具。最流行的两个是 R 和 Python。

R 是一种统计编程语言和软件环境,允许您在数据中建立联系和相关性,然后使用 R 的内置数据可视化来呈现它们。这可以让你的报告有一个漂亮的图表。例如,假设您的公司想要一份报告,以了解他们的积极反馈与该反馈是发生在白天还是晚上之间是否有联系。收集这些信息的一种方法是在 Hadoop 集群中捕获 Twitter 数据,然后使用数据清理将推文分类为正面或负面。接下来,您可以使用像 R 这样的统计包来创建正面和负面推文以及它们发布的时间之间的关联,并打印一份报告,在一个漂亮的图表中显示结果。

请记住,这些是最流行的工具。如果你是数据科学团队的一员,你几乎肯定会在对话中听到至少一个问题。还有许多工具可以自动收集、清理和分析数据。

有许多组织花了很多钱试图进入这个领域。尽量记得把重点放在分析上。数据和工具只是获得更大洞察力的工具。在这个成长中的领域谨慎花钱。

发现洞见和创造知识

在过去的 20 年中,大多数组织都致力于通过简化业务流程来提高运营效率,从而变得更加精简和灵活。他们问了一些运营问题,比如“我们如何才能更好地合作?”

数据科学不一样;它不是目标驱动的。它是探索性的,使用科学的方法。这不是关于一个组织运作得有多好;而是获得有用的商业知识。对于数据科学,您可以提出不同类型的问题,例如:

  • 我们对客户了解多少?
  • 我们如何交付更好的产品?
  • 为什么我们比竞争对手强?

这些都是需要更高层次的组织思维的问题,而大多数组织还没有准备好问这类问题。他们被迫设定里程碑和创建预算。他们没有因为怀疑或好奇而得到回报。

想象一下,你正在参加一个商务会议,有人问了这些问题。为什么我们要这样做?你凭什么认为这会有用?为什么这是个好主意?有可能,问这个问题的人会被认为是令人讨厌的。通常,有人会回答类似“你没看备忘录吗?”然而,这些是你建立组织知识所需要的技能。这些是您希望从数据科学团队那里得到的问题。尽管如此,组织中的大多数人还是专注于把事情做好。诸如此类的问题被视为前进的障碍。然而,作为一个组织,你通过问有趣的问题来获得知识。

我曾经为一个网站工作,这个网站将潜在的汽车购买者和经销商联系起来。网站上有数百个信息标签,显示客户是否停留或点击了他们的链接。所有这些数据都流入了 Hadoop 集群,每周都有数 TB 的数据。该公司拥有数年前的历史数据。他们花费了大量的资金,甚至成立了专门负责收集和维护这些数据的部门。收集数据很容易。他们使用的软件简单且易于创建。困难的部分是弄清楚如何处理这些数据。

这似乎是许多在数据科学领域起步的组织面临的共同挑战。这些组织大多将其视为运营挑战。他们关注数据的技术方面。它是关于收集数据的,因为它相对便宜并且容易理解。这是一个友好的会议,每个人都可以支持这项工作。他们甚至会创建多个集群或数据湖来汇集来自整个组织的数据。这是容易的部分。组织苦苦挣扎的是科学。他们不习惯问和回答有趣的问题。

如果您是这个汽车网站的数据科学家,请考虑您可能会提出的实验和问题。你可以进行一个如图 1-1 所示的实验,改变图片的颜色,看看如果图片是红色、蓝色或黄色,顾客是否更有可能点击它。如果报告显示顾客点击红色汽车的可能性增加了 2%,该组织可以与汽车经销商分享这一点,以产生新的收入。你可以做一个实验,通过减少显示的汽车数量来看看这个站点的页面上是否有太多的汽车。然后,您可以运行一个报告,看看显示的汽车越少,客户点击链接的可能性是否会增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1-1。

Changing the color of the cars Note

ds. tips/ 4H5Ud 查看如何创建这些图表。

这是数据科学家应该思考的实证研究类型。他们应该扭曲数据,提出有趣的问题,进行快速实验,并产生精心设计的报告。

摘要

在本章中,您学习了什么是数据科学家以及他或她做什么。您还了解了用于收集、整理和分析数据的不同类型的软件和工具,以及如何发现见解和创造知识。关键是要问有趣的问题。在第二章中,你将学习一些数据库基础知识。

Footnotes 1

《数据智能:利用数据科学将信息转化为洞察力》。约翰威利父子公司,2013 年。

二、涵盖数据库基础知识

如您所见,数据科学围绕着更好地理解您的数据。这就是为什么您将使用数据库来访问您提出有趣问题所需的数据。有许多不同类型的数据库。此外,还有许多专门用于数据库的术语。您需要熟悉数据库领域中使用的基本概念和术语,以及不同数据库的组织方式。

与关系数据库建立连接

数据科学家将处理许多不同形式的数据,包括遗留数据库或旧电子表格。他们也可以处理图片和视频。作为一名数据科学家,您应该熟悉组织存储数据的常见方式。大多数组织都有各种各样的数据库。其中一些非常现代,另一些则不那么现代。

理解这些不同技术的最好方法是从头开始。即使是最现代的数据库也常常建立在超过 50 年的技术之上。现代数据库真正开始于 20 世纪 60 年代后期的阿波罗太空任务。前往月球的火箭需要数百万个零件,NASA 与 IBM 合作创建了一个信息管理系统(IMS)来组织这些数据。航天局有早期的清单,看起来很像现代的电子表格。它们是由一系列列和一长串行组成的计算机文件。

可以想象,在一个小型黑白终端上管理一个有一百万行的表可能会变得很困难。大约在同一时间,航天局使用了第一个关系数据库。这些数据库将数据分成几组表格。这些表格看起来仍然像电子表格,但代表的数据块更小。

然后,他们在这些表之间创建关系。他们可以创建 50 个表,每个表包含 20,000 个零件,而不是一个包含一百万个零件的长列表。这就是为什么这些被称为关系数据库。该数据库基于彼此有关系的多组表。甚至早期的数据库工程师也在努力创建一种有效的方法来对数据库表进行分组。他们创建了地图来显示表格之间的关系。他们称这些地图为图式。模式使关系数据库要么易于使用,要么难以管理。

即使有了这些早期的数据库,您也可以看到工程师们在创建模式时是如何的艰难。他们应该围绕最大的部分创建表格吗?也许做一张桌子只放推进器,然后另一张桌子放燃料箱?这里的问题是,如果你改变了火箭的设计,那么你也必须改变数据库的设计。

也许您可以根据零件制造商创建表格。问题是,你可能有一个生产数千个零件的制造商,而另一个制造商只生产几十个。这在今天仍然是一个挑战。关系数据库需要大量的前期设计。在开始收集数据之前,你必须对你的数据有很多了解。如果你错了,重新设计你的数据库会花费很多精力。

IBM 后来将他们为美国宇航局创造的 IMS 商业化了。在 20 世纪 70 年代中期,他们开发了一种结构化查询语言(SQL)来帮助他们的客户从系统中提取数据。这种语言仍然很流行。SQL 是一种优雅的语言,可以从几个不同的关系表中提取数据。它重新连接所有不同的表,并显示数据,就好像这些数据都存储在一个大表中一样。这个虚拟表通常被称为“视图”

多年来,关系数据库中增加了许多功能。它们催生了关系数据库管理系统(RDBMS)。像 IBM、Microsoft 和 Oracle 这样的公司仍然支持和开发关系数据库管理系统。

Note

您可能听说过的另一个关系数据库术语是 CRUD,它代表创建、读取、更新和删除。它描述了 RDBMS 的所有功能。有时人们会在“搜索”前面加一个 S,并使用缩写 SCRUD。

使用 ETL 将数据放入仓库

本节讨论的术语和概念由数据科学团队使用。尽量不要被语言淹没。如果您了解这些术语和挑战,您更有可能快速获得您需要的数据。

许多数据科学概念都是建立在以前对关系数据库的研究基础上的。几十年来,公司一直在捕捉和尝试分析数据。即使在今天,RDBMS 仍然是企业数据库的基石,您需要了解数据科学项目的 RDBMS 术语。在处理企业数据仓库(EDW)时,您可能会遇到 RDBMS 术语。EDW 是一种特殊类型的关系数据库,主要用于分析数据。传统数据库针对在线事务处理(OLTP)进行了优化。EDW 用于在线分析处理(OLAP)。

请这样想:典型的数据库侧重于实时处理数据,而 EDW 侧重于分析已经发生的事情。

让我们假设你有一个卖跑鞋的网站。你雇了一个工程师来创建你的数据库。她创建了许多不同的表和关系。有一个客户地址表,一个鞋子表,一个运输选项表,等等。web 服务器使用 SQL 语句收集数据。当顾客购买一双鞋时,他们的地址数据与该鞋相关联,web 服务器向顾客提供他或她的运送选项,并且该双鞋被运送。你希望这个数据库是快速和有效的,并侧重于快速回报。这个数据库是您的客户实时正在做的事情。这是一个 OLTP 数据库。

您还要求您的数据库工程师创建一个脚本,每天将数据上传到您的仓库。您的数据仓库针对分析处理进行了优化。这是一个专注于创建报告的 OLAP 数据库。

你让数据分析师创建一份报告,看看顾客的地址和他们购买的鞋子类型之间是否有任何联系,如图 2-1 所示。你发现温暖地区的人更有可能买颜色鲜艳的鞋子。您可以使用这些信息来更改您的网站,以便来自气候温暖地区的客户可以在页面顶部看到更轻便的鞋子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2-1。

Color brightness average by state Note

参见如何在 http://ds.tips/trAp8 创建此图表。

现在假设你的网站变得非常成功,并被一家销售各种运动服装的公司收购。该公司的所有网站都有一个仓库,他们希望将您网站的数据与他们所有其他网站的数据结合起来。在这一点上,该公司将做一些所谓的 ETL,这意味着提取,转换和加载。他们从您的网站获取数据,然后将数据加载到他们的 EDW 中。

当他们提取您的数据时,他们会尝试以某种标准格式这样做,这样他们就可以将数据转换成适合他们的数据仓库的东西。他们仓库中的表可能有不同的模式。例如,数据仓库可能在 customer 表中有运输信息,而您的数据库在自己的表中有运输信息。数据必须经过转换才能进入 EDW。数据分析师很可能会将大部分时间花在清理和连接数据上,以使其适合数据,最后将转换后的数据加载到仓库中。

前面的场景并不是您可能需要执行 ETL 的唯一场景。一些公司可能有一个独立于 Hadoop 集群的数据仓库,在这种情况下,他们需要对仓库数据运行 ETL,以将其移动到 Hadoop 集群中。在这种情况下,数据分析师需要转换数据,以便可以在集群中使用。

许多组织经常将 Hadoop 视为昂贵的数据仓库的替代品。他们希望通过将数据存储在廉价的硬件上而不是昂贵的仓库设备上来节省资金。在这种情况下,公司可能会重写他们的 ETL 程序,以便他们可以将数据加载到 Hadoop 集群中,然后逐步淘汰或关闭仓库。

放下和 NoSQL 的过去

通常,数据科学团队需要更灵活的方式来存储数据。记住,关系数据库依赖于模式。在将数据放入数据库之前,您需要了解很多关于数据的信息,这意味着您必须提前做好计划。您必须知道什么类型的数据出现在数据库字段中(文本、视频、音频或其他),将这些字段组织成表,然后创建表关系。数据库需要一个固定的结构,这样你就可以创建、读取、更新和删除你的记录。对于一些非常大的数据库,这种开销会使您的服务器陷入困境。

让我们回到你的跑鞋网站。一位顾客找到一双鞋,然后来到结账页面。此时,网站将购买的一双鞋与顾客的地址联系起来。这个结帐页面需要访问四个不同的数据库表:

  • 鞋桌
  • 客户表
  • 地址表
  • 装运台

对于数据库来说,这是很大的工作量。你的数据库越努力,你的网站越慢。

你如何加快速度?您是否需要购买一个更大的服务器,将您的表分在几个服务器上,或者让几个服务器在网络上同步?对于非常大的网站,这些选项可能看起来不自然。

现在,设想一个数据库,它将结帐页面中的所有内容存储为一个事务。数据库事务是必须完成的要么全有要么全无的工作。一气呵成,一气呵成,一气呵成,一气呵成。如果数据没有拆分到表中,也不需要查询任何关系,那会怎么样呢?信息被输入,你就大功告成了。

这是 NoSQL 背后的想法。NoSQL 最初是作为一个 Twitter 标签,供想要超越关系数据库的开发人员使用。实际上并不是对 SQL 的猛烈抨击。事实上,NoSQL 和 SQL 没有太多的关系。更多的是关系数据库的局限性。一般来说,NoSQL 数据库应该是非关系的、无模式的、集群友好的,并且最好是开源的。

所有这些品质都应该吸引数据科学团队。非关系型数据库通常更容易更改,也更容易使用。您的 web 应用程序的外观和您存储数据的方式之间不一定存在脱节。您也不必经历创建和拆分已经存在的表的丑陋过程。这通常被称为规范化数据库。没有模式,你就不必担心事先知道所有的事情。

回到跑鞋网站。它被一家更大的公司收购了。这家公司想把你的客户加入他们的常客计划。对于关系数据库,这是一个严重的架构挑战。客户表中应该有经常购买者的号码吗?您是否需要创建一个全新的表来存储经常购买者的号码?一个客户可以有多个买家编号吗?两个客户可以共用一个号码吗?在将客户加入常客计划之前,所有这些问题都需要解决。你必须重做数据库,并找出如何纠正丢失的数据。

没有模式,新字段几乎变得微不足道。您只需将它存储为一个事务。如果客户有一个频繁的买家编号,它会出现在交易中。如果客户没有,则该字段不存在。

最后,NoSQL 数据库应该是集群友好的。您应该能够将数据存储在数百甚至数千个数据库服务器中。在 NoSQL,保存在事务中的记录称为集合。这些集合包含所有的数据:鞋子、顾客、地址和运输信息。这些聚合更容易在许多数据库服务器之间同步。大多数服务器在集群中工作。这允许它们在彼此之间同步,然后向其他集群发送更新。

Note

“集群”这个词听起来应该很熟悉。这与 Hadoop 处理数据集的方式相同。事实上,Hadoop 的大部分都是基于 HBase 构建的,h base 是一个开源的 NoSQL 数据库。

当你在数据科学团队工作时,你几乎肯定会遇到 NoSQL。对于许多组织来说,这是处理大型数据集的首选方式。由于其更简单的设计,开发人员也更容易创建可以快速发展为企业规模的 web 应用程序。

大数据问题

如前所述,大数据和数据科学如此紧密地交织在一起,以至于许多组织将它们视为一体。记住数据科学是用科学的方法提出有趣的问题。这并不意味着你需要大量的数据来问这些问题。大数据提供了丰富的新数据源,允许您提出用较小的数据集无法回答的问题。

大数据并不是一个真正的名词。在 NASA 最初的论文中, 1 将其描述为“大数据问题”你可以从两个方面来理解这个问题:这是一个“大数据”问题或一个大的“数据问题”。如果你读整篇论文,似乎他们把重点放在了这个问题上。这与“大数据”无关。这是关于如何处理这些新数据的问题。十年后,麦肯锡的报告也提到了这一点。 2 在报告中,作者将大数据称为超出常用硬件和软件能力的数据。

那么,为什么将大数据视为一个问题而不是一个名词很重要呢?嗯,是因为很多做大数据项目的公司其实并没有大数据。它可能看起来很大,因为它有很多。这似乎也是一个问题,因为储存和收集起来是一个真正的挑战。但这不是“大数据问题”。

确定您是否存在大数据问题的一种方法是查看您的数据是否属于四个类别。你可以把这些分类记为四个 V。问自己这些问题:

  • 我有大量的数据吗?
  • 我有各种各样的数据吗?
  • 数据是否以很高的速度进入?
  • 我收集的数据有真实性吗?

要成为大数据,它需要具备所有这四个属性。

音量问题通常很简单。如果你每天收集数 Pb 的数据,你可能有足够的容量。当然,这可能并不总是一个问题。在不久的将来,也许一艾字节的容量会被认为是一个足够大的问题。

应该有各种各样的信息。可以有文字,视频,声音,图片。

对于速度,想想纽约证券交易所。他们每天处理数十亿笔交易。他们有大量的数据以高速流入。股票价格在几毫秒内涌入并波动。但是,都是同一类型的数据。通常只有股票代码和价格——大部分是文本。他们收集交易数据,而不是图片、声音或新闻故事。所以他们没有大数据问题。他们当然会收集大量数据,但他们现有的技术应该足以应对这一挑战。

最后,想想数据的准确性。假设你创建了一个数据库,收集了所有关于你网站的推文和脸书帖子。你收集视频、图片和文本。每天都有数 Pb 的数据流入您的集群。您运行报告来查看客户是否对您的产品感到满意。浏览完数据后,您会意识到没有一个问题可以决定客户的情绪。所有的努力都花在了收集无用的数据上,因为这些数据没有提供任何你需要的信息。

为了提供一个有趣的大数据问题的例子,想想围绕自动驾驶汽车的挑战。你需要收集什么类型的数据?你需要收集大量的视频、声音、交通报告和 GPS 定位信息——所有这些都以高速实时地流入数据库。然后,汽车必须找出哪些数据具有最高的准确性。路边的那个人是因为体育比赛而尖叫,还是因为有人站在路上而尖叫?人类驾驶员有几秒钟的时间来搞清楚这一点。大数据汽车必须立即处理视频、音频和交通坐标,然后决定是停下来还是忽略声音。这是一个真正的大数据问题。

Tip

试着记住大数据和数据科学的区别。大数据会让你提出更有趣的问题。这并不意味着所有有趣的问题都需要大数据。专注于科学。这样,不管你有什么数据,你总是能够提出最好的问题。

摘要

在本章中,您了解到因为数据科学围绕着有趣的数据,所以您经常需要使用几种类型的数据库。您了解了一些专门用于数据库的术语,以及该技术的一些基本概念和术语。您还看到了数据库是如何组织的。在第三章中,你将学习如何识别不同的数据类型。

Footnotes 1

考克斯,迈克尔和大卫·埃尔斯沃斯。“面向核外可视化的应用控制的需求分页。”1997 年第八届可视化会议论文集,第 235 页起。IEEE 计算机学会出版社,1997 年。

2

曼尼卡、詹姆斯、迈克尔·楚伊、布拉德·布朗、雅克·布欣、理查德·多布斯、查尔斯·罗克斯博格和安吉拉·h·拜尔斯。“大数据:创新、竞争和生产力的下一个前沿.”(2011).

三、识别不同的数据类型

当你在一个数据科学团队中时,你会经常处理许多不同类型的数据。这些不同的类型将是决定如何存储数据的关键因素。像 NoSQL 这样的技术为存储不同的数据类型提供了很大的灵活性。关系数据库的灵活性较差,但有时更容易使用,而且在关系数据库中生成报告通常更容易。

当您考虑如何存储数据时,您需要了解不同的数据类型。任何存储都是如此。某些数据库针对某些类型的数据进行了优化。就像您不希望在水壶中存储三明治一样,您也不希望建立一个关系数据库来保存错误类型的数据。

您的团队应该考虑三种类型的数据:

  • 结构化:按照特定顺序遵循特定格式的数据。
  • 半结构化:具有某种结构的数据,但也增加了更改字段名和创建值的灵活性。
  • 非结构化:不遵循模式且没有数据模型的数据。

我们将在接下来的章节中更详细地探讨每一种类型的数据,然后介绍什么是大垃圾,并为您提供一些筛选垃圾的技巧。

用结构化数据保持简单

第一种数据在许多方面是最简单的。它通常被称为结构化数据。结构化数据是遵循特定格式和特定顺序的数据。它就像数据库世界的砖块和砂浆——它便宜、不灵活,并且需要大量的前期设计。

结构化数据的一个很好的例子是典型的办公室电子表格。当你用数据填充你的行时,你必须坚持一个非常严格的格式和结构。例如,您可能有一个名为“购买日期”的列每个领域都必须遵循严格的准则。你不能把“星期二”放在一排,然后把“三月”放在下一排。你必须遵循特定的格式;例如,数字月后跟斜杠、日和年(类似于 MM/DD/YYYY 格式)。

这种格式和结构称为数据模型。结构化数据依赖于这种数据模型。数据模型类似于数据模式,除了模式用于定义整个数据库结构。数据模型定义了各个字段的结构。它是如何定义每个数据字段的内容。您决定该字段是否包含文本、数字、日期或其他内容。

想想电子表格的例子,如果忽略了数据模型会发生什么。如果在一行的“购买日期”字段中键入星期二,在另一行键入三月,当您希望创建一个显示三月所有购买的报表时,会发生什么情况?你会怎么做?你会用数字三吗?你会用三月这个词吗?你肯定不会用星期二这个词。

如果您进行这种类型的数据输入,您的电子表格将充满数据垃圾。每次你试图对数据进行排序或创建报告时,都会有一堆无效数据。然后你必须回去清理它,或者从报告中删除它们。这就是为什么许多电子表格应用程序都有格式规则,迫使您在输入数据时遵循特定的模式。

数据库也是如此。许多数据库拒绝不符合模型的数据。通常,用于收集数据的网站(或中间件)被设置为各种字段的特定类型和格式。

关系数据库擅长收集结构化数据,这意味着存在大量的结构化数据。你在网站上或通过移动应用程序访问的许多数据都来自结构化数据。您的银行对账单、航班信息、公交时刻表,甚至您的地址簿都是结构化数据的形式。

这并不意味着大多数数据都是结构化的。实际上,大多数数据并不遵循特定的格式和结构。事实上,一些更有趣的数据根本不遵循任何结构。像视频、音频和网页这样的数据没有定义的结构。

作为数据科学团队的一员,您需要将数据类型与收集方法结合起来。如果您使用关系数据库,您会受限于主要是结构化的数据。对于结构化数据,创建报告通常非常简单。您可以使用结构化查询语言或 SQL 从数据库中提取数据,并以标准格式显示。如果使用 NoSQL 集群,可以处理所有数据类型,但是创建报告会更加困难。这些都是你的团队需要考虑的决定。

共享半结构化数据

当您在关系数据库中拥有结构化数据时,世界上的一切似乎都已定义好并且组织得很好。这就像你把所有的调料都放在调料罐里——你知道所有的东西都在哪里,也知道在哪里可以找到它们。然而,很少有应用程序会如此简单。

半结构化数据比结构化数据更难定义,所以我们将以跑鞋网站为例。假设您为跑鞋网站使用一个关系数据库。它有四个表:鞋子、顾客、他们的地址和运输选项。所有的结构化数据都适合一个数据模型。日期是标准的,邮政编码也是标准的。事情进展顺利。世界上的一切似乎都是对的。

然后你收到了一封运输公司的邮件。运营商表示,通过直接将信息添加到他们的数据库中,可以显著降低成本。您只需要查询他们的数据库,下载其中一个地区运输代码,然后将其添加到订单中并创建一个新记录。这应该很容易,因为他们的数据库就像你的一样。这些都是结构化数据,并且在关系数据库中。

问题是他们的模式和你的模式不一样。您将您的邮政编码数据称为“邮政编码”他们称他们的邮政编码数据为“邮政编码”你并不关心鞋子是运往企业还是住宅。确实如此。你没有具体说明是房子还是公寓。他们每一种都有不同的价格。现在,您需要一种方法来交换您的结构化数据和它们的结构化数据,即使它们都是不同的模式。

要解决这个问题,您需要下载运营商的数据和相关的模式。当客户订购鞋子时,您的数据库会将邮政编码发送到运营商的数据库。它将返回一堆数据,包括他们的地址版本、字段名和数据模型。请记住,他们使用“邮政编码”作为邮政编码。这将包含在新数据中。

他们的数据具有结构化数据的一些特征。它组织良好,有一个标准的格式。文本字段是文本。日期字段是日期。但是数据包括他们的模式。运营商可以使用他们想要的任何名称。这就是为什么这种类型的数据被称为半结构化数据。

半结构化数据甚至比结构化数据更受欢迎。它有结构,但结构取决于来源。您将一直使用半结构化数据。你的电子邮件是半结构化数据。它有一个非常一致的结构。你总是有一个发件人和收件人,但信息可能会有所不同。邮件内容可以只是文本,也可以包括图像或附件。

数据科学团队通常处理半结构化数据多于结构化数据。有大量的电子邮件、博客和社交网站内容可以分析。

当您谈论使用和交换半结构化数据时,有几个术语是相当常见的。其中之一是扩展标记语言(XML)数据类型,这是一种用于交换信息的较老的半结构化数据类型。还有 JavaScript Object Notation (JSON),这是一种交换半结构化数据的更新方式。它通常是 web 服务的首选数据类型。

包含半结构化数据是提出更有趣问题的好方法。回到跑鞋的例子。假设您想获得客户对您的跑鞋订单的反馈。您可以从一些最大的社交媒体网站下载半结构化数据,然后将这些数据与您拥有的客户的结构化数据相结合。如果你的顾客对他们的鞋子不满意,你可以给他们寄一张道歉券。

使用结构化和半结构化数据可以发现这些问题。你的团队可以开始调查你的顾客对他或她的购买有多满意。

收集非结构化数据

最流行的数据类型是非结构化或半结构化的:非结构化数据。一些分析师估计 80%的数据是非结构化的。仔细想想,这很有道理。想想你每天创建的数据:每次你留下语音邮件,你上传到脸书的每张图片,你在工作中创建的 OneNote 备忘录或 PowerPoint 演示文稿,甚至你在网上搜索时生成的数据。这都是无组织的。

那么这些数据有什么共同点呢?这是最大的挑战。答案是不多。它是无模式的。请记住,模式是显示数据的字段、表和关系的映射。您没有包含非结构化数据的地图。此外,非结构化数据的格式取决于文件。Microsoft Word 文档可能有固定的格式,但该格式仅由该应用程序使用。这不是所有文本的格式。这就是为什么您通常不能在另一个程序中编辑 Microsoft Word 文档。

这也意味着没有固定的数据模型。没有一致的地方来寻找字段名和数据。如果您有一打文档,您如何确定它们的标题和内容?如果有些是 pdf,有些是 Microsoft Word 文档,有些是 PowerPoint 演示文稿呢?每一个都有自己的格式。没有要查找的标签为“文档标题”的字段

这是谷歌等搜索公司多年来一直在努力应对的挑战。如何处理没有固定格式和一致数据模型的数据?每次你搜索这些引擎,你都会看到他们的劳动成果。如果你搜索像“猫”这样的词,你会看到文本、视频、图片,甚至音频文件。

处理非结构化数据是数据科学中最有趣的领域之一。像 NoSQL 这样的新数据库允许你捕获和存储大文件。把它们都存放在一个地方要容易得多。所有的音频、视频、图片或文本文件都可以进入 NoSQL 集群。

如果你想捕捉一切,也有新的工具。你可以使用像 Hadoop 这样的大数据技术来批量或实时处理数据。

所以让我们回到你的跑鞋网站。业务增长了一些,现在你是新数据科学团队的一员。你与营销和管理部门合作,提出了你的第一个有趣问题:谁是最好的跑鞋顾客?您收集了一些基本的个人信息,这些信息很容易在您的客户数据库中找到。你有他们的电子邮件地址和他们居住的城市和州。你获取这些信息,开始浏览客户的社交网络帖子。你开始收集所有的非结构化数据。也许您的客户发布了一个完成马拉松的视频。你可以发一条祝贺的微博。

你也可以决定开始浏览客户朋友的帖子。也许你的客户发布了一张他们和一群人一起跑步的照片。您可以使用非结构化数据来识别这些人,并向他们发送特殊促销信息。

这种类型的数据项目通常被称为客户的 360 度视图。你要尽你所能找出他们的动机。然后,您可以使用这些信息找到您的最佳客户并发送促销信息。你可能还会发现,有几个客户推荐了他们的很多朋友。你可能想给他们提供特殊的奖励和折扣。

随着时间的推移,您可以捕获越来越多的客户非结构化数据,这将允许您询问有关客户的更复杂的问题。比如:他们更有可能去旅行吗?他们更有竞争力吗?他们多久去一次餐馆?这些问题中的每一个都有助于你联系顾客,销售更多产品。当您收集这些数据时,您可能希望将其显示在图表中,如图 3-1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3-1。

Brand followers keyword mention count Note

参见如何在 http://ds.tips/Muj7f 创建此图表。

非结构化数据是一种每天都在增长的资源。想一想你今天做的可能会引起公司兴趣的事情。你发了一条关于你长途步行上班的微博吗?也许你需要更好的鞋子。你抱怨过下雨天吗?你应该买一把雨伞。非结构化数据允许公司提供这种级别的交互。

坐在大垃圾堆里

非结构化数据带来了一系列新的挑战。您遇到的第一个问题是是否要删除数据。请记住,数据科学团队对他们的数据使用科学方法。你希望能够提出有趣的问题。你需要决定你想问的问题是否有任何限制。

保留和丢弃数据都有很好的理由。一些数据分析师认为,你不可能知道你可能会问的每一个问题,所以为什么要扔掉数据呢?保存大量数据也相对便宜——通常每千兆字节只需几美分。你不妨把它都留着,而不是决定扔掉什么。有时,购买新硬盘比花时间参加数据保留会议更便宜。

其他分析师认为,你应该扔掉你的数据。这些大数据集群中可能有大量垃圾。你的垃圾越多,就越难找到有趣的结果,因为你的信息中有太多的噪音(无意义的数据)。决定是保留还是删除数据是许多数据科学团队仍在努力解决的问题。

我曾经为一家应对这一挑战的公司工作。他们拥有一个网站,将潜在的汽车购买者与汽车经销商联系起来。他们创建了一个标记系统,可以记录客户在他们网站上看到的所有内容。每当客户滚动图像时,数据库都会添加一条新记录;他们点击的所有链接都被收集了。这个系统发展成了数以千计的标签。每个标签都有数百万笔交易。公司内部只有少数人了解每个标签捕捉的内容,这使得他们很难创建有趣的报告。

他们对非结构化数据使用相同的标记系统。他们开始收集广告和 Flash 视频的信息。他们希望将标签与图片和交易联系起来,这样他们就可以看到客户点击的图片以及指示图片在页面上位置的标签。所有这些信息都存储在不断增长的 Hadoop 集群中。

团队中的一些人认为很多数据都过时了。只有少数人知道标签系统,广告也在不断变化。此外,了解标签系统的人开始给标签重新命名。很多数据都过时了。

团队中的其他人认为,与 Hadoop 集群中可以存储的数据相比,这是非常少量的数据。谁在乎你是否有几千兆字节的过时数据?不值得花力气去清理。

很有可能,你也会处理这些类型的挑战。当你这样做的时候,请记住这些事情:

  • 真的没有正确的答案。您的数据科学团队只需要找出最适合他们的方法。
  • 如果您决定保留所有内容,那么在创建有趣的报告时,您可能需要更加努力。你需要做更多的过滤,数据中会有更多的噪声。
  • 如果你决定扔掉数据,你会有一个更干净的集群。然而,有可能你会不经意地扔掉一些你将来会后悔的东西。就像你清理衣柜一样。你永远不知道那件麂皮领夹克是否会再度流行。但是如果你保留太多夹克,你可能会忘记你有什么。

最重要的是确保你的团队做出决定。你不希望数据策略每隔几个月就改变一次。要么在一开始就决定保留所有数据,要么放弃一些数据。与团队合作,确保每个人都同意该政策以及哪些可以扔掉。如果你没有一套政策,你可能会破坏所有的数据。如果你不知道你扔掉了什么,保留了什么,就很难理解报告的意义。试着尽早决定什么最适合你的团队。

摘要

在本章中,您学习了结构化数据是按照特定顺序遵循特定格式的数据。您还看到了半结构化数据是具有某种结构的数据,但是在更改字段名方面增加了灵活性。最后还有非结构化数据,其他都是。它是不遵循模式并且没有数据模型的数据。你还了解了大垃圾,并找到了一些筛选垃圾的技巧。在第四章中,你将学习如何对你的数据进行统计分析。

四、应用统计分析

数据科学团队将花费大部分时间收集和存储数据,然后使用这些数据提出问题。他们使用统计学和数学创建报告,看看是否能得到答案。统计学是一个非常有趣的领域。要加入数据科学团队,您需要对该语言有一些基本的了解。在探索统计分析时,您需要熟悉几个术语。它们是:

  • 描述性统计:以有意义的方式分析、描述或总结数据以发现数据模式的过程。
  • 概率:某事发生的可能性。
  • 相关性:衡量两个事物相关程度的一系列统计关系。通常用 1 或 0 之间的数字来衡量。
  • 因果关系:一个事件是另一个事件发生的结果。
  • 预测分析:对历史数据进行统计分析,以预测未来。

我们将在接下来的章节中更详细地讨论这些问题。当您阅读这些部分时,一定要寻找更多的统计分析术语。

从描述性统计开始

统计数据是讲述故事的工具,但它们本身并不是故事的结尾。当事情看起来不太对的时候,最好的方法就是回推。

我儿子曾经给我讲过一个关于这个的笑话,这个笑话展示了团队如何利用统计数据来讲述故事。他问:“为什么你从来没见过大象藏在树上?”我耸耸肩,他说:“因为他们真的很擅长。”当你看你的报告时,试着记住这个笑话。人们通常认为统计学是具体的数学。谁会质疑二加二等于四?事实上,统计更像是讲故事。像任何故事一样,它可以充满事实、虚构和幻想。如果你不知道去哪里找,你可以藏起一些相当大的大象。

你会看到这一点的一个地方是政治。一位代表可能会说,“在过去的四年里,选民的平均工资增加了 5000 美元。“人们会鼓掌。挑战者可能会说他们不应该鼓掌,并指出“典型的中产阶级家庭现在的收入比四年前少 1 万美元。“谁说的是实话?答案是两个都有。他们只是用统计数据来讲述不同的故事。一个故事讲繁荣,另一个故事讲失败。他们俩都是真实的,然而他们俩都没有说出全部真相。你必须在这些故事中找到大象。

在这种情况下,代表们使用描述性统计。他们试图在不与每个家庭交谈的情况下描述所有选民的情况。他们正在创作一个典型家庭的故事。

一个代表使用了一种叫做平均值的东西。这是最有用和最流行的描述性统计之一。你可以看到它被用于平均绩点、体育成绩、旅行时间和投资。在这个例子中,代表将每个家庭的收入相加,然后除以家庭总数。果然,每个家庭多赚了大约 5000 美元。

但是坚持住。平均并不是描述一个典型家庭的唯一方式。竞争代表有另一种方法。她使用家庭收入中值。中位数描述了一个处于中间的家庭的收入。为了找到这个数字,你从最低到最高排列所有的家庭,然后从上到下编号。你把排名一分为二就找到了中间的数字。中间的家庭有中等收入。

竞争代表发现中位数收入少了 10,000 美元。这表明平均家庭收入增加了 5,000 美元,但中位数家庭收入减少了 10,000 美元。这是同一个家庭有不同故事的两个描述,如图 4-1 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-1。

Different stories for the same families Note

查看如何在 http://ds.tips/c6Aha 创建这些图表。

当你看到这个的时候,记得去找那头大象。当中位数和平均数之间有很大的差异时,通常意味着你的数据是有偏差的。在这种情况下,想象一下一些家庭非常富有。在过去的几年里,他们的收入大幅增加。这带来了数百万美元的额外收入。这些家庭会歪曲数据,因为顶端有一大笔钱。这将提高平均值,但不会真正影响中位数。也就是说,他们的收入会像其他人一样加起来。在中间值,他们可能只是在排名的顶端。中间点的家庭实际上一点也不会改变。

你会在其他方面看到中位数和均值的挑战。如果有两个人站在一个房间里,他们的平均身高可能略低于 6 英尺。如果一个篮球运动员走进房间,他们的平均值可能会增加一英尺。中值高度将大致保持不变。

在您的数据科学团队中,当您看到使用统计数据讲述的故事时,不要害怕提问。此外,尽量确保您的报告使用不同的方式来描述数据。描述性统计可以讲述许多不同的故事。

理解概率

概率是统计学中另一个可以让你讲有趣故事的领域。概率是某事发生的可能性。这是对可能结果的衡量。如果你掷硬币,概率给出硬币落在一边或另一边的可能性。概率统计侧重于概率分布。如果你掷出一个六面骰子,这意味着有六种可能的结果,任何数字出现的可能性是六分之一。这意味着每次你掷骰子,你有大约 17%的机会击中一个特定的数字。概率也可以表示一系列事件。如果你想显示连续两次击中同一个数字的可能性呢?这是 17%中的 17%,大约是 3%。如果你在玩掷骰子游戏,这种概率相当低。您的数据科学团队肯定希望与概率打交道。这是预测分析的关键部分。它帮助你计算出你的客户做一件事比做另一件事的可能性。

我曾经与一家生物技术公司合作,该公司试图利用数据科学来预测某人参加临床试验的可能性。让人们参与临床试验是一件棘手的事情。有一定数量的诊所,公司需要让它们继续运营——即使它们是空的。如果他们不填满,公司就会损失收入。

他们问的一个有趣的问题是,“阻止人们参与临床试验的一些因素是什么?”事实证明,有很多事情可能会降低人们参与的可能性。如果人们不得不在前一天晚上禁食,他们可能会减少 30%的参与。另外,如果有验血和打针,可能会少 20%参加。图 4-2 是一个流程图,展示了事前出勤、检测、恐血之间的三向关系。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-2。

Three-way relationship between prior attendance, testing, and fear of blood Note

参见如何在 http://ds.tips/V2tup 创建此图表。

该公司必须权衡人们参与的可能性和结果的准确性。例如,有一个药物试验,公司可以通过唾液测试或血液测试来检查药物的有效性。验血有 10%的可能性是准确的。这很容易;他们应该直接用验血。但是坚持住。如果他们进行血液测试,他们的参与者将减少 20%,因为有些人因为害怕针头而决定不做这项研究。如果他们想要 1000 名参与者,那就意味着少了大约 200 人。

这引出了另一个有趣的问题。如果测试少了 200 人,这是否意味着他们的药物试验不太准确?数据科学团队创造了另一种概率分布。如果药物有 1/500 的几率引起某种类型的反应呢?你对 1000 个人的研究比你对 800 个人的研究要好得多。

数据科学团队必须考虑到这一点。即使唾液测试不太准确,让更多的人不用针头参与研究是不是更好?这引发了更多的问题。团队是否应该让参与者进行几次唾液测试,以增加获得准确结果的可能性?最终,这就是数据科学团队帮助公司做出的决定。也许最好是让尽可能多的人参与试验,以增加发现药物反应的可能性。然后,他们可以更频繁地执行不太准确的测试,以增加获得准确结果的可能性。这将允许公司最大限度地参与,同时增加他们研究的准确性——所有这些都是通过概率的力量带给你的。

当您在数据科学团队中从事概率工作时,有几件事情需要记住。首先是概率会把你带到一些意想不到的地方。谁会想到医疗实践可能会通过实施不太准确的测试获得更好的结果?第二,概率也可以是提出有趣问题的重要工具。如果你的问题只是引出更多的问题,不要气馁。

请记住,数据科学涉及将科学方法应用于您的数据。有时候这条路会把你带到意想不到的地方。重要的是当道路急转弯时不要跳下来,这在你处理概率时很容易发生。那些急转弯往往是通向你最大洞察力的道路。

寻找相关性

相关性是数据科学中另一个非常有趣的领域。许多公司用它来猜测你会买哪些产品。它也用来联系你的朋友和熟人。如果你使用像网飞这样的服务,你可能会惊讶于网站能如此准确地猜出你喜欢什么电影。亚马逊多年来一直使用相关性来推荐书籍。

相关性是衡量两个事物相关程度的一系列统计关系。通常用 1 或 0 来衡量。如果两件事密切相关,那么相关性为 1。如果两件事没有关系,那么相关性为 0。1 可以表示为正数或负数。A -1 是典型的逆相关或反相关。

正相关可能是身高和体重。如果一个人个子高,他或她可能会更重。随着高度的增加,重量也增加。还有更直白的例子,比如外面温度越高,买冰淇淋的人就越多。随着气温的上升,冰淇淋的销量也会上升。负相关可能类似于汽车和汽油。汽车越重,越不可能获得好的油耗。随着汽车重量的增加,耗油量会减少。他们有一种相反的关系。

如果你是一名跑步者,你可能会注意到上坡时跑得更慢了。这也是一种负相关。坡度越陡,你跑得越慢。坡度越大,你的速度越慢。

正相关和负相关都是观察两个事物之间关系的好方法。负相关不是坏事。这只是另一种关系。

数据科学团队将在他们的数据中寻找相关性。他们会尝试微调人与物之间的任何关系。幸运的是,软件工具可以处理计算相关性背后的大量数学运算。一个常用的公式是相关系数,它是 1、0 和-1,表示人和事物之间是否存在统计关系。

当计算相关系数时,你通常不会得到一个好的、整洁的整数。相反,你可能会发现 0.5 或 0.75 的相关性。这表明相关性更强或更弱,你越接近 1 或-1,关系越强。

一个有趣的数据科学挑战是 LinkedIn 的“你可能认识的人”功能。LinkedIn 希望找到一种方法来确定专业人士何时相互认识。有数据科学团队处理 LinkedIn 数据,寻找联系之间的相关性,然后试图找出它们为什么联系在一起。这种联系可能是因为他们上过的学校、共同的工作或共同的团体和兴趣。

这个数据科学团队寻找正相关和负相关。他们可能会在网站上找到信息,显示你在某家公司工作,并且你对某个工作感兴趣。然后他们会找到对同一份工作感兴趣并在同一家公司工作过的其他人。这足以在你和另一个人之间建立关联;因此,网站可能会建议您与此人建立联系。

数据科学团队还可以在你的人脉和其他人的人脉之间建立关联。如果你和一个人有联系,而他们又和一个和你有相似技能的人有联系,你们可能会有很好的联系。仔细想想,这很有道理。你更有可能认识在同一栋办公楼工作的人。你也更有可能和有相似兴趣和技能的人联系在一起。随着相似技能数量的增加,你认识那个人的可能性也会增加。

相关性也有能力帮助你的团队质疑它的假设。你可能会认为在你的网站上花钱最多的人也会是你最快乐的顾客。事实可能并非如此。事实上,两者之间可能存在负相关。也许花钱最多的人实际上有着最不切实际的期望。他们更容易失望,也更有可能留下负面反馈,如图 4-3 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-3。

Sentiment score over time Note

访问者在网站上花的时间越多,情感得分就越低。参见如何在 http://ds.tips/pawR7 创建此图表。

作为一个数据科学团队,您将使用相关性来测试您的假设。你可能会寻找策略让你最快乐的人花更多的钱。你也可以想办法管理高消费群体的期望。如果你寻找这些相关性,你会发现很多你可能会忽略的东西。

看到相关性并不意味着因果关系

相关性是一个很好的工具——它帮助你看到你可能看不到的关系。但是也有不好的一面。你得看看这种相关性是否导致了某些事情的发生。这是引起变化的原因吗?一般来说,相关性并不意味着因果关系。第三件没有被考虑的事情可能会影响两件事情之间的关系。对于数据科学团队来说,找出因果关系是一个巨大的挑战。你不想建立不存在的关系。

这么想吧。我在该国较冷的地区长大。当我的父母长大后,他们搬到了佛罗里达州南部。他们现在幸福地生活在一个阳光明媚的退休社区。每隔几个月,我的家人都会去佛罗里达拜访。据统计,他们的社区是地球上最危险的地方之一。我们每次探访,都有人在住院或者更糟。他们的社区和死亡或严重伤害之间有很强的相关性。你可能会认为因为这个我永远不会去看望我的父母。这听起来像每个第一人称射击游戏的开场场景。

然而,我们忽略了这种相关性。我们经常去看他们,感觉非常安全。因为相关性并不意味着因果关系。真正的原因是年龄中位数高得多。退休社区中的老年人受伤或死亡的概率更高。如果你看到这种相关性,你会认为他们生活在战区。你永远想象不到他们会在泳池边平静地打麻将。

想想你的数据科学团队可能也应用这些概念。让我们回到我们的跑鞋网站。假设团队发现一月份的销售额大幅增长。一月和买新鞋的人数之间有很强的相关性。

团队聚在一起了解原因。他们问了一些有趣的问题。人一月钱多吗?最冷的月份跑步的人多吗?这些是第一次跑步吗?他们是新客户吗?他们在买什么样的鞋?

团队讨论问题并决定创建报告。报告显示,这些顾客大多是购买昂贵鞋子的新顾客。因为这些报告,团队认为新销售的原因是新客户在一月份有更多的钱。也许他们收到了购物卡。

第二年,团队决定利用这种因果关系。12 月,他们提供打折礼品卡。他们还向去年的新客户发送促销信息。几个月后,团队查看数据。他们发现他们的促销和折扣没有影响。大致相同数量的人买了相同数量的鞋子。更糟糕的是,去年的新客户似乎对新跑鞋毫无兴趣。因此,有更多的钱并不是相关性的原因。数据科学团队回到他们最初的问题,并运行了几个报告。他们发现,这两年所有的新销售都是针对新客户和首次跑步者的。为什么在最冷的几个月会有大量新顾客购买昂贵的跑鞋?

该团队对此进行了思考,认为原因可能是行为上的。他们提出了一个新问题。所有的新顾客都是因为新年决心而努力减肥的人吗?他们回去创建报告,如图 4-4 所示。报道称,他们都是新客户,购买了一双鞋,然后在年中停止访问该网站。这表明他们买了昂贵的鞋子,然后放弃了。该团队猜测,昂贵的鞋子可能是继续跑步的动力。第二年,他们决定创造一个新的促销活动。它围绕着新年决心。他们发出一封邮件,上面写着:“你想保留你的新年决心吗?”它提供免费的跑步指南和健身追踪器,以此来保持人们的兴趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4-4。

January 2015 and 2016 reports Note

2015 年 1 月和 2016 年 1 月的销售额和总收入分别位居第一和第二。在这两年中,一月份每双鞋的平均价格最高。该公司在 2016 年提供了更多的礼品卡折扣,但这并没有促进销售。2015 年回头客数量和 2016 年新增客户数量均为历年最低。2015 年 1 月和 2016 年 1 月,约有 15%至 20%的买家是首次跑步者。他们平均买了 1 到 1.5 双鞋。当您深入查看首次跑步者细分市场的客户行为时,总销售额在 1 月份达到峰值。他们中的一些人在第四季度回来,但大约一半的人再也没有回来。参见如何在 http://ds.tips/fe2Ax 创建此图表。

相关性和因果关系是大多数数据科学团队面临的主要挑战。制造虚假关系是真正的危险。在统计学中,这被称为虚假因果关系。如你所见,找到真正的原因会给你带来更大的价值。避免虚假因果关系的最好方法是遵循科学方法。记得提出好的问题,并对结果保持清醒的头脑。

预测分析的组合技术

到目前为止,你所看到的一切都是关于过去的。您已经看到了如何收集不同的数据类型,然后执行统计分析。这些统计数据是获得更深刻见解的起点。您的数据科学团队将开始创建相关性,并查看某些事件的概率。现在,让我们用这些想法来预测未来——通常称为预测分析。这个术语与数据科学密切相关,以至于它们有时甚至可以互换使用,但是它们并不相同。预测分析是一种数据科学。数据科学是将科学方法应用于您的数据,而预测分析会获取该结果并使其具有可操作性。

这么想吧。气象学是一门科学。这些科学家研究物理、风速和大气。如果你和一位气象学家在外面,他或她会向你解释为什么云看起来像某种样子,以及压力如何决定它们的运动。这是气象学的科学方面。而是了解天气,看到历史趋势。更普遍的气象学观点并不围绕科学;相反,它与天气预报有关。

天气预报是指一组气象学家使用预测分析。他们可以使用历史数据来分配概率,并使用概率和相关性来预测天气模式。低压系统和强风暴之间可能有关联。随着气压的降低,风暴的强度增加。气压和风暴之间存在正相关关系。

所有这些分析综合起来,气象学家就可以回答一个简单的问题:明天天气会怎么样?曾经的理解过去现在变成了对未来的预测。

目前,人们对预测分析越来越感兴趣,因为新的工具和技术允许更有趣的见解。想想天气预报。目前,气象服务仅限于几千个气象站的历史数据。想象一下,气象局发出了数百万个低成本的信标。人们会把它们安装在家里,并连接到他们的无线网络。这些设备将记录气压和温度信息,以及视频和音频,然后将数据上传到全国 Hadoop 集群。这将给科学家提供前所未有的信息。

这就是预测分析与数据科学如此紧密相关的原因。更大的数据量允许团队提出有趣的问题。然后团队可以执行复杂的分析。在这里,团队将能够逐屋逐街区地观察天气模式,然后基于数百万个家庭创建复杂的预测模型。

你的团队也是如此。想想跑鞋网站。想象一下,你的团队收集了数百万条关于跑步的推文。该团队在 Twitter 上发现了一些有影响力的跑步者。然后你可以送他们免费的鞋子或促销商品,希望他们会说你公司的好话。您还可以使用这些数据来识别关键的跑步事件。

这些新工具允许数据科学团队获得更大的数据视图,并实时查看信息波。气象学家可以分析数十亿字节的信息,跑鞋网站团队可以分析数百万条推文。

组织通常对预测分析的想法非常兴奋,以至于他们并不总是投入足够的时间来发展他们的数据科学团队。他们想在不了解现有数据的情况下直接进行预测。当你在数据科学团队工作时,一定要传达预测的质量取决于团队对数据的分析程度。

你的团队必须了解过去才能预测未来。不要欺骗你的分析。对您的数据提出好的问题,并使用您的统计工具来创建有趣的报告。一旦你做到了这一点,你对未来的预测就更有可能准确。

摘要

在本章中,您学习了描述性统计、概率、相关性、因果关系和预测分析。您还学习了如何在您的数据科学故事中使用统计数据。在第五章中,您将学习如何在开始使用数据科学时避免陷阱。

五、避免定义数据科学的陷阱

在整本书中,我在每一节的末尾都包括了避免陷阱这一章,以帮助您将这些想法应用到您的组织中。在大多数组织中,新想法和事情将如何发展之间经常会出现一些小问题。您可能不会遇到这些挑战,但它们对许多组织来说是常见的。

关注能力

数据科学的关键挑战之一是我所说的“梦的集群”它是根据电影《梦想之地》改编的,由凯文·科斯特纳主演,他扮演一个花了毕生积蓄在玉米田里建造棒球场的男人。老球员的鬼魂拜访他,告诉他完成棒球内场。他们说,“如果你建造了它,他们就会来。”

许多组织陷入了同样的陷阱。他们将精力集中在构建硬件和收集海量数据上。他们在软件上进行大量投资,以便在大型数据集群上运行。他们的梦想是,如果他们有足够的硬件和软件,他们将获得有价值的见解。(如果他们建了,他们会来的。)

仔细想想,这很有道理。许多组织拥有交付成功硬件项目的丰富经验。这是他们知道如何做的事情。他们很擅长这个,而且已经做了几十年了。硬件是真实的,你可以看到你得到了什么。勘探更难量化。它没有完全符合项目流程的投资回报。你只有在做过之后才知道是否值得。数据科学是新生事物,在许多组织中,花钱探索和提问并不容易。

众所周知,国会图书馆启动了一个收集 1700 亿条推文的项目。他们想展示他们可以使用数据科学。他们购买了硬件来存储推文,但他们没有任何计划来处理这些数据。他们也不能让任何人接触这些数据。他们认为如果他们建造了它,他们就会来。不幸的是,这些数据闲置在数百台服务器上。这是数据收集的丰碑。

这似乎是一个极端的情况,但它是非常普遍的。组织专注于构建能力。他们的目标是在 Hadoop 集群中设置一定数量的节点,并使用一套可视化工具。预算投入到硬件和软件中,数据科学团队所剩无几。

我曾经为一个组织工作,该组织试图使用大数据集群来取代他们的数据仓库。他们习惯于在硬件和软件上花费数百万,然后他们会雇佣仓库专家来维护他们的投资。当他们转向 Hadoop 时,他们也有同样的心态。他们启动了一个数百万美元的项目来创建三个独立的集群。全部预算都花在了服务器和软件上。

两年后,他们有了三个集群,但只有少数人知道如何访问数据。更糟糕的是,这些人分散在几个不同的职能领域。他们在硬件和软件上投入了数百万美元,但没有数据科学团队来分析数据和获得洞察力。项目进行几年后,集群只有几兆字节的数据——大约相当于你花几百美元就能在一个硬盘上存储的数据量。只有少数人访问这些数据来为一两个部门创建一些简单的报告。

有几件事要记住,以免落入这个陷阱。首先,数据科学团队是探索性的。他们通过查看数据来寻找见解。数据不是产品;这是来自数据的洞察力。拥有最大的集群没有奖励。

尽管数据科学团队可能会花大部分时间收集数据,但这并不意味着你的所有价值都来自于收集。就像有厨师刀也不能让你成为厨师一样。大数据收集并不能让你成为一个数据科学团队。而是你提出的问题和组织知识的创造。

大多数数据科学团队会使用几种不同的软件工具。(有时他们会想用 R 而不是 Python 在像 MySQL 这样的关系数据库中保存一小部分数据可能更容易;并且他们可能使用不同的可视化工具)。给你的团队灵活探索的机会。通常,一个数据科学团队使用几个免费工具可以完成比一项大投资更多的工作。

科学团队应该在需要时开发工具。好的数据科学团队会很乱;他们将使用许多不同的工具和技术来争论和清理他们的数据。

投资培训和专业知识,而不是硬件和软件。数据科学团队中最有价值的部分是提出有趣问题和传授新知识的人。

摘要

在本章中,您了解到组织关注能力可能是一个错误。公司应该更加关注员工的培训和专业知识,而不是收集数据所需的硬件和软件。在第二部分中,您将学习如何建立您的数据科学团队,从第六章中的发挥您的才能开始。

六、完善你的才能

我们在第二章中定义了数据科学,并讲述了成为“数据科学家”意味着什么在这一章中,你将看到如何把这个角色分成几个团队角色。然后,您将看到这个团队如何共同努力建立更好的数据科学思维。

透视数据科学家

正如您在第二章中了解到的,围绕数据科学家的角色存在一些困惑。2001 年,威廉·s·克利夫兰出版了《数据科学:扩大统计领域技术领域的行动计划》。 1 这篇论文首次将统计学和计算机科学领域融合在一起,创建了一个新的创新领域,称为“数据科学”与此同时,Leo Breiman 出版了《统计建模:两种文化》, 2 描述了统计学家应该如何改变他们的思维模式,采用一套更加多样化的工具。这两篇论文为数据科学奠定了基础,但它建立在统计学领域之上。

2008 年,来自脸书和 LinkedIn 的一些顶级数据专家聚在一起讨论他们的日常挑战。他们意识到他们在做类似的事情。他们认为自己的角色是许多不同学科的交叉。他们决定称这个角色为“数据科学家”

当时的数据科学家只是一个素质列表。例如:

  • 理解数据
  • 懂统计学和数学
  • 应用机器学习
  • 懂编程
  • 好奇
  • 成为伟大的沟通者和黑客

他们是文艺复兴的狂热分子,跨越了许多不同的领域。

问题是,这个技能列表不容易在一个人身上找到。我们每个人都根据自己的天赋倾向于某些领域。我们通常被自己的天赋所吸引,然后努力完善自己的技艺。统计学家通常会努力成为更好的统计学家。业务分析师将努力提高他或她的沟通技巧。专业化也有很大的组织压力。大多数大型组织都划分为不同的职能领域。需要一些共同的理解,但不总是共同的专业知识。

众所周知,人们也不善于自我评估自己的能力。著名的邓宁克鲁格研究 3 发现,认为自己技术高超的人通常会戏剧性地高估自己的专业知识。一个有天赋的统计学家可能认为自己是一个优秀的沟通者,但是你不需要成为一个优秀的沟通者来成为一个伟大的统计学家。一个伟大的统计学家可以轻松地拥有漫长的职业生涯,即使他或她在演讲中笨手笨脚。

这就是为什么大多数组织将工作分成小组。团队中的每个人都有自己的专业领域。跨职能团队不会假设每个人都是专家。相反,它鼓励个人取长补短。数据科学家团队可能无法识别这些弱点。如果没有人识别盲点,团队就会盲目摸索。

我曾经为一个组织工作,该组织有一个数据科学家团队正在构建一个集群。企业有一些担忧,因为高层不知道团队在构建什么——他们感到沮丧,因为他们在为他们不理解的东西付费。我参加了一些会议。数据科学家团队演示了一个简单的 mapReduce 工作。业务经理们茫然地盯着屏幕,偶尔瞥一眼他们的智能手机。对于一个局外人来说,从打哈欠和揉眼睛来看,这个团队显然没有做好沟通工作。

会后,我在白板上写了一个矩阵。我列出了以下六种技能:

  • 数据
  • 发展
  • 机器学习
  • 统计数字
  • 数学
  • 沟通

我请数据科学家从 1 到 10 (1 为差,10 为最好)对他们在这些方面的表现进行评分,以便我们寻找需要改进的地方。我拿着同样的技能列表,给其中一位业务分析师看。我让他们给这个团队打分。

结果如表 6-1 所示。

表 6-1。

Data scientists’ and business analysts’ ratings

| 技能组合 | 数据科学家的评级 | 商业分析师的评级 | | --- | --- | --- | | 数据 | eight | Ten | | 发展 | seven | nine | | 机器学习 | six | eight | | 统计数字 | eight | nine | | 数学 | eight | Ten | | 沟通 | nine | six |

这是典型的邓宁·克鲁格结果。在数据科学家认为自己技术高超的地方,他们大大高估了自己的专业知识。数据科学家都来自定量领域。他们是统计学家、数学家和数据分析师。他们无法识别自己的盲点。需要一个完全不同领域的人来照亮他们的挑战。

如果你是一个试图从数据科学中获取价值的大型组织的一部分,那么依赖少数超级数据科学家将是一个错误。来自相似背景的人往往会有相同的盲点。学术研究表明,你通常会从背景各异的跨职能团队中获得更好的见解。 4

在我们兼收并蓄的组织结构中有一些智慧。具有市场营销、商业和管理背景的人应该在数据科学领域占有一席之地。假设具有量化背景的关键人物会有相同的问题和见解是不现实的。让你的团队多样化,你更有可能取得好成绩。

看到不同技能的价值

你的数据科学团队面临的危险之一是过于强调数据科学家。请记住,数据科学家是多学科的。他们应该了解统计学、数学、开发和机器学习,同时了解客户并提出有趣的问题。大多数数据科学家来自工程、数学和统计背景。这意味着他们可能会分享相似的提问方式,并从共同的角度看待数据。

从事数学和统计工作的人不太可能像从事市场营销工作的人那样了解客户。成为一个领域的专家并不意味着在另一个领域也有专长。

许多自称多学科的人通常拥有一些非常强的技能和其他领域的知识。如果你在很多领域都非常自信,你可能会有很大的技能差距。这也意味着,一个只有数据科学家的团队可能会有类似的盲点,容易出现群体思维。

防止这种情况发生的一种方法是允许具有其他背景的人加入您的数据科学团队。请记住,好的数据科学依赖于有趣的问题。没有理由为什么这些有趣的问题只能来自分析数据的人。

想想你的跑鞋网站。数据分析师应该不难找到将客户推荐到商店的网站。假设大部分客户来自 Twitter、Google 和脸书。也有不少顾客来自其他跑鞋网站。一个好的数据分析师可以很容易地创建一份客户在向您购买之前访问的前 50 个网站的报告。试图找出人们来自哪里是一个很好的分析问题。它是关于收集数据,统计数据,并显示在一个漂亮的报告中,如图 6-1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-1。

Referral-site total visits and referral type Note

脸书、Twitter 和 Instagram 似乎在付费和有机流量方面都带来了巨大的流量。Pinterest 为其他网站带来了相当数量的流量,但大约一半的流量来自付费广告。查看如何在 ds. tips/ fRa4a 创建这些图表。

数据科学团队更深入。团队可能会问,为什么来自 Twitter 的人比来自 Google 的人多?人们在发鞋子的照片吗?如果我们在 Twitter 上购买广告,会有多少人访问这个网站?一个网站比另一个网站更适合发布新产品吗?如果人们看到一只鞋的照片,他们会更有可能访问这个网站吗?这些问题与数据是分开的。商业分析师、营销专家或项目经理没有理由不能问这些问题。

一项对经济系的研究表明,当不同学科的人合作时,他们更有可能产生更高质量的出版物。意见的多样性有利于他们工作的数量和质量。此外,来自不同背景的人更有可能不同意。意见不一致导致每个人都更加努力。最终,这使得每个人的论点更加有力。如果团队中的每个人都很容易就最佳问题达成一致,那么你可能没有问出非常有趣的问题。

当您创建数据科学团队时,请尝试包含来自组织不同部门的许多人。您希望您组织中的每个人都考虑如何更加数据驱动。如果你只为你的团队雇佣数据科学家,你可能会让数据科学看起来像一门黑暗的艺术——只有少数高技能人才应该尝试。这将使您的数据科学缺乏创造性,并与组织的其他部分脱节。

在您的数据科学团队中,将分析与洞察分开非常重要。数据分析师捕获、计算并呈现数据。获得洞察力要难得多。你需要遵循提出有趣问题和寻找结果的科学方法。不要让你的团队只出数据分析。你希望他们更加努力。很可能来自业务部门的某个人会推动团队提出更多有趣的问题。营销团队中的某个人也可能会对您的客户有一些有趣的问题。

一些组织已经开始朝着这个方向发展。LinkedIn 等公司创建了数据墙,显示来自数据分析师的不同报告和图表。这些信息墙允许组织中的所有人查看数据中是否有任何有趣的东西。营销助理可能会看到一个有趣的故事,或者人力资源实习生可能会想到一个有趣的问题。这是从组织的其他部门获得反馈的好方法。

一些组织更进一步,确保每个数据科学团队都有一名来自营销和项目管理办公室的代表。这可以确保您的数据科学团队中有人专门为客户着想,也有人了解如何为组织的其他部门提供价值。

创建数据科学思维模式

与数据科学团队相关的一个术语是“数据驱动”这是一个有点棘手的术语。我们都喜欢用数据来驱动我们的决策。如果你决定不吃加油站的寿司,这是基于真实数据的。你在利用过去的经验和一些观察来做出一个好的决定。通常情况下,你的直觉是正确的——或者至少有一半是正确的。尽量不要把数据驱动的决策看作是你自己直觉的替代物。数据驱动的文化使用数据来增强团队的直觉,而不是取代它。

您的数据科学团队将是创建与数据有更深关系的更大数据科学思维的起点。试着将数据驱动型组织想象成拥有许多数据科学团队的公司,这些团队强化了数据科学思维模式。这些团队创造了一种问题和洞察力的文化。他们不仅应该帮助组织收集数据,还应该使数据具有可操作性。

数据科学团队将有三个主要职责领域。这三个领域为您的数据科学团队奠定了基础,这将有助于您组织中的其他人接受这种新的思维模式。它们是:

  • 收集、访问和报告数据(基础工作):这包括将原始数据处理成其他人都能理解的东西。
  • 问好问题:这推动了有趣的数据实验,并且可能来自不一定具有技术背景的团队成员。他们可能来自商业、营销或管理部门。他们提出有趣的商业问题,并促使每个人质疑他们的假设。
  • 使数据具有可操作性:这将是团队成员的责任,他们主要关心团队学到了什么,以及如何将这些数据应用到组织中。

我曾经在一家零售机构工作,销售家用五金和建筑用品。该公司维护了几个呼叫中心,因为许多客户更喜欢通过电话订购,而不是使用移动应用程序。

该公司刚刚开始研究数据科学,并希望数据科学团队了解为什么这些客户更喜欢打电话,因为维护呼叫中心的成本很高。此外,通过电话接受的订单更容易出错。数据科学团队有三个人:理解数据的人、业务分析师和项目经理。他们三个聚在一起,试图理解为什么这些客户更喜欢打电话。

业务分析师是第一个开始提问的人。这些客户有通过手机订购的账户吗?他们是专业人士还是住宅客户?他们花了多少钱?

然后,团队创建了数据报告,如图 6-2 所示。数据显示,大多数人都是专业人士,他们经常通过移动设备下几个订单。他们通过呼叫中心下的订单比通过移动应用程序下的订单少得多。大约 80%的交易金额低于 20 美元。业务分析师提出了后续问题,“为什么我们一些最忠诚的专业客户打电话来订购低于 20 美元的订单?”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6-2。

Data reports for sales channels Note

大部分订单都是组织下的;然而,大多数通过电话下单的都是个人。在所有类别中,通过个人电话下单的平均总价值最低。查看如何在 http://ds.tips/3uprU 创建这些图表。

在查看数据并与一些客户服务代表交谈后,他们发现这些客户打电话是因为他们需要一个小零件来解决一个大问题。当这些专业人员在工作现场时,客户服务代表正在查找该零件。电话中的大部分时间都花在了描述、识别和加速他们需要的关键部分上。

这个小组尝试了一个实验。他们联系了一些大批量的专业客户,要求他们在需要紧急零件时发送一张图片。他们称之为“Pic-it-Ship-it”计划。他们希望这能提高客户满意度,减少花在电话上描述零件的时间。

数据科学团队很小,但他们仍然涵盖了所有三个责任领域。他们收集了数据并创建了有趣的报告。业务分析师问了一些有趣的问题,并对客户有了一些了解。最后,项目经理组织了一个实验,并开始了一个小的试验计划。他们收集新数据,提出有趣的问题,并使这些见解具有可操作性。

在数据科学团队进行这些实验之前,该组织总是假设这些人是小钱的住宅客户,他们在电话上比在移动应用程序上更舒服。他们的直觉只是部分正确。大多数打电话的人实际上都是他们最有价值的客户。多元化团队的数据科学思维带来了更好的见解。

摘要

在本章中,您探索了数据科学团队中的角色。你发现了什么样的技能可以发挥作用。您还看到了如何培养数据科学思维。在第七章中,你会发现如何组建你的团队。

Footnotes 1

数据科学:扩展统计学领域技术领域的行动计划。《国际统计评论》69,第 1 期(2001 年):第 21-26 页。

2

布雷曼,利奥。"统计建模:两种文化(作者的评论和反驳)."统计科学 16,第 3 期(2001 年):199-231。

3

克鲁格、贾斯汀和大卫·邓宁。"不熟练并且没有意识到:认识到自己的不称职是如何导致自我评估膨胀的."人格与社会心理学杂志 77.6 (1999): 1121。

4

博斯克特、克莱门特和皮埃尔-菲利普·库姆斯。“大系会让学术更有成果吗?研究中的聚集效应和同伴效应。”空间经济研究中心讨论文件,第 133 号(2013 年)。

七、组建团队

拥有数据科学思维既是一种组织挑战,也是一种文化挑战。不是雇几个数据分析师那么简单。您希望您的整个组织以创造性和有趣的方式思考您的数据。数据分析师将帮助你分析你的数据,但他们可能不是新见解的最佳来源。正如在第六章中提到的,你应该把数据科学看作是一个团队的努力——不同背景的小团体用你的数据进行实验来创造知识。那是数据科学中的科学方法。这是一个经验性的探索过程。你会问好问题,收集证据,并试图得出结论。

与其找几个什么都能做的人,不如和你现有的能做大部分事情的人一起工作。我认为一个行之有效的模式是将您的数据科学团队分成三个角色:

  • 研究领导
  • 数据分析师
  • 项目管理人

我在不同的组织中见过这三种角色。他们可能有不同的名字,但他们期待完成同样的事情:问好问题,收集证据,并试图获得洞察力。我们将在接下来的章节中更详细地介绍每一个角色,然后我们将讨论他们如何在团队中合作。

利用研究线索提出好问题

阿尔伯特·爱因斯坦说过,如果他有一个小时来解决一个问题,他会花前 55 分钟去寻找正确的问题。问题是发现的关键。这使得他们对于数据科学团队来说至关重要。问题是你获得新见解的最重要的驱动力。数据科学中“科学”的关键部分是找到正确的问题。

你已经有数据了。您的组织可能正在收集比您需要的更多的数据。在许多方面,你已经收集了答案。现在你必须提出正确的问题。对于大多数组织来说,这不是一件容易的事情。我们仍然为渴望答案的公司工作,因为答案结束了讨论。你从会议中解脱出来,开始将一些事情付诸实践。这就是为什么组织倾向于青睐专家。他们提供了答案。答案是最终的和封闭的;问题是开放式的。另外,一个好的问题可以引出更多的问题。

这就是为什么数据科学团队应该依靠只专注于提问的人。这个人应该了解业务,但他或她也需要走出业务。对于这个角色,我听过的最好的名字之一是研究领导。它抓住了人的主要责任:引导提问和推动研究。

研究负责人应该来自业务部门,推动团队提出有趣的问题。她应该从与团队一起提出问题或确定关键问题开始。她可以把它们贴在问题墙上,或者整理成便利贴。

研究负责人有三个方面的责任:

  • 确定假设
  • 驱动问题
  • 了解业务

这三个领域密切相关。作为一名研究主管,有时你不得不跳出你的经验,像第一次看到业务一样去处理它。这需要一些努力,你必须致力于采取新的视角。

当有一个有趣的问题时,一个好的研究领导者会凭直觉知道。杰森·斯蒂芬博士就是这样。 1 他是一位天体物理学家,也是一位经常旅行的人。他发现自己排在等待登机的长队中。大多数人只是接受这是旅行的一部分。Steffen 博士非常了解飞行这一行,他意识到让乘客排长队是低效且昂贵的。他问了一个简单的问题,“有没有更好的登机方式?”他的科学背景帮助他想出了一个解决方案。他想象人们平行登机,每隔一排跳过一排。这比目前让人们一次一个人排队的方法要有效得多。(不幸的是,由于各种原因,这种做法还没有实施。)

Steffen 博士经历了一个好的研究领导者的所有三个行动。他对这个行业有一些了解。他知道飞行。他能够质疑自己的假设。数百万人在他面前排起了长队,没有对登机过程进行第二次思考。最后,他提出了一个简单的问题:有没有更好的办法?

你不一定要成为科学家才能想出有趣的问题。一个研究领导应该对业务有所了解,但是这个人不需要成为专家。例如,爱德华·兰德发明了宝丽来即时照相机,因为他受到了他三岁女儿的一个问题的启发。当他们在新墨西哥度假时,他用一架普通照相机拍了一张照片。他的女儿只是问,“为什么我们要等照片?”他的女儿质疑一个简单的假设。

这两个问题开启了有趣的探索之路。Steffen 博士想出了一种让人们登机效率提高 30%的方法,Edward Land 创造了一种即时相机,这是 20 世纪最具创新性和最漂亮的技术产品之一。

研究领导角色的最有帮助的组成部分之一是它将问题与数据分开。问好问题本身没有什么技术含量。记住,爱德华·兰德的女儿只有三岁。

将提出问题的人和寻找可能答案的人分开也有很多好处。这有内在的利益冲突。如果你只有一个很小的数据集,你可以把自己限制在简单的问题上——那些你已经可以用你的数据来回答的问题。一条好的研究线索可能会让你重新思考你收集的数据类型。最后,那更有价值。

向数据分析师展示数据

你的团队需要优秀的数据分析师。数据分析师负责理解数据,获取和清理数据,然后在简单的报告中显示数据。他们应该与研究线索一起工作,看看报告中是否有什么发现。他们还应该推荐统计方法或创建数据可视化。研究负责人和数据分析师将携手构建见解。研究主管专注于提出最佳问题,而数据分析师则试图提供最佳报告。

围绕不同的数据工作头衔有很多混乱。有统计学家,统计分析师,数据分析师,数据科学家,数据工程师,甚至数学家。你甚至可以任意在其中任何一个上面加上“首席”或者“资深”。首席统计师可能比高级数据科学家级别高得多。所有这些混乱的原因是从事这些工作的人都做着非常相似的事情。以这样或那样的方式,他们都在实践从数据中学习的科学;他们只是以非常不同的方式来扮演这个角色。

统计学已经存在了几百年。这一学科的发展是因为政府需要了解自己的人口和经济数据。它有着悠久而丰富的历史。美国统计协会(ASA)是美国历史最悠久的专业协会之一。

另一方面,数据分析师来自计算机科学。他们学习从关系数据库和 NoSQL 数据库中提取意义。他们专注于呈现和发现支持决策的有趣数据。

数据科学家被认为是多学科的。他们是数据分析师,但他们也开发软件,从事数学工作,了解业务,并提出有趣的问题。作为 Bitly 的前首席科学家,希拉里·梅森创建了一个流行的定义。她认为数据科学家是数据分析师,他们也懂数学、软件开发、工程和黑客。他们可以迈出下一步。他们可以开始寻找见解,而不仅仅是制作报告。

数据科学团队将通常由一名数据科学家承担的职责进行了拆分。通常,要求一个人理解数据和业务并提出有趣的问题是很难的。一个好的数据科学团队需要一个对软件开发略知一二的数据分析师,而大多数数据分析师已经发现了解软件开发是必要的。许多优秀的可视化工具需要一些软件编码。Python 和 R 是探索和显示数据的两种最流行的语言。(你在第一章学到了一些关于这些语言的知识。)

在数据科学团队中,数据分析师有三个主要职责领域:准备数据、选择工具,然后展示结果。

准备数据和选择工具

准备数据和选择工具是齐头并进的。你必须选择准备数据的工具。所以,作为数据分析师,你大部分时间都在准备数据。您必须找出获取数据的最佳方式——无论是通过 web APIs、从页面抓取数据,还是从组织的不同部门收集数据——然后清理数据。清理数据通过修复不同的字段或添加缺失的数据(如扩展缩写或纠正拼写错误的单词)使其更加有用。

展示结果

数据分析师面临的主要挑战之一是与研究主管一起探索数据,找出是否有突出的东西,并创建见解和报告。有时候,大量的数据会导致缺乏洞察力。如果数据分析师让团队超负荷工作,实际上会限制每个人解读信息的方式。

为了避免这种情况,数据分析师需要与研究负责人密切合作,在他们的报告中解释权衡。通常在统计数据中,你看不到的东西对你的理解至关重要。有时候那是故意的;其他时候不是。

假设研究负责人想要查看在跑鞋网站上购物的所有男性和女性的汇总,并显示按年龄组的细分。作为数据分析师,你可能会问年龄层。你是每五年还是每十年创建一个支架?如果你每五年创建一个,你会有 18 或 19 个中间倾斜的括号,因为 18 岁以下或 90 岁以上的跑步者可能较少。

该报告也可能难以阅读。对于 20 岁到 40 岁之间的人,你可能不需要这种粒度。35 岁和 40 岁之间可能会有很大的差别。如果你打破这个年龄段,你可能会歪曲数据。这可能会让 30 岁到 40 岁的人看起来更少。这就是数据分析师在展示数据时保持透明非常重要的原因。这里有一些影响故事的决定。如图 7-1 所示,整个团队应该努力提前了解这些决策,并传达一个准确的故事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7-1。

Heatmaps Note

从最细的层面(每个年龄作为一个单元)和不同年龄组的热图来看:左图显示轻量级运动鞋在 18-21 岁之间最受欢迎;运动控制、赛车、稳定性和拖车更受 21-65 岁人群的欢迎。然而,由于不同的年龄界限,显示在右边,这个数据可能携带一个非常不同的信息。在右上方,似乎轻量级运动鞋在所有三个年龄段(0-18 岁,19-65 岁,66-90 岁)都同样受欢迎,但如果你看看右下方和原始热图,它显然只在 18-21 岁之间更受欢迎。这是因为右上角的第一个桶将最受欢迎的范围分成了两半。查看如何在 http://ds.tips/m2zAm 创建这些图表。

所有这些决策通常由数据分析师决定。然而,与研究主管一起做出这些决定有助于整个团队更好地理解数据。

与项目经理保持一致

在数据科学团队工作最困难的部分之一是让您的见解具有可操作性。这项工作应该开始感觉像一个正在进行的科学实验。你得到一点数据。研究线索引发了有趣的问题。这些问题刺激更多的报告,这通常会导致更多的问题。

在这一轮探索中,团队需要专注于收集数据的目的。还需要一种向组织的其他人解释这些见解的机制。不幸的是,这意味着许多会议,这可能是一个真正的时间消耗。当作品具有创造性时尤其如此。

我曾经为一个组织工作,该组织有一个非常有创造力的数据科学团队。他们想出了利用公司大量信用卡数据的有趣的新方法。在最初的几个月里,数据科学团队大多独自探索数据。最终,团队产生了一些非常有趣的见解。随着他们的见解变得更加有趣,组织中的其他人也变得更加好奇。各部门开始号召团队成员做报告。这些会议使得其他团队更加感兴趣。这导致了更多的会议。几个月后,数据科学团队中的一些人每周开会长达 20 个小时。他们从数据科学从业者变成了演示者。

数据科学团队中这些关键人物的缺席降低了团队其他成员的工作效率,以至于他们产生的见解越来越少。他们花在查看数据上的时间要少得多。请求召开会议的部门开始询问为什么数据科学团队没有找到同样多的见解。

这在许多组织中都是一个悖论。你的工作对公司的其他人越有意思,你在会议上谈论工作的时间就越多,这意味着实际工作的时间就越少。

打破这种循环的最好方法是拥有一个高效的项目经理。项目经理非常擅长保护数据科学团队不偏离轨道。他们可以通过在会议上代表团队来做到这一点。

数据科学团队中的项目经理负责三个主要领域:使数据民主化(使其广泛可用)、共享结果以及加强组织学习。项目经理既当挡箭牌,又当推土机;保护团队免于过多会议的盾牌,这将有助于保持团队工作,以及打破障碍和访问隐藏数据的推土机。

使数据民主化

当您在大型组织中工作时,访问所有数据变得越来越困难。项目经理可以帮助打破这些孤岛,从而使整个组织受益。例如,假设您的数据科学团队想要访问位于数据中心角落的某个布满灰尘的服务器上的数据。当团队试图访问它时,他们发现它是禁区,只对某个部门开放。您的项目经理负责尝试说服该部门允许数据科学团队访问这些数据。

分享结果

项目经理还负责分发信息。他们是参加会议并展示团队成果的人。如果另一个部门的人想要访问团队的数据,项目经理会给他们提供访问权限。

数据民主化和结果分发密切相关。这是一条双行道:一条路可以访问组织数据,另一条路允许组织的其他人访问团队的见解。其中每一个都有自己的一系列会议和挑战。

加强组织学习

项目经理的最后一个领域是加强学习——获取洞察力并使其可操作。在一天结束的时候,团队仍然会根据组织学到的东西进行评估。需要有人坚持到底,将洞察力转化为产品或变革。

想象一下,如果拥有信用卡数据的组织发现了一些有趣的事情,比如午餐时间交易数据略有上升。项目经理会将这种洞察力转化为可操作的东西。他或她也可能与基础设施组合作,在这些时间扩大他们的技术,或者与营销组合作,创建午餐促销。强化这种学习需要大量的时间和会议。一个好的项目经理通过承担这个责任来保持团队在正确的轨道上。

团队合作

一旦你的团队就位,整个团队一起工作,看看他们是否能创建一个有趣的数据模型来显示数据的趋势。也许你会发现几个不同的项目之间有很强的相关性,然后一起猜测是什么导致了这种相关性。

假设您的团队为一家在线杂志工作。在每个故事的顶部,都有一个链接,允许读者将文章分享给他们的社交网络。您团队中的数据分析师对读者分享最多的故事进行排名,并为团队准备一份报告,如图 7-2 所示,以便您可以讨论调查结果。反过来,研究负责人可能会问,“是什么让这些文章如此受欢迎?它们是被最广泛阅读的还是被最广泛分享的?有没有某些话题让一篇文章更容易被分享?有没有关键短语?”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7-2。

Counts by channel and title along with totals Note

该数据由随机生成的文章标题和频道的分享数组成。从图表中,您可以看出,尽管它们都是份额排名靠前的故事,但渠道之间可能会有很大差异。查看如何在 http://ds.tips/spu3E 创建这些图表。

您的团队合作创建一个模型,该模型显示某些主题之间的相关性以及该主题被共享的可能性。也许团队创建了他们自己的主题标识。研究负责人在这里至关重要,因为她是最了解业务的人。她可能对读者有足够的了解来猜测某些主题类别。她可能是想出关键词的最佳资源,比如“偷窥”、“模糊的照片”、“古怪的幽默”或“谣言”,这意味着技术谣言。(有出版背景的人会有很多有用的建议。)

该团队甚至可以创建一个程序的第一个版本,试图根据关键字将文章分类。数据分析师创建报告,并开发识别故事主题的应用程序。然后,他创建了一个数据模型,可以准确地对分享最多的文章进行排序。(这个人可能不太了解出版,但他知道如何处理数据。)最后,团队使用预测分析将该模型应用于未来。您现在有了一个应用程序,它可以准确地预测一篇新文章何时可能被许多读者共享。

这是项目经理介入的地方,获得这种新的洞察力,并使之可行。她将结果传达给其他团队,并与管理层合作改进组织。她甚至可能与市场部合作,将最赚钱的广告放在更有可能被读者高度分享的文章上。

数据科学思维的一部分是承认,为了鼓励创新,你需要研究主管和数据分析师一起工作来推广新想法。研究负责人必须提出有趣的问题。他们还必须培养意见的多样性。他们可能想从组织的其他部门引进人员。

如果你只和数据科学家一起管理你的团队,你很可能缺乏意见的多样性。他们的训练和背景会有太多相似之处。他们更有可能很快达成共识,然后齐声合唱。

我曾经和一所研究生院合作,他们试图通过查看过去的数据来提高他们的毕业率。事实证明,最好的主意来自一个项目经理,他也是一个热爱潜水的人。他查看了人口统计数据,并建议伙伴系统可能会增加参加整个项目的学生人数。这是水肺训练中常见的做法。没人能预料到他的洞察力。这只是来自他的生活经历。图 7-3 显示了您可以收集的关于伙伴系统的数据示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 7-3。

Buddy system data Note

看左边,如果一个学生参加了他们的伙伴计划,平均来说,这个人会比那些没有伙伴的人在计划中多呆三周。那些有朋友的人比那些没有朋友的人更有可能在八周后留下来。参见如何在 http://ds.tips/naF7u 创建此图表。

这种形式的创造性发现比大多数组织意识到的要普遍得多。事实上,一份来自专利局的报告表明,几乎一半的发现都是简单的偶然发现。团队在寻找解决问题的方法,而某人的洞察力或经验将他们引向一个全新的方向。

Note

我们将在第八章中更详细地介绍这种工作关系。

摘要

在本章中,您了解到数据科学中最有效的团队模式之一包括以下角色:研究主管、数据分析师和项目经理。研究负责人有三个方面的职责:寻找假设,提出问题,了解业务。数据分析师准备数据,选择工具,并展示结果。最后,项目经理从各个部门收集您需要的数据,然后分享团队的成果并强制组织学习。在第八章中,你会发现这个团队将如何开始合作。

Footnotes 1

杰森·h·斯特芬《航空乘客的最佳登机方法》《航空运输管理杂志》14,第 3 期(2008): 146-150。

2

亨利·明茨伯格。《战略规划的兴衰》《哈佛商业评论》第 72 期,第 1 号(1994 年):第 107-114 页。

八、开始工作

现在你已经有了自己的团队,你需要了解如何开始工作。首先,您需要探索每个团队成员的职责范围,并指出这些职责范围的重叠之处。接下来你需要考虑的是如何呈现你的数据。数据可视化是整本书都涉及的主题。我将简要介绍这个主题,并涵盖您的数据科学团队将主要关注的两种不同类型的报告:内部报告和外部报告。

在您知道如何展示您的报告后,我将继续解释数据仓库以及它们如何影响您的团队收集数据的能力。然后,我会给你一些关于如何使你的数据民主化的建议。最后,我将讲述深入了解数据科学团队和获得管理层认同的重要性。

界定责任范围

与大多数组织的运营方式相比,数据科学思维是一个巨大的变化。即使自称为数据驱动的组织也不经常使用他们的数据来创造新的见解。相反,他们使用数据的方式就像一个醉汉使用灯柱一样。 1 他们认为这是支持而不是照明。

这对您的数据科学团队来说是一个真正的挑战。您的组织可能认为这是数据驱动的,但他们实际上只是使用数据来强化他们已经知道的东西。任何与这一知识相矛盾的东西都被视为坏数据。

您的数据科学团队需要确保使用数据进行发现,这可以防止团队陷入仅使用数据支持已知内容的陷阱。事实上,数据科学的一个主要好处是质疑已有的知识。就像那句古老的马克·吐温名言:“让我们陷入困境的不是我们不知道的事情。这是我们确切知道的,但事实并非如此。”

如果你的组织依赖于没有数据支持的知识,你可能会遇到麻烦。通常,这种共享的知识是正确的,但当它是错误的,它会产生持久的后果。如果您的数据科学团队忠实于其三个方面的职责,这将为您的组织带来实实在在的好处。这三个领域是研究、问题和实现,如以下部分所述。

到目前为止,您已经看到了数据科学团队中的三个常见角色:提出有趣问题的研究主管、与研究主管合作提出有趣报告和见解的数据分析师,以及将这些见解付诸实践并提供给组织其他成员的项目经理。

现在是时候承担这些角色,并把它们放到更大的责任范围内,这样你就可以看到团队是如何团结在一起的。想象你的团队有不同的重叠责任区域,如图 8-1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 8-1。

The overlap between different roles

研究

让我们从数据分析师的维恩图开始。数据分析师的主要职责是研究,这是科学和数据科学的关键部分。数据分析师与研究负责人合作,提出有趣的问题,研究这些问题,并通过创造性的报告或图表来展示结果。

该数据分析师是团队的基础。他与项目经理和研究主管一起工作。他们只是以不同的方式工作。把他想象成和他们两个都有独立的双向关系。他以有趣的问题的形式从研究负责人那里获得输入,然后他将结果和见解输出给项目经理,以便她可以强制学习。

质问

现在我们来看看图 8-1 中的下一个圆。右边是研究线索的圆圈。他们的职责范围是提问。如果你用科学的方法来思考这个问题,这个人就是创造了一个有趣假设的人。

研究主管在自己和数据分析师之间创造了一个循环。她在问问题并得到反馈。这并不像给数据分析师发一封电子邮件说“你怎么看?”这是一个合作的过程。研究负责人提出问题,数据分析师根据可用数据对这些问题提供反馈。这两个圆重叠在一起。这是问题和研究之间的直接关系。

履行

图中最后一个圆圈 8-1 是给项目经理的。他的职责是执行。他需要确保团队获取数据并将其用于可行的事情。他确保团队将他们的见解分发给组织的其他成员。

采取探索性的过程并将其应用于组织知识并不是一个简单的挑战。在数据科学团队中,您通常不知道最可行的见解的途径。在团队找到一条有趣的路径之前,团队将通过 50 个死胡同。

尽管如此,重要的是要考虑这些见解最终实现时会是什么样子。

这些责任领域中的每一个都是团队需要完成的地图的一部分。这有助于强化您的数据科学团队是探索和发现的理念。团队需要遵循数据,即使它与已有的知识相矛盾。

提交报告

数据可视化是数据科学最有趣的领域之一。它是使用图形和图像显示数据的方式。简单的图形是传达复杂思想的最佳方式之一。平衡复杂的想法和简单的设计是一个真正的挑战。

大多数报道在这一方向上或另一方向上走得太远。有许多漂亮的图表并没有真正传达多少信息,也有一些信息丰富的图表很难看,很难理解。良好的可视化是数据分析师的核心职责。也就是说,分析师应该与数据科学团队密切合作。如果你必须向研究负责人解释这个图表,对其他人来说可能太复杂了。这个团队是一个很好的试验场,可以帮助你使你的图表更漂亮,可读性更好。

有许多关于数据可视化的好资源。最古老和最受尊敬的方法之一是量化信息的可视化显示,第二版由 Edward R. Tufte 出版。 2 在这本书中,图夫特教授介绍了数据-墨水比率的概念。他指出,你应该推动你的可视化,用最少的墨水传达最多的数据。他将“图表垃圾”这个术语用于无用的视觉效果,如三维阴影或渐变效果。

塔夫特教授帮助建立和设定了数据可视化领域的方向。他帮助建立了一种展示数据的现代方法。

对于另一种方法,请查看 Cole Nussbaumer Knaflic 的《用数据讲故事:商业专业人士的数据可视化指南》。在她的书中,她列出了六个关键的教训。她首先说,数据分析师应该了解他们的受众和背景;选择合适的显示器,消除杂乱,集中注意力;像设计师一样思考,讲述一个引人入胜的故事。这两本书将让你很好地理解创建良好的数据可视化意味着什么。

Note

在数据分析师的培训中,通常没有为他们创建良好的可视化做任何准备。大多数研究生课程仍然深深植根于数学和统计学。良好的数据可视化依赖于美学和设计。这是一项需要学习的技能,可能并不容易。

请记住,您的团队一起工作来探索数据,这意味着您设计的第一轮报告的大部分将是为彼此设计的。研究领导提出有趣的问题,数据分析师创建一个快速而肮脏的报告来探索可能的答案,然后团队可能会提出一系列新问题。这意味着您的大部分初始数据可视化将是快速交换——更像是可视化聊天,而不是完整的数据报告。

另一方面,还有最终的数据可视化,您需要与组织的其余部分进行交流。这些可视化效果将会更加完美、简单、易于理解。

把你的第一轮可视化想象成数据白板,就像大多数组织墙上的白板一样。它们主要用于帮助小型会议和讨论的快速可视化。你的第一份报告应该有那样的可读性。这可能是一个快速简单的聚类图。也许这只是一个简单的线性回归。

没有人会给行政报告中的白板上的涂鸦拍照。只是为了团队。要将白板上的数据呈现到执行报告中,您必须增加清晰度和修饰。

如果你是一名数据分析师,记得利用你从团队其他成员那里得到的反馈。数据可视化就像任何设计一样。你不需要成为专家才能有自己的观点。你的团队将是判断你的图表是否可读和可理解的最佳方式。也请记住,你最好的图表将是一个紧急设计的产品。从简单的报告开始,随着时间的推移进行改进,使它们更简单,可读性更强。每个新版本都应该阐明你所拥有的信息。您还可以通过添加信息来改进您的报告,而不会增加其复杂性。

如果经过几次改进,你最终会得到更漂亮的报告。团队的其他成员将是帮助你实现目标的最佳资源。

了解孤岛并释放您的数据

数据科学团队面临的最大挑战之一是访问组织的所有数据。这是项目经理的核心职责之一。她会努力进入你组织中每个角落布满灰尘的旧数据库服务器。

对于大型组织来说,每个部门拥有不同的数据库并且不共享信息的情况并不少见。每个部门都有自己的数据分析师、经理和数据库工程师。该部门的人员将了解他们的数据挑战,但不太了解组织的其他部门。这通常被称为数据仓。筒仓这个术语是从农业中借用的。农民通常将季节性谷物储存在一个高大的中空建筑中。如果你见过筒仓,你就会知道它是一座高大的独立建筑。每个筒仓储存自己的粮食,通常与其他筒仓没有联系。组织数据也是一样。每个部门都存储少量数据,不会与其他孤岛混在一起。

数据孤岛的存在是有充分理由的。每个部门可能都有自己的法规挑战或安全措施。一个数据库可能有密码,而另一个可能只有简单的产品列表。密码数据库很可能是加密的和安全的,而产品数据库是开放的和可用的。

孤岛的问题在于,它们使您的组织很难对您的数据有一个整体的了解。我曾经为一个组织工作,该组织试图将其所有数据转换到一个集中的集群中。他们觉得他们没有从数据中获得足够的洞察力。该组织刚刚经历了一次数据治理转型,希望治理如何控制数据。

当他们最终进入他们的数据时,他们意识到有多少数据被锁在无人知晓的小仓库中。多年来,每个部门都创建了自己的流程、模式和安全程序。该组织希望从这些数据中获得价值,但是这些数据分布在整个公司的不同服务器上。让每个人分享他们的数据有点像让他们分享他们的牙刷。项目经理参加了许多讨论非常激烈的会议。

不幸的是,打破这些孤岛是成为一个更加数据驱动的组织所必需的。您可能希望几个数据科学团队在一个集中的数据集群上工作。您还会希望数据科学团队之外的人创建基本的报告和图表。

请记住,数据是发现洞察力和创造新的组织知识的关键材料。要成为数据驱动的,你需要自由访问数据。

既然您已经了解了孤岛,那么如何使数据民主化,以便尽可能多的人可以访问它呢?您需要确保数据不再是在高管和数据分析师之间传递的受保护资源。相反,它需要成为一种全公司范围的资源,被每个人操纵和理解。

如果你是数据科学团队的项目经理,请记住以下几点:

  • 不要低估访问数据仓库的难度。这需要很长时间,并且您希望在团队实际需要他们的数据之前就开始。
  • 创建集中式数据集群需要进行组织变革。如果你没有高管的认同,你可能不会有太大的进步。您可能需要向每个部门推销集中式数据集群的理念。大多数部门不会同意你的观点。他们认为如果它没坏,为什么要花时间去修理它呢?您可能需要向他们解释,他们将能够创建更复杂的报表或使用更新的可视化工具,以此来吸引他们。
  • 您需要提供对团队报告的访问权限。如果你能展示公司范围内的报告和见解的价值,你可能会更容易打破孤岛。过一段时间后,就更容易认为共享数据就像任何其他共享资源一样。整体将比所有部分的总和更好。

尽最大努力保护数据科学团队免受数据孤岛会议的影响。你希望他们专注于探索和发现。你专注于增加他们的使用和访问。

在数据科学团队中创造洞察周期

许多组织关注于监控每个团队的里程碑。经理们专注于他们的合规性,并且他们的大部分努力致力于规划。他们有季度预算,并密切监督。他们寻找成本或进度差异。如果他们看到了变化,他们会迅速追踪,然后报告给主管。这些类型的组织是为监控和遵从而构建的。如果你在这种类型的组织中,想想你的会议。很有可能,你正在做一些事情,比如计划或提出一个计划,与另一个团队协调,要求增加预算,或者因为进度落后而要求延期。

这种工作方式不太适合数据科学团队。记住你的团队的工作是探索性的。它的成员提出问题,创造理论,然后进行实验。

当然也有一些公司习惯于与科学家合作,比如制药或高科技公司。这些类型的公司已经进行了多年的实验。但对大多数公司来说,探索性工作是一个新概念。拥有一个创造新知识的数据科学团队似乎不太自然。在这些公司里,你必须特别小心团队的运作方式。将存在将业务与技术分开的机构压力,以及确保由合规经理管理团队的强大推动力。这通常是项目经理或总监。建立这些结构会减缓发现的速度。

我曾经为一个组织工作,该组织不允许研究领导与数据团队密切合作。他们认为,提出最佳见解是数据分析师的工作,而业务经理只会在月度报告中看到这些想法。

业务经理有自己的预算,独立于数据团队的预算。业务经理对寻找真知灼见不感兴趣。她只是确保她的团队不超出预算。拥有一个全职的研究带头人不在他们的预算之内。数据科学团队甚至在开始之前就停止了探索。

我看到另一家公司试图使用项目经理来监控数据科学团队的里程碑。他试图创造不同的方法来衡量团队的进展。他为开发问题创建任务,然后测量团队完成这些任务的情况。效果不好,因为大多数问题只会引出更多的问题。当团队的里程碑持续下滑时,项目经理很不高兴。他的动机是尽可能快地“完成”问题,这与你在数据科学团队中想要的正好相反。

当你在一个数据科学团队时,试着意识到这些制度压力。大多数组织很难接受一个不容易衡量或控制的数据科学团队。很难设定目标或创造投资回报。

努力工作以确保你的团队不会被拉入这些顺从的结构中。相反,确保团队创造一个反馈循环。每个人都应该一起质疑、研究和学习。

数据科学团队中的每个人都有自己的关注领域,但他们仍然在紧密的反馈循环中一起工作。例如,当研究负责人和数据分析师研究数据时,项目经理会参与其中,而数据分析师可能会给项目经理一些关于访问另一个团队的数据的好建议。当每个人都参与的时候,团队总是会做得更好。当你探索的时候,你对一个问题的观察越多,你就越有可能获得深刻的见解。

此外,请确保您的数据科学团队拥有高管级别的支持。没有它,你几乎肯定会被拉回普通的控制策略。这并不容易,但如果你有管理层的支持,并能在团队内部建立紧密的反馈循环,你会更容易有所发现。如果这些组织变革需要很长时间,不要沮丧。第一步是理解数据科学的目的,以及它如何适应这些长期服务的组织结构之外。

摘要

在本章中,您探索了每个团队成员的职责范围。然后,您会看到这些责任领域的重叠之处。您还了解了一些如何呈现数据(数据可视化)以及内部和外部报表之间的区别。接下来,您了解了数据仓库以及它们如何影响您的团队收集数据的能力。然后,您收到了一些关于如何使您的数据民主化的提示。最后,您了解了向数据科学团队提供透明度的重要性,以及这如何有助于管理层的认同。在第九章中,你会发现如何让你的团队像数据科学团队一样思考。

Footnotes 1

这句话通常被认为是苏格兰小说家和民俗学家安德鲁·朗说的。

2

塔夫特,爱德华 r,和 P. R .格雷夫斯-莫里斯。定量信息的可视化显示。第 2 卷,第 9 号。康涅狄格州柴郡:图形出版社,1983 年。

3

科尔·努斯鲍默·纳弗里克。用数据讲故事:商业专家数据可视化指南。约翰·威利父子公司,2015 年。

九、像数据科学团队一样思考

现在,您已经知道如何构建您的团队,并划分了责任区域,您如何确保您的数据科学团队像团队一样思考?在这一章中,我将通过研究一些让你的团队保持正轨的常用方法来帮助你。首先,我通过问有趣的问题来讲述如何避免不加推理地报道。接下来,我将探索如何为你的团队整体找到正确的心态。最后,你将学习如何理解数据,并获得一些如何摆脱团队冻结的技巧。

不讲道理避免举报

如果你不熟悉统计学,一个很好的起点是《赤裸裸的统计学:从数据中剥离恐惧》,作者是前芝加哥大学公共政策教授查尔斯·惠兰。这是一本有趣的读物,也是对统计分析的很好的介绍。在书中,他回顾了利用报告得出草率结论的危险。

如果你知道要找什么,你会发现到处都是草率的结论。你可以在互联网新闻网站上看到这个。Wheelan 教授设想了一个新闻网站,标题引人注目:“工作时短暂休息的人更有可能死于癌症。”听起来很可怕。根据这项对 36,000 名工人的研究,那些报告每天休息几次 10 分钟的人在未来五年内患癌症的可能性增加了 41%。那些没有休息的人要健康得多,如图 9-1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 9-1。

People who take short breaks are far more likely to develop cancer

如果我们只看那些每天休息三次或更多的人,他们患癌症的可能性确实增加了 43%。然而,95.1%的人每天只休息两次。查看如何在 http://ds.tips/Sp4ye 创建此图表

一个粗心的数据科学团队可能会将此报告给组织的其他部门,公司可能会采取古怪的措施,例如锁上门以确保每个人的安全。这似乎是一个极端的例子,但它比你想象的要普遍得多。

一个负责任的数据科学团队绝不会从这类报告中得出结论。相反,研究负责人会用它来引出有趣的问题。为什么离开办公桌会如此致命?这些休息了 10 分钟的人是谁?为什么不休息的人更安全?

研究负责人可能需要通过与熟悉这些员工的人交谈来研究这些问题。也许有人会认可这种行为。

如果你在办公室工作过,你可能会认识到,任何一个每天起床 10 分钟的人都可能是去外面抽根烟。记住相关性并不意味着因果关系。在这种情况下,问题是这些工人经常吸烟。与他们每 10 分钟起床的联系只是偶然的。吸烟才是真正的危险。

在您的数据科学团队中工作时,请记住,防止草率报告的最佳方法是与研究主管合作,提出有趣的问题。记住结论是容易的。难的是探索和推理。这些将是你最大的洞察力的来源。

你的研究主管和数据分析师之间应该有一种健康的紧张关系。数据分析师将寻找数据来得出结论。研究负责人总是会有更多的问题。数据分析师将提交报告,研究主管将测试这些报告的弱点。最终,这将有助于创建更强有力的分析。

草率的推理是一个比看起来更大的问题。前面的例子只是一个虚假的互联网标题,但有时现实可能是危险的。在 20 世纪 90 年代,医生观察到服用雌激素补充剂的女性患心脏病的可能性降低了三分之一。一项对 122,000 名女性的大规模研究表明,雌激素补充剂和心脏病发作之间存在负相关关系。许多医生得出结论,雌激素具有保护作用,可能有益于女性健康。 2

到 2001 年,1500 万妇女正在服用雌激素补充剂,通常称为激素替代疗法。然后奇怪的事情发生了。医生开始注意到,接受激素替代疗法的女性更有可能患中风、心脏病和乳腺癌。

几年后,医生们开始仔细检查这些发现。他们中的许多人得出结论,在最初的研究中,看起来更健康的女性有外部因素——她们更富有,更有健康意识,更有可能获得出色的医疗保健。雌激素不是他们身体健康的可能原因。这个数据至今仍有争议。然而,有一点是可以接受的,那就是这种草率的分析导致了成千上万妇女的死亡。

对草率推理的最好防御是研究领导和数据分析师之间创造性的紧张关系。如果你没有问正确的问题,你更有可能得出错误的结论。

拥有正确的心态

你已经看到草率报道的危险。现在让我们稍微思考一下如何进入正确的心态。许多组织认为数据科学只是一种分析技能,一个房间里有一群分析师,他们只是简单地报告他们的数字。这些数字被视为真理,因为数字不会说谎,但数字会说谎。在第四章中,你看到了统计数据讲述错误故事的例子,两个政客基于相同的数字讲述了不同的故事。研究可能会得出错误的结论。人们可能会曲解数据。他们的故事可能不完整。

你已经看到,提出问题是对草率结论的最好防御。那么如何提出更好的问题呢?要达到这个目标,你需要有正确的心态。好消息是,在过去的几年里,在这方面已经做了很多工作。许多不同的领域走到了一起,以更好地了解人们是如何思考的。计算机工程师将这些应用于机器学习和人工智能。

研究发现,分析性思维不一定能很好地服务于数据科学。报告和数据只是第一步。下一步是概念思维——观察数据并将其与自己的直觉相结合的能力。概念思维将帮助团队确定他们的问题所关注的领域。

有一本关于这个话题的有趣的书,书名是《全新的思维:为什么右脑思考者将统治未来》,作者是丹尼尔·平克。在书中,他认为我们已经接近了信息时代的尽头,仅仅关注数字和报告是没有价值的。真正的价值来自我们创造的知识。他称之为概念时代。

数据科学正处于这个概念时代的边缘。在某种程度上,分析工具将足够简单,以便更多的人可以访问数据。很快,用户将可以像 WordPress 或微软的 LinkedIn 一样使用数据科学工具。这将使更多的人获得有趣的信息。

目前,数据科学团队负责数据及其底层概念,这在许多方面要困难得多。团队必须使用他们的分析技能作为起点,然后使用一套全新的概念技能。在丹尼尔·平克的书中,他讲述了其中的一些技巧。他称之为概念时代的“感觉”。我将这些感觉融入了三种团队价值观。这些值应该有助于您的团队在概念层面上考虑数据。

讲故事胜于报道

第一个价值是讲故事胜于报道。您的数据科学团队应该努力提供关于数据的有趣故事。你应该讲一个令人信服的故事。通常情况下,你的数据会被解读,这意味着可能有不止一个故事。如果你想到一个有趣的故事,就更容易提出问题。

把数据想象成戏剧中的角色。询问他们为什么做一件事而不是另一件事,然后询问他们的行为。

细节之上的交响乐

第二个价值是细节上的和谐。参与信息时代的最佳方式之一就是专业化。你可以在公司招聘中看到这一点——例如,数据库工程师通常只专注于少数几个平台。您将希望在数据科学团队中远离这种专业化。你希望团队通过将几个不同的故事放在一起,创造一个更大的画面,来创作一首交响乐。

你已经在几个例子中看到了这一点:看到吸烟者离开办公桌的大画面,理解为什么顾客在年初购买跑鞋。这些故事要求你引入许多不同类型的数据,以获得更好的理解。

同理心胜过确定性

最终的价值是同理心高于确定性。了解人们的动机是对你的数据提出疑问的最好方法之一。您的数据科学团队想要了解您的客户在想什么,什么对他们来说是重要的。请记住,数据科学可以分析数百万人的行为。如果你的团队能理解他们的动机是什么,他们就能提出更有趣的问题。

请务必记住,您的数据科学团队必须使用一套全新的技能才能取得成功。要问好问题,你必须从概念上思考。尝试使用这些团队价值观来提醒自己,数据科学不仅仅是简单的报告。你的团队需要运用他们的概念技能来提出好的问题并创造组织知识。

深入“意义建构”

如您所见,团队拥有正确的心态非常重要。你的团队应该从概念上思考数据。那不是一件容易的任务。请记住,大多数数据分析师来自数学或统计学,这些领域往往依赖于结构化指标。

概念思维往往需要一种讲故事的风格,更有创造性和艺术性。许多数据分析师需要依靠他们的能力,而不是他们的培训。一旦每个人都有了正确的心态,他们就可以开始专注于有意义的事情。理解是数据科学的一个关键部分。

我们都以这样或那样的方式理解事物。当您度假回来时,您可能会被收件箱中的电子邮件淹没。您可能决定创建标记为“重要”、“旧”或“通知”的子文件夹,或者您可能决定按发件人对所有电子邮件进行排序。

每个人处理数据的方式可能不同。作为一个团队,要对数据有一个共同的认识就更难了。每个人都有自己的理解技巧。这些视图可能不会重叠。对一个人来说有意义的事情对另一个人来说可能是浪费时间。

对数据科学团队来说,理解可能是一个巨大的挑战。这些团队将试图理解非常大的数据集,这些信息可能是压倒性的。这可能会导致团队冻结,即当一个团队有如此多的数据,他们不知道从哪里开始。如果你在团队之外,当团队冻结时,你可能很难看到。

我曾经为一家公司工作,该公司试图理解一个巨大的新数据集。该公司收集了适量的数据,然后从外部公司购买了大量数据集。他们希望将现有数据与这些更大的数据集联系起来,以便更好地了解他们的客户。在另一家公司的帮助下,他们能够快速地将这些新数据集放入他们的集群。问题是数据科学团队不知道从哪里开始。他们努力理解。他们愣住了,只是生成显示他们有多少数据的报告。

它们被冷冻了几个月。每当他们有一个商业会议,团队只是显示更好的数据报告。他们下载了昂贵的可视化工具,并制作了非常棒的图表。但是最后,他们没有问任何有趣的问题。

如果你在一个数据科学团队,试着寻找你可能正在努力理解的迹象。如果每个人都专注于工具,这可能是您的团队被数据淹没的迹象。当心取代数据科学的空洞演示。

摆脱数据冻结的一个方法是从数据中获得更多乐趣。你可以提出一些看起来没有价值的荒谬问题。试着提出一些问题,看看某人是喜欢狗还是喜欢猫。也许试着通过查看某人的购物记录来猜测他或她的身高。记住问题往往会引出更多的问题。仅仅是拿到数据并使用它就足够开始了。你的团队的许多发现将来自意外的发现,这意味着你越是摆弄这些数据,你就越有可能发现一些有趣的东西。

不要害怕瞎折腾(但不要对团队以外的人这么说)。在团队内部,围绕问题反复讨论,直到有东西卡住为止。实验和玩游戏之间往往只有一线之隔。你对数据了解得越多,对一些有趣的问题就越有感觉。

试着理解团队中的每个成员可能会以不同的方式处理数据。这是理解的关键部分。您应该提出这一挑战,并寻找一种共享数据的方式。认识到你的团队何时冻结也很重要。许多数据科学团队在创建报告时会受困于工具。最后,记得玩得开心。通过摆弄数据,你可能会得到一些最好的观点。

摘要

在这一章中,你学习了一些让你的团队保持正轨的常用方法。这些包括如何通过确保他们问有趣的问题来阻止他们不加推理地报道。您还发现了如何拥有正确的数据科学思维。团队需要通过概念思考和学习讲故事来理解数据。在第十章中,您将了解如何在组建数据科学团队时避免陷阱。

Footnotes 1

查尔斯·惠兰。赤裸裸的统计:从数据中剥离恐惧。WW 诺顿公司,2013 年。

2

Shlipak,Michael G .,Joel A. Simon,Eric Vittinghoff,林峰,Elizabeth Barrett-Connor,Robert H. Knopp,Robert I. Levy 和 Stephen B. Hulley。“雌激素和孕激素、脂蛋白(a)与绝经后冠心病复发的风险.”《美国医学会杂志》第 283 期,第 14 号(2000 年):1845-1852 年。

3

《全新的思维:为什么右脑思考者将统治未来》。企鹅,2006。

十、在组建数据科学团队时避免陷阱

在本章中,我们将讨论影响数据科学团队的两个主要陷阱。首先,如果一个团队太快达成共识,它会扼杀发现,这是一个团队有盲点和倾向于集体思维的迹象。

最后,你如何知道你的团队在错误的问题上花了太多时间,或者问了错误的问题?这被称为徘徊,我们也为你提供一些如何避免这种情况的建议。

避开共识

在大多数组织中,人们自然会试图达成共识。不同的组织有不同的叫法。有的鼓励大家“结伴而行”。其他人用“社会化”这样的词。数据科学非常不同。共识可能是个大问题。你希望你的团队探索新的想法。如果每个人都太快达成共识,这可能意味着每个人都有一个共同的误解。

请记住,数据科学是关于探索的。你在寻找知识和洞察力。没有必要让每个人都达成一致。事实上,你希望每个人都能够舒服地讨论如何解释数据。数据科学团队应该更像是一次尴尬的家庭聚餐,而不是安静的乘车旅行。你希望团队成员互相交谈、探索,甚至互相烦扰。这种类型的交流更有可能发现新的想法。

你可以做一些事情来阻止你的团队迅速达成共识:

  • 要意识到共识的危险。认识到在一个复杂的话题上迅速达成一致通常是集体思维的标志。
  • 确保你的团队足够小,以至于每个人都乐意表达不同意见。你的团队应该有你的研究领导,一些数据分析师和项目经理。努力保持你的团队少于六人。较大的群体往往会排挤较安静的声音,而这些声音往往拥有你的一些最佳见解。
  • 确保你的研究负责人从团队之外引进人员。

让我们详细阐述最后一点,因为这是远离快速达成共识的关键。假设你正在看一个关于你的跑鞋网站的有趣问题。你想看看处于浪漫关系中的人是否会说服他们的伴侣跑步。该小组正试图通过网站上的数据找出解决这个问题的方法。研究负责人可能想邀请销售人员分享轶事,或者邀请他们认识的几个和他们的女朋友、男朋友、丈夫或妻子一起跑步的人来谈论他们是如何开始和他们的伴侣一起跑步的。这些人可能会增加一些团队没有的洞察力。只要记得保持团队的小规模。所以也许每次会议只增加一两个人。

你的团队可能尝试的另一件事是通过假设他们是错的来结束每一次讨论。这可能就像问“如果我们错了呢?”你的团队应该能回答这个问题。也许他们会意识到他们在这件事上是错的,或者他们在许多其他事情上是错的。如果这是真的,那就去经历所有其他的事情。注意团队对这个问题没有答案的时候。这是团队可能成为集体思维受害者的警告信号之一。

假设团队决定探讨浪漫的跑步伙伴问题。他们决定查看这些数据的最佳方式是查看是否有共享相同地址的客户,然后比较他们的订单,看一个客户是否比另一个客户先开始订购,如图 10-1 所示。但是如果团队错了呢?数据会是什么样的?也许室友很有可能一起跑。他们可能是学生或者想合租。这些可能是无力的论点,但仍应予以考虑。最有价值的是关于错误意味着什么的讨论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10-1。

Orders from customers who share an address

大多数地址只有一个订单,一个月内每个地址最多有四个订单。除去只有一个订单的客户,平均而言,一个地址的订单最大间隔天数为 16.5 天。如果我们比较订单之间的间隔天数,最有可能的情况是,人们会在 15 天内再下一个订单,在一个月的时间内下的订单越多,他们在前 7 天内下的订单就越多。查看如何在 http://ds.tips/s5Ere 创建此图表

如果团队达成共识太快,另一个尝试是找一个可能不同意的人,并且是魔鬼的拥护者。例如,对于跑鞋网站,你可能想引入一个永远不会和浪漫伴侣一起跑步的人。问她为什么会有这种感觉。也许人们利用这段时间独处更常见。这可能是因为跑步者喜欢跑步,因为它是一项孤独的运动。这些见解确实能为团队的讨论增色不少。

如果你在一家大公司工作,你可能会比你意识到的更倾向于快速达成共识。大型组织中的典型项目需要大量的协调工作。对于这些项目,你需要一个共识来完成事情。数据科学团队有不同的优先级。当你寻找新的知识和见解时,太快达成共识可能是一个真正的危险。如果您使用本节中讨论的技术,您更有可能让您的团队不断探索并接受新的想法。

让团队不要走神

正如我们所看到的,团队有过快达成共识的危险。另一方面,您如何知道您的团队在错误的问题上花费了太多时间?什么时候应该放弃一个问题,开始另一个问题?这是相反的挑战。不是大家都同意,而是继续问错误的事情。团队最终徘徊而不是探索。

从许多方面来说,这是一个比共识或集体思维更困难的挑战。你想让你的团队感受自由漫步。同时,企业需要获得有价值的见解。你不想因为关注交付而扼杀创新。然而,该团队必须兑现承诺。

我曾经为一家大型家装零售商做过一个项目。他们试图确定顾客是普通人还是专业改造者。他们试图根据客户购买的东西创建一个预测数据模型。

研究负责人问了一些非常有趣的问题。专业人士更有可能购买哪些物品?专业人士是否更有可能购物?也许他们一大早就去购物,然后还要去建筑工地报道。专业人士更有可能进行大额采购吗?

所有这些问题都非常有趣。数据科学团队引入了一些外部人员,以便获得他们的观点。他们在避免共识方面做得很好。有许多不同的问题。也有一些不同的方法来获取数据。

该团队面临的一个挑战是,零售商错误地认为如果他们有更多的数据分析师,他们会更有效率,并使团队变得更大。有一名研究负责人、一名项目经理和四名数据分析师。

研究负责人会提出有趣的问题,然后数据分析师团队会生成几份不同的报告。问题是这些报告中的每一个都有非常狭窄的定义。数据分析师有时会出现这种情况。大多数分析师来自统计学、数学或软件开发的结构化世界。他们受过训练,所以当他们看到复杂性时,他们倾向于将其分解成狭窄的度量标准。因此,他们没有被数据淹没,而是对小细节不感兴趣。

这正是这支球队的情况。如图 10-2 所示,他们每隔几周就要制作几十份报告,报告的结论都很小,也很无趣。他们发现,购买油漆的人更有可能在早上购买,购买量大的人更有可能购买电器,购买地毯的顾客更有可能在周五购买。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 10-2。

Item counts by days of the week and times of the day Note

方块越大,一周中某一天花在该项目上的钱就越多。较深的颜色代表当天晚些时候的销售额;浅色代表当天早些时候的销售。与地毯、炊具和风扇相比,油漆和装饰品的总价值很小。油漆大多是早上买的。地毯在周五的销售额略高,炊具在周一的销售额略高。参见如何在 http://ds.tips/y2wRe 创建此图表。

这些小数据点中的每一个都很好,但是数据分析师没有试图创造一个故事。专业客户的动机和挑战是什么?

这就是透过玻璃门的钥匙孔看的问题。当一个团队有太多的数据分析师时,有时会发生这种情况。他们专注于几十个小数据点,而不是试图与更大的真相搏斗。如果这个问题得不到解决,团队可能会继续在数据中徘徊,失去询问大问题的兴趣。

研究负责人的一项重要职责是通过推动团队提出有趣的问题并提供有价值的见解来确保这种情况不会发生。研究主管代表数据科学团队的业务利益。

你希望团队可以自由探索,但同时,你又希望他们不要徘徊。如果团队没有提供洞察力,他们对业务就没有价值。这也是你想让团队保持小规模和平等代表性的原因之一——一两个数据分析师,一个研究领导,和一个项目经理。如果你的团队中有太多的数据分析师,你就有在没有洞察力的情况下收集数据的危险。

小团队可以提出大问题。此外,记住你拥有来自团队的知识和洞察力。如果你认为团队的想法不够宏大,你必须挑战他们去追求更大的故事。

摘要

在这一章中,你学习了一些如何避免数据科学团队中两个常见陷阱的技巧。一个是达成共识太快,另一个是徘徊。如果一个团队太快达成共识,它会扼杀发现,是团队有盲点的标志。如果你的团队在徘徊,他们在一个问题上花了太多时间。他们也可能会问一些错误的问题。在第四部分中,您将了解您的数据科学团队应该如何专注于交付价值,从第十一章开始,您将看到数据科学团队的行为方式之间的差异,以及它与大多数组织的运营方式有何不同。

十一、一种新的工作方式

数据科学中的“科学”是指使用科学的方法。这种科学方法是一个发现的循环。你的团队会问一些有趣的问题,然后你会研究这些问题。接下来,你将利用研究提出新的见解。你的团队需要对这项工作采取经验主义的方法。他们需要的不是计划,而是适应。他们不再依赖答案,而是寻找有趣的问题。

这与大多数组织的运作方式有很大不同。大多数组织依赖于计划、目标和具体的可交付成果。通常在这些情况下:

  1. 投资组合被分解成更小的、可操作的项目。
  2. 每个项目可能有几个团队。
  3. 中央项目管理办公室(PMO)跟踪项目的成功。
  4. 项目管理办公室确保团队能够按时完成可交付成果。

另一方面,您的数据科学团队需要适应性、探索性和创造性来帮助他们质疑、探索和做出反应…这是一个相当大的脱节。大多数组织仍然渴望计划、目标和确定性。

为了让你的数据科学团队取得成功,你必须改变组织对你的工作的看法。你必须摆脱计划和交付的观念,代之以探索和发现的观念。在大多数组织中,这种改变并不容易。

你要做的第一件事就是传达数据科学的与众不同之处。首先将数据科学与一个典型项目进行比较。展示传统的规划和交付理念如何不适用于数据科学团队。重新定义成功的标准,解释你不能在项目结束时专注于一个大爆炸的可交付成果。相反,你必须通过创造新的见解来展示成功,然后展示创造组织知识的价值。

回顾典型项目

根据项目管理协会(PMI)的数据,世界上有超过 1600 万的项目经理。相比之下,研究公司国际数据公司(IDC)估计软件开发人员只有 1800 万多一点。这意味着几乎每个软件开发人员都有一个项目经理。对于许多开发人员来说,这并不奇怪。

在软件开发领域,项目管理和软件开发似乎是齐头并进的。大多数软件开发人员都讲流利的项目管理。他们可能会问一些关于软件需求的问题,或者某个新特性是否超出了项目的范围。他们甚至可以使用甘特图或其他项目管理计划。这些开发者已经将项目管理内在化了。他们将需求、范围和进度作为软件开发的一部分来考虑。尽管开发可以以许多不同的方式发生,但是对于这些开发人员来说,遵循项目管理实践是一种自然的趋势。

这对您的数据科学团队来说可能是一个相当大的挑战。如果你的团队成员从事过传统的软件项目,他们可能会尝试应用那些项目管理原则。数据科学团队不做项目。请记住,这些团队是探索性的。这就是数据科学中的科学。

项目管理是一个明确的过程。它要求你在开始之前对交付品有一个了解。典型的项目要求预先建立规范。他们专注于在范围、时间表和预算内交付。如果没有对这些约束的认识,你就不能有效地管理这些项目。

典型的项目也交付产品或服务。在你的项目的结尾应该有一个名词。也许你正在完成一份报告,或者你的团队交付了一个软件产品。在最后,你的项目必须交付一些东西,这样你就知道它是完整的。

我们来看一个典型的项目。假设您需要为您的跑鞋网站购买一台新的服务器。你有一个项目经理在做这个项目。项目经理做的第一件事是创建项目章程,这是一个简短的一页文档,说明项目将完成什么。

如果章程获得批准,项目经理将创建一个计划。该计划记录了项目的范围、成本和时间表。在这种情况下,项目的范围是购买新的服务器。项目经理估计了成本,并指定了服务器到达的日期。当服务器到达时,项目结束。

范围、成本和进度都是平衡的约束。如果计划改变,成本很可能会上升,时间表很可能会延长。如果项目经理决定通宵运行服务器,成本会上升,进度会缩短。在这个铁三角中,范围、成本和进度都是平衡的。

那么这和数据科学团队有什么关系呢?简单的回答是什么都没有。好的项目管理是一个完全不同的学科。它有不同的目标和过程。这并不意味着项目管理将从数据科学中消失;很有可能有人会推动您的数据科学团队使用项目管理原则。

有一个老笑话说,如果你有一把闪亮的新锤子,所有东西看起来都像钉子。大多数组织和项目管理也是如此。这是他们习惯使用的工具。没有锤子和钉子,他们不会放心花钱。

我曾经为一个深度投资于项目管理的组织工作过。项目管理办公室是公司最有权力的部门之一。数据科学团队在几乎所有的会议中都在努力解决这个问题。利益相关者会询问项目的范围,而数据科学团队从来没有一个好的答案,因为他们试图创造新的知识和发现洞察力。涉众还会询问团队计划何时交付这些见解。同样,这个团队也没有真正的答案。他们不知道会发现什么。他们仍在查阅数据。他们无法确定找到最有价值见解的日期。这从来没有让涉众非常满意。

如果你在一个数据科学团队工作,你几乎肯定会遇到这样的问题。如果只是几个项目经理问这些问题,大概不会有太大的挑战。如果赞助你项目的人问这些问题,你可能真的有问题了。

在这种情况下,你能做的最好的事情就是交流项目管理和数据科学之间的区别。至少,要确保你的数据科学团队中的每个人都明白其中的区别。尝试远离项目管理语言,如范围、成本和进度。随着时间的推移,你的观众可能会接受不同的方法。

从事数据科学“项目”

项目管理在大多数组织中都非常成功。这是一把帮助降低成本和管理时间表的闪亮的锤子。组织使用项目管理来完成他们的许多工作已经足够成功了。这并不意味着项目管理适合所有这些工作。

数据科学明显不同于项目管理。你的团队可能会探索新的机会。他们可能试图让您的数据更容易被组织中的其他人访问。也许他们正在寻找更好地了解您的客户的方法,或者试图检测安全漏洞或欺诈。该团队甚至可能探索来自传感器或机器的海量数据集。这些努力不适合典型的项目管理框架。首先,你不会有一个范围。数据科学项目是探索性的。这就是数据科学中的科学。

在开始探索之前,你无法对你将要发现的东西做出详细的描述。探索的全部目的是你不知道你会发现什么。你必须能够对你的数据做出反应。如果你想探索和获得新的知识,你需要期待意想不到的事情。总的来说,数据科学寻找新的机会或试图解决当前的假设。它侧重于知识探索,并试图提供见解。

想一想你在生活中所做的更具探索性和经验性的事情。你曾经走过一条狭长的餐馆,看着菜单吗?这是一个经验过程。你正在探索每一家餐馆,并对菜单做出反应。这与你在一家著名的餐馆预订大不相同。然后你会计划去哪里,什么时候去,可能还会计划吃什么。

现在,想象一下,当你在探索的时候,有人要求你承诺你将吃什么,你将花费什么,以及你将在什么时候完成。很有可能,你无法回答。如果那个人坚持要你回答,你可能会跳到第一家餐馆,看看菜单,然后做个估计。在非常真实的意义上,你必须停止探索。你不是在学习,而是在计划。

这正是项目管理实践应用于数据科学时所发生的事情。表 11-1 比较了典型的软件项目和典型的数据科学项目。

表 11-1。

Software project and data science project comparison

| 典型软件项目 | 典型的数据科学项目 | | --- | --- | | 开发新的客户自助门户 | 更好地了解客户的需求和行为 | | 根据客户反馈创建新软件 | 创建一个模型来预测客户流失 | | 安装新的服务器群以提高可扩展性 | 寻找新的市场和机会 | | 将遗留代码转换成更新的软件 | 验证关于客户使用的假设 |

我曾经为一个组织工作,该组织坚持将良好的项目管理实践应用到他们的所有工作中。数据科学团队也不例外。团队试图通过创建知识里程碑和洞察力交付来适应这种实践。最后完全行不通。知识里程碑只是最好的猜测,并阻止团队关注任何有趣的东西。由于时间限制,他们只寻找容易证明或近乎显而易见的东西。每当我试图问更多有趣的问题时,他们都担心会错过一个里程碑。

如前所述,项目管理实践对大多数组织都是有益的。不幸的是,对于您的数据科学团队来说,这些实践具有寒蝉效应。项目管理不鼓励不确定性。它迫使数据科学团队只尝试和验证已知的东西。如果他们发现任何意想不到的东西,它被视为一个错误,而不是一个功能。

当您创建里程碑和可交付成果时,您是在告诉团队,他们有一个固定的时间来验证已知的内容。他们通过没有发现新事物来衡量他们的成功。这与您希望您的数据科学团队做的事情背道而驰。你不希望将数据科学视为一个交付产品的项目。

比较项目挑战

传统的项目依赖于设定的需求和仔细的计划。请记住,典型的项目有范围、成本和进度。这与数据科学团队使用的科学方法并不兼容。没有具体的可交付成果需要管理,并且您无法真正平衡这些约束。

相反,数据科学团队是经验性和探索性的。这些项目包括边看边学。如果你坚持一个项目计划,你就是在强迫团队寻找他们已经知道的东西。很难想象大多数团队会在一个定义明确的盒子里发现大量新数据。

如果你想想大多数组织中的会议,它们通常围绕着计划和达成目标。大多数组织的语言仍然依赖于诸如使命、目标和结果等短语。很难退一步想象一个纯探索的团队。对于大多数组织来说,这将是一个艰难的转变。

所以我们来看一个项目,把它比作一个数据科学团队。然后让我们看看如果你应用计划和目标会发生什么。

让我们从一个典型的软件项目开始。您的组织想要开发一个新的客户自助门户。项目章程旨在创建门户,作为降低成本的一种方式。该项目将有一个固定的成本,但该组织将节省客户服务的资金。这个项目有很高的投资回报率。该计划列出了需求文档中的所有功能。有一个开发进度的估计,所有的成本都有记录。所有这些都在项目计划中进行了概述。项目经理将在整个项目中更新计划,并帮助平衡任何变化。

现在让我们想象一下数据科学团队。是一个四人小团队。有一名研究主管、两名数据分析师和一名项目经理。他们的任务是更好地了解客户的需求和行为。组织的领导者认为,如果他们能够更好地了解他们的客户,他们可以将这种了解转化为未来的收入。

研究负责人首先会问几个问题:

  • 我们对客户了解多少?
  • 我们对顾客有什么假设?
  • 为什么我们的客户会选择我们而不是我们的竞争对手?
  • 什么会让我们的顾客更愿意和我们一起购物?

研究负责人将与数据分析师合作,将这些信息分解成报告。也许他们可以创建关于客户收入的报告,如图 11-1 所示。他们还可以分析社交媒体平台,并从成千上万的客户那里创建一个反馈词云,如图 11-2 所示。例如,单词云中一些最大的单词是“旅行”、“食谱”和“餐馆”团队可以回去问更多的问题。为什么我们的客户喜欢旅行?他们要去哪里?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 11-1。

Income and spend Note

x 轴是收入,y 轴是支出。收入高的人不一定消费多。那些收入在 20,000-30,000 美元左右的人似乎花钱最多。参见如何在 http://ds.tips/n6cEc 创建此图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 11-2。

Word cloud Note

参见如何在 http://ds.tips/k8wRa 创建此图表。

你可以看到更多地了解你的顾客会带来更高的销售额。也许你可以和营销团队合作,在旅游杂志上做广告。也许你可以开始销售与旅行密切相关的产品。

另一方面,你也可能发现整个探索是一个死胡同。也许你的数据分析师创建了一份客户旅行地点的报告,如图 11-3 所示。事实证明,你的许多客户确实在国际间旅行,但不足以证明销售新产品是合理的。所以团队决定放弃它,探索其他领域。也许接下来你会尝试探索顾客最喜欢的餐厅。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 11-3。

Where customers travel Note

旅行的顾客总花费比不旅行的顾客多。然而,如果你比较旅行目的地,每个目的地的总花费少于那些不旅行的人。参见如何在 http://ds.tips/y8seS 创建此图表。

这如何适应传统的项目管理框架?你的项目范围是什么?而是了解你的顾客。它是关于新知识的。你怎么知道你已经了解了什么?这个新知识什么时候交付?项目范围内有什么?

所有这些问题可能会让任何项目经理茫然不知所措。学习是动词而不是名词。如果你不知道你在寻找什么,就没有办法衡量你将学到什么。如果你知道你在寻找什么,你并没有真正学到新的东西。日程安排呢?即使他们已经走到了死胡同,他们还会继续这个项目吗?团队什么时候停止工作?最后,费用呢?如果你不知道工作团队工作多长时间,你如何预算他们的时间?

您可能已经注意到,这个数据科学项目不适合项目管理框架。您将会看到,对于您的数据科学探索来说,即使不是全部,也是如此。

定义成功标准

在 1921 年的一次采访中,托马斯·爱迪生说他的助手对他们失败的实验感到沮丧。这位著名的发明家很高兴,并向他保证他们没有失败。他们总是在学习新的东西。一旦他们学到了什么,他们就会尝试不同的方法。今天,我们知道托马斯·爱迪生是正确的,因为他取得了许多成功。其中一些至今仍在使用。也有一些实验被历史遗忘了——在他们的混凝土钢琴上演奏的不多。我们可以将他的遗产视为一系列成功的实验。我们看不到占用他大部分时间的失败实验。失败比成功多得多。

如果爱迪生使用现代项目管理,他会遇到一些挑战。他如何定义自己的成功标准?你不能只寻找有用的东西。如果你做了,你需要很大的耐心。他的实验会持续几个月或几年,直到产生任何看似成功的东西。

我们应该像爱迪生看待他的实验一样看待数据科学的成功。只要问一个简单的问题:我们学到了什么新东西吗?你的团队会对数据进行很多实验,大部分实验都会失败或者是死胡同。试着不要认为这些是失败。不是每一个实验都会带来真知灼见。这也可能是真的,你的大部分见解没有太大价值。也许你会发现你的顾客大多是养宠物的。那可能很有趣,但可能没有多大价值。

这种方法在许多组织中可能具有挑战性。在一些组织中,这甚至可能是令人讨厌的。当人们问:“那个团队在做什么?”时,你就知道你遇到了这个问题或者更糟,“那个团队是做什么的?”这可能是一个组织挑战。经理们可能会雇佣一个数据科学团队作为实验,看看他们能想出什么。这可能会让您的数据科学团队的工作变得更加困难。

你可以做一些事情来展示一些成功的标准:

  • 确保你的团队尽可能透明。抑制住远离组织其他成员的冲动。通常,如果人们不理解你在做什么,他们很快就会问你为什么在那里。
  • 确保你在尝试解决大问题。你想让你的团队有足够的雄心去解决有趣的问题。如果问题太胆小,可能很难展示有趣的结果。
  • 尝试通过定期安排的讲故事会议展示团队正在学习的内容。在这些会议中,涵盖团队正在研究的问题,并提供一些最近的见解。

我曾经为一所大学工作,该大学雇佣了一组“非结构化数据专家”。教务长希望有一个寻找新见解的数据科学团队。该团队在雇用他们的管理人员附近的办公室工作。大学里没有其他人知道他们在做什么。大多数人甚至没有意识到他们在那里。问题是这个数据科学团队很难提出任何有趣的问题。大学里的其他人都不会花时间去见研究负责人。

如果这个团队被安排在离其他教员而不是行政人员很近的地方,事情会变得更加顺利。这将使他们能够从一开始就与每个人合作,提出有趣的问题。他们可以通过讲故事的会议来深入了解这些问题。

如果你是一个数据科学团队的研究负责人,努力让问题与组织的其他部分紧密相连。对你的发现保持透明。经常展示有趣的见解。尝试利用组织的其他成员,让他们了解数据科学的价值。

如果你是一个数据科学团队的项目经理,努力确保团队和其他人坐在一起。你的一些最好的灵感可能来自人们的来访和提问。团队与组织的其他部分联系越紧密,就越容易提出有趣的问题。

摘要

在本章中,您回顾了一个组织中的典型项目。接下来,您了解了从事数据科学项目的感受。然后,您了解了每种类型的项目所面临的不同挑战。最后,您了解了如何定义数据科学团队的成功标准,以及您需要向组织的其他成员传达什么。在第十二章中,您将了解如何使用数据科学生命周期。

Footnotes 1

项目管理学院。PMI 项目管理手册;第二版。项目管理研究所,2001 年。

2

《2014 年全球软件开发人员和 ICT 技术工人评估》,2013 年 12 月,2016 年 8 月 5 日, http://www.idc.com/research/viewtoc.jsp?containerId=244709

3

"为什么这么多男人永远一事无成?"由 B. C .福布斯,[采访托马斯爱迪生],美国杂志,第 91 卷,1921 年 1 月。俄亥俄州春田市克罗威尔出版公司。(谷歌图书全览第 10 页开始,引用第 89 页第 2 栏) http://books.google.com/books?id=CspZAAAAYAAJ&q=%22I+cheerily%22#v=snippet&

十二、使用数据科学生命周期

数据科学团队中的大多数人都熟悉典型的项目生命周期。具有软件开发背景的人熟悉软件开发生命周期(SDLC)。来自数据挖掘的人可能使用了跨行业的数据挖掘标准过程(CRISP-DM)。

根据项目的不同,每个生命周期都运行良好。这些生命周期的问题在于,它们要求你在开始之前对你正在做的事情有很多了解。在软件开发中,你必须有一个清晰的范围。使用数据挖掘,您必须了解大量数据和业务需求。

数据科学是经验性的。你不知道你会发现什么。你可能甚至不知道你在找什么。相反,你必须关注有趣的问题,然后创建一个反馈循环,以确保这些问题与商业价值相关联。

然而,生命周期是非常有用的。它就像一个高层次的地图,帮助团队保持在正确的轨道上。这就是为什么对于数据科学团队来说,您需要尝试不同的方法。您可以使用数据科学生命周期(DSLC)来为团队设定一些方向。

在本章中,您将探索 SDLC 和 CRISP-DM,以便了解它们与 DSLC 的不同之处。然后你将学习如何使用 DSLC,以及如何有效地循环 DSLC 问题。

探索 SDLC 或 CRISP-DM

您已经看到让数据科学团队在项目管理框架内工作是多么困难,所以让我们看看项目管理中常用的两个生命周期。生命周期是你在开发软件或解决问题时采取的一系列步骤。

在大型组织中,您可能会遇到两个生命周期。

第一个是软件开发生命周期(SDLC)。这个生命周期有六个阶段,如图 12-1 所示。每个阶段下面都有一个在该阶段发生的事情的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-1。

The Software Development Life Cycle (SDLC)

这通常被称为瀑布模型,因为这些阶段中的每一个都必须在下一个阶段开始之前完成:

  1. 计划和分析:计划软件和分析需求。
  2. 设计和编码:创建基本设计并开始编码。
  3. 测试:代码完成后,质量保证人员测试软件。
  4. 部署:通过所有测试后,部署给人们使用。

你可能看到的第二个生命周期是数据挖掘的跨行业标准过程(CRISP-DM),它用于数据而不是软件。它被建模为比严格的瀑布模型更灵活一点。它也有六个阶段,如图 12-2 所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-2。

Cross Industry Standard Process for Data Mining (CRISP-DM)

  1. 商业理解
  2. 数据理解
  3. 数据准备
  4. 建模
  5. 估价
  6. 部署

这两个生命周期的共同点是它们都是为“大爆炸”交付而设计的。您花费大量时间在软件的计划和分析阶段或数据的业务理解阶段。目标是在开始工作之前尽可能多地收集信息。然后你最终用一个大爆炸来传递它。

由于数据科学的实验性和探索性,当您从事数据科学工作时,这不一定是最佳方法。想象一个典型的数据科学项目。假设您的数据科学团队正在识别典型的客户行为,然后他们决定离开您去找竞争对手。有时这被称为客户流失率。您的数据科学团队可能能够清楚地陈述他们的意图:了解客户在离开之前做了什么,并创建一个模型来预测某人可能何时离开。

然而,你的团队将无法计划他们的工作。他们可能会通过查看社交网络数据、公司的销售数据,甚至是竞争对手异常成功的促销活动,找到自己的最佳模式。关键是他们开始找之前不会知道。

如果您的团队被迫使用 SDLC 或 CRISP-DM 流程,他们将花费太多时间进行规划。他们将无法应用从数据中学到的东西。这是因为他们被迫在开始建模或编码之前就计划好他们的工作。像 SDLC 或 CRISP-DM 这样的已定义流程要求理解每一项工作。如果您犯了一个错误,您必须在 SDLC 中处理一个变更请求,并在 CRISP-DM 中重新评估。

如果您希望您的数据科学团队具有灵活性和探索性,您不能应用标准的生命周期。相反,你应该寻找一种更轻量级的方法来传递见解,这样你就可以在拥有结构的同时,仍然有足够的灵活性来适应新的想法。

使用 DSLC

数据科学不太适合现有的流程生命周期。像软件一样贴合 SDLC 是不够的,CRISP-DM 的数据挖掘过程也有点太死板。这并不意味着数据科学团队应该以任何感觉正确的方式工作。在这些生命周期中有真正的价值。一个价值是它给你一个你要去的地方的高层次地图。当你开始一个数据科学团队时,这真的很有用。你对前进的道路有了一个大致的概念,所以你可以从目标开始。

生命周期的危险在于它成为工作的主要焦点。您希望将生命周期作为更好的数据科学的载体。你不要为了走流程而走流程。一个好的生命周期应该像一个扶手。当你上下楼梯的时候,你想把它放在那里。你不想每一步都紧紧抓住它。过一会儿,你甚至不会注意到它在那里。

对于数据科学项目,您可以使用 DSLC。这个过程框架是轻量级的,不太严格。DSLC 有六个步骤,如图 12-3 所示,并在以下章节中详细讨论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-3。

Data science life cycle (DSLC)

这种生命周期松散地建立在科学方法的基础上。

识别

作为一个数据科学团队,首先要确定您故事中的关键角色。最后,你希望能够用你的数据讲述一个有趣的故事。开始一个故事的最好方法是确定关键人物。就当是戏里的一个场景吧。谁走进房间?有没有主角或者主角?有没有一个背景故事有助于理解他或她的行为?

让我们回到跑鞋网站。谁是你的关键人物?跑者在那里。也许跑步者有一个影响他或她的跑步习惯的伙伴。也许你的跑步者的搭档是医生、博客写手或教练。这些参与者中的每一个都可能是您的数据科学故事的一部分。

问题

确定了关键人物后,你可以问一些有趣的问题。你团队的研究负责人可能会问:“有没有一个博客作者影响了你的跑步者?”也许教练在影响你的跑步者购买什么方面起了很大的作用。他们可能会问,“CrossFit 教练在推荐我们的产品吗?”这些问题是探索数据的关键的第一步。请记住,数据科学是实验性和探索性的。当你以一个好问题开始时,你更有可能得到有趣的研究。

研究

数据分析师希望与团队紧密合作,尝试并获得一些研究问题的策略。团队决定探究跑步者和他们的伙伴之间的关系。在这里,研究负责人会问数据分析师他们如何获得这些信息。

如何通过网站上的数据来确定某人是否是跑步伙伴?也许你可以把寻找朋友的促销活动发送到同一个邮政编码。数据分析师可以尝试将客户数据与社交网站上的朋友进行交叉引用。如果数据分析师不能研究这个问题,团队可以提出未来的策略。也许网站应该为跑步伙伴创建一个特别的促销活动。

结果

有了研究主题后,您需要创建第一份报告。这些结果是给团队的。它们应该又快又脏。希望你的数据科学团队会经历很多问题和很多报告。其中大部分都是无用的。它们可能很有趣,但还不够有趣,不足以深入探索。您不希望您的数据分析师花费太多时间来完善结果。

见识

最后,你的数据科学团队应该看看结果,看看是否有什么有趣的见解,如图 12-4 所示。也许数据表明,你的大多数客户都是与合作伙伴一起运营的。这种洞察力可能对营销团队非常有价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-4。

Who people run with Note

这张图表是从季度调查中得出的,在调查中,客户选择了他们的跑步伙伴。每组中的第一个条形是与他们一起跑步最多的人的记录。下面是调查受访者的其他类型的人的记录。例如,经常独自跑步的人也会和他们的邻居一起跑步,而和孩子一起跑步的人会更喜欢独自跑步。参见如何在 http://ds.tips/cH6th 创建此图表。

学习

最后,你的团队会将这些见解捆绑在一起,试图创造组织知识。在这里,您的团队将讲述客户的故事。你可能想用数据可视化来支持你的故事。这种新知识真正为组织的其他部分增加了价值。如果你讲述了一个令人信服的故事,它可能会改变你的组织对他们业务的看法。

循环提问

软件和数据挖掘生命周期没有足够的灵活性来处理新信息。这就是为什么你要用 DSLC,它要轻得多。如果您的数据科学团队发现了新的东西,他们不应该为了让您的组织受益而与流程斗争。

如前所述,DSLC 有六个领域:识别、提问、研究、结果、见解和学习。总结一下,首先,你确定玩家,然后你创造一些有趣的问题。然后,您的数据科学团队应该就如何研究这些问题达成一致。你们会讨论结果,看看有没有什么真知灼见。然后你收集你的见解,创造一个故事,告诉组织的其他人你学到了什么。

这六个领域不像软件开发生命周期,每一步都通向下一步。而是把中间的三个区域想象成一个循环。您的数据科学团队应该循环处理问题、研究和结果(参见图 12-5 )。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-5。

Cycle through question, research, and results

这个问题、研究和结果的循环是驱动您的数据科学团队的引擎。您团队中的三个角色都专注于其中一个领域。研究负责人专注于提出正确的问题。数据分析师与研究主管合作,提出正确的研究问题并创建报告。然后,项目经理将这些结果传达给组织的其他成员。

让我们回到跑鞋网站的例子。每隔几年,就会有一款跑鞋大获成功。你的制造商生产了数百双鞋,但往往有一双比其他的好得多。你找到数据科学团队,要求他们为这些顶级鞋子创建一个预测模型,如图 12-6 所示。这位研究负责人提出了一个有趣的问题:“一只鞋为什么会引起轰动?”她与数据分析师合作,提出一些有趣的问题:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 12-6。

Regression coefficient by variables

  • 是鞋子的颜色吗?
  • 是什么新技术吗?
  • 这款鞋是否出现在杂志上,并受益于网络效应?

Note

使用销售价值作为 y 变量,颜色、营销渠道和技术作为 x 虚拟变量,我们可以看到最畅销的产品最有可能是黑色而不是白色,橙色也有帮助。你可以解读这些数据说:如果其他一切保持不变,如果产品在数字新闻平台上做广告,它可能会帮助其销售额增加 200 美元,而在博客上做广告会减少近 200 美元的销售额。参见如何在 http://ds.tips/wrA3e 创建此图表。

研究负责人、数据分析师和项目经理循环处理这些问题、研究和结果。大部分问题和结果可能都是哑弹。其中的几个可能会引出真知灼见。也许结果表明,它是一些关键属性的组合,可以用作洞察力。然后团队把这个捆绑起来,讲一个故事,这是新的知识。这个故事是说,预测热门的最佳方式是媒体宣传、新技术和有趣设计的结合。

现在,跑鞋公司可以利用这些知识来创造新产品。该公司可以提供制造轰动一时的产品的规格和环境,而不是制造数百双等待轰动一时的鞋子。

一些拥有强大数据科学团队的组织已经在使用这种方法。网飞订阅服务公司用这种方法创建了他们的热门系列《纸牌屋》。他们当时有 3300 万用户。他们的数据科学团队研究了客户在看什么,节目的收视率,观众喜欢什么情节,以及受欢迎的演员(凯文·史派西非常受欢迎)。网飞认为政治节目很受欢迎,于是雇佣了斯派西。然后,他们根据该节目流行的英国版本制作了这个新节目。他们根据流行节目的内容创建了一个预测模型。他们通过问题、研究和结果循环工作。然后,数据科学团队创造了一个客户希望看到的故事。那个故事变成了一个情节,后来变成了一个热门的电视节目。 1

这个问题、研究和结果的循环驱动着你的洞察力和知识。您的数据科学团队将这些区域作为更大的 DSLC 的一部分进行循环。记住不要把这个生命周期想成瀑布式的过程。相反,把它想象成开始的几个步骤,然后中间的一个循环,产生伟大的故事。

摘要

在本章中,您已经了解了 SDLC 和 CRISP-DM,因此您可以理解它们与 DSLC 有何不同。您了解到 SDLC 和 CRISP-DM 都有六个阶段,并且您已经研究了这些阶段。您发现了如何使用 DSLC 有效地循环有价值的见解。在第十三章,你将学习如何在短跑中工作。有了 sprints,你将能够经常向你的利益相关者展示一些有价值的东西,并积累组织知识。

Footnotes 1

大卫·卡尔,“给观众他们想要的”,《纽约时报》,2014 年 10 月 15 日, http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html?_r=0

十三、在短跑中工作

保持适应性的一个关键方法是将你的工作分解成小块,这样你就可以经常向你的利益相关者展示一些有趣的东西。您的团队可以创建问题并获得快速反馈,以查看数据故事是否有价值并与组织的其他成员产生共鸣。如果它没有价值,团队可以迅速转向其他问题。如果是这样的话,团队可以进行更深入的研究,甚至可以根据业务部门的反馈提出问题。这个反馈循环对于确保团队的工作与商业价值相联系是必不可少的。

在这一章中,你会发现如何通过 DSLC 短跑,创建一个问题板,关注一些会议,分解工作,并讲述一个有趣的故事。所有这些技能将帮助你更有效地通过 DSLC。

迭代通过 DSLC 短跑

重要的是要记住,整个 DSLC 应该快速递增。DSLC 并不是为运行数周或数月而设计的——它小到足以容纳两周的工作。每两周,团队可以改进他们的工作,创造新的见解,并提出改进的问题。如果企业认为工作没有价值,团队可以改变路线,尝试新的东西。

现在你已经看到了 DSLC,你可能想知道这在实践中是什么样子的。需要记住的最重要的一点是,DSLC 的结构不像 SDLC 那样分阶段运行,在 SDLC 中,通常只有在前一个阶段结束后才开始下一个阶段。

DSLC 是关于确保你专注于六个领域:识别、提问、研究、结果、见解和学习。整个生命周期应该在一个短的“冲刺”中运行你可能听说过术语 sprint,它在敏捷软件中被广泛使用,但它实际上来自于产品开发。冲刺是团队贯穿整个生命周期的持续时间。每次冲刺都应该贯穿 DSLC 的全部六个区域。

数据科学团队应该进行两周的冲刺。这足以让你找到真知灼见,但也足以让你适应新的想法,如图 13-1 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 13-1。

Two-week sprints

冲刺跑的主要优势是它缩短了“概念到现金”的时间许多组织花很长时间提出新想法,然后经历一个漫长的交付过程。这些新概念可能在几个月内不会增加价值,当然也不会给企业增加任何新的现金,直到他们提出最初的概念。两周的冲刺更频繁地增加价值。即使没有真知灼见,还是会有做完的题。

您不希望您的数据科学团队长时间工作。如果你在几个月或几个季度内工作,问题和结果之间会有太多的时间。等你有了什么见解,数据可能已经改变了。

你也不希望你的团队在任何一个问题上花费太多时间。请记住,你的大部分研究都会走进死胡同。你的大多数问题都是无用的。在找到珍珠之前,你必须打开许多牡蛎。这就是为什么你想快速解决这些问题,这样当你发现一些有趣的东西时,你就可以继续做下去。

我曾经和一个州的教育部门一起工作,他们试图更好地了解在公立学校上学的学生。他们有一个庞大的数据科学团队。该团队试图创建一个模型来更好地预测学生的兴趣。不幸的是,他们试图使用 SDLC。该团队试图以冲刺的方式工作,但更喜欢以典型的瀑布方式工作。

数据科学团队花了大部分时间进行规划。当他们开始他们的项目时,他们花了几个星期在头脑风暴会议上。如果你曾经参加过头脑风暴会议,你知道它需要很好的组织。如果不是这样,会议将远远超过预定时间。事情就是这样。

事实上,几个月过去了,团队才能够发布他们的第一个需求文档。该文件列出了几个他们希望得到答案的问题,并概述了研究技术。然后,团队提出了他们希望从研究中获得的见解。

这种方法有许多挑战。请记住,数据科学是探索性和实验性的。他们只布置了几个实验,然后记录下他们希望学到的东西。他们开始证明他们已经假设为真的东西,因为证明是一项要求,这意味着如果他们被证明是错误的,这个项目就失败了。

如果数据科学团队决定用冲刺跑来代替,效果会好得多。这将允许他们提出更多的问题,进行更多的实验。他们本可以完全专注于学习新的东西,而不是希望自己是对的。它也会更有效率。在这个项目上工作了三个月之后,团队唯一需要展示的就是一系列问题和一些假设。在这三个月内,他们可能经历了十几次较小的短跑,对数据了解得更多,因为他们可能经历了更多的问题和实验。

如果你在一个数据科学团队,试着记住不要被数据淹没。不要在几个月内制定大计划。相反,尽量让事情变得小而简单。一点一点地积累你的知识,这样你就可以适应新的想法,而不是专注于任何一条道路。

创建问题板

当您在数据科学团队工作时,您的研究主管负责提出有趣的问题。提出好的问题不是一件容易的事情。一个好的问题可以激起很多新的信息,迫使人们重新思考他们的工作。这就是为什么大多数组织倾向于回避好问题。当你有一个好问题时,它会引起一些恼怒。你几乎渴望找到最佳答案。这可能会导致更多的工作,有时甚至更多的问题。

即使在今天,大多数组织仍然试图专注于提高他们的知识。他们认为如果他们能够优化,他们将永远领先于新的竞争对手。一个好问题往往能打乱这些井然有序的计划。好的问题有打破可预测性的趋势,可以将一组有序的目标变成一个开放式的问题。

打破这个井然有序的过程并注入一些探索和实验是研究领导者的责任。研究主管可以使用的最好工具之一是问题板。问题板通常是一块写满便签的大白板,通常放在数据科学团队附近。应该有足够的空间放置新的问题,并在其中一个角落放上一叠便笺。您可能需要创建一个指向便利贴堆栈的大箭头。有些团队会加上标题:“问一个问题。”

问题板用于征集问题。研究负责人提出问题,这并不意味着所有问题都是她想出来的。它应该是她自己的想法、数据科学团队的问题以及来自组织其他部门的开放式问题的组合。

问题板应该是开放的,有吸引力的。试着让它看起来尽可能的诱人。你希望任何人都可以走过,拿起一张便条纸,然后快速提问。努力保持轻松愉快。有些团队甚至把它搞得几乎像一场游戏。他们把一大碗糖果放在问题板旁边,或者他们打印出一个牌子,上面写着:“问一个问题,赢得一份奖品。”

Note

参见第十六章,了解如何组织你的问题板,以及如何针对不同类型的问题使用不同颜色的便笺。

问题板还有助于组织中的每个人了解数据科学团队的目的。当您的数据科学团队进行讲故事演示时,人们通常会认识到自己的问题,并在未来更有可能提出问题。他们甚至可能鼓励他们的同事也问问题。

你永远不会有太多的问题。研究负责人与团队的其他成员合作,对最有趣的想法进行优先排序。如果你让你的组织使用该板,它开始看起来有点像一个三维搜索空间。你可以从人们的提问中看出规律。电路板本身成为另一个数据源。

我曾经为一个组织工作,该组织在数据科学团队旁边的角落里放了一个问题板。一开始只是好奇。人们只是路过并阅读它,就像人们被吸引到公告栏一样。这个团队很聪明,把它放在一个饮水机旁边。过了一会儿,几个新问题突然出现在黑板上。他们大多是愚蠢的,没有多少价值。尽管如此,研究负责人还是使用问题板来交流数据科学团队正在做的事情。该团队发布了他们的问题,并继续进行演示。

整个夏天,这个组织带来了一批全新的实习生。第一个月,学生们试图搞清楚这个行业。作为学生,他们更愿意问问题。董事会开始充满了他们的便利贴。他们问的一些问题非常直观。他们正从一个全新的角度看待这个行业。这些问题非常简单且结构合理,因此数据科学团队开始将它们作为最高优先级。他们帮助团队以有趣的新方式探索业务。

如果你是研究负责人,一定要利用问题板。这是一个简单的方法,可以获得有趣的新问题,同时与公司的其他人交流你的进展。

只关注几个会议

您的数据科学团队通常希望在两周的冲刺阶段工作。团队将有很多事情要做,所以他们需要一些结构来保持高效。记住,在每次冲刺中,你将穿越 DSLC 的每一个区域。要以这样的速度工作,团队需要固定的工作时间,并且不能参加很多开放式会议。他们必须解释他们所有的时间。

每次会议都需要一个固定的时间框架。时间盒就像它听起来的那样:团队在会议前商定的一组时间。假设您的团队有一个一小时的会议。无论他们在那个时间盒结束时做出什么决定,都必须持续到冲刺阶段结束。你永远不能重新安排或跟进有时间限制的会议。它们开始然后结束。

在大多数组织中,会议不一定是坏事。这是提出问题和强化文化的好方法。会议的挑战在于,它们给你的一周增加了许多不可预测性。您的数据科学团队需要一个可预测的时间表,以便他们能够投入一定的探索和发现。您希望您的数据科学团队以可持续的速度工作。

在每个冲刺阶段,数据科学团队应召开以下五次会议:

  • 研究规划
  • 问题细分
  • 可视化设计
  • 讲故事环节
  • 团队改进

如图 13-2 所示,这五种含义共同帮助传递 DSLC 的所有区域。每一次会议都有时间限制。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 13-2。

Five meetings for the DSLC

研究规划

团队应该从他们的研究计划会议开始每个 sprint。一些团队选择在周三开始冲刺,这使他们能够在周二下午进行一次讲故事的会议。让人们在星期二参加这些会议比在星期五容易得多。研究计划会议是团队决定他们在下一次冲刺中最感兴趣探索哪些问题的时候。通常时间限制为两个小时。在会议中,研究负责人和数据分析师一起工作,提出一周的研究日程。

通常,分析师将不得不争论大量的数据,甚至试图得到一个有趣的报告。研究负责人和数据分析师将合作创建一份最基本的可行报告。也许他们不需要擦洗所有的数据来开始实验和探索。数据分析师和研究主管之间应该有一种天然的紧张关系。研究负责人想要创建小而快速的报告。数据分析师想要清理大型数据集,解决更大的问题。这个会议旨在帮助团队成员提出一个折中的策略。准备数据和创建有趣的报告,您需要做的最少工作是什么?

问题细分

在每个冲刺阶段,团队至少要召开两次一小时的问题分解会议。在这些会议中,整个数据科学团队将尝试提出有趣的问题,并将其放在问题板上。他们还会从问题板上拿走任何新的便利贴,看看它们是否有趣。

他们还会寻找问题主题:

  • 有什么常见问题吗?
  • 有没有大问题可以被分解成更小、更容易处理的问题?
  • 有人回答了团队的任何问题吗?

团队将一起努力,为下一个 sprint 优先考虑一些更有趣的问题。

可视化设计

第三次会议是可视化设计会议。这个会议通常被限制在一个小时内。这时,研究负责人和数据分析师一起创建一个有趣的可视化。这通常只是数据分析师在讲故事时将使用的内容的草稿。

讲故事环节

第四次会议是一个小时的讲故事环节。这时,数据科学团队会讲述他们在冲刺阶段学到的东西。在这次会议中,他们展示了一些更好的数据可视化,在问题板上谈论问题,然后讲述关于这些问题的故事或提出自己的问题。

改进

最后,在每个冲刺阶段结束时,团队应该有一个两小时的改进会议来评估他们的进展,并讨论他们是否合作得很好,以及他们是否应该做出任何改变。

所有这些会议应该协同工作,以便数据科学团队可以在每次冲刺后提供有趣的见解。记住,在每个冲刺阶段都有很多事情要做,所以把这些会议的时间限制在一定范围内,这样你就可以专注于发现。

分解你的工作

到目前为止,您已经了解了 SDLC 和 DSLC 之间的区别,并且知道 DSLC 最好在两周冲刺阶段交付,因此您可以分解工作并提供有价值的见解。当你在一个数据科学团队中时,总有大量的数据集需要清理和探索新的数据源。事实上,你要做的大部分事情是准备数据。当你在冲刺阶段工作时,你是在强迫团队做最少的准备。

做最少量的数据准备听起来可能是件坏事。大多数人想做更高质量的工作。实际上,当您做最少量的准备时,您会迫使您的数据科学团队关注洞察力,而不仅仅是能力。您不希望您的团队花费数周甚至数月的时间来设置数据。相反,您希望团队几乎立即开始探索数据。

你还必须从组织的角度来看待它。大多数组织对数据并不感兴趣。他们对从报告中获得的知识感兴趣。从组织的角度来看,管理这些数据是成本的一部分,而不是收益。这意味着尽快从数据中提取价值的压力会越来越大。数据科学团队很难花太多时间准备数据,只在最后提交报告。

在许多方面,这类似于现在许多组织对软件的看法。一开始,大多数组织认为软件开发有点神秘。他们把大部分细节留给了技术高超的软件工程师。这些工程师会花大部分时间计划和准备一个大的发布。现在,大多数软件开发人员被迫以更小的块来交付有价值的软件。他们花更少的时间准备,更多的时间交付。这允许组织在团队走得太远之前看到价值。

像早期的软件开发一样,在许多组织中,数据科学仍然有点神秘。该团队在如何开展工作方面仍有很大的回旋余地。然而,用不了多久,经理们就会开始提出更尖锐的问题。目前,大多数数据科学团队花费大量时间准备大型数据集。一旦这些经理开始提问,团队将不得不关注最少的可行的数据准备。

我曾经为一个组织工作,该组织专注于自动化清理非常大的数据集的过程。他们希望将其插入到一个更大的数据集,而这个数据集已经存在于他们的集群中。几个月来,科学小组一直专注于这项任务。他们下载了开源软件工具,并购买了一些商业产品来帮助他们准备数据。几个月后,他们创建了几个脚本、软件工具和实践,自动化了将这些大型数据集移入集群的过程。

在他们把它转移过来之后,他们和企业数据服务的副总裁开了一个会。他们用 PowerPoint 演示了群集消耗了多少数据。他们浏览了几张幻灯片,展示了清理和导入新数据集的难度。会议快结束时,副总统问了一个有趣的问题。他只是简单地问:“我们现在知道了哪些以前不知道的事情?”这个问题砰的一声落在房间里。从沉默中可以明显看出,几个月来没有人以这种方式考虑过这些数据。房间里的每个人都完全专注于能力。他们忘记了组织的真正价值。

如果他们以两周冲刺的方式交付,他们可能会更快地关注价值。他们可以使用较小的数据子集,而不是构建整个数据集,立即开始创建报告和研究数据。当你研究这些数据时,你会对其价值有更好的理解。当你只专注于清理和导入数据的时候,你就有把工作变成例行公事的危险。这就好像你花了所有的时间为你的晚宴布置桌子,却没有留下任何时间来准备一顿大餐。

讲述一个有趣的故事

呈现数据和讲述故事有很大的区别。首先,讲述一个故事更具挑战性,因为你要做更多的工作,引入数据和你对业务的了解,并加入你对世界的了解。

当你用数据图表做一个 PowerPoint 演示时,你在说,“这是我所看到的。”当你讲故事时,你是在说,“这是我所相信的。”这要困难得多,而且在某种程度上,这也更加私人化。这就是讲故事如此有价值的原因。

Note

有关如何讲述有趣的数据故事的更多信息,请参见第十九章。

当你讲故事时,你同时做了几件事。首先,您简化了数据的复杂性。您还可以定义参与创建这些数据的人员的角色。

接下来,你把自己对公司的了解带进来。这可能是通过你的经验或研究。你对人和数据进行简单的观察,然后把它放在组织的环境中。你不只是用数据来谈论地点和内容,你还要展示原因。

你做的第三件事是让你的数据更容易记忆。大多数研究表明,当你用 PowerPoint 格式展示某样东西时,很少的信息能被你的观众理解。这些要点可能很容易创建,但也很容易忘记。一个故事能更有效地抓住你的观众的注意力。如果你能编一个好故事,你更有可能让每个人都参与进来。

最后,一个好的故事会有行动的号召。它要么会告诉你一些新的东西,要么证明你继续寻找是正确的。如果你能讲一个好故事,让你的观众也参与进来。你就不太可能被人问:“你们为什么又要这样做?”

让我们回到我们的跑鞋网站。假设您的数据科学团队一直致力于提高销售额的问题。你和团队一起将问题分解成几个更小的问题。其中一个较小的问题是,“人们在购买他们的愿望清单上的东西吗?”

研究负责人和数据分析师一起工作,创建一个快速而肮脏的报告,看看有多少愿望清单项目被转换为购买。然后他们创建一个时间序列来观察这些购买是上升还是下降。通常,团队会在讲故事的前一天召开可视化设计会议。在这个会议中,他们会尝试将原始数据和丑陋的报告转换成一个漂亮的可视化,然后使用这个可视化来讲述一个有趣的故事。

数据显示,在夏季的几个月里,人们更有可能将他们的愿望清单项目转化为购买。这只是原始数据,但这不是一个非常有趣的故事。为什么人们在冬天对鞋子感兴趣,却要等到夏天才买?数据科学团队决定讲述一个故事。他们使用的标题是,“夏季梦想家:为什么冬季购物者在夏季买鞋?”接下来,数据分析师使用白板提出数据可视化的初稿(图 13-3 )。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 13-3。

Purchasing habits throughout the year

在左上角,有更多的人在夏季(六月到九月)购买他们购物车中的商品,但是在左下角,购物车中的大多数商品都没有被购买。在右上角,购买的商品被放在购物车中超过 20 天,并被重复添加超过 4 次。查看如何在 http://ds.tips/truD6 创建此图表

注意这个故事是如何让数据变得更有趣的。想象一下,如果数据分析师使用标题“年度愿望清单转换率”,并在 PowerPoint 幻灯片中包含简单的时间序列图。像那样的东西不会引起任何人的兴趣。没有背景也没有行动号召。

第二天,数据科学团队使用他们的“夏季梦想家”可视化向组织的其他人讲述一个有趣的故事。这个故事说,你的许多顾客考虑在冬天跑步,但他们只在夏天买鞋。这个故事引发了更多的问题。人们在冬天穿着旧鞋跑步吗?他们只是不跑吗?他们不需要新鞋是因为他们大多在室内跑步吗?是否应该做一款专门为室内跑步设计的跑鞋?

希望你会在讲故事的过程中得到这些问题,然后你可以把它们添加到你的问题板上。如果你能讲一个好故事,你组织中的每个人都会想参与你的发现。

摘要

在这一章中,你看到了如何通过 DSLC 短跑锻炼自己。DSLC 有五个核心会议。在这些会议中,您的团队将使用一个问题板,分解工作,并讲述一个有趣的数据故事。在第十四章中,您将学习如何避免在数据科学冲刺中可能遇到的陷阱。

十四、在数据科学冲刺中避免交付陷阱

在避免陷阱这一章中,你会发现一些改变公司思维模式的方法。你可以从想象如何在没有目标的情况下工作开始。许多组织专注于目标并创建强大的法规遵从性部门。这些部门确保每个人都达到这些目标。这种专注会让你的团队无法探索和发现。数据科学团队需要利用意外收获,增加组织知识。他们需要强调探索而不是常规工作。

改变心态

许多公司在组建数据科学团队时低估了组织变革。这不是让一群统计学家看数据那么简单。这是指以不同的方式对待您组织的数据。它不再是需要控制的静态资源。相反,它是一个不可忽视的不断变化的见解来源。

Note

有关开始组织变革的更多信息,请参见第 25 章。

改变这种心态的一部分是放弃过去可能行之有效的策略。如果你想探索,你必须摆脱项目目标和计划的结果。这些往往是发现的障碍。你必须接受这样一个想法,即你不知道数据可能会导向何处。你甚至可以依靠简单的意外收获。

同时也不能没有任何目的和方向的流浪。你需要创造增加真正价值的组织知识。你必须是开放的和探索性的,同时仍然是务实的和由商业价值驱动的。如果你太开放,你的团队可能会迷失在数据中。你会探索死胡同,问一些没人有兴趣回答的问题。这会让你的利益相关者感到沮丧,并限制你的成功。另一方面,如果你太专注于目标,你不会发现很多新的见解。你会被限制在你已经希望成为事实的范围内。不会有太多新发现的空间。

如果你既想解释又想被商业价值所驱动,你需要改变你对工作的看法。第一步是仔细看看老朋友:计划好的目标。

没有目标的工作

您的数据科学团队将希望使用 DSLC 和 sprints,这样他们可以每隔几周讲述一些有趣的故事。这些实践有助于您的团队探索数据和提出好问题,并且应该有助于让您的团队专注于探索。尽管如此,对于许多团队来说,最大的挑战是试图改变组织的心态。

正如本章开始时提到的,大多数组织仍然将工作视为一系列目标和目的。这就是为什么大多数关键角色都专注于管理和法规遵从性。项目经理确保团队遵守项目计划。首席开发人员帮助维护某些编码标准。质量保证经理执行像六适马这样的标准。即使是首席执行官也专注于为组织的其他成员设定清晰的目标。所有这些受欢迎的角色都以合规性为中心。他们确保团队忠于他们的目标。担任这些角色的人往往很有影响力。很有可能,他们会尝试将这种目标驱动的心态应用到您的数据科学团队中。

这对数据科学团队来说是一个真正的挑战,因为他们需要探索并使用经验过程来研究和学习数据。很难摆脱典型的目标。根据定义,探索就是寻找和发现不熟悉的东西。目标是关于忠于你的预期目标。

你当然可以混合探索和目标。如果你发现自己在一个新的城市,你可能会有一个寻找美食的目标。然后你在这个地区寻找好吃的小吃摊或餐馆。你的目标是找到晚餐,但你仍然愿意探索新的想法。问题是大多数组织没有这么灵活。他们倾向于狭隘地定义他们的目标。目标本身成为最大的焦点。一个团队不会因为发现新事物后改变路线而出名。一个成功的团队通常有一个明确的目标,并在预期的时间框架内实现他们的目标。这种对目标的关注会为探索创造一个非常困难的环境。

让我们回到我们的跑鞋网站。假设您的数据科学团队的目标是创建一个报告,按各种信用卡细分购买情况。你想知道接受不同的信用卡是否会增加销售额。当团队探索数据时,如图 14-1 所示,他们注意到一些意想不到的事情。看起来鞋的销量和顾客评分之间有正相关关系。你可能会认为评分最高的鞋子可能会有更高的销量。然而,数据科学团队注意到,任何评级的鞋子都有更高的销售额。销量最低的鞋子是那些根本没有评级的鞋子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 14-1。

Correlation between shoe sales and customer ratings Note

假设 0 为无评分,其余为真实评分。总销售额接近 0 的大多数商品都没有评级。然而,其余的数据并没有表明更高的收视率会带来更高的销售额。事实上,原因可能恰恰相反。因为销售额更高,更多真正购买了该商品的人愿意在网站上留下反馈。然而,在底部的图表中,如果我们忽略那些没有评级的,几乎没有任何相关性。查看如何在 http://ds.tips/8refR 创建这些图表。

基于这些数据,该团队决定利用这一新发现。他们创建了一套完全不同的报告,将评分与顶级鞋的购买相关联。在接下来的讲故事环节中,他们会讨论如果顾客认为某款鞋不受欢迎,他们最不可能购买。事实上,一双评级很糟糕的鞋仍然比一双没有评级的鞋更有可能卖出去。这个新发现完全出乎意料。该团队的目标是查看新的信用卡数据,然后转向开始查看评级数据。

在典型的项目中,这是完全不可接受的。你不希望你的团队有一个既定的目标,然后根据他们自己的标准改变方向。然而,这正是您希望从数据科学团队那里获得的经验探索。事实上,许多数据科学团队试图远离典型的目标。他们可能有寻找模式的开放式概念。他们可能只是浏览数据,看看是否有什么突出的东西。他们想看看数据中是否有有趣的东西。这些团队发现,明确定义的目标往往会成为发现的障碍。

当你在一个数据科学团队中时,试着记住你正在做一些与组织中大多数其他团队不同的事情。借助数据科学,如果您专注于发现,就能从数据中获得最大价值。你应该与你的经理密切合作,沟通这种差异。不要低估试图改变他们期望的挑战。大多数人花了很多年专注于实现目标。一组人探索数据寻找新的东西可能不容易被接受。

利用机缘巧合

您已经看到,为您的数据科学团队设定目标可能会很困难。尽管如此,许多组织发现很难想象没有他们的工作。目标无处不在:有职业目标,也有学习目标,励志书讲个人目标。这些目标指导着我们的大部分工作,但它们可能没有你想象的那么有价值。

在过去的几年里,在这个领域已经做了一些有趣的工作。它来自一个你可能意想不到的地方:机器学习和人工智能的世界。试图让计算机显示智能行为的人们发现,我们所知道的很多东西都是基于无计划的发现。事实上,我们从流浪中学到的东西比我们从既定计划中学到的要多。

关于这个主题的最好的书之一是由肯·斯坦利和乔尔·雷曼所著的《为什么伟大不能被规划:目标的神话》。肯·斯坦利教授在中佛罗里达大学经营着一个研究人工智能的研究小组。在书中,他说,“目标实际上成为更令人兴奋的成就的障碍,比如那些涉及发现、创造、发明或创新的成就。”这来自一位研究人工智能的顶尖计算机科学家。这不是狄巴克·乔布拉的励志名言。

你应该这样想,你越专注于目标,就越不可能有有趣的发现。数据科学团队中的每个人都应该适应创造性的漫游。事实上,斯坦利教授指出,该团队实际上应该依靠纯粹的意外收获。

Serendipity 是一本关于人工智能的书中出现的一个奇怪的词。简单来说,意外之喜就是事情刚刚发生。这是无法预测或计划的。就像你在街上偶遇一个朋友,然后决定一起坐下来喝杯咖啡。这是未计划的,未规划的,未知的。

听起来可能很奇怪,数据科学团队必须依靠一些意外收获。有时团队成员会在数据中看到一些他们没有预料到的东西。它会看起来有趣或不寻常。对这个团队来说,追踪这个发现是很重要的。你不希望他们以牺牲发现为代价专注于目标。

斯坦利教授称这些为垫脚石。这些都是有趣的事情,最终导致见解。如果你忽视它们,你很可能会错过关键的发现。

让我们回到我们的跑鞋网站。数据科学团队的任务是预测网站在即将到来的一年中应该有多少新的销售额。在查看数据时,分析师发现了一些有趣的事情。如图 14-2 所示,在过去的几周里,周日的销售额略有下降。如果团队完全专注于目标,他们可能会忽略这个有趣的发现,因为很难想象轻微的下降可能会帮助他们创建一个预测未来销售的报告。专注于发现的数据科学团队将跟进这些有趣的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 14-2。

Total sales by shoe types and avererage across all types by day of week Note

平均而言,所有类型的鞋在周日的总销售额都略有下降,但不同类型的鞋在一周的不同日子达到峰值。参见如何在 http://ds.tips/tuc2E 创建此图表。

可能不会有任何结果。事实上,这些小发现中的大部分只会是死胡同。然而,他们中的一些人将成为未来非常有价值的东西的垫脚石。团队对数据探索得越多,他们就越能建立与未来问题的联系。

所有这些语言是你在组织中通常听不到的。像垫脚石、意外收获和发现这样的词听起来更像是你在浪漫喜剧预告片中使用的关键词。然而,这些是尝试学习新的和有趣的东西的关键部分。

加拿大哲学家马歇尔·麦克卢汉曾经说过:“我不知道谁发现了水,但它不是鱼。”许多发现都是因为不知道你的信息会引向何方而感到舒服。你必须能够追求意想不到的东西。你走向发现的垫脚石只有在你的路的尽头才会清晰。关键是不要忽视那些看起来有趣的事情,只是为了忠于你的目标。

请记住,数据科学是将科学方法应用于您的数据。科学方法的一个关键部分是进行观察和提出有趣的问题。不要为了短期规划而减少你的探索。

增加组织知识

您已经看到了一种可以预测的方式来获得重大发现,那就是允许您的团队探索数据并寻找有趣的联系。还有 DSLC,它迫使团队每两周讲述一次有趣的故事,并让组织了解团队正在做什么。代替目标规划,组织得到可预测的交付。给你的团队一个可预测的框架是让他们专注于积累知识的好方法。每两周一次的节奏分享他们的故事。如果组织中的其他人不喜欢他们的故事,他们可以鼓励他们朝不同的方向发展。

DSLC、sprints 和 exploration 共同提供见解和知识。如果你在一个数据科学团队工作,你应该试着平衡这三件事。DSLC 为团队提供了考虑交付价值的蓝图。团队应该确定角色,并在提问、研究和讨论结果的循环中工作。

短跑给组织一个可预测的速度。没有 sprint,团队就有花费太多时间准备而不是交付的危险。大多数时候,您的数据分析师都在清理和准备大型数据集。两周的 sprint 迫使你的数据分析师在尽可能小的块中工作,并鼓励他或她交付许多较小的报告,而不是一个大的演示文稿。

最后,组织需要非常重视对数据的探索。团队应该有追踪有趣发现的自由。组织的其他部分仍然可以看到团队的工作,但是工作可能会改变。它可以基于一个偶然的发现。

冲刺和探索之间的平衡有助于保持对话活跃。团队有额外的自由,作为回报,组织得到每周的反馈。如果做得好,数据科学团队将与组织密切合作,帮助员工和高管了解业务和他们的客户。这是轻量级结构和频繁发现的良好平衡组合。

也就是说,这不是一个容易的平衡。在一些冲刺阶段,团队可能无法交付任何有趣的东西。其他时候,数据集看起来如此庞大和复杂,以至于不可能在两周的冲刺中分解。

这个 DSLC 框架不是为解决这些问题而设计的。这只是照亮斗争的一种方式。它迫使团队往小处想,这鼓励组织允许探索。

确保你的 sprint 始终传递价值的一个方法是,在每次讲故事的时候,都要有一个清晰的行动号召。你的听众会对增加组织知识非常感兴趣。您可以就他们如何利用这些新数据提出明确的建议,从而帮助强调这些知识的价值。

让我们回到你的跑鞋网站。你看到了一双鞋是否有评级和它卖得有多好之间的明显联系。在你的讲故事环节中,你应该建立一个清晰的视觉效果,展示销售和评分之间的联系。新的组织知识是,没有评级的鞋子不太可能卖出去。然而,这不应该是你的故事的标题。相反,你应该展示你的组织如何从这些新知识中获得价值。你可以把这个形象化的标题定为,“增加我们的评级产品数量应该会增加整体销售额。”

有了这个头衔,你不仅仅是说出了组织所知道的。你所做的是清楚地概述你的团队交付的价值。在一周内,数据科学团队就如何提高销售额提出了建议。有人呼吁采取行动。如果你想增加网站的销售额,鼓励顾客评价他们的产品。这种行动号召可以针对组织的其他部分,也可以重定向到团队。在讲故事环节,组织可能会建议数据科学团队想出一个有趣的故事,告诉他们如何提高产品评级。

当你在数据科学团队工作时,试着记住你的组织将以一种非常实际的方式看待新知识。一定要平衡 DSLC 与冲刺和探索,以传递有趣的故事。这些故事应该有新的组织知识和明确的行动号召。当你的团队有明确的行动号召时,你更有可能从组织的其他人那里得到有趣的反馈。他们可能会要求你继续你的故事,或者创造新的故事来给予更多的指导。

注重对日常工作的探索

1999 年,两位心理学家进行了一项实验。 3 他们拍摄了一段六个人传球的视频。他们向 40 名学生展示了这段视频。他们要求学生数一数球从一个人传给下一个人的次数。大多数学生都能数出球传了多少次。他们没有说的是,一个穿着大猩猩服装的人会走到屏幕中间。大猩猩停在中间,然后离开镜头。当被问到时,只有一半的学生没有注意到大猩猩。事实上,参与者非常确信它不在那里,他们不得不重放视频。

心理学家公布了他们的研究结果,并称之为知觉盲。当人们如此专注于日常任务,以至于对有趣的事情视而不见。看视频的学生太专注于数通行证,以至于没有注意到有人穿着大猩猩的衣服。

这项研究已经重复了几十次。一项实验将一个跳舞的大猩猩的小图像放在 CT 扫描上,以检查放射科医生是否会注意到。 4 原来,80%没有。即使知道这项研究的人也只是稍微更有可能发现一些意想不到的东西。

这表明日常工作经常关闭我们大脑中看到意外事件的部分。许多人在做复杂的日常工作,但却看不到大猩猩。

这对您的数据科学团队来说是一个真正的危险。请记住,数据科学的大部分价值在于探索。您希望团队中的每个人都注意到一些有趣的事情,但是工作的一部分是例行公事。您的数据分析师仍然将大部分时间花在清理数据上。你要注意的是,当你的团队变得如此专注于常规,以至于错过了一些意想不到的东西。

我曾经为一家公司工作,该公司试图理解为什么顾客会点击某些广告。每个广告都展示了一辆汽车的图片。当客户点击汽车时,图像和点进被记录到集群中。数据科学团队创建了数据的几种可视化形式。他们专注于创造实时成功率和点击率。有很多工具可以帮助他们以有趣的方式展示这些信息。数据科学团队非常忙碌,并适应了可预测的数据收集节奏。

在一次讲故事的会议上,数据分析师深入点击数据可视化,以显示数据中的详细信息。作为一个例子,他们展示了一个红色福特野马的广告结果。出于某种原因,这个广告做得非常好。它有更高的点击率。团队中的一个利益相关者打断了演示,并问为什么这个广告如此成功。数据科学团队没有考虑这个问题。他们太专注于获取点击率数据,以至于没有真正注意到任何有趣的东西。他们的工作已经成为例行公事。他们收集数据,清洗数据,然后上传到集群。他们没有问很多有趣的问题。这就像一只大猩猩走进了他们的数据,而他们甚至没有注意到。

数据科学团队在下一次冲刺中解决了这个问题。研究负责人问了一些关于成功广告的有趣问题。是什么让这个广告更成功?是车的牌子吗?是车的类型吗?是车的颜色吗?为什么网站上的客户更有可能购买这辆车?

在经历了这些问题之后,团队讲了一个有趣的故事。原来车的颜色对点击率有轻微影响,如图 14-3 。这一点,加上汽车的品牌和型号,可能是这个广告更成功的原因。数据科学团队在结束下一个讲故事环节时呼吁采取行动。他们建议将更多的汽车换成红色会提高他们的整体广告收入。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 14-3。

Color click rate Note

在所有颜色中,红色的点击率可能比其他颜色稍高。如果按品牌细分,只有福特的红色点击率高于其他品牌。比如对于日产来说,蓝色是点击率最高的颜色。如果您进一步深入了解红色福特车型,只有野马的点击率极高;其他型号相对较低。参见如何在 http://ds.tips/wr5nU 创建此图表。

该团队很幸运,他们有一个团队之外的利益相关者指出了他们数据中的大猩猩。大多数团队必须集中精力确保他们提出了有趣的问题。

记住,你的团队提供的是洞察力,而不是数据。最干净的数据或最大的集群没有奖项。不过,你的团队很容易专注于数据科学的这些常规部分。当这种情况发生时,你的团队可能不会在他们的数据中注意到大猩猩。

将洞察力与商业价值联系起来

即使你的团队发现了一些有趣的东西,你仍然要把它和真正的商业价值联系起来。将探索与商业价值联系起来并不容易。如果团队知道去哪里找,那就不是探索了。通常,在数据科学中,直到你发现了洞察力之后,你才知道商业价值。在你传授任何新知识之前,你必须走遍整个 DSLC。

这是短跑训练的主要好处之一。你将每两周一次传达一点点这些见解。在每一次冲刺中,你都将建立在你所知道的基础上。研究主管可以评估您的见解,并将它们与商业价值联系起来。如果团队走错了路,他们可以转向更有趣的东西。

我曾经为一家零售商工作,这家零售商试图提高工人的安全性。他们创建了一个收集所有非结构化数据的 Hadoop 集群。集群有视频、图像和受伤报告。数据科学团队使用这些数据创建了该组织所有工伤的单词云,然后该团队在他们的讲故事会议上展示了该云的简单可视化(见图 14-4 )。当他们开始讲述他们的故事时,你可以看到房间里的每个人都在摩擦他们的手或交叉他们的腿,因为团队描述了常见的伤害。会议结束时,数据分析师说他们将利用下一次冲刺来完善他们的分析。他们将创建数据可视化,讲述更深层次的故事,并涵盖更具体的伤害。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 14-4。

Word cloud of all the organization’s job injuries Note

参见如何在 http://ds.tips/waxU8 创建此图表。

房间中的一名利益相关者问了数据科学团队一个简单的问题:“为什么您关注的是伤害,而不是造成伤害的设备?”房间里的每个人都能同情受伤的人。然而,真正的价值是试图防止未来的伤害。该团队应该使用预测分析来判断这项工作是否太危险。

数据科学团队一直专注于谁受伤了,这是一个需要讲述的艰难故事。然而,对现有工人的真正商业价值是防止未来的伤害。该团队需要查看人们受伤时使用的设备,或者他们遵循的流程。这是一组全新的待探索的数据。

如果团队没有进行短跑训练,他们可能要花几个月甚至更长时间来提炼和探索受伤的数据。他们会讲有趣的故事,但不是利益相关者想听的故事。相反,在接下来的冲刺中,团队专注于危险的活动。他们以之前的数据为基础,讲述了一个关于危险设备和过程的全新故事。

数据科学团队探索与商业价值没有明确联系的数据并不罕见。事实上,Gartner Group 估计,85%的数据分析团队的工作与商业价值毫无关联。 5 这是一些工作的性质。不了解的东西很难评价。另一部分是确保你和利益相关者有一个清晰的联系。您的研究主管将与企业合作,将团队的见解与实际价值联系起来。

如前所述,在 sprints 中工作可以让团队在发现有趣的事情时快速转向。涉众可能不总是知道在哪里找到商业价值。相反,他们更有可能告诉你不要去哪里。尽管如此,这个反馈循环对于保持团队在正确的轨道上是必不可少的。知道不去哪里可能最终会让你走上正确的道路。

数据科学团队应该在做有趣的工作。这是组织中你可以积累真正洞察力的地方之一。然而,该团队不会对典型的业务压力免疫。如果您的数据科学团队没有产生真正的价值,过不了多久,利益相关者就会开始质疑这项工作。

大多数数据科学团队的工作方式与组织的其他部门有很大不同。如果你不迅速开始存钱,你就不太可能存在足够长的时间来改变现状。创造价值的最佳方式是在业务和数据科学团队之间建立紧密的反馈回路。涉众应该知道团队在每个冲刺阶段都在做什么,并且工作应该明确地与他们认为有价值的东西联系起来。

在每个讲故事环节中,尝试讲述一个简单的故事,讲述团队学到了什么,以及它将如何帮助组织的其他成员。这些会议对于保持团队工作和专注于有趣的工作至关重要。

摘要

在这一章中,你学会了如何通过想象如何在没有目标的情况下工作来改变公司的心态。您发现专注于目标会阻止您的团队探索和发现。在第四部分,你将学习如何提出好问题。要提出好的问题,你必须理解批判性思维,这你会在第十五章学到。

Footnotes 1

肯尼斯·o·斯坦利和乔尔·雷曼,《为什么伟大不能被规划》(施普林格科学商业媒体,2015 年),第 978-3 页。

2

引用自贝尔和豪厄尔公司总裁彼得·G·彼得森在技术和世界贸易研讨会上的演讲,1966 年 11 月 16-17 日,伊利诺伊州,芝加哥,第 83 页,引用第 91 页,会议由美国商务部和国家标准和技术研究所主办,国家标准局杂项出版物,美国政府印刷局,华盛顿特区(HathiTrust)hdl.handle.net/2027/uc1.b4112688?urlappend=%3Bseq=103

3

丹尼尔·j·西蒙斯和克里斯托弗·f·沙布里斯,“我们中间的大猩猩:动态事件的持续疏忽性失明”,《感知》28,第 9 期(1999):第 1059-1074 页。

4

Trafton Drew、Melissa L-H. V 和 Jeremy M. Wolfe,“隐形大猩猩再次出击:专家观察者的持续疏忽性失明”《心理科学》24 卷 9 期(2013):第 1848-1853 页。

5

特德·弗里德曼和库尔特·施莱格尔,“数据和分析领导力:用可信数据赋能人们”,高德纳商业智能、分析和信息管理峰会,2016 年,澳大利亚悉尼。

十五、理解批判性思维

对于您的数据科学团队来说,问题非常重要。在这一章中,你会发现如何利用问题的力量。然后你会发现那些有趣的问题是批判性思维的一部分。你还将了解批判性推理,以及如何寻找合适的问题。

利用问题的力量

想象一下,你正在给一群同事做演示。你想出了一个增加公司销售额的方法——一个花了你几周时间准备的策略。在你演讲的中途,有人打断你,问你一个关于你的假设的问题:“你是怎么得出你的结果的?”你对这个问题有什么反应?在一些组织中,这将被视为对抗和好斗。通常,这类问题来自持怀疑态度的主管或不同意的人。不管怎样,这都超出了演示的正常节奏。

在西德尼·芬克斯坦的《为什么聪明的高管会失败:你能从他们的错误中学到什么》一书中,他指出许多高管会毫无疑问地接受好消息。他们把问题留给坏消息或不同意时,这意味着大多数组织把问题视为一种不同意。当没有任何问题时,人们通常会重复同样的错误。他们倾向于群体思维,有盲点。许多公众失败可以追溯到从未被问过的关键问题。

正如本书中提到的,大多数组织仍然专注于完成工作。他们有任务声明,鼓励团队推动和交付,并按照明确定义的目标和积极的时间表工作。很难想象一个组织或会议中每个人都会问有趣的问题。在许多组织中,根本没有时间来鼓励这种类型的提问。然而,让你的数据科学团队存在于现实之外是很重要的。你的团队需要创造一个对有趣的问题开放的环境。您组织的其他成员可能生活在一个陈述的世界中,但是您的团队需要适应一个充满不确定性、争论、问题和推理的世界。

当你思考这个问题时,数据科学已经给了你很多答案。你将拥有显示购买趋势的报告,以及显示产品评级的万亿字节数据。你的团队需要使用这些答案来提出有趣的问题。由你来创造一个环境,让每个人都可以自在地质疑彼此的想法。

有几件事需要记住,以帮助您的数据科学团队保持正轨。

首先,如果你有一个新成立的数据科学团队,这个团队不太可能擅长问正确的问题。那是因为他们没怎么练习过。大多数团队不会问问题,因为好问题会挑战你的思维,不容易被忽视或忽略。他们迫使团队解开已经完全理解的东西,这需要比被动倾听更多的工作。

当你在学校时,你的老师可能会快速浏览材料,因为他们希望你记住事实并通读专家的建议。当你举手的时候,可能是为了一个很简单的问题。可能是一些很平常的事情,比如“这个会出现在试卷上吗?”没有人提出更大胆的问题,比如“我们为什么要学习这门学科?”或者甚至是,“我们能学到不同的东西吗?”

在工作中,你可能没有太多机会问有趣的问题。大多数公司仍然根据员工贯彻公司愿景的能力来提拔他们。你需要和你的同事好好工作。总是问问题并不总是最好的相处方式。您需要为您的数据科学团队改变这种观点。

第二件要记住的事情是,问问题真的很难。大多数人还是喜欢简单的陈述。告诉全世界你的想法是很容易的。向一个能提出好问题的人捍卫你的想法不是那么容易的。例如,想想你为自己做的健康的事情。也许你吃某些食物或做某些运动。现在问问你自己,你怎么知道它是健康的?是因为有人告诉你还是因为你的感受?如果是因为有人告诉你,你怎么知道那个人是对的?许多专家对什么是健康有不同意见。哪些专家是对的?

不用多久就会意识到提问会让人精疲力尽。解构你已经相信是真的东西需要很多工作。现在想象一下在小组环境中做这件事。

请记住,提出好的问题是很难做到的,而且并不总是被接受。尽管如此,这对您的数据科学团队来说是必不可少的。最好的问题会让你对你的数据有新的见解,这将帮助你建立你的组织知识。

淘金

提出有趣的问题是批判性思维的关键部分。所以我们来问一个有趣的问题。什么是批判性思维?大多数人认为批判性思维是批评的一种形式。你在判断一件事,决定它是好是坏,是对是错。这是否意味着如果你不同意某人的观点,你就在运用批判性思维?大多数人会说不。

批判性思维不是你判断事物的能力。批判性思维中的“批判性”是关于发现可能会削弱想法基础的关键问题。这是关于你的能力,去挑选组成一个被接受的信念的结论。这与你的判断无关,而是你发现本质的能力。

许多组织抱怨他们没有运用批判性思维的人。试图找到关键问题不是你能一直做的事情。有点像跑步。大多数人可以做一点,然后通过一些锻炼,他们可以做得更多一点。再好的运动员也不能天天跑。

想想我们的跑鞋网站。想象一下,公司发客户优惠券,年底有一天的销售活动。月底,数据分析师运行了一份报告,显示销售额增长了 10%,如图 15-1 所示。很容易说较低的价格鼓励了更多的人买鞋。较高的鞋销量弥补了折扣价格,促销活动也发挥了作用。越来越多的人购买鞋子,公司收入也越来越多。许多团队会就此止步。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 15-1。

Average sales quantity

按商品 SKU 和优惠券代码(包括无优惠券代码)旋转平均销售数量,取每个优惠券代码的平均销售数量并减去无优惠券代码的平均销售数量,您会得到使用每个优惠券代码与不使用优惠券代码相比平均多销售了多少单位。对于具有最高折扣(60%)的优惠券代码,平均比不使用任何折扣多 0.1 个单位销售。参见如何在 http://ds.tips/6acuV 创建此图表。

这是您的数据科学团队希望应用其批判性思维的地方。记住这不是好与坏的问题;它是关于发现关键问题,例如:

  • 我们怎么知道收入的增加与促销有关呢?也许同样多的人会不顾促销而买鞋。
  • 哪些数据会显示促销和销售之间的紧密联系?
  • 促销有效吗?

每个人都认为促销是有效的。所以很多公司都有。这意味着他们为你的网站工作吗?这些问题为研究领导开辟了一个全新的领域。当你接受促销有效时,一切都很容易——它们有效了,所以让我们做更多的促销。

既然团队已经提出了他们的问题,是时候让研究负责人转向另一个方向,提出更关键的问题,例如:

  • 我们如何证明这些促销活动是有效的?
  • 要不要看一天活动的收入?
  • 顾客买了打折的东西吗?
  • 仅仅是为了让更多的人访问网站吗?

这种技术通常被称为淘金。这是指早期的采矿技术,当时矿工们会在沙子中寻找黄金。沙子是你的团队问的所有问题。研究负责人与团队合作,寻找值得探索的黄金问题。不容易,因为确定哪些问题是金块是一个价值判断。由研究负责人决定问题是否有趣。

淘金的意义在于,尽管你会有很多一次性的问题,但少量的金块可以改变你的组织的运作方式。每一块金块都会有很多沙子。筛选那么多材料需要很大的耐心。

如果你是团队的研究负责人,试着积极倾听每个人的问题。通常,他们的问题是你的问题的早期版本。不要害怕问大的“为什么”对每个人来说,促销的作用似乎显而易见。这并不意味着你应该忽略这个问题。如果您对答案不满意,您可能希望与数据分析师一起创建报告。

另外,一定要注意你自己的结论。记住,批判性思维就是要分解这些结论。确保你评估了团队其他成员所说的话。

这可能是非常累人的工作。你不想因为没有花时间问问题而被迫接受一个结论。如果你没有得到这些关键问题,请随意重新安排会议时间。当每个人都觉得更有活力的时候,重新在一起。

专注于推理

我们中的许多人都有坚定的信念,这些信念指引着我们,帮助我们理解新事物。当你在数据科学团队工作时,信念可能会强烈影响你和其他人如何看待相同的数据。这就是为什么批判性思维的一个关键部分是理解这些信念背后的推理。你不应该只是能够描述你的信念——你需要描述这些信念背后的推理。

推理是支持关于数据的结论的证据、经验和价值。当你在数据科学团队工作时,理解彼此的推理是很重要的。这将有助于团队提出有趣的问题。

我们来看一个简单的语句作为例子。"你应该多喝绿茶,因为这对你的健康有好处。"这里的意思是你应该多喝绿茶。理由是这对你的健康有好处。当你运用批判性思维时,你想问一些关于推理的问题。为什么对身体有好处?你怎么知道这对你的健康有好处?对大家的健康有好处吗?如果你不运用批判性思维,你就只剩下想法了。你只是接受了你应该多喝绿茶的事实。

现在,让我们回到我们的跑鞋网站。假设设计团队正在研究他们从客户那里收到的一些反馈。网站上的许多图片描绘了处于最佳身体状态的跑步者。您的数据科学团队正在尝试确定更改这些图片是否会影响销售。

你的团队和网页设计师一起做一些实验。他们随机将健康跑步者的图像替换为不健康和年长的图像。该团队与数据分析师合作,创建报告来查看图片更改后数据的差异。报告显示整体销售额下降,如图 15-2 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 15-2。

Drop in overall sales

看看时间序列,你会发现“较不健康和较老”版本的页面每天的总销售额略低。如果你看一下五天移动平均线,"较不健康和较老"的版本在整个月都较低。参见如何在 http://ds.tips/X3xex 创建此图表。

现在球队需要谈论结果了。你的项目经理认为销售额下降是因为跑步者被图片所激励。他们不想要展示他们长相的照片。相反,他们想要他们想成为的人的照片。销售额的下降使得鞋子看起来不那么有效。它模糊了这样的信息:如果你买了这双鞋,你会变得更健康。

这位数据分析师不同意这种说法,他认为销量下降是因为顾客认为照片代表了一个理想的顾客。结果,顾客以为这些鞋是为刚开始跑步的人设计的。

要运用批判性思维,你必须看看这些陈述背后的推理。在这两个例子中,关键词是“因为”和“结果”这些话暗示着推理会随之而来。

对于项目经理来说,理由是客户“不是被他们是谁所激励,而是被他们想成为谁所激励。”对于数据分析师来说,理由是“客户认为产品是为刚开始跑步的人设计的。”

现在你有了推理,你可以开始寻找关键问题。顾客有动力看起来年轻健康吗?顾客真的认为不太合脚的人意味着鞋子是给新跑步者穿的吗?你认为谁的论点更有力?更重要的是,每个论点的弱点是什么?为什么一个不太健康的跑步者会被认为是一个刚刚开始跑步的人?你可能会认为情况正好相反。年长的跑步者通常已经跑了很多年了。

项目经理的论点也有弱点。顾客真的会相信买一双跑鞋会让他们看起来更年轻吗?这是否意味着更年轻、更健康的跑步者的照片会增加销量?

现在,您已经有了推理和一些关键问题,您可以与研究负责人一起寻找数据并确定最有趣的问题。购买特定鞋子的顾客的平均年龄是多少?有什么策略可以用来判断他们是否是跑步新手?这些问题将有助于你获得关于顾客动机的新见解。

推理是找到关键问题的第一步。记住批判性思维帮助你的团队从他们的报告中获得更多的价值。你可以帮助研究领导决定什么是有趣的。这些有趣的问题将帮助你的团队获得最好的洞察力。

测试你的推理

想想你最后一次听到别人说他或她错了。不是关于一家餐馆或一部电影的错误,而是关于他或她热情地相信的事情的错误。你能想到什么吗?如果不能,也没关系。很少看到有人改变主意。在一些组织中,这被视为摇摆不定或糟糕的领导,这只是你不常看到的事情。

加州大学的物理学家理查德·穆勒花了数年时间反对全球气候变化。他帮助建立了伯克利地球组织。他的大部分工作是由天然气和石油工业资助的。后来,他自己的研究发现了全球气温上升的非常有力的证据。他断定他错了。气候变化应归咎于人类。穆勒看到对他不利的事实太强大了,不能忽视,所以他改变了主意。他没有悄悄地做这件事。他在《纽约时报》的专栏上写了一篇很长的文章,概述了他最初的观点以及为什么反对意见更强烈。

记住,怀疑别人的想法是很容易的。难的是对自己的怀疑。从两个方面思考批判性思维:

  • 强烈的批判性思维:当你思考关于自己信念的批判性问题时。
  • 弱感觉批判性思维:当你只找到批判性的问题来挑剔别人的信仰时。

你可能知道更多的人运用弱感觉批判性思维。他们对自己的信仰有经过深思熟虑的论证,并且永远不会质疑自己的信仰。如果你提出问题,他们会尽力捍卫自己的立场。他们不会在你的问题上做文章,也不会自己创造新的问题。在您的数据科学团队中,您希望应用强烈的批判性思维。团队中的每个人都应该质疑自己的想法,提出有趣的问题,并探索自己论点中的弱点。这就是你应该如何在你的数据科学团队中运用批判性思维。

试着想象这在你的数据科学团队中会是什么样子。假设跑鞋网站开展了一项促销活动,并向每个购买产品的人发送了一张优惠券。数据科学团队查看使用优惠券购物的人数。数据显示,8%的顾客看了优惠券。在这 8%中,大约 5%的顾客在优惠券到期前使用了它。数据还显示,在优惠券发送给客户的当天,收入有所增加。见图 15-3 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 15-3。

Number of people who used the coupon to make a purchase

左边的图表显示大约 50%的顾客收到了优惠券。第二个柱状图显示,在这些人中,只有 8%的顾客真正点击了优惠券。只有 5%的人使用了优惠券。右图显示了优惠券发给顾客当天的销售高峰。优惠券确实影响了“无优惠券”的销售,但如果你比较实际数字,优惠券销售只占总销售额的 10%,因为没有多少人真正点击和使用优惠券。查看如何在 http://ds.tips/pre6E 创建这些图表。

您的数据科学团队希望了解此次促销活动产生了多少收入。所以让我们运用一些强烈的批判性思维。你可以争辩说,所有进入网站的新收入都是推广的直接结果。

这个论点的薄弱之处是什么?也许一些收到优惠券的顾客最终购买了促销活动之外的产品。应该算吗?也许你应该只计算实际使用优惠券的人。问题在于,你没有看到促销的全部效果。也许发送一封电子邮件询问顾客为什么他们有一段时间没去购物会同样有效。这可能是一个有趣的实验。

您的数据科学团队应该能够质疑所有这些想法。你团队中的某些人可能会强烈地感觉到任何新的收入都是促销的结果。这个人还应该了解这种方法的弱点,并能够提出有趣的问题,例如,“如果我们以这种方式看待数据,我们是否完全了解客户?”也许,客户只是需要被提醒你的网站。如果你只看实际使用优惠券的顾客,更容易把他们分成两类:一类是因为省钱而被激励的,另一类是需要提醒的。

当你的团队运用强烈的批判性思维时,感觉应该更像是一场公开的讨论。没人应该觉得自己在自卫。这种方法对于你的团队来说是一种很好的方式,可以提出有趣的问题,并最终获得更深刻的见解。

摘要

在这一章中,你学会了如何利用问题的力量,以及那些有趣的问题是批判性思维的一部分。你还发现了什么是批判性思维,以及你如何淘金来得到伟大的问题。最后,您探索了在提问和测试推理的同时使用推理。在第十六章中,你将学习如何鼓励人们提问。

Footnotes 1

Sydney Finkelstein,《为什么聪明的高管会失败:你能从他们的错误中学到什么》。企鹅,2004 年。

2

理查德·a·穆勒,“一个气候变化怀疑论者的转变”,观点页,《纽约时报》,2016 年 1 月 2 日, http://www.nytimes.com/2012/07/30/opinion/the-conversion-of-a-climate-change-skeptic.html?_r=0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值