DataCamp 博客中文翻译(三)

原文:DataCamp Blog

协议:CC BY-NC-SA 4.0

Angela Bassa 讨论了管理数据科学团队等内容。

原文:https://web.archive.org/web/20221129045010/https://www.datacamp.com/blog/angela-bassa-discusses-managing-data-science-teams-and-much-more

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220630214915if_/https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/526639653%3Fsecret_token%3Ds-30jxj&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true

DataCamp 播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了 iRobot 的数据科学主管 Angela Bassa。

下面是播客链接

介绍安吉拉·巴萨

雨果:你好,安吉拉,欢迎来到 DataFramed。

安琪拉:谢谢,谢谢邀请我。

Hugo:很高兴你能来参加我们的节目,我很高兴今天能和你谈论数据科学团队的管理,以及你在 iRobot 的工作。但是,在我们开始谈话之前,我想了解一下你。我想也许你可以从告诉我们你在数据社区中以什么闻名开始。

安琪拉:当然。我以这个名字从事数据科学已经四五年了。我所做的大部分贡献,你知道我没有以我的名字命名的包裹,或者类似的东西。但是,我已经谈了很多关于如何在企业数据科学的业务环境中进行数据科学研究,以及如何培养技能以在更大的组织中成为成功的数据科学家。我想那些关心我要说的话的人,可能会关心这些。

雨果:当然。我认为这真的很重要,特别是在数据科学发展的这个阶段,考虑商业环境中发生的事情,因为我认为很多人都在谈论最先进的技术,以及我们听到的所有术语。但是,我们确实需要记住,组织内的数据科学是为了在决策过程中提供一组输入,对吗?

安琪拉:对,没错。有许多公司的产品是数据科学或算法,但在业务环境中执行的大部分数据科学实际上是为业务服务的,而不是包装成自己的产品。从成功的角度来看,真正理解这一点在更大的组织中的战略意义非常重要。

你是怎么进入数据科学的?

雨果:对,这也是我们在这次对话中要谈到的一点。不过,在我们到达那里之前,我想了解一下您最初是如何进入数据科学领域的。

安琪拉:简单的回答是我真的很幸运。我不能说我上学的最终目标是成为一名数据科学专业人士,尽管我真的真的很高兴事情变成了这样。我读的是本科,我去的是工程学校,所以很明显你在工程学校做的不是工程。我本科学的是数学,他们在华尔街大量招聘数学专业人员。不是这样,就是学术界,我真的不想加入学术界,所以我去了华尔街。我讨厌它。这是如此糟糕的性格契合。但我确实开始处理数据。我的职责是进行数据分析,监控市场中的数据活动。我真的很喜欢那部分。不是反对金融界,我在那里还有朋友。只是不适合我。

雨果:那是什么时候?

安吉拉:哦,天哪,那是 15 年前的事了。

雨果:好吧。

安吉拉:离开后,我开始做战略咨询,因为这是你不做投资银行的另一件事。你一般做策略咨询。那时我才真正开始接触数据,尤其是建模,而不仅仅是监控。我做了很多药物策略。有很多统计数据涉及到如何建立一个控制实验,一个随机控制实验,这样你就可以测试不同治疗的效果。我们为大型制药公司、生物技术公司和医疗技术公司做了很多这样的咨询。我这样做了大约八年。

安琪拉:我离开了那个行业,加入了一家大型营销服务机构。我就是在那里接触到大数据的。真正的大数据。我是说,那时我们从可以在一台机器上运行的东西。我的意思是,机器可能会挂起一点,但它肯定会在 RAM 中运行,对于计算,你真的需要理解如何运行计算,就像你需要理解计算是什么一样。虽然这很令人兴奋,但风险真的很低。我是说,如果你搞砸了,有人就得不到优惠券,对吧?实际上,在我所在的波士顿地区,我参加了一些社区活动,聚会等等,最后我遇到了一些来自一家名为 EnerNOC 的公司的人。它们后来被收购了。

安琪拉:那是伟大成果真正出现的地方,我在那里以那个名字做数据科学。风险足够高,所以如果你搞砸了,你可能会导致停电,或停电,或类似的事情,人们真的依靠我们的分析能够省钱,省电。我真的很喜欢在这方面工作,但是过了一段时间,iRobot 的伟大的人找到了我,作为一个书呆子,有机会做我喜欢的事情,数据科学,但是,也和机器人一起工作,这是-

雨果:那太酷了。

安吉拉:…是啊,很难通过。真的很难通过。

你在 iRobot 做什么?

雨果:你现在在 iRobot 做什么?

安琪拉:我是 iRobot 的数据科学主管。我认为我的工作有两个方面。一方面是管理团队,一个由数据科学家、分析师、实习生和承包商组成的团队,他们帮助我们实现目标。另一部分是设定这些目标,并了解我们如何为公司带来最大利益。

雨果:太好了。你能告诉我们一些关于 iRobot 的事情吗?

安琪拉:当然。iRobot 是排名第一的消费机器人公司。当然是在美国,我很确定这也是世界。我们是消费机器人的制造商,你们可能知道并喜欢,比如 Roomba 和 Braava。这两个分别是机器人吸尘器和机器人拖把。我认为这真的很棒,因为机器人技术很难。这是一家公司,它已经知道如何在这种非常困难的环境中运营,制造价格低廉的机器人,并且能够帮助拥有这些工具的人们做更多的事情。真的很刺激。

Hugo:现在我想深入研究一下数据科学管理。众所周知,通向数据科学的道路有很多,我相信也有很多通向成为数据科学经理的道路。也许你能告诉我们你实际上是如何进入这个职位的,或者一般来说是如何进入数据科学管理的?

安琪拉:对。我认为很多进入技术领域管理的人都有相似的背景。也就是说,你通常作为个人贡献者表现出色,然后被提升到这个完全不同的学科。这很有趣,因为很多让你成为一个真正优秀的个人贡献者的启发法,在你进入管理层时并不一定适用。作为个人贡献者,你回答问题,并提出问题。作为一名经理,你真的是在衡量人。它本身是一门完全不同的学科。要真正精通它需要时间和努力,我认为第一步是理解这是一份不同的工作。

雨果:一份你不一定会被训练去做的工作,在你的专业领域成为一名成功的个人贡献者,对吗?

安琪拉:对,没错。作为一名个人贡献者,你可能会尝试提供指导,或与实习生密切合作,并帮助他们从这些关系和实习中获得最大利益。但是,从个人贡献者到管理者,你必须记住你的目标不是回答问题,你的目标是让人们回答他们的问题。

雨果:你的旅程是怎样的?

安琪拉:我想是我最后进入管理层的方式…嗯,很有意思。当我第一次有机会管理团队中的另一个人时,我们面试了几个候选人,以及最终得到这份工作的人。我认为有些沟通不畅,因为我没有博士学位,我只有本科数学学位,我认为这对我开始做数据分析师很有帮助。回到黑暗时代,在 Hadoop 存在之前。

安琪拉:我们雇用的人有博士学位。他刚刚毕业。从第一天开始,他发现他直接为我工作,而不是和我一起工作。那天他最终辞职了。

雨果:哦,哇。这是你第一次管理人吗?

安琪拉:是的,没错。

雨果:哇。

安琪拉:那留下了一个标记,所以我没有结束-

雨果:嗯嗯(肯定)。

安吉拉:…最后,每当我得到类似的机会时,我都找到了一个不接受的方法。

雨果:当然。

安琪拉:在-

雨果:第一印象持续。

安吉拉:…我知道。然后几年后,它变得有点明显,这是什么需要发生在这种情况下,我在的背景下。我当时真的很谨慎,也很担心,也不想放弃个人贡献者的角色。一些我充满激情的事情,我…如果可以的话,我认为我真的很擅长,而且我很喜欢。我担心职业发展的道路在于转换轨道,跳到管理层。情况并不总是这样,但当时它看起来确实像是向我敞开的大门。

安琪拉:我很谨慎,有一点…感觉苦乐参半。但是,在此之后,管理一个人,并有第二次迭代工作得更好。我想可能是因为我更有自知之明,而我管理的那个人也更有气质。在那之后,我结束了我们两个一起工作的整个项目。从那时起,它就一直在增长,我在那里管理一个小团队,然后最终管理职能部门,即组织内的数据科学学科。这是一种进化。

数据科学团队模型

雨果:对,有意思。就需要为企业提供价值的数据科学团队而言,我们需要考虑数据科学如何嵌入到组织中。我想知道,在您看来,组织中存在哪些不同的数据科学模型,哪一个是您最喜欢的,或者您有哪一个,或者哪一个目前对您有用?

Angela:我个人曾在几个不同的部门从事数据科学工作。例如,我的团队隶属于组织结构图的运营部门、财务部门、财务运营部门、IT 部门、工程部门或专门的 R&D 组织。显然,这是一个很大的组织结构,所以有几个重组。我甚至参加过几次重组,我注意到的一件事是,数据科学团队总是易手,总是改变组织结构图的分支,每次有重组,我都是其中一员。我认为这说明了数据科学可以为组织带来的价值。似乎公司的不同部门都希望能够利用这一真正强大的学科。

Angela:我认为确保该职能在组织内成功的关键是,无论它位于何处,是否位于产品管理部门(通常在开发产品功能时),或者是否位于运营部门,以便将价值回馈给企业。我认为最重要的是让功能真正成熟。通常在公司,尤其是数据科学不是产品的公司。因为,否则在那些情况下,数据科学是创建的一部分,对吗?你需要它来实现商业提议。

Angela:但是,在其他情况下,在大型企业中,在寻求采用工具集的传统公司中,通常有几个人在交付工具集,他们真的需要时间在组织中作为一个学科成熟起来,成为战略专家,组织的目标是成为数据和工件方面的专家,并将其带回来。这是我想说的一件事,在组织环境中,其他一切都不重要。但是,重要的是让团队经历几次迭代的能力,这样他们就到达了一个他们已经探索过的点。

重要的管理策略

Hugo:我认为让团队变得成熟和发展的想法非常重要,我们会回头再讨论这个问题。你刚才提到的一些事情让团队也有时间理解数据,并成为专家。我认为这是促进的方向,允许团队向组织交付尽可能多的价值。我想知道,总的来说,作为一名经理,确保你的团队能够交付尽可能多的价值的最重要的策略是什么?

安吉拉:…我想我喜欢想象的比喻是,你必须原谅我,因为我是巴西人,所以我认为是足球,而不是橄榄球。但是,在美式足球中,有这样一个概念:边线员创造空间,这样四分卫就可以发挥作用。我想很多时候我们喜欢把经理当成四分卫,我认为这是不对的。我认为个人贡献者,对于他们特定的项目,对于他们的任务,是他们自己的四分卫。经理的角色是真正创造口袋,创造空间让他们可以思考,创造空间让他们可以看到整个领域,他们可以看到机会,他们可以看到答案。

安琪拉:这是我的心态。我指导我的团队能够做到的是成为数据专家。我认为,如果你被要求进行分析,或者回答一个问题,很多时候发生的情况是,提出问题的人不一定有想象力想象答案可能是什么样子,或者可能是什么,对吗?他们有这种狭隘的观点,因为他们是其他方面的专家。他们非常聪明,但是他们聪明的地方和我们聪明的地方不同。当他们问一个问题时,有时这个问题水平太低,或者水平太高。

安吉拉:数据科学家的部分职责就是成为治疗师,准确地提出问题,这样你就能真正了解提出问题的人想要什么。有时他们甚至不知道他们想要什么,或者他们甚至不知道有什么可能得到答案。因此,作为创造空间的前锋,四分卫可以做他们的事情,制定策略,并找出如何回答问题,这就是我认为如何让球队发挥最大价值的方式。

雨果:里面有那么多东西。我在倾听时想到的两点是,管理两方面的期望,什么是可能的,什么是可行的。但是,这种翻译行为,也有助于将业务问题转化为数据问题。然后,进行相反的翻译,将数据答案转化为业务答案。

安吉拉:我认为这基本上是数据科学家的工作。因为,每个人…我是说,现在是 21 世纪了。每个学科都有数据,每个人都有信息,他们用这些信息来做决策。数据科学的独特之处在于我们有能力提出一个业务问题,并正式表述它,以一种我们可以使用统计工具的方式正式阐明它,并在软件开发中创建一个可重复、可复制、可解释、适合目的、回答问题的解决方案。因为,很多时候,可能发生的情况是,数据科学家会变得如此迷恋一种特定的方法,以至于当它不太适合时,他们可以尝试将它用于任何事情。或者,他们迷恋一个数据集,他们使用它是因为他们可以,而不是因为他们应该。这一转化步骤,从业务到数学,到技术组件,再回到业务,确实是伟大的数据科学家发挥作用的地方。

团队成长

Hugo:到目前为止,这个对话中反复出现的主题是数据科学团队的成熟,以及团队的发展。如你所说,你开始管理一个人。我想知道,随着您的团队规模随着时间的推移而增长,数据科学经理需要考虑哪些关键方面?

安吉拉:我认为随着时间的推移会发生一些事情,所以我是 EnerNOC 的第一任数据科学经理,在 iRobot 之前我就在这家公司工作。我是 iRobot 的第一任数据科学主管,所以这是我从零开始成长起来的两个团队。最开始发生的事情,有这么多的潜力,但也有这么多低挂的水果。拥有一个能够灵活交付几个…我不会称之为必然的登月,但在几个高能见度,高度复杂的答案,开始说明什么是可能的,对不对?这项新功能能带来哪些令人惊叹的东西?

安琪拉:但是,还有那个低垂的果实。最快速的价值评估方法是剔除这些,取而代之的是简单的东西,并且比任何人都能更好地回答它们,用一个能照顾好自己的架构,这样它需要最少的监控。你只需要开始向管道中添加东西,解决那些本身很小的问题,但是却可以节省大量的时间。然后,这些加起来。拥有这种灵活性意味着在最开始,你有一种无差别的天赋,对吗?你有引用/未引用,“独角兽。”我讨厌这个词。

Hugo:那么,某种数据科学通才?

安琪拉:没错,是的。拥有基本工具集的人,在一点点指导下,可以扮演所有这些角色。但是我认为,医学科学中的人们所说的一些真正相关的东西,是个体发育重演了系统发育。我认为这句话的意思是,生物体的发展方式,从受精到怀孕或孵化,模拟了动物远祖的进化阶段。这是一个非常随机的类比,但我认为它与此相关的方式是,数据科学团队的发展方式也模拟了公司发展的各个阶段。因此,就像一家初创公司一样,一个崭露头角的数据科学团队拥有许多无差别和灵活的人才,团队经历了几个“支点”,他们试图建立自己的价值,他们的冠军是谁,以及与其他内部客户互动的理想方式。当他们只是小团队时,他们是初级的,他们是多能的,对吗?它们有点像干细胞,对吗?他们可以发育成任何东西。

Hugo:随着数据团队的成熟,会发生什么?安吉拉:当你在团队中变得成熟时,那就是你开始专业化的时候,那就是你开始差异化的时候。这时,你开始拥有真正擅长可视化的人,或者在数据平台工程或可靠性方面真正有天赋的人。擅长 QA 的人,他们有这样的个性,对细节的关注充满热情。当数据科学团队所做的工作类型达到足够大的规模时,我才认为开始让那些专门的辅助团队解放数据科学家,让他们真正专注于科学部分(即假设检验)是有意义的。

雇佣和建立团队

雨果:一旦你进入这个阶段,你会如何考虑招聘,或者围绕不同的技能建立一个团队?正如你所说,你不一定需要数据科学通才,但你需要一个团队,他们的技能、提问和好奇心相互补充,对吗?

安琪拉:对。我认为当你开始的时候,你希望有全面发展的人。但是,你走得越远,我认为拥有一个代表你的最终用户的团队是很重要的,不管他们是谁。我认为,特别是在产品是数据科学的公司,你要确保你的数据科学团队看起来像使用你产品的人,这样你就有不同的视角,你可以提出不同的问题。而且,每个人看起来都不一样,使用同样的工具,问同样的问题。我认为全方位的多样性非常重要。我认为年长的人和年轻的人,我喜欢从无知的角度来思考一些事情。也就是说,团队中的下级可以问一些“愚蠢”的问题,对吗?引号里的笨蛋,因为他们不笨。它们是不受阻碍的。他们不受我们忘记自己所做的假设的束缚。它们不受我们开发的启发法的阻碍,这些启发法可能并不适用于任何地方。

安吉拉:他们有能力挑战那些资历更老的人完全有能力挑战的假设,但是你开始忘记了。你听到马蹄声,你会想到马,而不是斑马。嗯,越年轻的人会说,“如果是斑马呢?”他们挑战这一点,迫使你思考为什么要做某些决定。

Hugo:我很喜欢,我也很喜欢你用我们随着时间的推移发展起来的启发法来描述它,因为我们知道当我们开始大量使用启发法时,它们也会伴随着某些偏见。所以,拥有一个新的观点,不受启发法的阻碍,也会让我们认识到自己的偏见,希望如此。

安琪拉:当然。不要敲启发式,他们是伟大的,他们的存在是有原因的。

Hugo:嗯嗯(肯定)而且必要。

安琪拉:我们建造它们是因为它们创造了捷径,让我们更有效率,对吗?这是关于快速思考和慢速思考的全部内容,以及我们的大脑如何运作,以及我们如何创建自己的贝叶斯先验,并从它们开始。但是,我认为让不同背景的人参与到对话中来,真的会丰富对话。

Hugo:你之前提到了数据科学团队可以思考的问题类型,或许也应该思考。你真的…我们以后可能会谈到这个问题,最近你发给我一篇你为《哈佛商业评论》写的文章的草稿,你很好地区分了团队可能能够回答的问题空间和团队能够并且应该回答的问题空间。鉴于此,我想也许你可以说点什么。

安琪拉:对。我认为这是一个完美的选择。就通常会发生的事情而言,很容易。我也犯过这样的错误,你可以访问数据,所以你开始关联。你开始探索,你开始计算会发生什么。我认为,当你开始对这些数据工件建立自己的试探法时,没有方向的探索肯定有价值。我认为,如果可能的话,无论何时,更重要的是首先考虑目标可能是什么,并在你开始通过数据进行“洞穴探险”时拥有北极星。当你思考向你提出的问题是什么时,很多时候很容易想到,“哦,好吧,我没有这个问题的完美答案,但我有其他数据集,我敢打赌是相关的。”所以,你开始去那里。

安吉拉:我认为谦逊也是造就一名优秀数据科学家的要素之一。谦逊地知道也许这不是它的意思。我的意思是,有时答案就在某个地方的电子邮件线程中,你无法访问,你没有参与,你不知道。但是,答案在别处。我认为有自我意识去询问,成为一名专家是非常重要的,不仅仅是通过数据的探索,而是通过组织的探索,对吗?与组织中的其他人建立联系,并真正了解数据是如何生成的,它用于什么环境,它能否被重新利用,重新利用可能会产生什么问题?

Angela:所以,真正弄清楚什么样的问题可以被回答是很好的,但是我认为什么样的问题应该被回答是一个组织内的数据科学家能够很好地提问的事情,也许比其他任何人都更好。

权衡取舍

Hugo:现在,我认为这是一种交易。我想知道,作为一名数据科学经理,您需要做出哪些类型的权衡,以及如何做出正确的选择?

安吉拉:哦,我认为在任何学科中做一名管理者,尤其是在数据科学领域,我认为这些权衡就是一切。数据科学与其他类型的工作略有不同,因为你不仅仅是回答问题。很多时候你都在考虑一个问题是否可以回答,对吗?不仅仅是“如何”或“什么”,还有“如果”。搞清楚这些权衡,很多其他学科有不同的权衡。但是,很多权衡也非常相似,比如你要花多少时间来了解某个学科的最新发现、最新应用、最新方法,还是销售某个学科、在内部销售、让法律、销售和运营部门的人参与进来。让他们知道,如果他们有问题,他们可以使用这种资源,他们希望有更多的信息和数据来帮助他们做出决策。

安琪拉:你花了多少钱做这件事?通常我会制作幻灯片,或者写备忘录,或者想清楚每个人的需求,表达出来,然后写下来。相对于教练,相对于壮大你的团队,确保他们得到他们所需要的,并确保他们接触到战略,以便他们可以在轮到他们时做出最好的发挥。除了计划、制定战略、确定我们需要与谁交谈、我们需要在什么时候交付产品、我们需要在什么时候进行路演,以及展示我们的一些发现,让人们知道我们是组织中可以利用、可以带来价值的可信部分。

安琪拉:我认为所有这些都是你作为一名经理不断尝试处理和优化的事情。此外,还有很多额外的问题。你把谁带进你的团队,你如何确保每个加入团队的人都允许你从这种扩张中获得网络效应,这样你就不只是有一个加号,而是有 N 个加号,因为那个人在所有方面改进了团队,并覆盖了盲点?

雨果:你如何看待两者之间的权衡…我的意思是,当招聘数据科学职位时,你可以聘用具有非常强的定量和数据科学技能的人。但是,我想,你也可以着手做这件事,就某个可能有其他专业知识的人而言,并且在这个过程中也可以学到一些数据科学,对吗?

安琪拉:对。我是数据科学训练营的忠实粉丝。不是所有的,但我认为有几个对那些有抱负,有能力学习技能的人来说是很棒的,对吗?我认为数据科学的某些部分是无法教授的,对吗?你不能教一个人想要正确地回答一个问题。但是,我认为怎样是可教的。我认为有很多人正在进入数据科学领域。我的意思是,不同的研究所和大学才刚刚开始有引用/未引用,“数据科学项目。”我的意思是,在过去五年中,几乎所有进入数据科学的人都做了一些其他的培训。

安琪拉:这里有一个完美的例子。在 iRobot 的团队中,我们有一位数据科学家,他最初是作为海洋生物学家接受培训的。你会想,“一个海洋生物学家在机器人消费公司做什么?”你会感到惊讶的,因为事实证明在她的领域有很多研究。她所做的是,她对野生海豚进行了大量的研究。她真的到处旅行,我有点嫉妒。事实证明,当你想到一队机器人,以及这些机器人的行为时,这种建模的专业知识真的很有用

雨果:哦,哇。

安吉拉:…独立地,和依赖地。在某些情况下,你可以把一队机器人想象成一群海豚。显然,这不是一个完美的模拟,但许多建模变得非常方便。知识存在于这个世界上,问题是你如何知道去那里寻找它?

雨果:是的。

安吉拉:她给我们带来了那种水平的专业知识。她是一位了不起的数据科学家。从技术上讲,她具备成为一名出色的数据科学家的所有条件。但是,她也带来了这个额外的维度,帮助我们以不同的方式解决问题,我认为更好。

雨果:对,当然,作为学术研究或科学研究人员,我知道如何提出正确的问题。但是,如果她做了很多旅行,数据收集,这类事情,思考数据生成过程,数据是如何生成的,以及如何建模,这也是做这类工作的关键部分。

安琪拉:没错,是的。这也是我热衷于实习项目的原因之一,因为它看起来像是繁重的工作,但它非常重要,我想我们都做过。我是说,我在华尔街的时候也这么做过。当我建立我的数据集,我建立这些被监控的数据库时,我非常清楚我做设计选择时的意思,以及我的设计选择如何向下游传播,这样什么样的问题更容易回答,什么样的问题更难回答,为什么?我的治理模式是什么,对吗?当我开始的时候,我没有词来形容这些事情,但这就是它们。

Angela:在我们的实习项目中,我们的员工变得非常熟悉数据收集、数据摄取和数据管理,我认为这极大地帮助了他们,因为他们能够更好地理解背景,理解尊重这些设计决策的重要性,而不是将数据集用于一件事,当它们实际上是用于另一件事时,并对此负责。

雨果:对。很快,对于那些真正喜欢这次谈话和你在 iRobot 的工作的听众来说,他们可以在网上查看实习项目或类似的东西吗?

安琪拉:哦,是的,当然。如果你去我们的职业页面搜索数据科学实习,是的,如果你感兴趣,请申请。

雨果:太棒了。如果你申请了,一定要提到你是在播客上听说的。

安琪拉:当然,是的。

与利益相关者的数据集成

Hugo:Angela,你提到的是,在组织内部销售数据科学在某种程度上是一种要求。我真正感兴趣的是,我们将如何看到我们的数据素养在组织中传播,而不仅仅是在数据科学团队中。我想知道您是否能与利益相关者进行最好的对话,他们需要多少数据才能说话,或者您是否认为未来首席执行官和其他利益相关者会说更多的数据,变得更懂数据?

安琪拉:哦,我想是后者。我认为,不能以一种数据素养的方式可信地讨论你的产品或你的战略,将会变得更加困难。我认为市场有这样的期望,我认为它正在成为赌注。此外,能够确保您的战略决策基于您有远见地收集的信息,以便您能够做出正确的决策。

数据科学经理的常见陷阱

雨果:你对数据科学经理有哪些常见的陷阱或警告?

Angela:我最讨厌的事情之一是,数据团队不知道哪些数据是可用的,这些数据意味着什么,以及如何使用这些数据。我认为你需要做的第一件事是开一个大型的探索性数据分析派对,你知道吗?

雨果:太棒了。数据党,我爱死了。

安吉拉:…是的。每周花一些时间,也许每个人 10%的时间专注于迷失在数据中,真正理解它,并与组织中的其他人一起喝咖啡,这样你就可以提出关于数据是如何设计、创建、收集、存储和标记的问题。我认为这非常重要。当人们认为这是浪费时间时,我真的很生气,因为这是无方向的,我认为如果你要成为公司数据的专家,你就是公司数据的专家,这是非常有价值的。

安琪拉:我认为另一件事是不要承诺太多。容易发生的事情之一是,人们知道什么是可能的,所以他们描绘了一幅图画,但他们忘记了如何务实地执行。因此,不要过度承诺是巨大的,但也不要承诺不足。我认为沙袋适得其反,我认为你需要能够准确地承诺。然后,兑现它。这不仅仅是因为它让你远离了过分/过分乐观的情况,还因为它建立了信誉。如果你能准确地评估你的结果将会是什么,我认为这也给实际结果增加了可信度。

安吉拉:我认为达到你可以承诺然后兑现的一个方法是诚实和透明。也许比其他学科更透明一点,因为数据科学家接受过询问数据和询问情况的训练。他们将能够看出你什么时候承诺过多,什么时候承诺不足,或者什么时候你不确定目标是什么。这一点非常重要,并且在团队和组织内部进行沟通。

组织中数据科学的未来

雨果:太好了。我认为这是一次关于当今数据科学管理状态的精彩对话,尤其是关于您的实践。我想知道数据科学在组织中的未来,特别是与决策功能相关的未来,这对您来说是什么样的。

安琪拉:是玫瑰色的。我认为数据科学有工作保障。这无疑是不同组织结构中越来越根深蒂固的东西。我觉得这就是为什么要看情况。与使用数据科学服务于其他事物的公司相比,将产品用于数据科学或算法的公司的未来将会有所不同。我还认为,无论团队是公共组织、初创公司还是大型组织的一部分,未来看起来都是不同的。还有,时间范围。这是一个专门从事研究的团队吗,他们正在研究登月?相比之下,一个更具操作性、面向企业、帮助公司优化自身运作的团队。

安吉拉:我认为所有这些都有不同的曲线,但我认为,从任何方面来说,我看不到未来我们会越来越多地依赖那些了解如何操作数据的人的专业知识。

行动呼吁

Hugo:对于我们所有的听众,无论他们是数据科学家,还是有抱负的数据科学家,甚至是渴望进入数据科学管理领域的人,你有一个呼吁他们行动起来的号召吗?

安琪拉:嗯,我很高兴你提到了这一点,实际上在我们之前的谈话中你也提到了这一点。我真的很兴奋,我刚刚为 HBR 写了一篇文章,它实际上是他们正在整理的一个系列的一部分,叫做“管理数据科学”这是一份为期八周的简讯,他们正在整理,重点是让分析和人工智能为每个人的组织服务。我有一篇文章要发表,所以当这个播客上线的时候,我想它已经有两三周了。我鼓励你和你的听众去看看。

雨果:太棒了,我们还会在节目笔记中加入一个链接。

安琪拉:太棒了,谢谢你。

雨果:安吉拉,很高兴你能来参加我们的节目。

安琪拉:哦,这是我的荣幸。谢谢你让我这个书呆子出来。

宣布免费周恢复

原文:https://web.archive.org/web/20221129040116/https://www.datacamp.com/blog/announcing-free-week-redux

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你没看错标题。我们再次免费开放 DataCamp,这是世界上首屈一指的数据科学、数据工程和分析在线学习平台。从现在起到 9 月 9 日,你可以随心所欲地选择课程,我们甚至不会要求你提供信用卡。你只需要一个电子邮件地址就可以开始了。

在我们最后一周的自由活动中,来自世界各地的 135,000 名新学员加入了我们的行列。但是在过去的三个月里发生了太多的变化。越来越多的人需要新技能来确保职业发展。同样重要的是继续需要在家安全有效地学习——但许多人现在没有资源投资教育。

这就是为什么我们在免费周中再次消除了所有的进入障碍。无论您是刚刚涉足数据世界,还是一头扎进去,您都必须在 9 月 9 日之前在 DataCamp 上建立新的数据技能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

利用这一有限的时间,通过 DataCamp 的课程、项目和评估最大限度地发挥您的潜力。你甚至可以访问我们最新的课程,比如Power BI 简介Python 中的气流简介。如果你现在开始,你甚至可以完成一些我们最受欢迎的技能课程,比如 R 编程或者 Python 基础。别担心——在自由周期间,你仍然可以获得每门课程的成绩证明。

我们希望你能加入我们的使命,为自己尽一份力,让数据科学教育民主化。与你的同事、朋友和家人分享我们的免费周新闻。如果这是你第一次回来,欢迎回来。你可以从你停下的地方继续。帮助我们第二次突破 200,000 名新学员——现在就在 datacamp.com/freeweek报名吧!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

宣布我们与 Degreed 的合作关系!

原文:https://web.archive.org/web/20230101103202/https://www.datacamp.com/blog/announcing-our-partnership-with-degreed

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DataCamp 很高兴地宣布,我们已经与 Degreed 合作,为组织提供免费的数据素养培训,无论他们是否已经订阅了 DataCamp。

谁被授予学位?

财富 50 强中有三分之一的公司使用 Degreed,它是一个劳动力技能提升平台,将您的所有学习、人才发展和内部流动机会与您的企业下一步需要的技能情报联系起来。Degreed 根据学习者的优势、职业抱负和当今企业所需的技能,推荐培训内容,从而个性化地为学习者提供服务。

关于提供的课程

我们通过 Degreed 提供的三门课程如下:面向所有人的数据科学面向所有人的机器学习,以及面向所有人的数据工程。这些不需要任何以前的数据科学经验或知识,也不涉及任何编码,因此它们是您开始迈向组织范围内数据流畅的绝佳方式。

  • 面向所有人的数据科学 是我们总是建议初次接触我们网站和数据科学的人开始学习的地方,因为它解释了数据科学的基础知识以及该领域中的不同角色。

  • 面向所有人的数据工程 专注于这些领域中的一个,一个近年来需求特别旺盛的领域。了解数据工程师如何为数据科学奠定基础。

  • 面向所有人的机器学习 在这里,你将学到你一直不敢问的关于机器学习的一切,并向你介绍人工智能和机器学习的热门话题。

在这三门课程结束时,您的员工将了解核心数据科学概念,并能够与这些领域的专业同事进行更深入的交流。

我们为什么要合作?

我们的伙伴关系可以用三个词来解释:共同的使命。DataCamp 的重点一直是数据科学及其民主化,Degreed 的重点是提供最新、最优质的学习体验。随着数据科学越来越多地改善日常生活,我们看到了帮助企业克服数据技能差距的机会,方法是将 DataCamp 的实践学习方法与 Degreed 10 多年来在其技能提升平台中支持职业发展和商业机会的经验相结合。

不用说,我们对此很期待!

有兴趣了解更多信息吗?联系,了解如何解锁我们的免费数据扫盲课程,并解答您的问题。

申请数据科学工作以及如何让自己脱颖而出

原文:https://web.archive.org/web/20221129044127/https://www.datacamp.com/blog/applying-for-data-science-jobs-and-how-to-set-yourself-apart

介绍

2012 年,《哈佛商业评论》将数据科学家评为 21 世纪最性感的工作。十年后,尽管出现了 AutoML 平台(如 AWS Redshift ML 和 Google Cloud AutoML)以及疫情时代的放缓,数据科学家仍然是最受欢迎的角色之一。事实上,数据科学家是科技行业薪酬最高的职位,平均年薪为 15 万美元

尽管他们的具体职责可能因行业和公司而异,但大多数数据科学家都肩负着帮助组织从数据中创造价值的使命。他们通过探索大量数据中的模式和趋势,将结果传达给广泛的利益相关者,并建立和维护模型以实现自动化决策来实现这一点。因此,成为一名数据科学家需要一套独特、多样化的技能,涵盖统计、编码、商业意识和沟通,所有这些都将通过一系列面试问题和带回家的挑战来展示。

在这篇博客文章中,我们想从申请人和面试官的角度分享一些技巧,以帮助你在数据科学家面试中脱颖而出,获得你梦想中的工作。

秘诀 1:熟悉这个角色和公司

如上所述,“数据科学家”是一个模糊的术语,可以指任何围绕数据的角色。来自不同公司或不同行业的两位数据科学家可能会发现自己从事完全不同类型的任务。因此,通读职位描述中的职责部分是很重要的,或者问面试官:“这个职位的一天会是怎样的?这个角色会把大部分时间花在探索和可视化数据,或者构建模型上吗?”你对这个职位了解得越多,你就能越快知道这个职位是否符合你的个人资料和兴趣。这有助于你锁定更适合的职位,增加你得到真正想要的工作的机会。

你可以在像 indeed 和 linkedin 这样的职业网站上找到关于如何提高个人品牌和个人资料匹配的有用建议。如果你正在寻找为数据科学和分析量身定制的职业建议,data camp的职业服务将非常有帮助-在这里你可以找到这一领域专业职业教练的个性化课程。

一旦你确定了适合自己的角色,下一步就是向公司展示你对他们业务的热情。对于那些刚开始做数据科学家或想转行的人来说,这可能有点棘手,因为在你申请的行业中,你可能没有太多解决业务问题的经验。

我们发现很有帮助的一件事是做一些与目标行业相关的项目,并在简历和面试过程中提到它们。例如,如果你从未接受过金融方面的培训,但想申请一家投资银行的数据科学家职位,那么参与像这样的指导项目在 DataCamp 上模拟美国债券收益率的波动可以帮助你了解从事金融工作的数据科学家应该解决什么样的商业问题。

Kaggle 也是一个很好的平台,在这里你可以找到很多有趣的比赛和数据集。通过参与这些项目,并在面试中谈论它们,你不仅会积累该行业的基本知识,还会向公司表明你对他们的业务非常感兴趣,以至于你会利用业余时间探索他们的用例。

技巧 2:让你的技术专长在带回家的挑战中发光发亮

通常,数据科学家的招聘流程包括一个带回家的挑战,给候选人一个或多个数据集,以及一些要解决的业务问题。尽管提交的要求可能不同,但是候选人通常被期望共享代码、模型和分析输出。

许多候选人认为这是展示他们技能的绝佳机会。 R 和 python 是主要的数据科学语言,它们都有自己的必备包,用于数据争论、统计建模和机器学习,例如 Python 的 pandas、sklearn 和 statsmodels,以及 R 的 tidyr、dplyr 和 caret。如果您是数据科学新手, 建议参加一些类似 DataCamp 上的职业跟踪课程:使用 Python 的数据科学家使用 R. 的数据科学家除了广泛的课程外,Datacamp 还提供了一个工作空间,人们可以在那里使用预先编写的代码模板和预先配置的数据集进行练习,以便那些希望获得一些实践经验来缩小学习和实践之间的差距。

有时可能被低估的是数据叙事的作用。优秀的数据科学家也是有效的故事讲述者,他们能够很好地交流他们的模型输出,足以说服利益相关者,从而推动真正的变革。俗话说“一图胜千言”。因此,请确保在您的分析报告中包含直观的数据可视化,以帮助面试官了解您如何发现数据中的模式,以及展示您的模型如何创造价值。除了常见的软件包如 matplotlib (Python)、seaborn (Python)和 ggplot2 ®, plotly 是一个值得尝试的图形库,如果你想建立一个基于网络的交互式仪表板。这个关于 DataCamp 的课程可能会有帮助:用 Python 中的 Plotly 介绍数据可视化。

或者,你可以尝试无代码 BI 工具,如 Tableau、Power BI 和 Google Data Studio。这些工具给了你两个优势。一方面,它们是流行的可视化工具,被大多数非技术利益相关者使用,比如数据分析师和产品经理。因此,掌握这些工具表明您可以轻松地与公司使用的数据分析堆栈集成。另一方面,它们比 Python 或 R 包提供了更多的定制,这允许您轻松地构建幻灯片风格的交互式分析报告。如果你是这些工具的新手,DataCamp 上的这个Tableau入门课程是一个很好的起点。

最后但同样重要的是,代码的交付也很重要。除非另有说明,在 Git 上构建您的解决方案,并将所有的依赖项整合到您的代码中总是一个好主意。没有什么比当面试官收到一个 zip 文件并试图运行代码时,却只能看到“找不到 XYZ 包”这样的错误消息更让他们沮丧的了。与此同时,确保你的代码带有干净、适当的文档,这样人们就能很容易地理解你的思路。

技巧 3:在分享你以前的项目经验时,记住数据产品的生命周期

大多数情况下,申请数据科学工作的候选人需要分享他们以前的项目经验。一个常见的陷阱是花太多时间描述技术工作,例如,他们如何清理数据和微调(超级)参数。这可能会让你的面试官得到他们可能无法完全理解的信息,同时分散他们发现你的商业头脑和利益相关者管理技能的有限时间。

因此,我建议在准备关于您之前项目的面试问题时,确保您的回答遵循 STAR 框架,并涵盖数据产品生命周期的所有阶段,即使您没有直接参与所有这些领域:

  • 业务目标和问题:您的项目试图解决什么业务问题?您的项目有助于实现什么目标或 KPI?
  • 数据收集:你在收集数据时遇到了什么挑战,你是如何应对的?
  • 探索性数据分析:你如何向非技术利益相关者展示你的分析结果?他们提出了哪些问题或批评,你是如何回应的?
  • 建模和逻辑:你为什么选择最终实现的模型(讨论技术和非技术动机)?你的方法的主要限制是什么?
  • 测试和部署:你是如何测试和部署你的模型的?
  • 监控:您选择了什么度量来评估模型性能?你学到了什么?你是如何根据你学到的知识改进模型的?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1. Data Product Lifecycle

此外,不要忘记突出所涉及的不同角色(例如,产品经理、数据分析师、数据工程师、QA 和业务运营经理)、他们的职责以及您如何与他们互动。听到这些,你的面试官可能会对你的商业意识和团队合作印象深刻。

结论

通过这篇博文,我们了解了最近对数据科学家需求的增长。然后,我们讨论了一些技巧,可以帮助您解决数据科学家面试中的技术和非技术问题。如果你渴望在未来获得一份数据科学家的工作,你可能会有兴趣尝试这些技巧,或者从认证的数据科学课程开始,朝着你的梦想迈进。

Arnaub Chatterjee 讨论了医疗保健中的人工智能(AI)和机器学习(ML)。

原文:https://web.archive.org/web/20221129045010/https://www.datacamp.com/blog/arnaub-chatterjee-discusses-artificial-intelligence-ai-and-machine-learning-ml-in-healthcare

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220529064349if_/https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/520227201%3Fsecret_token%3Ds-Mfbd0&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true

DataCamp 播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了麦肯锡&公司制药和医疗产品部门的高级专家兼合伙人 Arnaub Chatterjee 。

下面是播客链接

介绍阿诺·查特吉

Hugo: Arnaub,我真的很高兴今天你能来谈谈人工智能、数据科学和机器学习在医疗保健中的作用,以及哪些成功了,哪些失败了,但在我们到达那里之前,我想让你介绍一下你自己的旅程,让我们知道你最初是如何进入数据科学的。

阿诺:谢谢你,雨果,也谢谢数据营今天邀请我。我进入数据科学的想法是非常偶然的,就像生活中的许多事情一样,是在正确的时间和正确的地点。我认为在医疗保健领域也有一个并行的运动,数据科学在过去 10 年里真正起飞了,所以随着许多完美风暴的工作,所有这些因素都对齐了。我认为我的职业生涯有点曲折,因为我在咨询行业担任过角色,在技术和政策领域为前任政府工作,然后在制药行业,现在又回到了咨询行业。围绕我如何工作的中心主题或精神一直围绕着数据科学和数据科学的共同线索和一些链接。

Arnaub:给你一个简短的背景,我在研究生院毕业后开始了我的职业生涯,成为一名顾问,最初专注于制药跨国公司,但后来在 ACA 时代之前,平价医疗法案时代,帮助艾滋病充斥的健康数据基础设施。这实际上让我去为奥巴马政府工作。我过渡到最初从事一些围绕医疗欺诈和滥用的数据科学工作,不仅思考政策,还思考如何利用这些数据,并预测谁更有可能实施欺诈和欺骗政府。

Arnaub:从这个角度来看,事情变得更像是一个技术平台。然后我有机会与 HHS 的一些技术官员一起工作,当时托德·帕克和布莱恩·西瓦克正在围绕开放数据创建一个新的运动,并建立 API 和平台来访问政府掌握的大量数据,所以非常非常幸运地遇到了两个硅谷的家伙,他们把他们的 DNA 带到了政府,并启动了许多倡议,如健康数据倡议。我们正在 fda.gov、clinicaltrials.gov 建立平台,开放 API。这也是非常正确的时间和正确的地点,能够向那些在私营部门以技术思维做这件事的人学习。然后是制药方面,由于政府的原因,我最终转到了制药行业,并跟随一些曾在政府部门工作过一段时间的人,在默克建立了一个专注于数据科学的团队。我们在默克所做的事情主要是关于我们如何利用和识别新的数据集,这可能包括流氓数据之类的声明,但也可能包括临床和基因组和社交媒体以及审查员。它真正利用并思考了我们如何展示默克产品的临床和经济价值。这是一种全新的思考方式,以不同的方式定位药物,并思考数据科学中新方法的出现,以支持和巩固药物的价值。

Arnaub:我这样做了很多年,并与各种学术机构合作,研究不同的机器学习方法和不同的数据科学方法。所有这些最终把我带到了麦肯锡,也就是我现在的位置。在这个职位上,我不仅与制药公司的客户打交道,还与科技公司的客户打交道,了解他们如何进入医疗保健行业。我觉得以这种身份,我很幸运地站在不同公司如何在各种不同环境中部署机器学习和数据科学的第一线。希望我们今天会谈到很多。

雨果:当然。正如你所说,它需要许多移动部件,或者它几乎是你的兴趣和技术的意外收获的完美风暴,新兴的数据科学堆栈和所有可用的数据使你的职业道路成为现在的样子。我们会看到这种情况也发生在这个领域。这实际上需要很多移动部件、可用性和大规模数据的生成、计算能力、统计洞察力,这使得数据科学在健康和其他方面得以发展。

你是如何学习数据技能的?

Hugo:我还对你在研究生院就开始考虑这类事情的事实感兴趣,那是你开始处理数据的时候。你当时需要的和现在需要的处理数据的技能,这些技能是你在工作中学到的,还是你专门接受过这类工作的培训?

阿诺:这是个有趣的问题。我想在研究生院我花了一些时间在生物统计学和流行病学上。我的背景是商业方面的医疗保健,还有健康政策方面的。关于数据科学有趣的事情是,如果你问医疗保健领域的许多人,他们会告诉你,数据科学家是加州的统计学家,他们基本上会说,随着方法和机器学习的出现,这个概念和术语已经发生了很大变化,真正扭曲了这个定义的含义。

Arnaub:在某种程度上,我认为从事传统索赔数据工作并拥有流行病学、生物统计学等技能的人本身就是数据科学家。我认为,正如你提到的,现在发生变化的是更大的数量和不同类型的数据。有不同的方式处理和理解我们如何使用它。我的训练从那里开始,现在我想,像许多人一样,我必须根据许多学科正在融合的事实来发展和学习。计算机科学家和现在实际上有数据科学学位的事实,教授使用数据的不同方法的项目,这些都与人们使用医疗保健数据的许多旧的学校方法相融合。这就是我现在的处境。

Hugo:很好,我很高兴你提到了不同类型的数据,因为我认为数据的异质性是如此丰富,实际上,当人们问我这种情况发生在哪里时,我首先提到的临床环境是,除了来自扫描的成像数据之外,你还可以从实验和控制中获得表格数据,这一点我们将会得到,除此之外,还有来自医生对患者文件的笔记等类似内容的自然语言。

医疗保健中的人工智能

雨果:我认为这是进入这场关于人工智能在医疗保健中的应用的对话的绝佳时机。正如我们所知,围绕机器学习在人工智能和医疗保健中的使用有很多炒作。我想知道,从你的角度来看,这一领域实际上有哪些成功之处?

阿诺:是的,这是一个非常重要的问题,我认为当我们谈论什么实际上有效时,我认为知道这是一个非常进化的空间是很重要的,所以在某些情况下,陪审团仍然不知道。在其他情况下,我们开始看到非常有希望的迹象。只是为了承认炒作,我想在我个人看来,我们正处于医疗保健领域人工智能资金的黄金时代。我想我最近看到的统计数据是,自 2016 年以来,仅医疗保健领域就有 300 家人工智能创业公司涌现出来。这些公司涵盖了从减少保险和结算公司的行政工作,到实际创造新的药物和授权化合物开发。我认为重要的是,我们现在开始看到对人工智能的许多关注正被推向哪里,以及媒体的注意力正走向哪里。风险资金正流向那些也在精简大量运营和效率任务的公司,比如医疗保健领域的管理效率任务。他们还流向那些大胆渴望颠覆已经发生了几十年的流程的公司。

阿诺:我们试图辨别的是一个成功的结果是什么样的,我们如何思考更大的愿望是什么,我们在哪里可以看到医疗保健的切实改善,我们如何思考病人结果的改善?这次谈话,不是要泼冷水或给正在进行的伟大工作泼冷水。这只是为了试着理解,就像你在对话开始时提到的,很多关于这一点的讨论都发生在我们看到承诺的地方。

Arnaub:让我来举几个不同的例子,在我认为这已经奏效的地方,我们可以就此进行更深入的讨论。您提到的第一件事是关于成像,特别是在诊断成像和医疗保健领域,这是一个基础。我认为非常重要的是要记住,人工智能在其他行业的开创性用例实际上是从回读图片和查看照片中的人脸、图案和物体的能力开始的。这与医疗保健领域的情况非常相似,我们在其中看到巨大成功的许多灯塔使用案例正在开始发生。

Arnaub:为了让你对这个市场的增长有一点了解,人工智能辅助诊断成像到 2023 年应该是一个 20 亿美元的产业。这只是 570 亿美元的整个医学成像市场的一小部分。570 亿美元包括设备,包括软件和服务,所以这是一个巨大的市场,在医疗保健领域已经有一段时间了。我认为我们现在看到的是来自许多方面的共识,无论是医院还是技术公司,人工智能都将改变诊断成像行业,无论是提高生产力,还是提高准确性,个性化治疗计划,所有这些功能都有待实现。

Arnaub:在这一点上,为什么成像是我们看到改进的第一个地方,首先,医院每年产生大约 50pb 的数据,其中 90%的数据来自医学成像。我们讨论的是 MRI 扫描、PET 扫描、CT 扫描,所有这些也都嵌入在电子病历中。我认为这是一个原因,这种数据的可用性和普遍性。

Arnaub:我认为第二个原因是,现在医疗保健领域确实有许多令人信服的使用案例。为了挑选谷歌已经完成的一些伟大的工作,谷歌大脑在 JAMA 上发表了他们非常强大的论文,他们与来自一个眼科研究所的 13 万名患者一起工作,他们观察视网膜眼底图像。他们能够做的是提出一个更复杂的卷积神经网络,能够预测糖尿病视网膜病变,这是全球失明的主要原因之一。大约有 4 亿人患有这种疾病。

阿纳布:他们有效地做的是利用这 13 万张图像的子集,提出了一个更精确的版本,在理解视网膜病变发生在哪里以及如何实际描述背景线索方面,他们胜过了由八名眼科专家组成的小组。他们的 F 分数是 0.95。事实上,他们有一个调整后的 AUC,事实上,它是在 JAMA。有一个非常强有力的临床论点,如果我们获得更多这种类型的数据,我们能够将它构建到不同的工具和流程中,以及眼科医生如何看待他们的患者,我认为这只是一个开始。Deep Mind 在视网膜空间内有一个非常相似的研究。光是这两个例子,我认为就很有说服力。您不仅在眼科看到了这一点,而且在皮肤病学和病理学中也开始看到这一点,作为您的下一组 lighthouse 用例。

什么类型的公司取得了进步?

雨果:这让我觉得很有趣,我想知道你是否感兴趣,在这种情况下,是像谷歌这样的公司,在医疗保健领域传统上不为人知,却取得了这样的进步。

Arnaub:是的,我认为你开始看到许多拥有世界级机器学习和医疗保健机构的公司之间有趣的合作。硅谷的另一边是脸书。脸书刚刚宣布了他们与 NYU 医学院的合作,在那里他们利用人工智能来加快核磁共振扫描的识别速度。对你们感兴趣的人,这个项目叫做快速核磁共振成像。它最初观察大约 300 万张膝盖、大脑和肝脏的图像,并观察大约 1 万个不同的病人病例。这是最近刚刚宣布的。我们会看到劳动的成果是什么。

阿诺:我不认为这有什么好惊讶的。我认为计算能力,现在谷歌有责任弄清楚他们如何思考应用程序在哪里,用例在哪里,我认为这是你开始把成像视为他们的第一个初始灯塔的地方,因为他们可以,令人信服地…他们已经在其他行业做到了这一点,现在他们也有能力在医疗保健数据上做到这一点。

人工智能在医疗保健中的用例

Hugo:所以你打算告诉我们更多关于眼科和皮肤科的使用案例。

阿诺:是的。我认为我们开始看到类似的情况…眼科显然是视网膜疾病的例子。我们已经开始看到不同的乳腺癌病例。Kaggle 和英特尔以及一家名为 MobileODT 的公司之间的合作是一个很好的例子,他们开发了一种算法,可以准确识别女性的子宫颈,以及我们如何更好地筛查和治疗女性的宫颈癌。该数据由大约 10,000 个标记的子宫颈图像组成,并且它具有一型、二型和三型宫颈癌。这是一个 50 层卷积、神经网络、深度学习模型,可以准确分割子宫颈类型识别的不同部分。这是另一个例子,这个算法,仅仅通过利用群众的力量,它甚至没有受过学术训练或临床训练的人,他们能够在 75%的时间里捕捉并准确识别子宫颈类型。

Arnaub:我认为值得注意的是,这些 CNN 实际上是可复制的。你不必每次都重新组装轮子。我认为这就是你将开始看到巨大改进的地方,你将开始看到在我们如何进行成像识别和再现这些算法方面的许多增强。

阿诺:我认为第二件事是这些主要的合作伙伴关系,你开始看到科技公司与眼科研究所和拥有成像数据的大公司合作。这将是非常引人注目和强大的。

Hugo:那么当你说可重复时,你是指在迁移学习意义上的可重复使用吗?

阿诺:是的,我想我们稍后会谈到这一点,但人工智能的一大挑战是让它在医疗保健中重现。最大的障碍是医疗保健系统的许多不同部分的数据是不同的。你在加利福尼亚看到的病人将与你在得克萨斯、南卡罗来纳或波士顿看到的病人大不相同。我认为,我们试图更好地理解的是,你如何对一种可能已经在美国人口或全球人口的某一部分中使用的算法创建一种概括能力。那么能够始终如一地提出这些算法就是一个挑战,因为也有不同的方式来描述这一点,我稍后会花一些时间来讨论这一点。

阿诺:特别是对于放射学,你所寻求的结果是不同的。你可能会看到病变的概率,也可能会看到肿瘤的特征。你可能会看到肿瘤的位置。你必须一遍又一遍地用不同类型的成像数据做同样的练习,这样算法才有可能重现。我认为这就是我们开始看到的,我们必须不断地证明这个算法是准确的,可以用其他数据设置来识别。

其他示例

Hugo:听着,老实说,这次谈话让我更加意识到消除这些事情的神秘性是多么重要,特别是因为有这么多接触点,对吧,人工智能可以在健康方面产生影响,正如你提到的,从行政任务到 scut 工作,保险业,到所有这些诊断。在我们继续之前,我想知道您是否还记得其他例子或超级有趣的用例?

阿诺:是的。绝对的。第二,我认为,我们经常看到的是诊断预测。你如何看待那些你还没有从数据中挖掘出来的可能有助于治疗进展的新变量?

Arnaub:实际上,我们现在正在与这个领域的几个客户合作,提出可能导致疾病进展的新的预后变量,也许可以预测疾病的早期发作。我认为令人信服的是仍然有大量的误解,仍然有大量未满足的需求,我们没有在我们的患者群体中描述出来。如果我们能够使用机器学习方法更好地了解那些病人可能是谁,我们可能能够在如何让他们进出医院,更快地看医生方面做一些令人难以置信的事情。

Arnaub:一个很好的例子是:Emory 刚刚发布了一项关于脓毒症的研究,他们观察了 42000 名患者,他们观察了 65 种不同的测量方法,这些方法可能预测脓毒症的发作。他们在不同的时间间隔内观察,比如 4 小时、6 小时、8 小时和 12 小时内。最酷的是,他们能够提出与医生相同的模型和相同的准确性水平来预测脓毒症,在医生和工具之间有一个验证队列,算法基本上是不可区分的。这是一个非机器对医生的例子。更重要的是,我们不仅有能力确认和证实医生的发现。如果我们不断完善这一点,我们可能会发现更多的措施,更能预测脓毒症。

Arnaub:我想和你分享的另一个例子实际上是上周刚刚发表的,发表在美国医学协会杂志上,这是一个非常顶级的出版物。这是对 500 名患者和一些葡萄球菌感染患者的随机试验。他们在六年的时间里观察病人,他们发现一种算法在建议如何用抗生素治疗他们方面做得和医生一样好。真正令人信服的是,他们能够说接受某些抗生素治疗方案的患者在一定天数内服用了某种药物。他们可能在更短的时间内服用了一定数量的药物。你基本上是在看我们如何考虑抗生素方案,以及让患者留在医院内外的最佳做法。我认为这是你开始看到许多令人信服的证据的地方,鉴于这现在出现在顶级医学杂志上,这不是未来的事情。这些就是现在正在发生的事情。

雨果:你已经暗示过几次了,我们不一定…本质上,人类和机器之间有一个错误的二分法,对吗?

阿诺:是的。

人工智能在医疗保健中的未来

Hugo:我认为更有趣的是人类算法互动的想法。人工智能和机器学习模型与人类在一起的想法。你认为这是人工智能未来在医疗保健中的一部分吗?

我猜这是你的机器人和医生的对话?

雨果:当然。

阿诺:是的,我想有一些…我会给你两个有趣的轶事来证明我们是否…我们听到很多关于内科医生是否会被医生取代的说法。一个例子是,据报道,医科学生实际上并不专攻放射学,因为他们担心就业市场在 10 年内将不复存在。

阿诺:另一个例子是,中国有一家非常有趣的公司,叫做科大讯飞,这是一家相当大的中国人工智能公司。这是第一台通过医学考试的机器,它的得分大大高于学生群体。当你听到这些类型的陈述,然后你看到所有的 JAMA 证据或新英格兰杂志证据表明医生与机器处于同一水平时,将会有很多对话。它还展示了机器学习实际上已经走了多远。

阿诺:我想有几件事让我相信,我们还没有到医生被取代的地步。一个是,许多这些人工智能系统,就像你举的放射学例子,它们执行所谓的狭义人工智能。这些是单一的任务,它们正在被编程,深度学习模型正在为特定的图像识别任务设置,因此检测结节或查看胸部 CT 并寻找出血。这些是 N 个任务中的一个,它们是二元的,要么是要么不是。我认为如果我们将任务保持在这个狭窄的检测范围内,我们将会发现许多有趣的事情,但这意味着这些将会是增强工具。他们将帮助医生提高诊断的准确性,但众所周知,医生要做相当多的工作。医生如何诊断病人需要大量的脑力劳动。

Arnaub:从短期来看,我认为我们正在寻找人工智能来为许多解决方案提供动力,这些解决方案可以降低成本,提高准确性,并增强医生的决策能力。我看不出它会很快取代医生或我们的提供者所做的大量工作。

Hugo:是的,我喜欢你提到狭义人工智能,正如你所说,它是算法,人工智能模型,用来解决特定的任务。我觉得在文化意识里当人们听到 AI 的时候,他们不会想到狭隘的,弱小的 AI。他们认为一个强大的人工智能在某种意义上反映了人类的认知,这甚至不一定是我们在大多数地方想要的和我们正在努力的。对吗?

阿诺:嗯嗯(肯定)。是啊。没错。没错。它必须更加广阔。我认为另一件值得一提的事情是…我们已经讨论过这个问题,但是模型中的一致性和可移植性必须发生。我们离将此整合到医生决策中还有很长的路要走。我认为不同的供应商专注于不同的深度学习算法和各种不同的用例。甚至某些东西,我们会谈到这一点,他们是由美国食品和药物管理局批准,但他们有完全不同的焦点。直到我们可以开始标准化很多,这将需要一些时间。至于你对人工智能的狭隘和更广泛的思考,这也是等式的一部分,然后我们如何实际上使其可复制。

数据科学、ML 和 AI 在医疗保健领域是如何发展的?

Hugo:你多次提到的一点是,我们现在看到的很多力量都来自深度学习。你提到了卷积神经网络的使用。我将稍微后退一点,对于那些想要深度学习去神秘化的人来说,深度学习是…如果我说错了,请纠正我…是机器学习的一个子类,主要是在监督学习中,你试图预测一些事情。这种特殊类型的监督学习模型,是从我们的生理系统和大脑中的神经网络中得到启发的。Hugo:卷积神经网络本质上是一种非常擅长挑选图像模式的网络。它使用卷积技术来做到这一点。当然,人工智能先于卷积神经网络,尽管它们目前非常强大,但我相信你已经看到了趋势的出现和消失。我只是想知道你是否可以谈谈自从你在医疗保健领域工作以来,数据科学的移动部分 ML 和 AI 在医疗保健领域是如何发展的?

阿诺:是的,我认为如果我们要把它推广到医疗保健,有相当多…有各种各样不同的模式,这些模式的复杂性被用来解决不同的问题。我认为在非常基础的层面上,人工智能在医疗保健中的许多早期应用都集中在诊断和药物治疗之间的关系上。一些更基本的技术,如关联规则挖掘或监督学习,旨在发现和提取重要的关联。这些方法有很多局限性,所以我认为如果你看看我们的方法,它们只是在项目级的共现。它们并不是真正的更高层次的抽象。对于数据探索或临床决策支持来说没有太多用处。

Arnaub:我认为,如果你看看监督学习技术,他们正在从预测的角度解决这些问题。如果我们有正确的数据水平,我们可以提出更多的非预测性应用。比如疾病分类或者病人分类。随着数据变得更加有用,可能会发生一些事情,我想,没有更好的词了。我认为这就是我们实际上能够看到监督学习变得更加适用的地方,从很少观察的小数据集到更大规模的例子。这是一项伟大的工作,例如斯坦福和 UCFS 大学正在做的工作,他们在 10 年的时间里观察了数十万名患者,进行了数十亿次观察,并提出了复杂的深度学习神经网络。我认为这就是你开始看到人工智能深远应用的地方。

阿诺:在其他情况下,我们仍在解决数据问题,也就是说,我们获得了足够的数据,使这变得有趣,但某些模型或方法的复杂性可能不存在,因为坦率地说,数据不是那么好。

在你看来,医疗保健中的数据科学、ML 和 AI 的未来是什么样的?

Hugo:话虽如此,在你看来,数据科学、人工智能和人工智能在医疗保健领域的未来是什么样的?

阿诺:是的,所以我认为还有很多应用我们还没有谈到。我认为我们选择了两个简单的方法,一个是已经发生的事情,另一个是正在进行的工作——疾病诊断预测,然后是成像。我认为在药物开发方面有很多工作要做。我们现在关注公司的事实…有一些令人兴奋的初创公司正在这样做,他们专注于药物再利用等事情,他们使用真实世界的数据和机器学习算法来探索药物分子和疾病之间的关系。这是非常令人信服的。这就是你开始看到大量资金进入的地方,特别是来自生物技术和制药公司,有像 BenevolentAI 和 Numerate 等公司正在使用深度学习来挖掘大量数据,以查看科学论文、临床试验等一切,他们实际上只是试图了解哪些化合物在靶向疾病方面更有效。

阿诺:我认为这些类型的事情得到了相当多的投资,但是我们还没有看到劳动的成果。我提到了仁慈。他们开始确定 ALS 治疗的假设,你知道这只是一个开始,但它开始缩小药物靶点或化合物的范围。它不仅为生物技术和制药公司节省了大量时间,还加快了药物开发过程。我认为这是一个例子。

Arnaub:确实有一些有趣而强大的基因组数据的例子,我们还没有谈到,所以 DeepVariant,如果我回到谷歌一秒钟,DeepVariant 是一个开源工具,它是谷歌大脑和谷歌生命科学部门 Verily 之间大约两年的工作。他们能够有效地做的是提出一种更复杂的统计方法来发现突变并过滤掉错误。DeepVariant 所做的是,它改变了变体调用的整个任务,即试图找出哪些碱基对是你的一部分,而它们不是某种处理工件的一部分。它把它变成了一个图像分类问题。Deep variant 开始取代并超越这些基本的生物学工具,如 GATK 和 SAM 工具,并将错误数量减少了 10 倍。

阿诺:我认为,这只是开始阶段。即使像谷歌这样的公司也会告诉你,他们的基因组学工作还需要几年时间,考虑到这项工作花了两年时间。但是我对这种潜力感到非常兴奋。还有其他关于医生倦怠和医疗保健中语音技术出现的例子,我们开始了解医生在 EHR、电子健康记录数据输入上花费了大量时间,如果我们能够在未来使用机器学习和自然语言处理以及语音技术,那么我们将开始自动填充记录中的结构字段,减轻医生的工作负担,减轻医生的文档负担。这是我认为处于前沿的三个用例。在这些领域,有很多炒作和兴趣,也有非常惊人的工作正在发生,但这只是我看到的未来走向的一个简短列表。

观众的提问

责任

雨果:太好了。在我继续之前,实际上有几个有趣的问题,Gamal 问了一个问题,关于责任呢?实际上,我想从医疗保健中数据科学、人工智能和人工智能的未来的角度来思考这个问题,特别是我们讨论的许多算法本质上都是黑盒算法,很难理解它们为什么会做出这样的预测。因此,就可解释性与黑盒而言,也许你可以讨论一下,我想,我们作为数据科学家建立的模型的责任。

阿诺:是的,我认为这是一个非常重要的问题。我想谈的一件事是未来的政策空间。FDA 批准的算法的概念实际上正在开始发生。我们现在看到的是当前模型中缺乏一致性和可转移性,因为它们关注不同的端点,它们是在黑盒设置中完成的,在那里输入数据,我们不确定会输出什么。我认为这意味着监管机构将进行干预,尽管是以积极的方式。

Arnaub:作为一个例子,美国放射学院实际上正在帮助供应商在算法上市前验证算法的有效性。我认为这是一个例子。另一个例子:关于接受算法和批准它们是诊断的一部分。他们对使用神经血管疾病算法的决策支持工具投了赞成票。他们在 4 月份对糖尿病视网膜病变做了同样的事情,然后他们为一种计算机辅助工具做了一些事情,这种工具有助于成年患者的手腕骨折。这些都是 FDA 允许市场开放的。他们允许算法实际上以一种受监管的方式帮助提供商。

阿诺:事实上,白宫和众议院监督信息技术委员会内部正在发生非常酷的事情。如果你们非常无聊,你应该读一读众议院监督委员会刚刚发布的名为“机器的崛起”的报告。这基本上是 NIH 如何确保算法的标准化。白宫也是如此。他们从政府那里推出了一个非常有趣的计划,以一种道德的方式来建立人工智能。我认为黑匣子问题会继续发生。我们已经看到这对于一些大公司来说是个问题。我们需要能够解决这个问题,虽然我们不喜欢政府干预,但我认为这是一个实例,我们实际上看到了很多积极的事情。

数据科学中的伦理问题对医疗保健中的人工智能有更大的影响吗,在这个领域有没有为研究人员制定伦理指南的举措?

Hugo:接下来,我们实际上收到了听众中一个叫 Daniel 的人提出的一个关于伦理问题的很好的问题:数据科学中的伦理问题对医疗保健中的人工智能有更大的影响吗?在这个领域有没有为研究人员制定伦理指南的举措?你已经说过了,我们各自自上而下。我还想知道数据科学社区内部的实践。什么类型的利益相关方会让数据科学家承担责任?同样,事实上,在市场营销中,或者广告中…如果你给某人看了错误的广告,这并没有给某人错误的诊断那么重要,对吗?健康领域有没有特别有价值的东西?

阿诺:是的,所以我认为我们看到的是我们如何标准化疾病的本体,这是一个不断发展的问题。有一些学术团体致力于复制这些表型。所以表现型基本上就是我们如何描述一个病人和他们各自的疾病。如果学术团体和组织走到一起说这是一个普遍接受的算法,这是我们如何避免错误的癌症治疗建议,或者这是我们如何看到这是一个不安全或不正确的治疗建议,我认为这将实际上迫使更多的人在某些参数内工作,并建立符合指南和实践的算法。否则,在大量健康数据噪音中找到信号是非常容易的。我认为,有些公司在这方面经历了一些惨痛的教训。我认为,只要我们与试图这样做的组织合作,这就是解决这个问题的一种方式。

阿诺:我认为另一件事是健康数据难以置信的不一致,有一个名为 HL-7 的国家小组委员会,这是一个健康数据标准委员会。他们真的在大力推动一种叫做 FHIR 的东西,这就是快速医疗保健互操作性资源。它试图创建一个标准,让数据不再是某个人的竞争优势,而是每个人都可以使用的东西,并且是为每个人标准化的东西。你看到的不仅仅是不一致的标准。

Arnaub:医疗保险/医疗补助服务中心真的在努力推动标准的本体论。我认为 FHIR 和其他组织正试图在所有的混乱和噪音背后创造一种一致性。雨果:太棒了。这实际上回答了我们从观众那里得到的下一个问题,这个问题来自 David,他关注人工智能在医疗保健中的政策含义的研究,特别是 FHIR 是否会对人工智能的实施产生任何影响。很好,你能在我框住它之前回答这个问题。Hugo:另一个问题,我要提醒今天在这里听和看的人,一想到问题就在聊天中提出来。我从威廉那里得到了一个非常有趣的问题,我们之前已经暗示过了,但是威廉说“我注意到很大一部分炒作都集中在医疗保健的 R&D 方面。比如图像分析,药物发现。什么是炒作,更重要的是,在制造方面有前途的应用?”

阿诺:对,这是个好问题。我想这与药物开发有关,抱歉,是在药理学范围内?

雨果:对,没错。

阿诺:是的,所以我认为我们开始在这个领域看到很多活动。这有点微妙,但就制造业如何试图解决这个问题而言,我认为我们现在有能力标准化并更好地理解药物循环是如何发生的,供应链可以优化。例如,我认为这就是像 BERG 这样的公司不仅在研究应用中使用人工智能,而且在制造中使用人工智能的地方。这是我很少遇到的东西,但仍然很受欢迎。我认为有一些方法可以考虑无监督学习方法,比如我们如何试图理解药品流通,以及我们可以在哪里改进我们的供应链工作。

Arnaub:实际上,英国皇家学会正在研究机器学习在生物制造中的作用。我们真的能帮助优化时间因素吗,比如帮助制造商减少生产药物的时间,降低成本,提高复制能力?是的,仍然是一个非常受欢迎的话题。这不是我们一直回避的事情,但我现在已经看到很多资金和兴趣流向了探索。

鉴于人工智能的黑箱性质和工业的专有性质,如何评估算法的外部验证和可重复性?

Hugo:我想,我们有几个关于在医疗保健中使用人工智能、人工智能和数据科学的道德本质的问题。我想问你的第一个问题来自一位名叫詹姆斯的听众。詹姆斯说,鉴于人工智能的黑箱性质和工业的专有性质,如何评估算法的外部验证和可重复性?他还说,基本上,开放科学在商业人工智能领域中处于什么位置?

阿诺:对,这是个好问题。我认为我们需要做的是提出一种跨学科、多利益相关方的方法来评估进入市场的不同算法。像 FDA 这样的大型自上而下的机构正在评估医生在实践中运用算法的能力。我认为,在学术层面上,还有其他更跨学科的组织。一个伟大的团体叫做 OHDSI,它是观察健康数据科学和信息学团体。他们试图做的是,这实际上是制药公司、学术界和创业公司之间的合作。我认为他们所做的一件事非常重要,那就是他们为医疗保健创建了一个通用的数据模型。他们查看了不同的观察性医疗保健数据库,认为电子病历对于支持临床护理非常重要。像 clean data 这样的数据库对于报销很重要,但它们都有不同的用途。我们需要创建一个通用的数据模型来容纳这两种不同类型的数据。

Arnaub:这个 CDM,通过一个叫做 OMOP 的伙伴关系,代表观察医疗结果伙伴关系,它基本上是试图从随机编码系统中提取所有这些噪音,并创建一个标准化的本体和词汇。这是试图从其他人、多个玩家、跨学科玩家那里获得买入的一种方式。我认为,这有助于应对道德挑战。

阿诺:OHDSI 是一个实际上致力于复制和出版所有这些研究的组织。所有这些都是开源的。他们创造了许多软件工具,如 Atlas 和 Achilles,它们是描述不同数据和数据质量的标准化数据库。这不是我们一夜之间能解决的事情。我认为监管机构会非常明智地决定批准什么,不批准什么。医疗保健行业往往会发生的情况是,一旦出现某种不良事件,或者出现某种临床错误,你就会看到整个行业都受到打击。没有人希望这种情况发生。我认为这是抑制创新的原因。

阿诺:我们希望尝试…这很奇怪,在我们现在所处的世界里,我们试图尽可能多地获得与人工智能相关的工作,同时也非常注意到,一旦它进入医生的手中,或者它开始成为病人护理的一部分,它的成功部署是非常具有挑战性的。这就是所有这些东西的下一步发展,是将这些算法非常仔细地实施到临床决策模型中。

它是否足以证明算法或模型的有效性,或者是否需要一个完整的、全功能的描述?

Hugo:我很高兴你在这里提到了监管,因为我们有一个来自 Stephen 的相关问题,这个问题是从监管的角度来看的,它是否足以证明算法或模型的功效,或者是否需要一个完整的、全功能的描述?

阿诺:是的,我不知道我们是否有适当的指导。我认为有很多组织正试图揭开人工智能的神秘面纱,或者 FDA 应该如何思考这个问题。一些标准的东西,比如你需要证明什么。一个是你的基准数据是什么?你在吸毒吗…你用的是地面真实数据吗?意思是它是一个可信的索赔数据源吗?它是 EHR 数据的标准化本体吗?我认为公司努力选择各种不同的数据来源和收集方法。然后他们意识到他们的算法并不是那么好,或者他们希望它被认可。什么是地面真理有很好的定义。这是创建一个真正强大的模型的一种方式。

Arnaub:我认为,对于算法的预期用途,还有其他的思考方式。我们如何看待这种与医生的互动?它对下游患者有影响吗?会不会出现算法偏差?意思是你要拒绝对某一特定人群的治疗吗?这是食品和药物管理局根据它认为道德与否来考虑的事情。

阿诺:那么我认为改装模型有一整套监管方法,这样他们就能不断学习。主管 FDA 的 Scott Gottlieb 谈了很多关于患者将如何发展,以及我们如何思考公司何时必须对模型进行改装,以及如何对其进行验证。什么才是正确的改装节奏?是每小时吗?是六个月吗?是每年一次吗?我觉得一些组织已经尝试创建这些指导性的问题列表,这些问题可以帮助我们提出一个好的模型,而不是一个不合格的模型,一个更有可能被临床社区实施和接受的模型,而不是那些有很大发现但可能有一些漏洞的模型。

由于医疗保健是一个受监管的领域,你认为人工智能和医疗保健将是只有像谷歌和脸书这样的大公司才能取得进展的重点领域吗?还是觉得小公司有空间?

雨果:在监管方面,我们也收到了 Harsh 的一个很好的问题。Harsh 问道,由于医疗保健是一个受监管的领域,你是否认为人工智能和医疗保健将是只有像谷歌和脸书这样的大公司才能取得进展的重点领域?还是觉得小公司有空间?你之前提到,这个领域已经有数百家初创公司。也许你可以多说一点?

阿诺:当然。我认为这是一个非常有趣的问题。我认为…我给你举一个例子,我认为这个例子令人惊讶。你对谷歌这样的大型科技公司的看法。脸书实际上在今年早些时候宣布,他们正在研究使用人工智能来监控自杀,并了解他们的哪个用户更有可能实施自杀事件。对于一家科技公司来说,这是一个极具道德挑战的领域。

阿诺:我认为大型科技公司虽然有很棒的应用程序和很棒的计算机科学,但他们非常谨慎,因为他们意识到这不是你可以轻易涉足的事情。我认为他们在进入这个市场时实际上有巨大的组织风险。第一,因为病人护理和卖广告完全不同。我认为他们运用科学和计算能力的能力面临着巨大的风险。他们要评估是否值得,但他们都想让这个世界变得更好。这是他们的愿望。

阿诺:和其他公司一样,有很多强大的科技公司。我提到了这个领域的语音技术。像虚拟助手和语音技术这样的公司将成为这个领域的主要参与者。我不只是指亚马逊,我是指像 Orbita 和其他公司正在做令人难以置信的工作,Robin AI,他们基本上是在试图帮助减轻医生的文件负担。这些都是资金充足、资本充足、得到大力支持的创业公司,正在做着伟大的事情。有患者数据和风险分析。有一些公司,像叙事者,正在做非常引人注目的工作。他们直接与医疗保健系统合作,以安全和合规的方式做到这一点,所以我不认为大型科技公司是唯一可以在这一领域发挥作用的公司。

阿诺:我认为,如果你非常有计划,有条不紊地进入一家初创公司,如果你加入了正确的伙伴关系…我的意思是,有相当多的初创公司在这个领域取得了很大进展,在药物研发领域。这些创业公司已经筹集了数亿美元,现在运作得非常好,非常成功。制药公司正在对 Numerate 和 BenevolentAI 等公司进行多年投资,并投入了大量资金。这不再仅仅是一个大型科技公司的空间。

医疗保健中人工智能采用率的主要限制是什么?

Hugo:实际上有大量的精彩问题,但是我们需要在接下来的 10 分钟左右结束。我还有两个问题。第一封来自克里斯托弗,我对此非常感兴趣。Christopher 问医疗保健中人工智能采用率的主要限制是什么?

阿诺:是的。这个问题问得好。我们谈了一点什么是政策障碍,我们谈了我们如何考虑方法。我认为医疗保健中最大的限速步骤将是无处不在的高质量数据。这是最大的挑战,我认为这已经困扰了医疗保健几十年了,就是一旦一个新的数据集被发布到医疗保健界,每个人都会对此感到非常兴奋。一旦政府为 EHR 电子健康记录制定了标准,EHR 就成了任何拥有该记录的组织的竞争领域。挑战在于获取这些数据。现在基因组学也是如此。我们开始看到生物银行和拥有基因测序数据的能力,基因测序数据。这是下一个领域。这就是人们试图达到的目标,但这些都不重要,除非数据是可链接的,除非有一个标准,除非有标记的数据。我们今天谈论了很多关于成像的问题,但放射科医生苦于成像数据存储在这些 pax 仓库中,pax 是归档系统,然后它们没有被标记。我们不知道我们在看什么。所有这些都表明,在医疗保健中采用人工智能的最大障碍是高质量的数据,这就是为什么我提到了 FHIR 等标准,这些标准试图在一个非常混乱的世界中创建数据的某种和谐和一致性。

阿诺:我认为另一件事是,医院和其他拥有数据的组织非常愿意与玩家合作,但在公司承诺的方面有相当多的重叠。我们开始看到许多公司涉足不同的领域,并声称他们正在进行化合物开发,或者他们正在研究分子识别或目标验证。他们试图成为万事通。我认为这混淆了公司实际做的事情。

阿诺:我的建议是,要非常清晰、精炼地专注于你认为自己在做的事情和你擅长的事情,而不是试图涉入许多其他的浑水。也就是说,我的意思是,市场现在非常火爆,你会看到大量的合作伙伴和创业机会。最大的限制步骤是访问数据,找到正确的合作伙伴,能够演示一个用例,然后在临床实践中应用该算法。

你认为人工智能会使医学民主化吗?

雨果:我还有一个听众的问题,然后我会问你最后一个问题。这是来自 Gamal 的,这是一个相对普遍的问题,我希望你以任何你认为合适的方式来解释。你认为人工智能会使医学民主化吗?

阿诺:哦,有意思。我想我们会到达一个地方…我会对世界民主化的使用持开放态度。我认为这意味着让人们能够获得医疗服务,或者这就是我们将选择使用的定义。我认为患者正越来越多地以不同的方式与卫生系统互动,事实上,大多数,绝大多数的患者上网查找健康信息,现在几乎 90%。事实上仍然有…现在有很多方法可以让病人与医生和科技公司分享他们的数据。我们都知道苹果在健康工具包和研究工具包方面所做的工作,试图获得更多的数据。我认为人工智能会发挥更大的作用,也许技术会帮助人们获得医疗服务。希望我是在回答你的问题,但请随意改变措辞。

与此同时,美国正遭受巨大的地方性卫生政策挑战,我认为人工智能无法解决这些挑战。我认为人工智能将实现并帮助某些事情。它可能会为诊断提供动力。也许随着时间的推移,它会改善健康状况。仍然有很大一部分人永远无法实现人工智能,因为缺乏更好的词,或者无法获得医疗保健资源。我认为这是我们系统中最大的障碍。

行动呼吁

雨果:这确实回答了问题。我最后一个问题是:对于我们所有的听众,你有最后一个行动号召吗?

阿诺:是的。我想我们已经谈了很多关于挑战的问题。我们也谈了很多关于承诺和行业发展方向的话题。我认为这个解决许多容易解决的问题的概念,我们选择了许多更性感的东西,如药物开发,但我们的医疗保健系统遭受了巨大的浪费。这些都是巨大的问题,人工智能可以解决很多这样的事情,比如保险和账单索赔。我以前的导师曾经说过,医疗保健中很多最赚钱的工作也是最不性感的,是后台应用类型的工作。

Arnaub:如果我们能够预测更好的浪费或欺诈,或者如果我们能够改善计费和文件流程,这些都是非常重要的问题,我认为这是有意义的。你应该用人工智能和你的能力去解决它们。

阿诺:我认为另一件事是,这些问题不应该孤立地解决,或者孤立地解决。你将会看到许多不同的,也许是独一无二的医疗保健合作伙伴关系的出现。医院、科技公司和与创业公司合作的病人团体。我认为整个模型都颠倒了。我鼓励每个人在如何与不同党派合作的问题上发挥创造性。有很多非传统的人正在进入医疗保健领域,所以要想一想交叉点在哪里,交叉功能在哪里。在那里,你通常会找到更有创造性的解决方案,而不是通过相同的渠道工作。

雨果:谢谢,阿诺。

阿诺:是的,谢谢你,雨果。感谢 DataCamp 抽出时间。我真的很感谢这个机会。雨果:当然。好吧。

阿诺:谢谢你。

使用 DataCamp Signal 评估您团队的 Python、R 和 SQL 技能

原文:https://web.archive.org/web/20221129045040/https://www.datacamp.com/blog/assess-your-teams-skills-in-python-r-and-sql-with-datacamp-signal

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据技能对于任何组织在 21 世纪保持竞争力都是必不可少的,但如果没有可扩展的技能评估方法,就很难知道自己的地位。data camp Signal通过帮助您了解技能如何在您的组织内分布——跨部门、团队和个人——来解决这个问题。

引导式学习过程

Signal 使用来自适应性测试和心理测量的最先进技术来帮助团队和个人快速了解他们在 Python 和 r 方面的技能水平。它通过指导学习过程来实现这一点。

当学习者完成评估时,他们会收到一个分数(0-200)、一个百分位(0%-100%)和一个基于其表现的相关知识水平(初级、中级、高级)。通过诊断学习者最突出的优势和技能差距,Signal 能够提供一系列个性化的学习建议来解决他们的差距。随着时间的推移,学习者通过完成建议来提高他们的技能,他们可以重新参加评估来衡量他们的进步。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

引导式学习包括三个步骤:(1)评估学习者的技能;(2)为他们提供后续步骤;(3)完成至少一个推荐的内容项目,并且随着他们随着时间的推移取得进展,用另一个评估重复该循环。

它是如何工作的

信号技能评估建立在一个世纪以来对测试理论的研究基础上,重点是建立统计模型来回答三个关键问题:

1.哪些问题能提供关于学习者的最多信息?

Signal 不同于其他测试:它使用项目反应理论(IRT)来评估问题的难度,如何有效地区分初学者和专家,并最终评估个人学习者的技能水平。这意味着学习者除了完成多项选择题之外还要编写实际代码,评估的难度会根据表现自动调整。

2.随着评估的进行,我们如何适应性地选择更好的问题?

Signal 使用计算机化自适应测试(CAT)来评估评估者在评估过程中的技能。这意味着问题的信息量越来越大,因此在不到 10 分钟的时间内,Signal 就能够获得关于学习者技能水平的高度信息。

3.我们如何使用来自许多评估的数据来提高它们的整体有效性?

最后,通过使用来自数千名 DataCamp 学习者的评估数据,Signal 能够改进其对技能水平问题难度和识别能力的估计。Signal 使用这些信息来标记可能不代表技能的问题,并报告学习者相对于其他学习者的地位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

衡量合适的技能

Signal 专注于核心数据技能,以消除您的团队需要了解的内容中的猜测成分。例如,我们在两种最流行的数据科学技术(Python 和 R)中提供涵盖数据科学工作流所有方面的评估,以及 SQL 评估:

  • 编程;编排
  • 导入和清理数据
  • 数据操作
  • 数据可视化
  • 机器学习
  • 数据分析
  • 理解和解释数据

为您的组织创建技能矩阵

我们的客户发现最有用的技术之一是使用所谓的技能矩阵来广泛盘点他们的内部数据技能。这有许多不同的形式,但通常涉及可视化组织、部门、团队或个人级别的优势和技能差距。

寻求可扩展且可靠的方法来评估整个组织的数据技能的客户使用信号结果作为其技能矩阵的输入。我们目前正在为自动化这一过程打下基础,以便企业管理员可以按需获取这些信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

帮助您的团队制定个性化的学习计划

Signal 根据学习者的优势和技能差距提供个性化的课程建议,帮助他们充分利用在 DataCamp 上学习的时间。您可以探索详细的结果,以查看每个学习者的信号分数是如何计算的,查明他们在哪里犯了错误,并跟踪一段时间的进展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要进一步探索,请阅读我们关于Signal 如何成为有效可靠的数据技能评估工具的详细白皮书

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

成为数据科学家(抄本)

原文:https://web.archive.org/web/20221129045010/https://www.datacamp.com/blog/becoming-a-data-scientist-transcript

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220703021359if_/https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/499923051&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true

这是播客的链接。

介绍蕾妮·蒂特

Hugo:你好,René,欢迎来到 DataFramed。

雷尼:你好,雨果。很高兴来到这里。

Hugo:很高兴你能来参加我们的节目,我很高兴能和你谈谈我们今天要谈论的所有事情,你做了这么久的播客,成为数据科学家的想法,以及你的旅程和过程,但在此之前,我想先了解一下你。也许你能告诉我们一些你在数据社区中的名气。

蕾妮:当然。我想我因你提到的播客而出名。这叫成为数据科学家。我采访了一些人,询问他们在数据科学之旅中是如何到达目的地的,以及他们是否认为自己是一名数据科学家。我计划很快重新开始。我想这就是我最初出名的原因,但是很多人也在 Twitter 上关注我,他们可能是也可能不是最初的播客听众。我有一个名为 BecomingDataSci 的 Twitter 账户,我的名字是 Data Science Renée。我试图帮助那些正在向数据科学职业过渡的人找到学习资源和灵感。我建立了一个名为 DataSciGuide.com 的网站,收集学习资源,人们可以去那里评价它们。我希望最终能把它变成学习路径之类的东西。我有一个名为 NewDataSciJobs 的 Twitter 帐户,在那里我分享需要不到三年经验的工作,我试图分享关于学习数据科学和进入这一领域的文章,以帮助人们过渡。

René:最重要的是,我分享我自己的数据科学挑战和成就,并试图鼓励和激励他人,这样他们就可以看着我做什么。我真的很高兴,特别是在我感觉的最后一年,看到各种各样具有不同教育背景的人想要进入这个领域,所以我打算帮助他们也成为数据科学家,因为我认为这个领域的人的背景越广,情况就会越好。我想这就是我出名的原因,播客和推特占了大部分。

雨果:当然。我认为,我们在 Data Camp 非常认同的一条极好的主线是降低希望从事分析和数据科学的人的准入门槛。我认为你的一个很好的方法是,你知道你在播客上说你甚至会问你的人他们的旅程,但他们是否认为自己是数据科学家,这个术语是什么意思,以及他们的实践如何应用于它。它在某种程度上揭开了数据科学作为一个整体的神秘面纱,我认为这可能是一个非常难以接近的术语,周围还有许多看门人。我认为你所做的工作与我们在 Data Camp 中思考方法的方式非常相似,所以这真的很酷。

蕾妮:太好了。我绝对以此为目标。

你是怎么进入数据科学的?

Hugo:你最初是如何进入数据科学的?

蕾妮:这是我最喜欢的问题,因为这是我们在我的播客中一直谈论的问题,所以希望我不会说得太长,不过我会给出详细的答案。我的整个职业生涯都和数据打交道。你可以称我为数据通才。大学一毕业,我就去了弗吉尼亚州哈里逊堡的詹姆斯·麦迪逊大学,我现在还住在那里,我的专业是集成科学与技术。这是一个非常广泛的专业。在很多话题上,它的广度大于深度。我们涵盖了从生物技术到制造和工程到编程的所有内容,但你可以尝试所有内容,并找出你喜欢和不喜欢的内容。它有许多实际操作的项目,我们在 ISAT 项目的编程课程中学到的一件事是关系数据库设计。这是我以前从未做过的事情,但是当我在班上的时候,我意识到,嘿,我很擅长这个。我明白了。对我来说很有意义。大学一毕业,我就开始做这类工作。我设计数据库,构建数据驱动的网站,设计表格和报告来与数据交互。我做了大量的 SQL 工作,帮助设计了一个报告数据仓库,并构建了交互式报告,人们可以在其中与数据进行交互,我对此做了一些分析。

蕾妮:我想让我的职业生涯更上一层楼。当时,我认为系统工程硕士学位将填补我知识上的许多空白,所以在我的本科课程中,我在数学或编码方面没有太多深度。我只是上了一些入门课。这个项目是在弗吉尼亚大学,它有模拟和建模课程,最优化,统计学,那时我有点害怕数学。为了申请这个硕士项目,我不得不在社区大学的暑期课程中学习线性代数。这是本科毕业八年后。我早该知道它会比我原先想象的更加数学化,但是我发现系统工程项目中每一门课程的标题都有点像另一种数学的代码。这是非常数学密集,但我需要它。如果我全靠自学,我就不会学到这么多东西。

雨果:我有一个问题,作为一名教育工作者,我学到了很多,那就是要成为一名有效的数据分析师或数据科学家,人们需要了解多少线性代数?

蕾妮:我认为了解基本情况是有好处的。它让你了解这些算法背后发生了什么,了解数据是如何转换和处理的,然而,如果你真的要成为一名应用数据科学家,而不是像机器学习研究员那样,你不必真正了解所有这些错综复杂的事情。我很高兴我有 it 方面的背景,所以我知道这些事情是如何工作的,但我不会在日常工作中使用这些技能。它们就像是将所有这些都抽象化的软件包,所以作为一名数据科学家,我不必每天都做这些类型的计算。我会说,掌握它很好,感觉你理解了概念,但你不需要自己掌握实际的计算。我是说这就是电脑的用途。他们可以为你做很多。

雨果:对。我完全同意,我确实认为学习这些类型的东西有很多焦虑,线性代数,我想特别是多元微积分。我也鼓励人们努力一点,坚持一点,因为挑战的一大部分是语言和符号。很多概念并不一定很难,但是当你写一大堆矩阵之类的东西时,你会很快变得很难理解。

蕾妮:对。当我看到某些描述…就像你说的多元微积分和矩阵微积分。它看起来如此势不可挡,乐谱仍然吸引着我,所以我有那种感觉。

雨果:对。

蕾妮:但我很高兴我理解了它背后的概念,尽管每次看到这些我还是会不寒而栗。

雨果:是的,你可以用一些疯狂的符号来表示,它实际上指的是沿着表面的方向流动,或者类似的东西,直观上很容易理解,但是我们有很多古老的符号。

蕾妮:对,甚至不一致。我参加了一个项目,有来自不同大学不同系的教授,我丈夫是一名物理学家,有一门课,我真的很难理解这种特殊类型的计算和符号,他看着它,好像你上学期才学过。我好像从来没见过这个。他说不,这是同一个概念,只是不同的符号。那是我真正开始理解的时候,比如说数学家和工程师可能会对同一件事使用不同的符号。事情变得复杂了。我确实认为,如果你要成为一名机器学习研究人员,或者进入一个博士项目,或者你正在围绕数据科学的前沿开发东西,并真正推动该领域的发展,建立其他人将使用的算法,那么你需要真正理解这些东西,但如果你主要应用的是已经建立的算法,你就不必那么深入。对于统计学,我认为你真的需要一个坚实的统计学基础。我会说相反的话。每个从事数据科学的人都需要很好地理解基础统计学。

雨果:太好了。那么在你做这个节目的时候或之后,你的旅程中发生了什么?

蕾妮:对。当我参加这个项目的时候,弗吉尼亚大学的数据科学研究所成立了。我在任何地方都听说过数据科学,我有点想转到那个项目中去,但是如果不完全重新开始,我做不到。他们在他们的项目中有点像一个团队,所以我发现我可以选修一门机器学习课程,所以我开始选修,只是因为我想知道它是关于什么的,以及它与我已经在做的事情有多接近。感觉我的整个职业生涯都在向数据科学发展,而我从来没有听说过它。在这个机器学习课程中,它从大量的数学开始,进展非常快,老实说,我期中考试考砸了。我真的认为我会不及格,但我决定继续下去,因为课程的前半部分是数学,后半部分是编码和应用部分,这是我所期待的,所以我想即使我成绩不好,我也想学习我应该在这门课程中学习的东西,所以让我坚持下去。

雷尼:就像你说的,我甚至很难理解教科书上的抽象符号和东西,但是在课程的最后一部分,我们从头开始构建这些机器学习算法。哦,顺便说一下,所有的例子都是用 C++写的,但是教授让我们使用我们想用的任何编码语言,所以我从那时开始学习 Python。我没有很好地掌握 C++。我大部分时间都在学习 visual basic。直到那时,我还不知道 SQL 和 Python,但是我想这是我学习它的机会,所以我在学习的同时也学习了 Python,这可能是我在课堂上挣扎的部分原因。最后我们有了这个项目。那时,我对 Python 和机器学习有了一些了解。我边工作边去学校兼职,所以我问我的经理我能不能把我们在工作中使用的数据应用到我在学校做的这个项目中。他说是的,那很好。

蕾妮:所以我在 JMU 大学的进步部工作,这基本上是大学的筹款部门。在我的项目中,我预测了下一财年哪些校友最有可能成为捐赠者。教授很喜欢它,甚至提到这是我将来可以发表的东西。我想那个项目比我在课程的数学部分的表现更重要,因为我最终在那门课上得了 A,这让我大吃一惊。

雨果:太不可思议了。

蕾妮:我当时想,好吧,这是我应该做的事情。

雨果:当然。在你继续之前,我想提醒你,你实际上已经提出了一个令人难以置信的观点,那就是你并没有在真空中做项目。你正在处理对你有意义的数据,对你的雇主有意义的数据,并且实际上给了一群利益相关者一些重要的见解。

蕾妮:对,我们在课堂上已经准备好了数据集,它们都是数字列表。他们甚至和现实世界一点关系都没有。这位教授选择了这些数据集,因为答案会以某种方式出现,所以深入到一些未知的东西,至少在我们的大学里没有人真正看过,并找到一些我可以分享的见解,并实际上使现实世界发生变化,这为我将所有这些联系在一起。

Hugo:在学习过程中,做一些对你有意义并且你感兴趣的事情是非常重要的。

蕾妮:哦,当然。我总是鼓励人们找到他们感兴趣的数据集,并在整个学习过程中使用它们,因为当事情变得艰难时,它会让你保持兴趣,而且如果它是你有背景甚至感兴趣的东西,你会更好地理解输出。如果你对体育感兴趣,使用体育数据集,因为你会更好地意识到你的模型的输出在体育环境中是否有意义。

雨果:我总是说,现在很多人都戴着健身追踪器,他们可以获得自己的锻炼和睡眠模式等数据。他们可以快速对生理上发生的事情进行简单的分析或可视化。

蕾妮:对。这是一个很棒的想法,我绝对会鼓励。

雨果:太棒了。那么在你的旅程中接下来发生了什么?

蕾妮:在我的最后一节课上,我在研究生院做的大部分项目都是在线的。它是同步的,所以我实际上是在网上观看直播的讲座,那里有一门课,但上学期我通勤到校园,对我来说是一个小时。我开始听很多数据科学播客,因为那时我知道我对这个东西感兴趣。当时我在听偏导数和会说话的机器以及 O’Reilly 数据秀,线性离题,数据怀疑论,所以我只是吸收了所有这些数据科学信息,我知道这是我想做的。一毕业,我就开始钻研有关数据科学的书籍,自学在这个领域找到工作并继续前进所需的知识,当时我是一名数据分析师,我想成为一名数据科学家。我接下来就是这么做的。

蕾妮:然后我申请了一系列不同的工作,当时我刚刚开始熟悉数据科学,所以我不一定想要一份数据科学家的工作,但是我想确保这是一份朝着那个方向发展的工作,因为我的工作没有给我很多机会来真正锻炼这些新技能,并在工作中进行机器学习。我知道我擅长设计分析报告。我知道我擅长 SQL。我刚刚获得了系统工程硕士学位,但我想成长为一名数据科学家。我开始申请一些不同的工作,这些工作部分涉及数据科学,但我知道我已经具备了提供价值的技能。我最初申请的几个职位都没有拿到,但我开始通过面试了解他们会问什么,我的知识有哪些缺口,这样我就可以回去了解更多。

蕾妮:当时,有两家不同的初创公司,分别位于美国的两侧,显然需要那种既能做后端数据工程又能做 SQL 工作的通才,并进入预测建模领域。我同时收到了两份工作邀请。他们都是远程角色,就像是数据分析和入门级数据科学的结合。我不需要为他们中的任何一个做白板面试或编码面试,这很好,因为我不认为我当时做得很好,但他们需要像我这样有背景和数据库经验的人,以及善于与利益相关者沟通的人。我认为这帮助我脱颖而出,我想我们稍后会对此进行更多的讨论。

雨果:当然。

蕾妮:但是那两份工作邀请中有一份是和我以前一起工作过的人。我在罗塞塔石碑公司担任数据分析师,这家初创公司的很多人都来自罗塞塔石碑公司。我更喜欢那一个,并接受了那一个,并能够在工作中建立我的数据科学和机器学习技能。那家公司叫 HelioCampus。我们处理大学数据,如果我们感兴趣,我可以告诉你更多,但我作为数据科学家已经担任这个角色大约两年了。

雨果:太棒了。这说明你做的项目最初确实涉及到校友数据,当你第一次学习的时候。

蕾妮:对。在日光校园,我们有点…这让我进入了一个新的领域。这仍然是大学的数据,但我们在学生成功数据和录取等方面做了很多工作。我想我会简单介绍一下公司。在大学里,他们有数据库,就像各种各样的数据,当你在这所大学申请和注册的时候,你可能都想不到。会有一个招生和申请系统。通常有一个独立的系统来管理注册、课程和教员,然后他们有另一个系统来管理工资和财务,然后他们会有另一个系统来管理筹款和校友信息。他们在整个校园里都有这些数据库,领导们希望有一个大的画面,看看学生在申请、上大学和成为校友的整个经历中的轨迹。

René:要获得整个系统的指标,你必须综合这些数据。我们将它合并到一个数据仓库中,并在 Tableau 中提供指向该数据的报告。我们有一些固定的报告,然后我的工作是与最终用户合作,进行尚未建立的分析,以回答他们关于学生的问题,并进行一些预测建模。一个例子是招生组,我们有…我们将看看所有被大学录取的学生,并尝试预测他们中有多少人会被录取,或者哪些人可能处于有时录取有时不录取的学生类型的边缘。例如,他们可能需要一些额外的外联活动,以便学校引起他们的注意,或者需要额外经济援助的学生。我们通过预测模型帮助他们了解学生的整体情况,除了来他们的大学,他们还能找到什么类型的学生,以及我们对他们未来入学趋势的预期。这只是我们在 HelioCampus 与大学合作的许多不同方面的一个例子,但这正是我现在正在做的工作。

Hugo:这听起来是非常有趣和令人满意的工作,尤其是你作为一名教育工作者和投资于学习者的浓厚兴趣和使命。

蕾妮:对,绝对是。

有抱负的数据科学家需要思考哪些问题?

Hugo:再次发现你成为数据科学家的旅程真是太棒了,当然你会通过你的播客,通过许多不同的媒体坚持认为这只是一次旅程,每个人的旅程,特别是成为数据科学家的旅程,有许多不同的路径,没有一种适合所有人的方法来成为数据科学家,在真正决定一条路径之前,人们需要弄清楚他们在哪里,他们需要去哪里,并以某种方式将这些点连接起来。所以:我想知道的是,当有抱负的数据科学家弄清楚他们的旅程从哪里开始时,他们需要考虑哪些问题?

蕾妮:对,绝对是。这实际上是我开始我的播客的原因,因为我在听所有这些展示数据科学家正在做的很酷的东西的播客,但是没有一个专注于他们是如何做到的?他们做了什么?我开始问问题,我意识到的一件事是,无论你有哪种不同的教育背景或职业背景,你都必须评估你的起点。你需要问的那种问题来规划你的数据科学学习之路,就像你以前编码过吗?你以前用什么语言编写过代码?数据科学家通常学习 R 或 Python,经常需要了解 SQL。你对数学和统计学有多熟悉,你是否需要温习这些东西并重新学习?也许你需要从你现在的位置提升到一个新的高度?你曾经提出过基于数据的报告吗?你以前在专业场合做过分析吗?有没有用数据回答问题的?这些都是你需要的基本要素。

蕾妮:那你可能会在某个特定领域工作,你知道那个领域的行话吗?你知道在那个领域有哪些与数据相关的职业道路吗?您如何专注于数据科学学习,以实现其中一条职业道路。您可能希望与该领域的数据科学家或分析师交谈,了解常见问题和他们正在解决的问题以及他们正在询问的问题的艺术状态,这样您就掌握了这种语言。它是这些常见数据科学维恩图的所有不同部分的基线,你可以看到还有多少部分需要填充。你只是在评估你的起点,然后下一步你会看看你想去哪里,这样你就知道如何规划学习路径。

数据科学简介

雨果:对。因此,概括地说,本质上我们有编码印章,你是否能编程,什么语言,数学和统计的舒适,然后沟通技巧和实际演示我想说的是基于数据的报告,但我真正的意思是基于数据的报告,然后领域知识。我认为这些绝对是你自己实践中非常重要的方面,当你弄清楚你从哪里开始的时候,当然,正如我们都说过的,你需要知道你想要在哪里结束。这可能是一个相对模糊不清、不断变化的概念,但我们看到人们最终会成为什么样的典型数据科学特征呢?

蕾妮:对。正如你提到的,数据科学可能意味着很多事情。我注意到在数据科学中似乎有这些专业的分组。有一种数据科学的分析师类型:这些人通常与最终用户或领导者或业务中的其他人一起工作。他们了解可以提出的问题类型,并弄清楚如何将这些问题转化为数据问题,并确定“您是否有可用于回答这些问题的数据?”进行分析,然后展示结果,并自豪地为这些事情开发数据可视化。有工程师类型的数据科学家,他们做大量的后端工作,编码,处理数据库和数据仓库,可能做一些功能工程,处理大数据系统和可以处理大规模数据集的技术,建立支持分析的数据管道。

Renée:然后是我之前提到的研究型数据科学家:他们正在改进那些尖端的算法,开发新的工具和技术,所以这是数据科学的一个不同的焦点。我会说,大多数人最终会做这些事情的一些组合,但你最终会专攻分析部分、工程部分或研究部分。在我目前的角色中,我做了很多后端工程工作,因为我有这样的背景,但也主要专注于分析任务,并与大学、机构研究人员和决策者沟通,他们将使用我正在做的事情的结果。

个人应该走什么路?

雨果:是的,很好。我们已经确定了三个原型,分析师、工程师和研究员作为终点或者至少是职业道路。知道我们需要思考我们在哪里的方式,知道我们可以在哪里结束,你会推荐什么样的路径?推荐的路径本质上是什么样的?

蕾妮:是的,我希望将来能根据我在《数据科学指南》上收集的信息来更正式地阐述这一点,不过这真的取决于个人。你所评估的起点,你想要结束的终点,你喜欢自学还是参加课程,网上学习,决定你是否需要回到学校。我确实认为成为数据科学家需要博士学位是一个神话。我没有。我认识的很多数据科学家都没有。我会说,如果你觉得自学数学不舒服,需要别人帮助你理解基本概念,那就回到学校。与和你有相似背景并且已经成为数据科学家的人交谈,或者在 Twitter 上寻找那些似乎在遵循你喜欢的道路并且你想要遵循的人。

雷尼:然后像你说的那样进行基于项目的学习。找到包含您感兴趣的信息的数据集,无论是体育、统计、政治数据,还是地理空间图像、医疗数据或娱乐数据。有这么多不同类型的数据,你可以找到你真正感兴趣的东西。问一个你可以用数据回答的问题,然后学习任何你需要学习的技巧来回答这个问题。我认为项目导向学习真的很有价值,但是确切的路径和你使用的资源,我真的很难推荐任何一件事情,因为不同的事情适合不同的人,尽管我会建议继续尝试不同的事情,直到你找到适合你的事情。如果你拿起一本很多人都说很流行很棒的书,但你并没有真正理解它,它也没有让你陷入困境,不要气馁。试试别的吧。不要放弃,说哦,我不适合这个,因为这本流行的书对我来说没有意义。

雨果:对。里面有很多很棒的建议。一些我事先没有想到的事情是与有相似背景的人交谈,本质上是寻找像你这样的人。我认为这真的很酷,因为在你完成了确定你在哪里,你想去哪里,或者你想在什么时间框架内去哪里的工作后,我认为很容易忘记或认为没有像你一样的人,你在这个旅程中是孤独的,特别是在一个发展如此迅速的领域,以至于在他们的职业生涯中找到像你一样的人, 这种类型的社区在以后提供建议或成为导师或学员,这种类型的事情,是一个不可思议的想法。

蕾妮:对。我认为我刚刚想到的另一件困难的事情是,甚至定位术语。即使你在外面寻找像你一样的人,就像在数据科学中使用了很多奇怪的词,起初可能会令人困惑,你真的不知道那个人是不是在做我认为我想做的事情。我的博客上有一篇文章,讲述了我是如何使用 Twitter 做到这一点的。像你这样的播客在这方面很棒,只是听人们谈论数据科学,了解数据科学家需要考虑什么样的事情。当我准备进入这个职业生涯时,我得到了这本书。凯西·奥尼尔和蕾切尔·舒特称之为“做数据科学”。这对我来说很好,因为我对这是什么、我需要学习什么以及一些基本术语有了一个大致的了解,它还为你提供了其他学习资源。

蕾妮:对,只是去适应人们说话的方式…数据科学中重要的是,也许有些东西你其实已经知道了,但数据科学家称之为其他东西。数据科学是已经存在了一段时间的领域的结合。是的,学习这些术语,倾听数据科学家的意见,在 Twitter 上关注他们,阅读文章,找出你还不知道的东西,这是重要的第一步。

针对初学者的特定学习任务

Hugo:就成为数据科学家的旅程而言,你能为初学者建议一些学习任务吗?

蕾妮:对。我会说写一份报告。就像你说的,也许用你自己的合适的数据或类似的东西。只是探索一个数据集,做一些基本的统计总结,然后练习交流这些结果。当你学习的时候,你将会使用不同的工具和技术,但是你想确保结果总是可以理解的,所以看看你是否能在你学习的过程中弥补这个差距。实际上,我认为当你正在学习的时候,这是一个很好的时机,因为那时候对你来说也是新鲜的,所以你可以在技术分析和使用这些信息做决策之间架起一座桥梁,并与不太懂技术的人交谈,让他们理解你的观点。不断写博客是一个很好的方法。与朋友或你所在领域的人交谈是一个很好的方式,只需解释你所做的分析,但要让人们感到舒服,你知道你在说什么,然后让这些信息变得可用,而不用进入太多背后的统计数据。

雨果:当然。我确实认为处理与你相关的数据集非常重要。即使你认为泰坦尼克号和虹膜数据集与你相关,它们也不算数。

雨果:我们需要搬走。我认为你非常重要地消除了你需要一个博士学位来做这种事情的神话。我想知道你对旅途中的人们还有哪些潜在的陷阱或警告。

蕾妮:我认为对于你需要学习多少知识存在一些误解。一个陷阱是当你学习的时候很容易气馁。在数据科学的保护伞下有如此多的主题,以至于你很容易被淹没,不知道该去哪里,特别是在自主学习的情况下。你必须在学习和胜任你想要的工作之间找到平衡,但不要过度计划或过度学习,以至于你开始感觉完全偏离了轨道,让自己紧张起来,感觉自己永远都不会成功。

蕾妮:在我的一次演讲中,我说得好像你在计划一次旅行。你可以一圈一圈地计划,打印出方向,准确地知道你要转到哪里,以及每个转弯处会是什么样子,但你仍然希望随身携带 GPS,因为如果你遇到意想不到的交通堵塞或道路封闭,你必须绕过它。在某些时候,你会感到迷失在学习中,或者像你完全碰到了一个路障,但你可能只需要回去找其他资源让你对这个话题更舒服,然后再继续前进或决定我真的需要学习这个吗?也许你可以跳过这部分,等你有了更好的理解再回来。不要停滞不前,等着你面前的事情变得明朗,而要准备好改变路线。通往数据科学职业的道路有很多,只要做好改变方向的准备就行了。

雷尼:我认为很多人会看那些糟糕的招聘信息,这些信息就像是公司希望数据科学家能够做的所有事情的愿望清单,他们基本上是在一个招聘信息中描述整个数据科学团队。人们认为为了得到那份工作,他们需要学习所有这些东西,所以我会说不。学习一些真正重要的东西。练习将你所拥有的知识应用到现实世界的问题中,这样你就有了在实际工作中克服挑战的经验,这也将帮助你在面试中讲述你是如何克服困难并最终获得有用结果的故事。我想我想说的是不要让自己脱轨,不要觉得为了成为一名数据科学家,你必须学习你在数据科学中听说过的一切。我们中没有人知道如何做每件事。你只需要知道足够多的基础知识,这样你就能牢固地理解这些知识,并且有信心在你需要的时候学会其他的工具和技术。我想说的是学习基础知识,然后学习几个可能让你脱颖而出的专业项目,或者是你想进入的领域特有的项目。这些沟通技巧也非常重要,不仅仅是工具和技巧。

雨果:当然。在此基础上,你之前暗示的事情是出去做一些工作面试,了解市场情况和面试官想要什么,并向他们提问,找出你可能存在的差距,而不是抽象地了解你认为就业市场可能需要什么。

蕾妮:对。找不到工作可能会令人沮丧,但我记得有一次我确实找到了一份数据科学的工作,回想起来,我说所有那些我没有得到的工作,它们根本不适合我,所以我为什么要为没有得到它们感到难过呢?我不适合这份工作,或者这家公司不适合我,所以一旦我找到了一份合适的工作,我感觉很好,我喜欢我的工作,所以回想起来,我意识到如果你一直被拒绝,有时真的会感到沮丧或沮丧,但数据科学工作有这么多种不同的类型。我认为每个人都可以找到一个符合自己技能的工作,尽管这可能需要一段时间。

雨果:是的,我确实认为连续找不到一堆工作令人沮丧和恐惧。我给你的建议是,你只需要一次打击,但我觉得我自己很难接受。你在一堆机会中寻找一个成功的机会,那些没有成功的机会也可能是令人难以置信的学习经历。这并不能减少被拒绝的痛苦。

蕾妮:对。直到事后,你回首往事,才意识到你学到了多少,那些拒绝是多么有价值。

雨果:对。没错。谈到雇主在寻找什么,我认为当我们抽象地思考数据科学时,我们可以忘记的一件事是,很多时候它是用来解决业务问题的。您有一张很棒的幻灯片,演示了数据分析和科学如何从本质上作为从业务问题到业务答案的中间步骤,因此,从业务问题到业务答案的这一转变是通过数据科学来实现的。我想知道这个概念对你对数据科学整体的理解有多敏锐。

蕾妮:是的,我在我的第一次数据科学演讲中创造了这个,以说明我认为的数据分析过程是什么。我得到了很好的反馈,人们真的很喜欢它,所以我现在经常重温它。如果有人没看过,它有四个小短语,中间有箭头。它从业务问题开始,然后是数据问题,然后是数据答案,最后是业务答案。我会逐一介绍。

蕾妮:关于业务问题,我指的不一定是销售和营销类的业务,而是领域问题,你所在领域或业务的决策者可能会问的问题。作为一名分析师,你的工作就是把它转化成一个数据问题。为了回答这个问题,需要哪些数据?我们有吗?为了得到那个答案,我们可能必须先回答哪些相关的问题?需要做什么样的分析才能得到有用的答案?然后你必须做分析,这就是数据的答案。这种类型的分析将取决于您所处的领域、您的角色和技能以及可用的数据,因此分析类型会有所不同,但基本上是将数据问题转化为您正在进行分析的数据答案。

雷尼:然后你必须接受调查结果,并将其转化为商业答案。很少有人会想听你的数据回答。你必须能够用非数据科学家也能理解的术语进行交流,以便他们知道数据告诉他们什么,并能利用这些信息做出商业决策。你必须能够用商业术语传达统计结果和不确定性,并解释你的分析意味着什么和不意味着什么,这样就不会被误用。当我们谈论构建报告时,在现实世界中,最终结果通常不是某种带有模型评估指标的统计读数。这就像是对非数据科学家的人清晰可用的结果的展示。

雨果:当然,我认为记住我们总是试图回答商业问题或在这种情况下发展商业洞察力是非常重要的。我想稍微改变一下。我们有很多有抱负的数据科学家和学习者。我想知道你对人们可以在哪里学习有什么看法,特别是人们可以学习成为数据科学家所需的技能和知识的地方。

雷尼:就像我说的,我很难给出具体的建议,因为这太私人了,不过我当然听说过关于 DataCamp 的好消息。它实际上是 DataSciGuide 上评分最高的课程系统,所以使用 DataCamp 的人似乎真的很喜欢它。

雨果:太好了。我个人也是数据营的超级粉丝。我不知道这里是否有任何偏见。

蕾妮:我不是说只是为了拍马屁。真的是…人们喜欢它。还有数据查询。有可汗学院教授一些基本技能。外面有很多书。人们往往真的很喜欢奥莱利的书,还有一些其他的最爱。同样,我不太愿意给出具体建议,因为它们差异很大。如果你在寻找某种资源,可以从你现在的位置开始,人们可以发微博给我,通常我会转发,很多关注我的人会帮助回答。这确实是一种个性化的回答,但我只想说有大量的资源,很容易被这些资源淹没,所以不要害怕去问什么可能最适合你,如果有人推荐了一些东西,而你真的不喜欢它,也不要为此感到难过。继续下一件事。

雷尼:我的意思是我的网站 Data Sci Guide,我在努力收集数据科学学习者的评论,这样我们就可以知道在使用这些资源之前你需要知道什么,因为我在学习某些资源时经常犯错误,我开始时非常兴奋,好像我正在学习,然后五节课就完全不知所措,想放弃了。我认为那是危险的。是的,也许可以与在学习道路上领先于你的人交谈,找出是什么帮助他们迈出了从你所处的位置到他们所处的位置的第一步,也许不要接触已经在从事数据科学家工作的人,而是其他数据科学学习者。

推特

Hugo:Rene,我们一直在谈论 Twitter,它对有抱负的数据科学家来说是一个非常好的资源,所以你可以告诉我更多关于它的信息。

蕾妮:是的,除了喜欢书籍、课程和教程之外,我还经常使用 Twitter 来了解数据科学的术语。Twitter 上有一些很棒的社区,你通常可以通过搜索某些标签来使用它们。我给你几个。对于 Python 的人来说,有 pydata,pyladies,p4ds。对于学习 R 的人,有 Rstats 和 Rladies,R4ds。这些都是你可以搜索的标签。其中很多也有松弛的渠道。有一个数据科学学习俱乐部 slack 频道,是我的一些追随者根据我的播客学习活动创建的。有一个叫做民主数据的网站,是为那些想了解政治数据的人准备的。有一个关于数据伦理的标签,所以我相信在其他社交媒体上也有类似的小组,如脸书和 LinkedIn,但我主要在 Twitter 上,所以我有一篇关于使用 Twitter 学习数据科学的完整博客文章,如果你开始搜索与你所学相关的标签,你通常会找到这些社区的领导者或中心,你可以通过关注他们学到很多东西。然后,如果你问一个问题并使用这个标签,你通常会得到一个答案。挺酷的。

雨果:太棒了。我们还将在展示笔记中链接到您关于如何使用 Twitter 学习数据科学的文章。那么对于学习者来说,他们如何知道自己什么时候准备好真正成为一名数据科学家或者开始面试呢?

蕾妮:对。我认为,人们在感到完全准备好进行这一跳跃之前,就已经准备好开始申请工作了。不要等太久才开始寻找。就像我们说过的,做这些采访也很有指导意义,但我要说的是,当你对这些基础知识足够自信时,你就准备好了,这样你就知道如何做探索性数据分析和做一些统计总结。你知道基本的特征工程,如何使数据集成形,你可以用它来进行机器学习。你知道如何做一些预处理和清理。您可以构建一个良好的报告和数据可视化,并交流结果。也许你已经使用了一些基本的常用机器学习算法,如逻辑回归和随机森林,所以你对这些基础知识有足够的信心,你知道你不会在工作中完全挣扎。

蕾妮:一旦你觉得你对机器学习的工作原理有了坚实的理解,并且可以应用它,你可能还想加入一些让你脱颖而出的特定技术,或者是你觉得自己擅长的东西。也许你真的很擅长构建易读的可视化效果。也许你真的很擅长后端数据工程。当你申请工作时,你可以说这是你的专长,但你不需要核对所有的算法、工具和技术。

蕾妮:我面试过的工作包括我在职业生涯中已经掌握的、我有信心掌握的技能,还有一些我还在学习的技能。如果我知道我能理解人们想要什么,我有足够的信心在这个过程中学会那些新的工具和技术,那么我意识到在我认为自己准备好之前我就找到了一份工作,至少我希望并且我已经被告知我在那里做得非常好。如果你掌握了基本知识,你可以边走边学很多东西。不要觉得你必须成为每个领域的专家。没有人是。开始申请,你会意识到为了得到一份特定类型的工作,你还需要学习什么,但是不要等太久。

雨果:我认为这个领域非常广阔,而且有如此多的技术和新技术不断涌现,如果你试图尽可能全面地了解,你总会觉得有更多的东西要学习,而且你永远不会离开那里。

蕾妮:是的,不管你申请的时候有多高级,你都要在工作中学习。现在对拥有数据技能的人有很大的需求,所以即使你得到了一种过渡性的数据分析师类型的角色,你可能不会马上有数据科学家的头衔,但如果这是一个为你提供一些机器学习可能性的角色,是的,你可以在工作中成长。

最大的道德挑战

雨果:我想稍微改变一下。最近你做了一个名为“机器会是种族主义者还是性别歧视者”的演讲。使用你提出的这个问题作为跳板,你能说出你认为数据科学和数据科学家作为一个群体面临的最大的伦理挑战吗?

蕾妮:对,所以我们可以做一整集关于这个的节目。我会把你和一些我认为可以就这个话题进行广泛讨论的人联系起来,但我做这个演讲的主要目的是让人们明白,即使你使用这些数学算法和计算机来得到一个结果,这并不意味着数据科学产生的东西是无偏见的。偏见有很多种方式,也许你会说是种族主义或性别歧视,我说的是一种制度,所以不是有人在街上对某人大喊大叫,而是历史上的种族主义,它被融入到制度中。我有系统工程硕士学位,我认为我一直是一个系统思考者,所以我很快就明白了这一点,并试图与其他人分享。你可以链接到我整个演讲的所有幻灯片。我真的很难把我想举的例子都塞进去,因为这里真的有太多东西要学了。有了机器学习,你真的在做模式匹配。这就是那些算法正在做的,在数据中寻找模式,这很像刻板印象。你必须意识到哪些数据将用于做出这些决定,并确保你理解模型的输出,而且它不完全是一个黑匣子,你不理解当人们的生活受到影响时,模型为什么会做出特定的决定。在这一发展过程的每一步都可能引入偏见。数据可能一开始就被错误地记录了。它可能不能代表全部人口。这可能是一个有限的样本,你在训练你的模型,假设它会泛化,也可能不会。

雷尼:你的数据可能包含历史偏见。例如,犯罪数据库将只包含被监管地区的犯罪记录。如果某个地点的犯罪没有被警方观察到或者没有被记录到系统中,你训练的算法会认为那里没有犯罪,并做出相应的预测,所以你只是在编码,而不是真实世界中发生的事情,但你在捕捉人们捕捉到的关于你所看到的系统的信息。在进行预处理和模型训练时,某些技术可能会放大偏差。

蕾妮:有一个问题是,你到底在优化什么?例如,YouTube 就有这个问题,他们在优化观看时间。他们想让你关注他们的广告。如果某个东西特别疯狂或令人毛骨悚然或令人兴奋,人们会看得更久一点,所以那些真正极端的视频会出现在顶部,并被推荐给更多的人,因为当你观看它们时,你可能会被它们迷住并看得更久。这可能会让人们变得激进。人们可能会说到点子上,尤其是我认为的孩子们,你不一定能从不断出现在你面前的虚构故事中分离出真相,因为虚构故事令人兴奋和有趣,会让你看得更久。

雷尼:你在优化什么,会有什么样的效果是很重要的。你怎么决定什么时候停止优化或者你的模型的结果是好的?这是一个需要人工参与的决定。你如何知道你的模型的结果是否被正确地使用,并且没有被误用或曲解?在模块化开发过程的每一步都有人在做决策,所以你不能说这是自动化和计算机化的。不存在偏见。每一步都可能引入偏差。

Hugo:这些问题中有很多也是文化问题,作为一个数据科学家群体,我们现在才真正开始,之前已经在这方面做了一些工作,我不想忽视这一点,但我们现在才真正开始集体思考如何解决这些问题。

蕾妮:对,绝对是。是的,这是公司运营的文化,这确实需要我们这些数据科学家来决定我们愿意做什么。很多这样的模型都是在截止日期的压力下建立和推出的,你可能甚至不知道它最终是如何被使用的,但意识到我们正在建立的这些东西的影响是很重要的。我喜欢 Susan Etlinger 在 TED 演讲中的这段话。她说,与过去相比,我们有可能更快、更有效地做出糟糕的决定,并产生更大的影响。我们真的只是在加速这些决定。我们不一定会让它们变得更好,除非我们努力去做,所以我们必须确保作为数据科学家,我们不会造成伤害,我们现在的需求很高,所以我们很幸运,我们可以选择我们愿意为哪种企业工作,我们愿意为哪种产品做出贡献。我们可以改变我们的未来,并希望它比娱乐界想象的或者我们可以想象的更少一点反乌托邦,只要意识到这一点,并有意识地决定我们愿意建设什么。

行动呼吁

雨果:我完全同意。蕾妮,你对我们的听众有什么最后的呼吁吗?

蕾妮:是的,我知道有很多人在听这些刚刚进入数据科学领域的播客,但是有些人已经在 Twitter 上潜伏了很长时间,听了很长时间的播客,读了很多书,所以我呼吁他们采取行动。找一个数据集。开始使用它。如果你需要帮助,发微博给我。我将为您联系一个在线社区,帮助您入门。不要延迟实际使用真实数据。

Renée:我对不熟悉数据科学的人的行动呼吁是,我会鼓励你仔细阅读数据伦理,以便你理解你在这一领域所做的工作如何影响现实生活。现在有很多很棒的书,所以当这一集出来时,有人提醒我,我会在推特上列出一个清单,分享我收集的一堆书,这些书要么我已经读过,要么在我的 kindle 中等待阅读,因为我对这个话题非常感兴趣,这对我很重要,我认为我们行业的人应该很好地意识到这一点,所以这将是我对已经是数据科学家的人的行动呼吁。

雨果:太棒了。蕾妮,很高兴你能上节目。

雷尼:非常感谢你邀请我,雨果。我已经听了很长时间了,能站在这里真的很令人兴奋。

雨果:你能来真是太好了,因为我听了你很长时间的播客,这真是一次有趣的经历。

蕾妮:太好了。

Transamerica 数据转型的幕后

原文:https://web.archive.org/web/20221212135909/https://www.datacamp.com/blog/behind-the-scenes-of-transamerica-s-data-transformation

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20221210092647if_/https://embed.podcasts.apple.com/us/podcast/110-behind-the-scenes-of-transamericas/id1336150688?i=1000583670952

数据营的常驻数据布道者里奇·科顿(Richie Cotton)最近采访了 ML&AI atTransamerica的数据和分析高级总监瓦妮莎·冈萨雷斯 。

介绍凡妮莎·冈萨雷斯

里奇·科顿:欢迎来到数据框。我是里奇,今天我们要谈论的是数据转换程序。每当我与 data camp 的客户交谈时,最常见的对话之一是这样的。嘿,我们知道我们需要更好地处理数据,我们的首席管理人员也终于明白了这一点。所以现在我们要做一个数据转换程序,但是有点难,我不确定我们到底需要做什么。

因此,在 DataCamp,我们花了大量时间指导组织了解谁需要什么样的数据技能来实现数据现代化。我认为罗宾必须一次告诉一个组织。让我们来听一个经历过这一转变过程的人的故事,并讲述她的战争故事。

今天的嘉宾是 Vanessa Gonzales,她是 Transamerica 机器学习和人工智能数据和分析高级总监,同时也在帮助 Transamerica 完成他们的数据转换计划。Vanessa 也是一名高级数据经理,所以我期待一些伟大的领导见解。

你好,凡妮莎。谢谢你今天和我在一起。我很高兴能和你聊聊你在泛美公司的近况。首先,也许你可以给我们一点背景,关于什么是泛美航空公司。

瓦妮莎·冈萨雷斯:你好,里奇。非常感谢你。所以泛美是一家金融机构。我们做退休,我们做员工福利。当你听说一家公司,例如,当你开始在那里工作,他们给你一个 401k,他们给你一些福利,你可以从中选择,这就是 Transamerica 所做的。

另一方面,Transamerica 可以直接向客户销售一些产品和年金福利。所以我们做了一点。我们在退休方面确实很出名,但我们也进入了许多其他产品,如员工福利和保险。

里奇·科顿:太棒了。所以你的职位是 ML 和 AI 的数字和分析。所以也许你可以多解释一下你的团队是做什么的。

Vanessa Gonzalez:我有一个数据科学家团队,我的团队中还有一个业务系统和分析师,我与工程师和架构师密切合作。但是我们真正做的是。想想我们该如何帮助我们在那里的生意?这非常令人兴奋,有许多不同的主题,我们有许多不同的方式来做这件事。

但是我们所做的是,我们使用机器学习。我们使用人工智能为我们的业务创造更多价值。我们帮助他们解决问题,并确保通过这样做,他们可以更好地完成工作。他们也是,我们可以更好地与客户相处,让他们有更好的服务。

里奇·科顿: 你的团队遇到过什么特殊的业务问题吗?

瓦妮莎·冈萨雷斯: 是的,我们从事许多不同的工作,而我们工作的有趣之处在于它永远不会是一样的。所以如果你今天问我,一年后问我,这些项目将会完全不同。但是,为了让您对我们的工作有所了解,我们重点关注四个不同的领域。因此,我们所做的一切都是为了增加客户的保留率或创造增长。

因此,真正发展我们的业务或改善客户服务。因此,它可能来自呼叫中心,也可能来自我们如何处理流程以及我们如何实现某些事情的自动化。如减少,您在电话上等待的时间,例如,或,或者如果您的呼叫被路由,则被路由到正确的位置。我们还努力降低业务成本。

因此,根据我们的合作对象,我们会做不同的事情。我们所做的一切都将有一个机器学习模型,它将驱动这些有助于我们业务的预测,然后我们将它们集成到我们现有的系统中。举个例子,如果我们想让我们的顾问知道谁更有可能被留用。

我们通过给他们一个预测来帮助他们,然后他们可以打电话给这个人,和他们交谈,想出我们如何帮助他们解决他们可能遇到的问题。这就是我们做的事情。我们还做了很多其他的模型来区分优先级。

例如,如果我们想知道哪些索赔可能是欺诈性的,我们可以看到,好吧,这 10 个索赔看起来更像欺诈。所以我们也可以为此做模型。

泛美的团队结构

里奇棉: 那真是太迷人了。您提到,您有一些数据科学家和您的团队数据架构师和工程师。所以也许你能告诉我这些人是如何一起工作的。你的团队是如何构成的?

瓦妮莎 确定。因此,我的直接团队更多的是数据科学家和业务分析师,但我们与数据工程团队、第三个体系结构团队和一个 BI 团队密切合作。所以,我们做这件事的方式是,正如我们常说的,机器学习是一项团队运动,所以你需要与所有这些团队合作才能让它工作。

因此,你要构建的每个模型或每个解决方案都有三个部分。你将有一块你把数据带进来,然后我们,我们需要那里的架构师和工程师把数据带到云中,让我们可以访问它。

然后我的团队中有数据科学家,他们将开发这些模型。他们会把数据带来。操纵数据。他们将与它一起工作,训练模型,开发它们。一旦他们准备好进行部署,我们就需要与 DevOps 团队合作,以确保我们将如何部署解决方案。

我们需要将这种模式从开发一直带到。将环境提升到生产的全过程。然后还有另一部分。我们需要将这些模型的结果或这些模型的输出整合到解决方案或应用程序中。Salesforce 也可能是,它可能只是云上的一个红移表。

我们也可以在科尔中心使用 Call Miner 等其他解决方案。这取决于我们希望输出的时间和位置。然后,我们将不得不与他们合作,我们再次需要工程师、DevOps 和建筑团队来帮助我们。这就是我们如何互动的地方。

因此,我们可能不会让每个人都在同一个团队中,但我们必须与所有这些团队合作才能实现这一目标。当然,业务是最重要的部分,或者说是最重要的团队,因为我们真的在努力让他们解释他们在处理什么,他们有什么问题,他们在整个过程中也帮助我们获得反馈,我们给他们的结果是什么。

然后我们调整我们的模型,然后我们能够在那里做更多的事情。

里奇·科顿: 这真的就像许多不同的团队参与进来,只是为了得到这些数据问题的答案。不仅仅是数据科学在孤立地工作。我喜欢那个

瓦妮莎 一点不错。所以,当你想到一个数据科学家,如果你认为他们只是躲在房间里工作,做他们的事情,嗯,不是真的。他们需要与其他团队进行大量的交流。他们需要大量的合作。所以对阿达来说,一个好的数据科学家应该是喜欢合作,喜欢在团队环境中工作的人。

如果没有,他们将无法开发出与你整合所有这些团队时同样高质量的模型。

推荐给数据科学家的技能

里奇·科顿:我 认为那是,那是真正有用的建议。确实需要这些沟通技巧。实际上,也许只是那件事的延续。你认为对于数据科学家来说,有没有像沟通这样的特殊技能或者其他软技能很重要?

瓦妮莎·冈萨雷斯: 是的,当然。所以有一项技能不容易找到,而且非常非常重要,那就是不仅要知道如何沟通,还要知道如何翻译。非常技术性的工作,因为你将不得不与 B 一起工作,与从未见过模型或不知道它如何工作的商务人士一起工作。

因此,你需要能够来回交流,理解他们想要告诉你什么,同时也能够用同一种语言分享你的发现和你想要告诉他们的事情。那个翻译,看起来很容易,其实没那么容易。有时候,你必须用非常简单的方式解释一个非常非常复杂的模型,有时候,业务必须解释他们的流程,对于数据科学家来说,这些流程可能非常明显,他们从未接触过这些流程,所以这并不像人们想象的那么明显。

所以,沟通技巧,绝对重要。

里奇·科顿: 你有在你的组织中做得非常好的成功案例吗?或者任何不太成功的灾难故事?

瓦妮莎·冈萨雷斯: 不,绝对是。对于数据科学家来说,你知道我们总是说,哦,这是召回,这是我们模型的精确度。嗯,这对业务没有太大帮助,因为他们不知道什么是回忆,什么是精确。或者如果我们在谈论任何人的准确性或 F 分数,我们在谈论什么?

因此,我的团队中有一位数据科学家,他令人敬畏。与他们的交流。因此,他可以说,他可以告诉企业,而不是使用真正的数据科学术语。在这种情况下,它是一个,一个与自然语言处理有关的模型。我们讨论了有多少,比如,模型如何识别通话中的主题,以及转录。

这样他才能够真正地向业务上解释。这个模型有多精确?通过使用一些更简单的术语,比如说,好吧,每 100 次呼叫中,模型将能够正确地告诉我们 20 次主题是什么,然后在另一个 20 到 20 次中就不那么确定了。但在五次中,他们很好,所以他们,他真的能够解释。

我们试图用模型的结果或模型的度量标准来表达什么,以某种方式让企业理解并说,哦,82%的情况下猜测主题对我们有好处。这甚至比我们从自己人那里得到的还要好。所以我们对这个数字非常满意。

然后我们就离开了,谈话就从那里开始了。所以那将会是一个非常成功的时期。我们曾经尝试过给出指标和。房间里鸦雀无声。所以当你知道你必须用不同的方式解释,让房间里的每个人都明白我们想说什么的时候。

还有你们,他们不应该知道机器学习。所以我们必须能够说,我们会增加什么价值,以他们更多的条款和方式去做。所以这总是一个有趣的对话,但你学习它,你会变得很好,通过练习和关注,你真的可以把翻译做得很好。

里奇科顿: 这看起来确实很重要。我认为你的观点之一是,如果业务人员不理解你在说什么,那么它对组织的其他部分没有影响。

瓦妮莎 一点不错。

Transamerica 的数据转换程序

里奇棉: 好极了,妙极了。所以,你一直是泛美大数据转型项目的一部分。

或许你可以简单地告诉我这个数据转换计划的目标是什么。

瓦妮莎·冈萨雷斯: 是的,当然。因此,当我们谈到数据时,我们需要随着时间的推移,我们需要大量的数据,但我们需要以一种更简单的方式来访问这些数据。我们需要。快速访问它。我们需要能够在一个地方找到数据,我们需要确保或知道我们将用于任何用途的数据是准确、完整和及时的。

所以,我们是一家已经存在了很多很多年的公司,我想有一百多年了。它也是通过收购形成的,并以多种方式发展。它已经进行了多次重组。因此,我们有许多数据来源,我们需要确保我们可以访问我们拥有的所有数据。

此外,想想像我们这样的公司,我们做退休。如果有人在 30 多岁时开始使用 401K,他们可能要到 30 年后才开始使用。所以你有已经和我们在一起 30 年或 35 年的客户,这意味着我们必须保留所有的数据,所有他们在这段时间的计划中所做的交易,或者如果他们可能已经结婚,然后离婚,然后他们有了孩子。

随着时间的推移,他们的所有受益人都发生了变化。所以有很多数据。因此,我们在数据转型方面所做的实际上是将所有数据从本地服务器转移到云上,我们正在努力实现现代化,以确保我们将所有数据放在一个地方,所有数据都经过管理,可访问,真正做到。

安全方面也受到良好的监控。我们想保护我们的顾客。我们不希望他们的数据到处都是,所以我们必须确保我们做了所有这些事情。因此,通过进行数据转换和数字转换,我们可以做得更好、更仔细,并以更好的方式使用数据。

当我们将数据转移到云中时。我们还确保它的质量,确保我们正在查看我们是如何使用的。如果我们在七个地方有相同的,呃,某人的记录,我们知道那个人的七个记录是同一个人。因此,我们在那里进行控制和身份解析,最重要的是,我们试图为我们的客户提供可用且不安全的数据。

这只是我们为什么要进行数据转换的一些例子。但是你可以想象,这是一个巨大的项目,也是一个非常令人兴奋的项目。

小齐棉: 绝。我是说,我会考虑这些数据。我们在 Data Camp,这个公司已经存在了差不多 10 年了。我们已经有来自这么多不同地方的这么多不同来源的数据,所以,你所说的某人有人寿保险或退休保险,你必须在他们开始使用它之前管理数据完整性 30 年,这看起来是一个巨大的挑战。

你能不能跟我说说,你一开始是从哪里开始这个项目的,你在所有不同的地方都有数据,你试图管理这些数据。那么第一步是什么?

Vanessa Gonzalez: 所以,这方面的第一步甚至在我开始在 Transamerica 工作之前就已经开始了,我们开始思考,好吧,我们需要做些什么才能变得更现代。为了保护我们的数据安全,把它放在一个正确的地方。所以,第一件事是,决定这是我们想要的。

这对我们很重要。这将是我们战略的一部分。然后从那里,我们开始思考,好的。我们要怎么做?因为它很大。这是一个巨大的工程。这不是你能在一天内完成的事情,也不是我们能说的事情,好吧,每个人都停止他们正在做的一切。

我们会等一两年再做,然后继续做生意。我们必须让生意继续下去。对吗?所以你必须让这两件事同时发生。这也是很棘手的,所以,所以第二件事,比如首先你开始战略,你开始考虑你要怎么做,然后做的第一步是,创建那个架构,那个基础,那个,呃,就像你要放这些东西的小盒子,对吗?

所以你必须弄清楚你在云中的架构是什么?你要怎么做,你要怎么做?你会带申请表吗?你只带数据吗?你两个都要带吗?就我们而言,我们两者都在做。我们的想法是,在一年左右的时间里,我们会把所有东西都放在云端,可能在一两年内。

因此,我们已经将许多应用程序引入了云计算。现在我们带来了数据。我想说,我们大约有 25%的数据已经在云中,今年我们将在云中引入大量数据。我们的东西太多了,你带进来的时候要开始思考,好吧,我要清理什么?我要从一台服务器上下载数据,然后关掉服务器?

但是有多少流程会受到影响?通过移动这些数据。所以就想着报道吧。如果您将数据从 A 点移动到 B 点,则使用 A 点数据的每个报告都必须重构到 B 点。因此,这是同时发生的许多事情,您必须确定优先顺序,然后是什么先来,什么后来,以及您如何引入数据、应用程序和其他一切的顺序。

因此,第一步是准备好架构,准备好开始移动东西的地方,确保您拥有所需的安全性。你将如何访问这些数据和应用程序?就像你真的开始思考那个建筑。所以我们的建筑团队在思考这个问题上做了一件了不起的工作,获得了很多知识。

确保他们设置架构的方式对我们公司有用。因为每个公司都很不一样。所以我们不能说,哦,也许索尼是这样做的。我们也应该这样做。我们必须想出一个适合我们的架构,这个架构要适合我们的客户、我们合作的代理商以及我们合作的公司。

所以有很多不同的运动部件。一旦这样,你就开始把东西搬进来,你开始考虑,好的,我怎样把它们搬进来,我把它们都保留多久,或者在什么情况下我只是移动它们?我如何测试它?我如何访问这些新作品?一旦我们拥有了这一切,你就要开始考虑如何关掉旧的和遗留的东西,只保留新的。

按值排列数据优先级

里奇·科顿: 你提到了优先化,因为你需要决定将数据转移到云中的顺序。我在想你是如何区分轻重缓急的。首先是高价值数据,因为这是最重要的,还是低价值数据,因为风险较小?还是按团队做?或者怎样?对此你怎么看? 你如何分清主次?

瓦妮莎·冈萨雷斯: 这是个很好的问题。因此,我们一直在做的是,在我们进行数据转型的同时,我们也在进行转型,以成为一家更好的公司。我们正在采取许多措施,努力做到更好,销售更多,更好地对待我们的客户。因此,所有这些新举措,我们正在做的是,我们认为。

这些计划需要数据,例如,我们正在改进我们的网站。嗯,网站需要这些类型的数据,所有这些片段,所以让我们把这些片段带到云上。因此,当我们创建这个新网站时,它将使用来自云的数据,而不是来自本地的数据。因此,我们根据引入新内容所需的数据进行优先级排序。

我们正在利用来自云端的数据来完成这一切。然后,我们开始思考我们在大多数系统中使用最多的数据是什么,在大多数情况下,报告我们的数据对我们来说非常重要。这也是一个数据。因此,我们正在引入我们拥有的第一组计划,我们看到了我们需要的数据。

然后我们看到,我们使用最多的最繁忙的数据库是什么?我们的退休数据库?我们引入了这一点,然后在接下来的几年里,我们将会关注,好的,在接下来的几年里,我们将会致力于什么样的计划?他们需要什么数据?我们在云中还没有哪些我们需要的数据?

然后我们把它带进来。实际上,最少使用的数据,或最少被系统列出的人,这些程序,是最后出现的一个。在一个完美的世界里,我们希望一切都在云端,这就是我们的前进方向。但是有些事情需要一点时间。我们一定要好好的。

这是一段旅程。这不会在白天发生。所以你必须有耐心,你必须坚持下去,坚持下去,让它发生。

里奇棉: 这个观点很好。我注意到,嗯,基本上在我工作过的任何地方,管理层对这些真正长期的技术项目都缺乏耐心,除非他们在早期看到了某种好处。那么,有没有什么地方,你认为你已经轻松获胜,或者你已经能够通过这种数据转换计划展示一些价值,而不是等到最后?

瓦妮莎·冈萨雷斯: 是的,没有。所以我们有一些增值的方法。你完全正确。你必须表现出一些附加值,因为如果没有,这就像投入了很多钱,然后你看不到任何结果。从来都不顺利。因此,我们正在做的是,当我们为引入这些数据建立基础时,我们开始,就像我们已经有了几个机器学习模型一样。

只是使用,就像我们所有的数据都已经在云端。还有一些其他的计划,比如我们有一个,做了一些客户掌握和数据,它已经在云中。我们制作的母版,还有一些其他的大计划,与我们的网站以及与客户的互动有关,这些都是云中所需的数据。

所以我们提前吃了一些。但是我们会继续前进,并在前进的道路上赢得更多的胜利。因此,我们的想法是,当我们创建所有这些计划时,这就是我们优先考虑这种方式的原因,这样我们就可以通过将这些数据存储在云中来获得附加值。

里奇科顿: 因此,对于这些大型技术项目,有时会感觉像是一种远离客户的后端工作。我只是想知道到目前为止对你的客户有什么影响?

瓦妮莎·冈萨雷斯: 所以我们的客户不需要或者不应该知道,他们不应该关心我们的数据在哪里。他们想要的是。数据不错吧?他们有,他们想准时举行。他们希望在需要时能够看到数据,他们希望有更好的数字资产或与我们的互动,对吗?

这就是他们看到我们正在做的事情的结果。他们不知道为什么,但是突然网站运行得更快了。或者,举例来说,突然呼叫被路由到一个更好的。他们真的不需要知道。数据从 A 点到 B 点的确切位置和方式,以及为什么需要更长或更短的时间。

但是他们看到了其中的好处。正如我在一开始所说的,通过我们所做的,通过数据转换,通过机器学习和人工智能的应用,我们所做的真的是。改善我们的客户服务,然后这样做,那么我们也能够发展我们的业务,也让我们的客户和他们保持满意,对不对?

并且,降低我们的成本,这样我们就可以。把那个也传下去。所以一切都很好。。你看,除此之外没什么不好的。这需要时间和大量的工作。我认为,当公司经历这些数据转换时,这是一件很棒的事情,我一次又一次地听到,每个人都在这样做。这有点像我们现在必须做的事情。

我们可以呆在家里,等着,对吗?我们必须尽我们所能去一个更好的地方,这就是我们。

小齐棉: 绝。所以我很好奇时间尺度超越了什么。这是一段很长的时间,所以这个项目什么时候开始,你认为你什么时候会结束?

Vanessa Gonzalez: 我想这是几年前开始的,我们希望能在几年内完成,所以我想这可能需要大约四年的时间,或者说有些作品是随着我们的进展开始的,然后它们会在稍后结束,但是,我认为这或多或少是从开始到结束的时间框架。

这是一个非常酷的转变。我认为 19 是它开始的时间,然后应该在 2023 年底或 2024 年上半年完成。在那里的某个地方。

里奇·科顿:我们永远不知道 如果一切都按计划进行,2023 年底,更现实地说,稍微晚一点。好吧。我想谈一谈使用的技术,很明显,你们正在采用一些云工具。除此之外,作为这一转变的一部分,您的技术体系有任何变化吗?

瓦妮莎·冈萨雷斯: 是的,当然。所以我们几年前就已经在使用云了。但不是,没有那么多。所以我们在开发机器学习的模型,我们使用像 Domino 这样的工具,我们使用 Hadoop 和 Bitbucket。现在,我们转向 aws,这是我们正在使用的云技术。

我们正在 SageMaker 环境下进行机器学习开发。所以我们用现在的 SageMaker,我们用红移和 S3 桶。那些,那些,那些碎片。但我们也使用投标袋,所以我们的工具堆栈它。改变一点点。这个想法是,随着我们将更多的数据转移到云中,运行我们正在运行的模型将变得更加容易,并且越来越多地实时运行它们。

嗯,现在我们做批量生产,我们批量生产品牌。所以它,它变了。我们不得不为我们开发新的基础设施,因为正如你所想象的,像每个公司一样,也必须研究他们的安全和它是什么,什么有效等等。所以你必须把已经出来的东西混合起来。然后你安装自己的护栏,并遵循你为公司制定的良好实践。

所以我们整合了这些,我们非常兴奋,因为我们完成了我们的平台,现在我们正在那里开发。在我的团队里,我们会越来越有效率。所以这是一个非常激动人心的时刻。

里奇棉: 妙不可言。嗯,因为这是一项巨大的工作,除了你的分析和机器学习团队之外,还有哪些团队参与了这项工作?

Vanessa Gonzalez: 因此,数据转换是一项巨大的工作,整个公司都在发展。我们在业务和 IT 方面的领导,我们的 CTO 在这方面发挥了重要作用。如果你,如果你想所有的团队一样,他们是需要的。你需要制作团队。

你需要战略团队。您需要开发运维团队,如架构、工程团队,因为有很多团队需要致力于这种数据转换。有些人会研究如何建造基础设施。其他人会研究我们如何带来数据,数据。治理数据质量和数据科学团队在这里很重要。

业务团队和业务分析团队也很重要,因为他们必须设定在这种环境下他们需要什么才能进行商业智能和报告。嗯,他们需要真正参与支持的业务,因为现在他们从服务器上获取数据的所有流程,现在他们将从云中获取数据,这打开了许多可能性。

但在支付方面也有很多挑战,比如确保他们参与进来,这样他们就可以准确地告诉我们,哦,这个过程正在从这个地方获取数据。让我们确保,当我们迁移到云时,我们可以继续进行这一过程,并且我们指向了正确的位置。这就是数据转换的美妙之处和挑战所在,它需要每个人,而你不能只靠自己或在孤岛中完成,因为那样做是行不通的。

所以,你还必须进行大量的协调、合作和妥协。你必须开始真正思考别人需要什么,而不是你需要什么,然后找出两者之间的平衡点。所以有很多不同的团队在努力,但绝对值得。

里奇·科顿: 好的,我知道这是很多团队之间的合作。通常是非常非常困难的事情。所以我想知道你是如何管理所有这些需要相互沟通和协作的团队的?

Vanessa Gonzalez: 所以你说有些流程,你说领导必须要对齐,所以。它始于领导层真正参与进来,让我们的首席执行官、首席信息官和首席技术官都以同样的方式思考,思考我们要去哪里。那是一块。另一件事是,当你开始更多地了解我们如何完成工作时,我们会在几个团队之间召开大量会议。

举个例子,为了计算出我们将引入什么数据,我正在非常接近那个数据。我组织了一次会议,邀请了架构、工程、业务、项目管理办公室以及我们的数据和分析团队。这样我们就明白了,好吧,数据的要求是什么?

这些流程的业务所有者。那么已经存在的数据是什么呢?因此,我们与建筑、工程以及其他领域进行了交流,我们将如何引进这些技术?所以我们也要和他们谈谈。治理真的可以帮助我们,好吧,我们该如何治理这些数据呢?

助理牧师,我们要怎么治疗?当我们考虑质量的时候,我们会关注什么?什么是正确的来源?这不仅仅是把数据带到那里,然后把它扔在那里。你。弄清楚如果你是,如果你想像名字一样,我们从这个数据库,从这个数据库,从这个数据库把名字带到哪里。

哪个是正确的名字?所以我们必须在那里做一些控制。所以这些团队之间有很多合作。我们所做的是,我们定期见面,然后把它分成碎片,对吗?他们说,你怎么吃大象?一次一口。那么,如何进行数据转换呢?一次几个数据项。

你只是开始喜欢把小块小块的东西放进去,然后移动这些东西,确保你做的每件事都遵循那个目标,你用同样的方式去做,这样就更容易到达你想去的地方。

里奇棉: 我用程序想象。一定是什么地方出了问题。所以我想知道你发现了什么具有挑战性的事情,或者有什么你希望一开始就知道的事情吗?

瓦妮莎·冈萨雷斯: 所以我认为这是一件非常具有挑战性的事情,而且我们已经了解到,在每件事情的开始,你都需要非常好的要求。你必须确保。当你把你的需求放在一起的时候,你不能跳过任何,任何部分。例如,如果你有一个项目,你要从许多不同的地方带来数据,如果你忘记了几个片段,当你遇到他们时,他们不在那里,这是很难把这些片段带进来的。

当你提前计划,然后说,好的,这些是我需要的零件时,事情就简单多了。这些是我需要做的变换,这是从 A 点到 B 点到 C 点的地方,这是它离开的最终位置。我打算这样策划。比带八成容易多了。

还有这样子的,那 20%。哦,我们还需要另一块,但是不够。因此,我认为这是一件具有挑战性的事情,在开始移动数据以真正满足这些明确的要求之前花些时间确实是有意义的。那是一块。另一个类似的挑战是,你必须继续做你正在做的事情,并为新的事情腾出空间。

所以你必须确保你是。做你的日常工作,对吗?与此同时,你必须把重点放在新的东西上,这意味着更多的工作,意味着更多的努力。完全值得,但你必须小心如何,如何去做。因此,你不会像往常一样不做你在 BAU 的工作和业务,同时,你也在创造新的东西。

然后你从什么时候开始从旧的走向新的。考不好还得真的考好。你能想象吗?你没有旧的,新的不工作,这将是非常非常糟糕的。所以我认为这是我们都学到的东西,在某些时候,当我们认为我们将投入生产时,它并不像我们想象的那样工作,因为我们错过了一些东西。

所以你有 B 计划总是好的,好的,如果我在投入生产之前,我会测试它,确保它能。然后你,你把两者都保留一会儿,然后你,你取消旧的。这些都是挑战,但绝对是我们必须思考的事情。

永远考虑 A 计划、B 计划和 C 计划,以防事情按计划进行。因为当你计划的时候,做最坏的打算,期待最好的结果,或者类似的话,俗话说,我不确定,但是你最好做好一切准备

小齐棉: 好了,。是啊。所以这看起来真的很重要,尽量避免引入新的错误。就像你移动数据一样。所以我很好奇,对于我们如何进行测试,你还有什么要说的。

瓦妮莎·冈萨雷斯: 所以,是的,所以我们有一个非常好的项目来测试。比如机器学习方面我可以多说一点。我们确保在自己的环境中进行测试。我们有一个专业的研究环境,因为我们使用专业的数据训练,但是我们。同时在一个开发环境中。

所以我们做了所有的测试,检查我们的模型是否正常。我们确保我们得到的输出是我们所期望的。一旦从那里,然后我们把它带到所有的环境。因此,我们从那里开始,进入开发模式,然后将其移至测试模式,再将其移至模型模式,然后移至专业模式。

所以在所有这些工作中,我们。一次又一次地检查一切是否正常,我们没有影响任何其他流程或任何其他部分。我们为测试做的另一件事是,我们的生产团队有一个生产流程,你必须经历它,当我们在环境中移动时,他们检查他们的扫描。

他们确保如果东西坏了,如何修复?到了生产的时候,我们很放心我们所做的是我们所期望的,不会有任何问题。我们总是有 B 计划,如果有一些问题,解决这些问题的方法是什么?

我们总是做好准备,以防万一。

Richie Cotton: 除了这种多层测试之外,你还可以找到诊断问题的方法,并制定备份计划,以备不时之需

瓦妮莎·冈萨雷斯: 是的,我们知道,好吧,如果我们突然丢失了一两天的全部数据会怎么样?嗯,我们有,哦,我们可以用这个备份,我们可以用这个。就像总有一个 B 计划来减轻我们可能遇到的问题。根据问题的严重性或重要性,有多少系统会受到影响?

然后我们。备用系统。如果出了问题,后备力量就会介入。所以我们确保我们总是在一个好的地方。所以这是一些公司做的事情,包括我们的,以确保我们满足援助,任何,任何可能发生的问题。对吗?所以这样的话,就像你想象如果,如果公司不这样做,那么你将什么也做不了,对吗?

就像你的银行突然倒闭,你什么也做不了。那不会持续很长时间。

里奇棉: 耶。当所有这些系统都瘫痪时,很难赚钱。呃。好吧。我想谈谈技能。这看起来像是因为一切。变化相当快。在您的团队中,更广泛地说,在您的组织中,这如何改变了您在团队中寻找的技能组合?

Vanessa Gonzalez: 就技能而言,我们真正寻找的是数据科学家和他们愿意学习的人。因为事情会不断变化。几年前是什么样子,是某种编程语言,后来我们改变了。然后 Python 就变成了我们现在用的这个。但是,如果您正在使用,如果您在云中,他们需要了解一点如何在云中部署。

然后视乎,所以一切都变了,对吧?工具组可能会再次改变。因此,当我为我的团队寻找人才时,我不只是寻找他们所知道的,而是。他们学习的意愿有多好,因为这是我认为数据科学家最重要的一点,至少对于机器学习和人工智能来说,你必须为变化做好准备。

我们现在可能有 Salesforce 作为 crm,但谁知道呢,也许两年后我们会改变。所以你必须准备好以一种非常开放的方式思考我们如何整合我们的输出。如果我们改变系统,或者如果我们带来一个不同的应用程序,我们不能,我们甚至不知道存在,对不对?

因此,也许两三年后,情况会完全改变。所以我们必须在技能规模上做好准备。对于我的团队来说,我一直在寻找一种强烈的统计学和数学意识。对你如何思考的科学的理解。我会有一个假设,然后我会证明它,然后我会这样做。

就像对如何解决问题有一个非常有条理的想法。我认为这非常重要。和语言,我们可以学习它们。新的软件,我们可以学习它,但是我们,难教的是学习的能力。这就是我一直在寻找的。

小齐棉: 好吧。当然,技术变化很快。你将要使用的软件每隔几年就会发生变化。这真的引起了我的共鸣。但是,是的,我喜欢这个想法,你总是需要愿意学习新事物。因此,就这一点而言,实际上,当你发现你的团队中存在技能差距时,你是在内部培训员工,还是从组织外部雇佣员工?

瓦妮莎·冈萨雷斯: 所以我们两方面都做了。就像有时我会让那些有 D 类技能的人带来他们自己的技能。其他时候我也是,我们的团队非常支持学习新技能的培训。例如,我的一个团队成员,他对自然语言处理非常感兴趣。他做到了,我们在这方面提供了很多培训,他在工作中也学到了很多。

对。在其他情况下,我的一个数据科学家,一个统计学家,带来了很多关于统计的知识。所以我认为,对于机器学习和人工智能团队来说,这是非常重要的,或者至少我认为这是非常重要的,有不同的背景,数据科学的魅力之一就是你可以成为物理学家、统计学家或计算机科学家。

就像有很多不同的背景,你如何到达那里。对我们来说,当这种情况发生时,我们会感到很惊奇,因为。我们,他们带来了不同的技能,他们可以分享和教授给团队。因此,我们做的事情和我们非常有目的的事情是,我们有很多关于分享的会议,以便他们可以互相帮助,互相学习。

要成为一个成功的数据科学团队,你需要能够做到这一点,因为没有人会具备所有的技能。这是不可能的。即使在你自己的团队中,诺博,也不是所有人。我可以拥有所有的技能。所以你需要有人在一个领域有很强的技能,其他人在另一个领域也有很强的技能,然后他们互相分享,互相教导,互相帮助。

那是我最看重的东西。我知道他们参加了数据营,并且不时会有人研究深度学习。另一个可能会调查另一个。所以根据他们想学的东西,他们会向不同的方向发展。

这也取决于他们目前专攻什么。他们不得不做的事。

Richie Cotton: 我喜欢你的团队使用 data camp 进行持续学习,并提高他们的技能。那太好了。你谈到了你的团队需要擅长翻译技术。商业人士可以理解的问题,学习心态的重要性,理解统计学和假设检验的重要性。

你认为团队中还有其他什么能让人们成功的因素吗?

瓦妮莎·冈萨雷斯: 所以我认为创造力是非常重要的,因为并不是所有的事情都像我们希望的那样发展,而且要有找到解决方案的积极态度。我们没有机会说,哦,不,这不可能。就像我们更关心如何让它工作?数据不在完美的地方。

嗯,我们让它工作。我们必须适应这种做事方式,因为。它会保护我们数据的安全。好吧,我们适应并让它发挥作用。所以在我的团队里,对我来说,这非常非常重要。当他们看到一个问题时,他们很有创造力,会找到解决方法,不会放弃,就像找出解决方法一样。

对我来说,这个解决方案非常有价值。而且发生的次数不止你一个,不止一件事。你去学校,他们给你完美的数据集,他们说,建立这个美丽的模型。它总是有效的,对吗?所以你会想,哦,是的,我,我尝试了这五种不同的技术,哦,工作真的很美。

你走进现实世界,感觉就像,嗯,我该从哪里开始呢?数据真的真的很诡异。所有这些作品都很有创意,会让你成功的。所以,呃,要满足创造力和积极的态度,那才是真正能让它发生的。

小齐棉: 绝。我喜欢这样。好了,最后,在机器学习和人工智能的世界里,有什么是你真正感到兴奋的吗?

瓦妮莎·冈萨雷斯: 所以我,我,我不得不说我热爱这一切,这让我在这个世界上感到兴奋。这真的是改变的可能性。我喜欢这种模式,当你创造它们时,你有一个输出,这个输出以一种客户甚至不需要知道的方式被使用。

或者,在这种情况下,我们的商业客户,比如我们的业务部门,你在许多方面让他们的生活变得更轻松,他们不必为此担心。这就像是自动的,AIP 做规定的事情和做决定。对我来说,这是非常令人兴奋的,令人兴奋的,能够使用实时数据,实时运行模型。

我认为这是让我每天都非常兴奋的事情,我期待着并尽可能多地努力。

里奇棉: 妙不可言。是的,所以我认为人工智能和。呃,自动驱动决策。听起来太棒了。是的,还有实时分析。美妙的东西。那么,对于其他试图开始数据转换计划的公司,你有什么最后的建议吗?

我想说的是,不要去想它有多复杂或者有多大,而是去想你会从中得到什么。所以我认为我最大的建议是,当你玩得开心的时候,这并不容易,而且很漫长,时间过得很快。所以享受旅程,让它发生吧。我想这就是我要说的关于数据转换和机器学习和人工智能,我只是。

无论你在哪里,我们都可以做很多事情,你也可以做很多改变。你是什么行业,什么类型的企业,真的不重要。总有一种方法可以帮助人们,帮助其他人,让他们的生活变得更容易,这是我们可以利用的。所以这就像,如果那是你所关心的,那是一种很棒的感觉。

里奇·科顿: 让别人的生活更轻松。听起来很棒。太好了。好吧。非常感谢瓦内萨抽出时间。那真的,真的很有启发性。非常感谢。

Vanessa Gonzalez: 非常感谢你们邀请我,并祝大家好运,他们正在数据科学、机器学习和数据转换领域建立职业生涯。超级有趣的事情。

设计仪表板的最佳实践

原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/best-practices-for-designing-dashboards

随着全球数据量的快速增长,将这些信息识别、处理和可视化为易于理解和共享的形式,从而使其具有可操作性变得越来越复杂。这就是仪表板的用武之地。

仪表板是分析过程中的一个关键组件,因为它们以易于理解的形式为各种利益相关者提供了信息的简要概述。仪表板的最终目标是帮助用户做出最佳决策,并利用这个不断增长的数据池。

本文将深入探讨设计高质量仪表板背后的艺术和科学——并概述您现在就可以开始使用来部署仪表板的工具。

仪表板有哪些不同的类型?

选择正确的仪表板对于提供有效的数据洞察至关重要。然而,随着不断增加的数据量和复杂性以及各种不同的受众希望使用仪表盘来消费数据,人们很自然会对如何设计仪表盘感到不知所措。构建仪表板时,了解哪一类仪表板最适合您的特定受众至关重要。最常见的仪表板类型如下:

1.运营仪表板

运营仪表板监控实时数据,跟踪各种业务运营的端到端性能,并通过清晰的数据可视化交流见解。这些仪表板旨在用于日常工作流,并提供对时间敏感的见解和实时发展的警报。运营仪表板持续更新,有助于一目了然的决策。这些仪表板的主要受众是经理和运营团队。例子包括

  • 营销仪表板—网站绩效指标,如跳出率、用户终身价值、平均会话时间等。
  • 软件开发 — 系统崩溃分析、正常运行时间监控、云服务计费监控等。

2.战略仪表板

战略仪表板主要由 C 级主管、董事或企业所有者用来监控公司的长期 okr 和 KPI。它们对整个组织或部门的绩效提供高层次的更新。这些控制面板更新数据的频率低于设计为每天查看的操作控制面板。战略仪表板的创建非常复杂,因为它们需要准确地跟踪可以在不同数据源中找到的组织范围的指标。此类仪表板的示例包括

  • 组织范围内的—跟踪收入和公司 okr,一目了然。
  • 部门范围—跟踪从采购到购买的营销漏斗。

3.分析仪表板

顾名思义,这些仪表板用于分析和使用大量复杂的数据。现代仪表板工具为消费者和从业者提供了下钻选项、广泛的过滤器和处理大量数据的能力等特性。有了分析仪表板,人们可以不仅仅浏览指标,还可以调查数据本身背后的驱动因素和动态。

分析仪表板的主要受众更具有技术头脑,可以是数据科学家和分析师等从业者,也可以是希望挖掘洞察力的经理。分析仪表板的示例包括:

  • 财务—财务绩效仪表板,能够按渠道、产品、资产等细分收入
  • 营销 —Google analytics 仪表盘提供高级指标,并能够深入了解渠道、推荐、流量来源等

如何创建优秀的仪表板

仪表板的主要目的是降低复杂性和提供清晰性。一个好的仪表板通过简单明了的数据可视化简化了复杂的信息。以下是一些仪表板设计的最佳实践,可以有效地与您的受众交流见解:

设身处地为观众着想

如果你想创建一个有影响力的仪表板,你应该对使用你的仪表板的观众产生深深的共鸣。这意味着要很好地理解你的听众的专业领域和技术知识水平。而且,你在设计你的仪表盘的时候,要深入思考他们最关心的洞察是什么。例如,营销分析师会更关心报告特定营销活动的仪表板。相反,营销领导会更关心一个报告整个营销漏斗的仪表板。这可以说是最重要的步骤之一,因为它将保证您的仪表板的采用。

清理杂物

仪表盘可能会很乱。尤其是因为它很容易让观众随意使用各种类型的图形、图表和表格。为了避免让仪表盘变得不可读、混乱,问问自己你所包含的内容是否与受众相关,并尽可能删除不必要的元素。此外,要认识到构建仪表板是一个迭代的过程。因此,在构建仪表板时,请牢记受众的反馈。

使用网格布局功能

在设计仪表板时,您应该考虑使用网格布局。根据 Tableau 的技术传道者和仪表盘大全的合著者 Andy cotgreve 的说法,人类天生习惯于从左向右和从上到下看东西。使用网格布局有助于您的受众独立、直观地导航仪表板。在实践中,这意味着从左上角的高级指标开始,并在网格的右侧向下深入数据。

注意字体

尽管使用不同的字体和大小很有诱惑力,但一般来说,坚持使用不超过 3 种不同大小的字体。你应该遵循字体层次结构,保持标题大于正文,并使用粗体突出关键元素和标题。改变字体大小和效果也是一个很好的工具,可以将观众的注意力吸引到仪表板的特定元素上。然而,确保你适度使用它。

创造性地使用颜色

公平地说,颜色是任何数据可视化或仪表板中最引人注目的方面之一。因此,在选择数据可视化的配色方案时要花很多心思。这意味着在可视化中使用一致的调色板,并系统地使用颜色来区分组、重要性级别和不同种类的信息层次。

快速加载时间是一个胜利

在数码产品中,加载时间就是一切,仪表盘也不例外。无论你的仪表盘有多么丰富的信息和吸引人的视觉效果,如果它的加载时间很长,它将很难被采用。由于大量数据、仪表板内发生的转换、大量过滤器以及需要花费时间呈现的高度复杂的可视化,可能会出现较长的加载时间。减少装载时间的一个好方法是减少混乱,并确保复杂的数据转换存储在数据库的视图中。

测试您的仪表板的可用性

设计仪表板最重要的元素之一是它需要被测试。一旦你建立了一个原型,你需要站在你的观众的角度考虑他们是如何理解和使用你的仪表盘的。记下这些活动,看看如何让你的仪表板更有效率和效果。对于一个成功的项目,测试是关键。你要了解你的仪表板是如何被人感知的。这允许你基于这个测试反馈来迭代你的设计。

迭代和协作

如果你不能一步到位,这是完全可以接受的。创建仪表板是一个漫长而复杂的过程,您必须慢慢来。为了展示您最好的仪表板,您需要给自己时间来检查它,并获得更好的视角。最好的仪表板也要经历大量的迭代,每天不断改进它们需要时间——这是完全可以接受的。

创建出色仪表板的工具

仪表板很容易上手,有许多工具可供使用。然而,由于选项过多,很容易陷入分析瘫痪。在这一节中,我们将分解数据从业者目前可以用来创建仪表板的最常用工具。在评估使用哪些数据工具来创建仪表板时,请考虑以下功能:

  • **数据源连接器:**将一个工具连接到不同的数据源有多容易?
  • **协作功能:**某工具是否提供评论、编辑、分享、托管等协作功能?
  • **渲染速度:**一个仪表盘渲染加载要多快?
  • **易用性:**是需要编程知识,还是入门门槛低的拖拽式界面?
  • **成本:**是开源框架还是需要购买许可证?

以下是功能丰富的工具列表,可帮助您开始构建出色的仪表板和数据可视化:

1.功率 BI

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

微软的 Power BI 是最受欢迎的商业智能工具之一。由于其简单的界面和提供的广泛功能,它已经成为数据从业者和商业用户的默认选择。它有一个精致的拖放界面,搭配一个庞大的数据源连接器列表,帮助您从一开始就构建生产就绪的仪表板。Power BI 使与其他团队成员的协作变得非常容易,允许您无缝地构建、编辑和共享—这种体验类似于使用任何其他微软产品,如 SharePoint。

主要特征

  • **直观的用户界面:**Power BI 中的界面确实很直观,尤其是对于习惯了微软套件的人来说。
  • **低成本:**与其他全功能 BI 解决方案相比,价格合理
  • **Azure 集成:**与 Azure 云服务集成得非常好,如 Azure Data FactoryAzure Synapse 和其他数据连接器
  • AutoML 特点: Power BI 轻松集成来自 Azure 机器学习的自动化 ML 构建模型。

Power BI 仪表盘示例

2.(舞台上由人扮的)静态画面

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tableau 是当今功能最丰富的商业智能工具之一。它于 2003 年在加州山景城成立,现已成为现代分析师事实上的商业智能工具之一。它提供了一个拖放界面,使非编码专业人员能够轻松创建仪表板。 Tableau 支持最高数量的数据源连接器,所以从不同的数据源获取数据不成问题。它提供了项目协作的能力,并允许您使用 Tableau Server 共享和托管仪表板。通过正确的规划、对内存数据存储和数据提取的支持,可以优化渲染速度。Tableau 建议使用这些性能技巧来获得惊人的渲染速度。

Tableau 还有一个非常强大和活跃的社区,它得到了成千上万用户的支持,并且可以免费访问 Tableau Public 。与其他 BI 工具相比,Tableau Desktop 专业版的价格处于高端。

主要特征

  • **快速渲染:**在内存存储和数据提取的支持下,Tableau 在处理大型数据集时非常出色
  • **社区:**它有一个非常活跃的社区,可以激发灵感和解决问题
  • Tableau 自 2003 年以来一直在迭代和改进,因此使用它的体验非常流畅,没有任何错误。
  • **可定制性:**多种可视化、字体、颜色大小、行、列、网格、屏幕大小等特性可帮助您制作高度可定制的仪表板
  • **数据源连接器:**您可以使用内置的 tableau 数据连接器连接存储在不同地方的各种数据

Tableau 仪表盘示例

3.Python 的 Dash 包

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Dash 是由的创作者 Plotly 制作的开源库。它让您无需学习 HTML、CSS 和 JavaScript 就可以构建交互式 python 仪表盘。这是一个免费使用的软件包,你可以很容易地安装。Dash 提供了一种代码优先的方法来构建图表和仪表板,而不是拖放式 GUI。它面向更具技术性的受众,如数据分析师、数据科学家、ML 工程师、python 开发人员和数据工程师。要连接到不同的数据源,您可以依赖现有的 python 包,但是您需要使用代码来配置它们,这是一种开销。

因为这个解决方案是基于 python 的,所以它允许更大的灵活性来构建高度可定制的仪表板。然而,对于不熟悉 python 及其不同包的人来说,有一个陡峭的学习曲线。由于您是独自管理事物,可视化大数据集有时会变得滞后。此外,发布使用 Dash 构建的仪表板并不像点击一个按钮那么简单——它需要你将其打包并部署在 AWS、Heroku、GCP 等云服务上

主要特征

  • **基于 Python:**虽然基于 Python 意味着 Dash 比拖放工具有更陡峭的学习曲线——它也可以被认为是一大优势——因为它提供了高度的灵活性
  • **版本控制:**作为一个代码优先的工具,您可以使用 Git 等版本控制工具来存储和保存 Dash 仪表板的不同迭代
  • **开源:**这是一个开源包,意思是免费使用。
  • **可定制:**在可定制性方面名列前茅,这从他们的仪表盘图库中可以明显看出

仪表板示例

4.Python 的 Streamlit 包

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Streamlit 是另一个完全开源的 python 包,它更侧重于创建和部署机器学习重数据应用。然而,它也是一个很好的仪表板工具。这个可视化包是为了迎合数据科学家而设计的,对于 python 用户来说,学习曲线相当低。Streamlit 有预定义的方法来构建简单的可视化。如果你知道使用熊猫的基本数据操作,这个库很容易上手。它提供了一些功能,如后台刷新、加速前端的数据缓存,以及用于共享的屏幕录制功能。

主要特征

  • **基于 Python:**类似于 Dash,它提供了高度的灵活性
  • **低学习曲线:**构建 streamlit 仪表板类似于在 jupyter 上使用熊猫,因此它为任何 python 用户提供了低学习曲线。
  • **版本控制:**作为一个代码优先的工具,您可以使用版本控制工具(如 Git)存储和保存 Streamlit 仪表板的不同迭代
  • 开源: Streamlit 免费使用

Streamlit 仪表盘示例

5.r 的闪亮包装

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以说是 R 的杀手级应用之一, Shiny 是最好的基于编码的仪表板工具之一。Shiny 允许从业者在没有任何 HTML、CSS 或 JavaScript 知识的情况下用 R 开发成熟的 web 应用程序。自 2012 年发布以来,Shiny 已经经历了十年的迭代和改进,这使得它成为一款极其稳定、功能丰富的开源仪表板工具。与本文中其他基于编码的工具类似,它提供了高度的灵活性和可定制性,并且与其他 R 包配合得非常好。

主要特性:

  • 与列表中的其他编码工具相似,它提供了高度的灵活性
  • **版本控制:**作为一个代码优先的工具,您可以使用版本控制工具(如 Git)存储和保存 Streamlit 仪表板的不同迭代
  • **开源:**这是一个开源包,意思是免费使用。
  • **可定制:**在可定制性方面名列前茅,这从他们的仪表盘图库中可以明显看出

闪亮仪表盘的例子:

打破规则

没有比以用户为中心的设计和高质量数据可视化的仪表板更好的数据交流方式了。每个仪表板在目标、需求和限制方面都是不同的。然而,有一个共同的因素推动着他们每一个人的成功,这是一个积极的迭代过程。请记住,没有一个仪表板第一次是完美的。不断的反馈和改进是让您的仪表板更加高效和直观的唯一途径。

此外,仪表板不一定要完全实用。美学和功能性之间的权衡常常是一个错误的二分法。因此,只要你记住你的观众,以及他们如何与你的作品互动,你就可以不遵循严格的指导方针,尽情享受你的仪表盘和可视化效果。

有关数据可视化、仪表板和数据故事讲述的更多资源,请查看以下故事:

黑历史和数据科学的未来圆桌会议

原文:https://web.archive.org/web/20230101103026/https://www.datacamp.com/blog/black-history-and-the-future-of-data-science-roundtable

2022 年 2 月 15 日星期二,DataCamp 的社会影响经理 Nathaniel Taylor-Leach 主持了一场现场圆桌讨论,以纪念黑人历史月。我们邀请了三位科技和慈善领域的黑人领袖加入对话:

  • STEM 教育学院的总裁兼创始人尼基莎·阿尔金多尔

  • Sean Burrowes,ingress For Good的首席执行官兼联合创始人

  • 罗杰·罗曼,非洲街区的首席执行官兼联合创始人

直播的目标是“黑人历史和数据科学的未来”,旨在强调黑人社区在过去一个世纪对计算机和数据科学的贡献,同时确定当今有色人种年轻人面临的挑战,这些挑战使这些高利润和有影响力的职业变得不那么容易获得。

我们的嘉宾谈到的一个重要主题是,人工智能和人工智能行业迫切需要更多的黑色和棕色数据科学家,以便明天的算法不会不公平地延续今天的无意识偏见和负面刻板印象。观众提出的问题也促使我们的专家小组推荐非营利组织、公司和政府可以通过投资学习发展、内部晋升、带薪实习生等方式促进团队内部的多样性、平等和包容。

以下是我们的小组成员分享的资源集合,以了解更多关于直播期间讨论的有影响力的个人和主题:

数据、计算机和教育领域的黑人先锋

当今数据科学中的黑人领袖和资源

黑人领导的数据科学非政府组织

关于小组成员

Nikisha Alcindor 是商业银行 Riverside Management Group 的董事总经理,也是巴鲁克学院 Zicklin 商学院 Narendra Paul Loomba 管理系的博士生。她是城市大学研究生中心研究员和教务长增强研究员。她专攻战略管理,研究领域是并购。Nikisha 有兴趣通过将人工智能和机器学习应用于决策和风险分析来研究并购交易的成功率。她在企业金融、医疗保健和资产管理方面有着广泛的背景。在加入博士项目之前,她曾在 Apax Partners、辉瑞公司、强生公司&、高盛公司和哥伦比亚大学实习。她是上曼哈顿授权区的董事会成员。Nikisha 拥有埃默里大学的化学学士学位和哥伦比亚商学院的 MBA 学位,是里昂库珀曼奖学金获得者。

DataCamp 与 Nikisha 的非营利组织 STEM 教育学院(SEI)合作。SEI 提供的课程为代表性不足的高中学生提供了进入当今劳动力市场所需的技术技能,同时积累了一代人的财富。通过与几家公司合作,该计划旨在为组织提供多样化的人才渠道,并创造代际财富。

Sean burrows 是ingresive For Good(I4G)的联合创始人,该公司的使命是在未来五年内培训 100 万名青年,并帮助 5000 人找到工作,从而提高非洲科技人才的赚钱能力。自 2017 年加入 Ingressive 集团以来,Ingressive 已从尼日利亚扩展到肯尼亚、加纳、南非和卢旺达。Sean 利用十年的国际运营经验,将其应用于影响青年主导的计划、企业家、数字媒体平台和非洲技术生态系统的项目。他致力于通过提供平等的技术获取途径来建设新非洲叙事所需的社会经济基础设施。

肖恩毕业于杰克逊州立大学,是运营咨询公司 Burrowes Enterprises 的首席执行官。他的首要目标是发现和创造必要的操作流程,在非洲和非洲移民社群之间架起一座经济桥梁。通过与 DataCamp Donates 合作,Ingressive For Good 团队为非洲成千上万的弱势群体提供了免费的数据科学教育。

罗杰·罗曼(Roger Roman)是一名企业家、天使投资人和技术驱动型初创公司的营销顾问。他是两次创业的创始人,在过去的五年里,他一直担任增长型营销和业务发展咨询机构 Push Consulting & Marketing 的管理合伙人。Roger 被《纽约时报》、《Venture Beat》、《黑人企业》、LinkedIn 和其他媒体视为数字营销和创业成长方面的权威。他曾指导羽翼未丰的初创公司从启动到收购,并帮助华特·迪士尼、环球音乐集团和苹果等老牌公司推动在线知名度和增长。

罗杰是全球泛非洲自由职业数字市场 AfriBlocks 的首席执行官和联合创始人,该市场正在为非洲未来的工作建设技术基础设施。AfriBlocks 旨在创建一个由合格的&技术熟练的非洲专业人士组成的多元化网络,并将他们与来自世界各地的远程工作联系起来。在与 DataCamp Donates 的合作中,他帮助向非洲和美国的数百名自由职业者提供了免费的无限数据科学教育。

我们希望听到您的反馈!

感谢我们的小组成员和世界各地收看节目并提问的所有观众!如果你喜欢这个直播,我们希望收到你的来信!在 【邮件保护】 给我们发邮件。要了解更多关于 DataCamp 的社会影响计划,请访问 datacamp.com/donates。

在整个新加坡开拓人工智能扫盲的道路

原文:https://web.archive.org/web/20230101103238/https://www.datacamp.com/blog/blazing-the-trail-in-developing-ai-literacy-across-singapore

两年半前, AI Singapore (AISG)选择 DataCamp 作为您首选的在线培训合作伙伴。自那时以来,已经达到了哪些里程碑?

自 2018 年 8 月宣布 DataCamp 合作以来,面向学生的人工智能(AI4S)计划已覆盖超过 21,000 名学生,面向行业的人工智能(AI4I)计划已让超过 5,000 名工作专业人员受益于 DataCamp 这一学习资源,以提高 Python 和编程基本人工智能和数据应用的熟练程度。与传统的学习方式相比,DataCamp 的自我导向学习模式非常适合职业人士,尤其是在当今的数字经济时代。

新冠肺炎疫情对 AISG 学习者的在线学习有什么影响?

我们看到了三个方面的影响:

  • 在疫情的早期阶段,访问 AI4S 的请求有所增加。
  • 工作专业人士的参与率也很高,因为在新加坡的 COVID 锁定(断路器)期间,许多人在家工作。
  • 在成功方面,我们看到前四批 AI4I 参与者的完成率高达 45%。这一比例远高于【MOOC 平均完成率。

你喜欢 DataCamp 的什么?

首先,DataCamp 的教学方法是两到三分钟的短视频,然后是作为 AI4I 作品的一部分嵌入的动手编码练习,它推动了高完成率。我们喜欢 DataCamp 模块有一个非常用户友好的界面,并且对学习者来说是交互式的和有吸引力的。DataCamp 集成了 LMS(学习管理系统),并拥有一个沙盒环境,可增强动手实践环节。

课程结构简洁明了,它有助于以一口大小的格式提供内容,使学习者易于消化。其他值得一提的内容包括一整套可用的课程、定期添加的新课程和更新、访问来自数据科学和分析社区的专家,以及供学习者使用的真实数据集。

所提供的课程迎合各种各样的学习者;特别是,它们与工作专业人员相关。由于可以在线访问,忙碌的专业人士可以按照自己的节奏学习,只需要留出一两个小时来学习,与必须花时间从一个地方通勤到另一个地方相比,节省了更多的时间。

我们尤其喜欢课程的游戏化,它提供了一种极好的、体验性的学习方式,从而帮助学生在不同的难度水平上取得进步。

自从实施 DataCamp 以来,您看到了哪些非凡的成果?

与其他内容类型相比,DataCamp 是我们学员的首选平台。迄今为止,反馈非常积极。用户报告说,他们继续使用 DataCamp 作为一个有用的学习和参考工具,以保持更新。

这里有两个例子:

学生人工智能(AI4S)

该课程通过让中学生和大学生掌握编程和数据技能,将他们带入数据流畅性的下一阶段。为了支持他们的学习之旅,教育部公立学校的教育工作者可以利用 AISG 与 DataCamp 的合作伙伴关系,利用后者的学习平台进行教学。学生还可以在 AI4S 下的课程中开始独立学习,包括学习 Python 编程和 Git,这是开始使用人工智能的必要技能。

自 2018 年 11 月推出 AI4S 以来,它已覆盖新加坡公立学校的 21,000 多名学生。

来自教师和学生的反馈

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

工业人工智能(AI4I)

该课程面向行业专业人士,如技术主管、经理和开发人员,以及本科生。AI4I 向参与者介绍人工智能概念和用例,并为他们提供构建数据和人工智能应用程序的编程技能。它托管在 AISG 的在线人工智能创客空间平台上,并利用 DataCamp 获得参与者完成该项目所需的学习资源。

AI4I 参与者的反馈

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你会对考虑与 DataCamp 合作的其他人说些什么?

行动起来,立即加入 DataCamp 平台!数据营是正确的选择。对于任何想要建立或加深数据技能的人来说,这是一个很好的学习平台。它根据您的需求量身定制,您可以按照自己的节奏学习。

如果您有兴趣了解更多关于艾新加坡和我们的人才计划,请访问https://www.aisingapore.org/talentdevelopment

用数据素养弥合沟通鸿沟

原文:https://web.archive.org/web/20230101103202/https://www.datacamp.com/blog/bridging-the-communications-gap-with-data-literacy

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据素养的真正商业价值来自于让组织成员能够理解数据并从中提取真知灼见。当数据素养融入公司文化时,它可以作为一个强大的工具来打破分析孤岛,并在整个组织中实现可扩展的数据故事。

在本次网络研讨会期间,Marc 将探讨构建数据素养组织的一些关键要素,以及主题专家开始思考“数据素养”需要了解的内容。以下是对预期结果的分析:

  • **如何可视化数据:**如今,公司处理大量数据,分析师很容易在噪音中迷失信号。因此,你有选择地在你的想象中包含什么是至关重要的。数据可视化结合了艺术和科学的技能来表达正确的信息,同时使非技术团队成员可以轻松获得数据见解。要构建清晰高效的数据可视化图,需要时间、耐心和提出正确问题的能力。在构建您的图之前,您应该总是从询问关于您的数据的正确问题开始,例如:“这个可视化的目的是什么?”。

  • **了解数据类型和数据流:**为了选择正确的可视化方法,了解您正在处理的数据类型是至关重要的。很好地理解各种各样的数据类型可以帮助您执行更好的探索性数据分析(EDA)和构建适当的数据模型。

  • 从数据中提取洞察:很多组织都会产生大量的原始数据;然而,他们未能有效地利用其业务应用。因此,建立一种文化,让大多数团队成员能够理解和区分数据见解,这在当今世界至关重要。了解不同的数据类型并选择合适的图表或可视化方法,有助于传达您的数据见解。在本次网络研讨会期间,Marc Wintjen 将分享不同的技术,这些技术将使您的团队能够从数据中提取可操作的见解。

如果你想在竞争中保持领先,从数据中提取可行的见解是必要的,而不是可有可无的。因此,建立一种数据文化,使您的团队能够生成、捕获和分析数据,这将使您的企业在市场中获得巨大的竞争优势。

要详细了解如何在您的组织中采用数据文化,并帮助您的团队做出更好的数据驱动型决策,请参加我们与彭博风险分析架构师 Marc Wintjen 的网络研讨会。

使用 IPTOP 构建可扩展的数据策略:基础设施、人员、工具、组织和流程

原文:https://web.archive.org/web/20221129040116/https://www.datacamp.com/blog/building-a-scalable-data-strategy-with-iptop-infrastructure-people-tools-organization-and-processes

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如今,许多组织正在将数据科学实践作为其数字化转型计划的一部分。然而,如果没有数据战略和清晰的组织内扩展数据科学的蓝图,他们中的大多数人不会收获挖掘数据的回报麦肯锡发现1000 家进行数字化转型的公司中只有 8 家能够将数据科学扩展到少数试点项目之外。

此外,虽然大多数组织了解数据驱动的价值,但许多组织将数据科学视为一个孤立的集中式支持功能,它根据不同团队的请求工作。这与数据科学的本质是不一致的,数据科学是实现业务目标的一种手段。正如 Anaconda 的首席执行官王蒙杰所说,数据科学是在商业世界中导航的“一种调查和探索模式”。

正如物理学家使用数学来推理自然世界一样,数据科学家利用数学和计算工具来推理商业世界。—王蒙杰,Anaconda 首席执行官

这种孤岛效应因一个错误的前提而加剧,即数据科学的最终目标应该始终是能够自动化或简化组织内主要垂直生产的人工智能模型。寻求直接投资回报的公司失望地发现,事实往往并非如此。

这种狭隘的数据科学观将其价值归因于相对难以实现的预测分析(即利用数据预测未来的能力)。它还忽略了大规模执行机器学习所需的基础设施工作。然而,数据科学的大部分价值来自于实施相对简单的描述性分析(描述数据并将其置于正确手中的能力)和规定性分析(做出数据驱动的决策)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完成成功的数字化转型需要培养数据科学和分析方面的组织能力。这需要构建和执行一个智能的、包容的、可扩展的数据策略。

这就是我们的 IPTOP 框架的用武之地。IPTOP 是一个建立五大支柱(In 基础架构、 P 人、 T 工具、 O 组织、 P 流程)到可扩展地执行您的数据策略来完成一次成功的数字化转型的框架。加入我们即将举办的网络研讨会系列了解更多信息。

**## 基础设施

任何数据策略的目标都是将原始数据转化为洞察力和决策。这要求组织安全高效地收集、记录和存储数据,以便所有人都能访问。但是数据通常以不同的形式、形状和大小收集。有助于这一过程的各种数据库、数据湖、数据仓库、脚本和仪表板构成了数据基础设施。构建健壮的数据基础架构需要了解最佳实践。

将数据科学视为实现更好决策这一最终目标的一种手段,可以让组织根据他们所需的技能来构建自己的团队。基于角色的方法需要用实现业务目标所需的技能来识别、评估和映射绩效目标,例如预测流失或使用仪表板可视化数据。这导致每个角色都有专门的学习途径。

一个很好的例子是 Airbnb 的数据大学,这是他们的专有培训计划,旨在让每位员工掌握做出数据驱动型决策所需的技能。通过让非数据科学家的员工成为能够做出明智决策的公民数据科学家,数据科学团队可以腾出时间从事更具战略性的项目。

工具

虽然基础架构使组织能够从数据中获得洞察力,但工具可以促进和激励整个组织采用通用的数据语言。使用工具进行数据访问、分析、可视化和仪表板可以让组织变得更加高效,从而缩短获得洞察力的时间。这些工具包括从 Python、R 和 SQL 等开源编程语言到 Power BI、Tableau 和 Excel 等基于点击的工具。

在这些工具的基础上构建简化数据访问的特定于组织的框架,可以大大降低扩展数据科学的门槛。在 DataCamp,我们有专有的 Python 和 R 包,它们抽象出连接到数据湖、查询数据以及使用简单的命令聚合数据。任何人都可以回答类似于*“过去 Y 周课程 X 的评分是多少?”*用一两行代码。同样, Airbnb 有一个 R 包,可以根据他们想要的美感来方便地查询和可视化数据,这消除了猜测,以确保整个组织内一致的数据分析和可视化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

组织

数据战略的一个重要方面是如何组织数据专业人员。鉴于在大多数公司中,报告结构和议程推动工作,组织结构必须为你的公司建立可持续的成功。在数据科学家属于一个数据科学团队的集中式模型和数据科学家嵌入不同部门的分散式模型之间存在权衡。

在集中式模型中,中央数据科学团队对来自其他部门的信息请求进行优先排序和处理。在这个模型中,问题进来,答案期待出来。这使得数据科学团队成为一个卓越的中心,在这里,数据科学家在一个战略方向下协作和共享知识。然而,这种做法孤立了数据科学团队及其工具,使得数据科学家与其他部门的协调和沟通变得复杂。

在分散模型中,数据科学家被嵌入到组织内的不同部门。随着数据科学家获得成功所需的领域知识,这为数据科学提供了影响其部门战略方向的席位。然而,由于它们是分散的,由业务团队经理管理,缺点是它以牺牲数据科学家的成长、学习和发展以及协作能力为代价。

这两个模型应该被看作是一个光谱的两个相反的末端。有许多混合模型结合了集中式和分散式模型的元素,以不同的方式对部门进行分组和捆绑,以最大限度地发挥数据科学的价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

处理

最后,构建可扩展的数据策略需要在约定、最佳实践和流程上保持一致。促进一致性对于促进协作和避免孤立的组织至关重要。这允许所有团队无缝地一起工作,并在一种公共的数据语言下进行交流。

开始在流程上建立一致性的一个简单方法是创建一个预定义的项目结构和模板,其中分析项目的不同任务和子任务被提前用它们的需求映射出来。微软已经采用团队数据科学流程,该流程允许任何利益相关者清楚地了解项目需求,利用模板进行数据分析和计算能力访问,并确定谁拥有流程的不同阶段。

根据您的组织和行业,预定义的项目模板可能受特定法规要求的约束,并且可能需要复杂的流程。您可以利用开源工具来设置项目结构模板,以增加团队和数据专业人员之间的一致性。

这只是我们在组织内扩展数据科学的 IPTOP 框架的皮毛。如果您想了解更多信息,请参加我们将于 8 月 20 日、8 月 27 日和 9 月 3 日举办的由三部分组成的网络研讨会系列

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传**

在星巴克培养数据素养

原文:https://web.archive.org/web/20221129041532/https://www.datacamp.com/blog/building-data-literacy-at-starbucks

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220926234434if_/https://embed.podcasts.apple.com/us/podcast/85-building-data-literacy-at-starbucks/id1336150688?i=1000561547159

DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了星巴克数据素养和知识管理总监 Megan Brown。

介绍梅根·布朗

Adel Nehme:今年早些时候,在我们的 2022 年趋势报告中,我们讨论的第一个趋势是组织将如何加快数据、文化和扫盲计划。有一件事证明了这一点,即组织内专门的数据角色的兴起,如数据、文化主管或数据素养总监,他们纯粹专注于数据素养和文化对话。

除了梅根·布朗,还有谁能更好地帮助我理解这些角色呢?Megan 是星巴克分析和洞察团队的数据扫盲总监。她成立了数据素养团队来推动分析、产品采用,并为业务利益相关者翻译复杂的概念。

在我们的谈话中,我们谈到了她的经历,推出了数据素养功能,以及她如何定义数据素养。作为她的计划的一部分,她希望改善的主要杠杆是什么,高管赞助、宣传和营销的重要性,数据扫盲计划,如何实现人工智能和数据科学的人性化,等等。

如果你喜欢这个播客,请确保订阅并评价这个节目,但只有当你喜欢它的时候,现在让我们开始吧。梅根。很高兴你能上节目。谢谢你邀请我来。今天能和你聊天,我真的很兴奋。你是真正站在数据素养对话最前沿的人,你为组织内的专业数据素养职能铺平了道路。

能否简单介绍一下你的背景,以及你将如何描述你目前在星巴克的角色?

梅根·布朗:当然。我是通过“为我而教”从一名五年级教师做起的。我没想到我会教五年级。我以为我会在高中教些东西,但我学到的是我非常擅长设计课程。

对于数学,但是对于英语语言艺术,最佳实践并不像我被告知的那样有效。所以我去了研究生院学习阅读理解,因为你要做的是研究最难的问题。获得了认知实验心理学博士学位。我工作的实验室做的是以前所知的神经网络模型。

现在深度学习语料分析。现在 NLP。然后是实验,当然,因为我们是心理学,你必须在我在的时候做实验。我也花了很多时间学习更多的 quant 方法。计量经济学,寻找我们正在建立的神经网络模型和结构方程模型之间的相似之处。

所以很有意思。那是我的爱好。2008 年后的某个时候,我的朋友们开始离开去做数据科学家。我就想,哦,这对我没用。我不一样,不管怎样。从某种程度上来说,很明显他们有更多的。工作中的乐趣。他们正在解决具有挑战性和有趣的问题,他们的发展速度比学术界快得多。

所以我穿越过来,开始做一个围绕人的数据科学家,数据科学。所以一开始,我的主要工作是为员工和大公司提供预测性流失模型,试图通过给他们一些预期,比如为什么那个人可能有风险,来帮助他们的经理更好地领导。

从那以后,我做了一些不同的事情。所以我进入了市场营销,数据科学,然后营销分析,我一直在疫情的人,领导。所以我转到了,我想我应该说现在我是知识管理和数据素养团队的一员。我的组织第一次做这样的事情。

那么,如果你想一想,知识管理正在使我们在过去三、四或五年中产生的作品变得非常容易找到。数据素养确保发现它的人知道如何使用它。

Adel Nehme:那真是太棒了。教学学术和应用数据科学的背景非常适合领导数据素养职能。

我想为今天的对话搭建一个舞台,并从某种程度上解开和分解在一个组织内推动他们的读写能力意味着什么。所以让我们从基础开始。你如何定义数据素养?

梅根·布朗:在星巴克,我们有一系列处理数据的技能。有些人对此相对紧张,而其他人只是每天都在数据中。

无法想象没有它做决定。我们的观众中有许多天才。因此,实际定义数据素养有点困难,因为有些人只是想使用仪表板。告知他们的决定。你想让其他人用正确的指标定义,对正确的数据进行编码并实际运行某种简单、直接的分析。

所以要看观众。这个回答很糟糕但是。所以在某种意义上,这是一个技能的连续体。因此,自从你的部门成立以来,你和你的团队一直致力于启动和迭代数据扫盲计划。因此,我很想了解数据素养策略的主要组成部分在哪里,以及您是如何着手设计您的程序的?

我们真的以为我们要去教授课程,对吗?这就是我们认为第一个月要做的事情。事实证明,在你可以向人们教授你的作品之前,你必须让他们能够接触到你的作品。所以我们遇到了这个问题,人们把项目藏了起来。他们从来没有正确地发射它们。

所以我们知道他们,因为我们在组织里,我们想把他们带进一个班级,但是我们没有我们需要的东西来很好地整合它。所以我们在知识分钟上投入了大量的时间。这实际上是在清理我们分享工作的习惯。

有时候,数据科学家可能对大型演示有点害羞,所以他们倾向于避开演示和发布。他们认为,像 Tableau 上的甲板或发射将跨越业务的鸿沟。但并不总是成功。我们开发了一个工具,我们称之为探路者。所以这是一个非常非常简单的搜索。

这是一个非常数据科学的知识管理问题的解决方案。你有一张桌子,上面有一个仪表板,允许人们搜索。我们做了一些发射训练。我们列出了所有的发射习惯。我们的组织为人们制作了一份菜单,这样其他人做得很好的事情就变得很明显了。

我们还涉足标准化数据工程过程,标准化我们共享代码的方式等等。这是我们第一次面对内部。我们目前的方法。所以我们认为我们要教的这些大班将会非常令人兴奋。我认为在疫情有一件事情变得非常明显,那就是人们厌倦了屏幕,对吗?

所以我们就像,好吧,我们要做的有点不同。现在我们已经两年了,我们要和团队一起努力。我们正在试行一个项目,这是一个为期六到八周的教育迷你课程,15 分钟的数据课程。我认为我们主要关心的一个问题是,点估计到底是什么?点估计是什么意思?围绕这一点的所有其他数据呢?所以深入研究一下为什么我们要用平均值。这就是使用平均值的问题?诸如此类的事情。这在团队层面非常重要,因为我们知道我们可以得到他们领导的认可,然后我们就是优秀的数据科学家,他们会衡量所有的东西。

Adel Nehme:那真是太棒了。总之,如果我一开始说错了,请纠正我,这些工作实际上是围绕构建数据团队如何与更广泛的组织进行沟通。然后你开始关注星巴克其他人的实际数据技能。

对吗?

梅根·布朗:是的。我发现,在我们倡导彼此的工作和采用之前,我们必须彼此分享我们所拥有的,即使是在组织内部。

Adel Nehme:关注打包、数据团队的输出和关注组织技能的其余部分之间的优先化过程是怎样的?

梅根·布朗:当然。我真的有点不耐烦了,所以这是我的风格。我是一个解决问题的人。如果你有问题来找我,我会努力解决,这可能是一个数据问题,一个数据科学问题。这也可能是一个文化问题。我意识到我陷入了越来越小的内部问题中,在这些问题上,我们无法获得我们第一次获得的回报。

要出去。所以我们决定转向。所以我们花了一点时间来摆脱内部的清理和组织,但是工作。但是我们已经在路上了。您在这里提到,策略的一部分是组织数据团队正在创建的知识,并使其可访问。

探路者

Adel Nehme:你称之为 Wayfinder 的工具,你介意告诉我 Wayfinder 是如何工作的吗?你在这个内部数据门户的工作中学到了什么?如我所说,这是一个非常合适的数据科学解决方案。我们创建了一个表,并在其上放置了一个仪表板。所以这是目前最棒的了。

梅根·布朗:随着时间的推移,我们越来越多地采用 API。从人们只是放信息的地方获取数据,并在后台将它们折叠到那个表格中。所以,如果你想一想你的利益相关者,他们在星巴克关心什么,他们会关心套牌,他们关心演示和发布视频。

他们会关心季度总结视频。他们可能会关心白皮书。他们肯定普遍关心仪表板。这些是我们在探路者中内置的第一批东西。我们还对 Wayfinder 进行了补充,这是一个分析和见解库,用于一些更具技术性的内容。

这是我们做的第二件事,从我们的代码共享平台和技术文档平台中提取。天哪,我们还能在里面找到什么?我们的售票平台也是如此。所以你可以开始看到所有的。我们项目的各个部分汇集在一起,但是我们的利益相关者不一定能够访问这些信息。

Adel Nehme:随着时间的推移,当你扩大推广时,组织的反应如何?

梅根·布朗:这让我们的差距变得明显,这是解决问题的一部分。如果你找不到关于这个项目的信息,你必须去找。希望当你和人们争论的时候,他们把他们的信息放入一个系统,你可以从这个系统中为我们的利益相关者提取信息。

我们在星巴克有这种叫做沉浸的东西。这是你认识整个组织的人的地方。你不需要一个官方的理由来沉浸,但有半个小时的时间来谈论你做什么,他们做什么,他们的狗做什么,所有这些东西。所以在紧急情况下,我会经常提起它,看看他们是否听说过它。

有一半时间人们会说,哦,我喜欢。我可以找到任何东西,然后马上应用到我正在做的事情中。这太简单了,比以前简单多了。这让我非常非常开心。其他时候我向他们介绍它。我希望下一次我和他们交谈时,他们会对此感到非常兴奋。

它确实激发了星巴克技术的一些工作,叫做搜索和发现。所以想想看,这只是为了分析。所以我们不会分享来自其他组织的东西。在这个疫情的世界里,未来我们要么是远程的,要么是混合的,我们一直在招募新人。

为什么他们必须在 70 个平台上搜索才能找到一个东西?这就是根本问题?我们如何能使这变得更容易?有趣的一点是,指标和指标定义最终成为了它的核心,因为这是要展示的东西。在其他方面,你可以谈论你的销售和交易指标,以及它显示的任何资料或视频,你应该能够将它们联系在一起。

星巴克的学习计划

Adel Nehme:当然,如果没有数据技能和教育,我们就不会谈论数据素养。你能告诉我你是如何在星巴克建立学习计划的吗?你最初的学习目标是什么?

梅根·布朗:所以我们有一个非常非常实用的重点。我们的主要目标是推动我们的工具和资源的采用。因此,虽然一个学习和发展组织可能关注的是,这是一个发行版和所有这些通用的东西,但我们非常关注的是,就像你在市场营销中一样。这是你的仪表板。让我们讨论一下这些仪表板中有什么,以及您可能做出的决定。

有了这些信息。这就是我们工作的核心,我们将做一些基本的数据素养构建。例如,我们将围绕机器学习做一些概念,但最终真的是服务。让人们使用我们的工具,在日常工作中做决定。

Adel Nehme:与营销团队的对话是什么样的,您如何调整您的计划的学习目标,以适应任何给定团队的业务成果或业务目标?

梅根·布朗:所以我们,我们现在只是试点。我要说的是,我们知道每个团队都有不同的需求。所以现在,在我们的试点项目中,我们正在与领导者合作,找出他们认为他们团队的机会在哪里。在未来,为了扩大规模,我们实际上需要把它变成我们自己。

Adel Nehme:我认为公司在设计数据技能计划或数据素养计划时,有时会陷入分析瘫痪,因为要教授这么多级别的能力,你需要考虑不同的角色需要不同的技能,等等。你能告诉我你是如何管理这种复杂性的吗?谁是你学习的主要角色?

梅根·布朗:我们根据人们的角色、兴趣、技能和学习方式开发了一些基于面试的人物角色。所以我们关注的基本角色是我们称之为顾客的东西。

这些人通常会带着请求来找我们,但有时在他们的工作中可能会也可能不会使用这些请求的输出。所以我们有这些合并的 8%。他们从各种各样的人到建筑商、倡导者和领导者,从那些实际上让我们的业务保持运转的人,到那些可能不使用数据的人,因为他们可以避免使用数据。

他们可能会使用一些数据,因为他们知道数据在哪里,但他们不知道其余的数据在哪里。然后也许还有。就像一个分析数据的分析师。他们知道它在哪里。他们已经问了足够多的问题来得到他们需要的一切。他们可以很容易地操纵仪表板。因此,他们已经提高了他们的技能,我们可以让他们学习其他东西,比如机器学习,让他们真正兴奋起来。

这就是,这就是我们所做的。所以我们选择了一两个人物角色来追踪。这就把空间缩小了不少。我要说的是,当我们为我们的技术人员、建造者和倡导者组织信息时,我们真的在挖掘星巴克的大部分企业人口

Adel Nehme:当接近这些不同的人群时,你是采用工具不可知的方法,还是专注于特定工具的技能提升?

梅根·布朗:我们追求星巴克使用的特定工具,我们必须非常非常实用。这对我们的许多合作伙伴和员工来说都是非常令人沮丧的。被告知事情是可能的,却没有被告知存在的事情。如果我们告诉他们事情是可能的,那会更糟。

然后他们实际上是这样的。

Adel Nehme:没错。我认为应用方法的真正美妙之处在于,你能够在人们已经熟悉的工具上获得灵感。那就是。我以前见过你讨论这个问题,你提到高管培训是如何在他们的团队中播下加速数字素养的种子的。

您能描述一下通过与高管进行这些学习会议来培养数据素养冠军的过程吗?

梅根·布朗:我认为一个组织不会改变,除非他们的领导人真的想要改变。还有。几乎可以说,我更愿意与领导喜欢的组织合作,是的,我的员工需要使用更多的仪表板来做出决策。

他们的衡量标准在每次演示中都是不同的。我从来不知道他们从哪里得到的数据。让我们解决其中的一些问题。然后,然后是一个领导者,对,数据。太酷了。所以说实话,当谈到喜欢与我们合作的团队时,我们确实会选择一些容易实现的目标,因为我的团队相对较小,我们需要在我们认为会产生影响的地方投资。

Adel Nehme:这总是来自愿意在这些数据转换项目上与您合作的领导层。

梅根·布朗:是的。如果领导不愿意对他们的团队说,使用数据做决策很重要。然后以某种方式激励,无论是社会还是积极的方面,激励人们真正转向使用数据来做决策,那么你不会得到你想要的改变。

你基本上会得到早期采用者,而不是其他人,因为其他人都像他们一样忙于自己的工作。

获得领导的认同

Adel Nehme:您能为我们介绍一下与一位犹豫不决并投资于团队数据技能的领导者进行的艰难对话吗?你是怎么开始那次谈话的?

梅根·布朗:我想说实际上更难的对话是人们说他们是支持的。这种情况在星巴克并不多见。他们说他们支持,但实际上,他们并不想投入时间来帮助他们的组织。所以它不会出现在第一次对话中。

没错。因为他们会说,哦,是的,数据素养。太好了。我上周在这篇文章里读到过,不管怎样。但是当你真的要求他们团队的时间时,我的心理学家就出来了,我谈论那些学习实际上发生了,行为改变实际上是如何发生的。

这就是,我想这就是我赢得人们的关键,如果他们没有实践他们日常使用的东西,这需要时间,那么他们永远不会改变他们的习惯

。对于许多商业领袖来说,在短期商业目标和长期积累利益的技能投资之间经常存在权衡。

Adel Nehme:你如何说服利益相关者投资一个长期项目,比如扩大规模?

梅根·布朗:所以我们在尽可能接近短期商业目标方面犯了错误。如果我们这周能改善人们的工作,我们真的很高兴。特别是,假设您从事营销工作,他们有,我们有三个营销仪表板,我们知道您只使用其中一个。

因为我们追踪用户。我们可以把你介绍给另外两个人。我们可以简单地谈谈这些概念,并让你使用它们。我认为我们要努力的方向实际上是拥有一群想要更多的人。那么第二层次的教育是什么样的呢?我们还不确定,但我们希望更多的拥护者向我们的分析和见解团队提出更难的问题。

所以,就像更具体的问题,不仅仅是数据透视表,可能有一个模型的东西,要达到这个模型,我们需要超越应用,但应用才是现在需要的。你在这里提到了营销,我认为在成功的数据、文化或数据素养项目中,一个未被充分讨论的杠杆是在营销中宣传的重要性,即获取数据技能的价值。

挑战和最佳做法

Adel Nehme:您能向我介绍一下您在 start 推广和宣传数据素养计划的过程中遇到的挑战和获得的最佳实践吗?

梅根·布朗:数据科学家不一定是营销人员。我们在第一季度了解到的第一件事是,嗯,也许我们目前的渠道不起作用。所以我们开始拓展现有的渠道。我们已经做了很多,在我们提出新的解决方案之前,我们使用了大量的用户研究,包括内部和外部。我们提出的一个问题是,你如何获得数据信息。有时答案并不令人满意。有时他们无法从数据中获取信息,这很有挑战性,因为我知道星巴克内部有很多人试图将信息传播到世界各地,但这意味着我们没有正确的渠道。

我认为我们已经建造了很多。我们有一份非常棒的组织时事通讯,很多人都收到了,我试着让我的团队在时事通讯中加入一些东西。每次出去的时候。当前的挑战之一是疫情人民的习惯已经改变。所以,在星巴克,时事通讯曾经非常有效。

我觉得有点累了。人们一天要开几个小时的会,不一定有时间深入阅读。所以我们的信息变得更短了。驱使人们去寻找资源,但我认为我自己也有一个未解决的问题,我认为不同组织的人们正在不同的地方获取我们无法获取的信息。

所以我的部分问题是,好吧,这些地方在哪里?他们例行检查什么?作为一个局外人,我如何接触到他们?我怎么才能把我的信息放进去?所以感觉更分散一点。那是在开始的时候,很有挑战性。我们有一群只在星巴克工作过的新人。

在以前,星巴克是一家非常注重关系的公司,你可以通过关系获得很多信息,我们真的希望打破这种权利,让它脱离关系,让它成为人们可以很容易找到的系统化的东西。从没去过支持中心的人。

Adel Nehme:那真是太棒了。我认为,从你们在这里的谈话中可以看出沟通的复杂性,即大规模的矩阵组织。那么如何处理通信和大型组织的复杂性呢?

梅根·布朗:我的意思是,即使在我们自己的组织内部,也有两种主要的沟通渠道。一种是面向业务的人和担任领导职务的人使用的。另一个是技术职位较高的人使用的。因此,即使在我们自己的组织内,如果我们有什么想说的,我们必须把它放在两个地方。然后,我们可能还得把它放到我们周五的咖啡品尝会上,就像你在星巴克做的那样,我们可能还得把它放到我们所有人的手里,因为。

人们很忙。他们现在不一定接受大量的信息。所以,我们真的可以在世界上尽可能多的地方获得信息,获得有趣的信息。感觉和其他人有点不同。那么,你认为高管对你的工作的赞助有多重要呢?

疫情发生了巨大的变化。所以我要说的是,大辞职实际上首先打击了领导力。所以我们的道路非常非常清晰,然后变得不那么清晰。没错。因此,我们发现,我们认为可以成为冠军的人不再是冠军了。

不幸的是,我们真的发现自己常常是从零开始,但这就是当变化真正接管时所发生的事情。

Adel Nehme:从战略角度来看,高管赞助如何帮助您打破这些孤岛?甚至,在大辞职之前?

梅根·布朗:我们参与了一些对话,并能够向观众演示,否则我们将无法获得这些演示。

是啊,真的。我们当时的 SVP,利用他和其他人的关系让我们进入房间。我的意思是,这是令人愉快的,我们正在雇用一个新的 SVP。因此,在某种程度上,我希望再次利用这一点。

自动化

Adel Nehme:那么当在组织内宣传数据科学时,您是否发现更广泛的人群中存在焦虑?这需要缓和。例如,数据科学、数据技能、机器学习往往与自动化和失业联系在一起。然而,证据往往指向增强而不是自动化,你如何有效地传达信息,即数据技能增强工作,但不一定使它们自动化?

梅根·布朗:我认为实际上这是我们有时使用说明性分析的地方之一,这种方式真的会激怒人们。因为如果你开了处方,而他们在这个过程中不能像人一样做出决定,他们就会拒绝。我认为在某种程度上,我们需要讨论的是投资组合方法。

这也是来自教育。所以你的投资组合中需要数据。当你做决定时。每个决定都有它自己的一套东西。人们当然有很多经验。他们有很多我们没有的相关业务信息。我们的模型可能不会浮出水面。因此,一切都需要在上下文中进行,这是一门艺术,最难的部分是让业务人员熟练掌握如何将数据纳入他们的投资组合,或者咨询数据或决策科学家以将数据纳入他们的投资组合。然后,我们还必须与我们的数据和决策科学家合作,提高讲故事的能力和商业敏锐性,这样他们就可以成为投资组合的一部分,而不会有太多需要交叉的语言争论。

Adel Nehme:您是如何围绕自动化展开这些对话的?

梅根·布朗:我的意思是,我经常开玩笑说机器人将取代我们的工作,但老实说,也许它们会先出现。嗯,

我知道。我用了很多幽默。我认为我们在文化上也有点害怕数学。就像我在小学时约会过的那些为了逃避数学考试而把订书钉穿过拇指的人。所以数字不一定是我们感觉最强烈的地方。所以部分原因是他们担心自己的职业生涯会保不住。

随着他们对数据分析和机器学习的需求。这也是我们交流的一部分。如果我们不关注业务环境,而我们和业务受众一起深入事物的技术层面,他们不是真的在听,我们是在自言自语。

这只会增加对数学的恐惧。然后我认为围绕数据科学有太多的炒作。机器人即将到来。我们将不再需要人类来做这些决定,但事实上,叙述应该是,我们正在增加你的工作。我们可以做出这些让你很烦的非常基本的决定,我们可以帮助你做出这些决定,你可以检查我们所有你想检查的东西,但是你可以做出这一层的决定,就像,我们还没有能力推荐。

也许不应该。

Adel Nehme:我完全同意将数据科学和人工智能人性化,并使用幽默和朴实的语言来描述机器学习和数据科学。我认为数据科学家在交流中有时会犯错误,因为他们采用了技术帽子,这加强了他们对数学和许多听众的恐惧。

现在,当然,通过项目内部的交流和积极参与,你也一定会收到很多关于如何改进项目本身的反馈。所以你能告诉我们。比如数据扫盲计划。在寻求改进时,你优先考虑的主要输入是什么?

梅根·布朗:正如我之前所说,我们做了大量的用户体验研究。在过去的一年半,两年里,我们学会了用一些线框来表达一个想法,更广泛地谈论它,使用它,帮助我们做决定,然后得到。因为我们是第一个以这种特殊方式在星巴克这样做的人。

我们真的不知道。我们不知道人们是否想在团队里上很多课。我们不知道他们是否想要三个小时的时间来学习数据科学和机器学习的概念。所以我们真的会互相竞争。我们有满意度指标,喜欢人们是否喜欢它,但我们也有。

考验人。我们考他们是因为我们想看他们做我们教他们做的事情。否则我们喜欢,不管他们有多喜欢。所以,所以我们试着对它非常友好和轻松,但是我们绝对要求他们向我们展示他们刚刚学到的东西。

构建数据文化和数据素养

Adel Nehme:现在,展望未来。我认为你的角色非常迷人,因为你坐在一个融合了数据科学和学习变革管理的职位上。只专注于构建内部数据、文化和数据素养。我的一部分感觉数据素养角色正在经历,或者数据科学家角色在 10 到 15 年前经历过。我现在更经常地看到组织真正投资于数据文化经理或他们的素养经理。所以我想知道,随着时间的推移,你如何看待这个行业内的角色或职能的演变?

梅根·布朗:以我的经验来看,很多数据科学和组织都犯了错误。很明显,在某种程度上只是技术性的,就像你有你的领导一样,但团队中的绝大多数角色都是数据科学、决策科学家和数据分析师。我认为将会发生的是,一些数据科学家真的很棒,并且对向企业推销很感兴趣。

凭经验,随着时间的推移,他们会做得越来越好。有些人不是。所以,我认为最大的问题是,如果一个组织发现他们有一个技术人员,而这个技术人员只是想做技术方面的东西,他们将如何翻译呢?没错。又信任谁来翻译呢?

因为我觉得气氛很紧张。我经历了很多紧张,即使作为一名数据科学家,围绕着谁该为谁说话。如果,当他们做报告时,他们一直在深入技术领域。这如何影响到业务?这就有点像我们期望数据科学家讲多少故事?

这是一个大问题。我有我的答案,但其他人有其他答案。我认为我们也有丰富的经验,我在三家相当规模的公司工作过。如果人们不了解数据,他们会将他们的数据问题外包给分析团队,这些问题往往非常低级,而不是分析团队真正想花时间解决的问题。

所以真正把它们拉平。所以我们得到了更多有趣的问题,然后试图找出我们该怎么做?我们围绕讲故事做些什么?谁讲故事?我们如何把人们从细节中拉出来?我认为。对于很多数据科学家来说。我记得不久前经历过这种情况,当你向企业推销时,你已经忽略了数据的所有缺陷和特征。

建模决策。您已经忽略了特性决策。你真的只是在讲述一个非常非常高水平的故事。当你已经工作了两个月的时候,你会觉得很不满意。变成那个东西。但是如果你深入细节,也许那东西不会被使用

Adel Nehme:从某种意义上来说,您是否看到数据科学在组织中分裂开来,有些团队专注于应用数据科学,有些团队专注于数据科学的采用?

梅根·布朗 31:43

我,我愿意。我认为这取决于我们期望人们做多少数据科学,以及人们做多少交流权重。我想我们现在对此还非常不清楚。总会有人为产品编码。数据科学和那里的人需要投球,但他们不需要一直投球。

但是,你越接近业务和直接的业务需求,你就越需要沟通,也越需要更好的沟通,

给任何试图进入数据的人的建议

阿黛尔·奈姆:我想我们会有大把的时间去寻找答案。现在,当我们结束时,您对试图在自己的组织内参与数据、文化和数据素养对话的人有什么建议?

梅根·布朗:我是那种最后总是以失败告终的人。不管我的工作是什么,我总是以教书结束,因为这不是火箭科学。我生来就不懂分析。我不是天生就懂数据科学的。所以我只是觉得这是可以分享的东西。所以我会说第一步是尝试教学,对吗?

如果有人进入你的公司,然后辞职,他们对此一无所知,你知道,你的价值不仅仅在于你的知识。你的知识非常重要。你的知识深度非常重要。如果你花足够的时间,你很容易成为 SMI,但我不会囤积知识。

我会确保你在分享它,确保你周围的人知道你在分享它,确保你的领导知道你在分享你的信息。这是团队成员的标志。这是好公民的标志。这也意味着你没有不安全感,对吗?你不担心那个人能和你跑一样的模式,因为你在不断学习自己。

Adel Nehme:太棒了。梅根,我聊得很开心。在我们结束今天的节目之前,你有什么行动要求吗?

梅根·布朗:我发现最有价值的事情之一是花几天时间与我们的利益相关者在一起,观察他们如何使用我们的仪表板,他们通过什么工具获得信息,他们忽略了什么,因为他们在那里,他们错过了信号。

我们发出去是因为我们没有把它们放在正确的地方。因此,如果你注意到你已经建立了一个仪表板,有两个人在使用它,去问那两个人,还有谁应该使用它,问你是否可以跟踪他们。因为这样你就能准确地发现你的仪表盘缺少了什么,或者你在关于仪表盘的沟通中缺少了什么。

这会阻止其他人使用它。

Adel Nehme:谢谢你的到来,data friend。

梅根·布朗:是的。很高兴感谢你。

你一直在听数据,由数据营组织播客。通过在您最喜欢的播客播放器中订阅节目,与我们保持联系。请给我们一个评价,留下评论并分享您喜欢的剧集,这有助于我们不断提供对所有事情的见解。数据。谢谢收听,下次再见。

构建高性能数据团队

原文:https://web.archive.org/web/20221129051850/https://www.datacamp.com/blog/building-high-performing-data-teams

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20221129054715if_/https://embed.podcasts.apple.com/us/podcast/72-building-high-performing-data-teams-with-syafri/id1336150688?i=1000537446823

DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了 Gojek 的数据科学副总裁 Syafri Bahar。

介绍 Syafri Bahar

Adel Nehme:大家好,我是来自 DataCamp 的 Adel Nehme,欢迎来到 DataFramed,这是一个涵盖所有数据及其对世界各地组织的影响的播客。无论是在网络研讨会、白皮书还是播客中,我们总是会想到 DataCamp 的一个问题是组织的数据成熟度,以及数据驱动型组织的标志是什么。

Adel Nehme:通常是基础设施、技能、工具、组织模型和流程的组合,能够实现大规模的数据驱动决策。这就是为什么我很高兴今天的节目能邀请到 Gojek 的数据科学副总裁 Syafri Bahar。Gojek 是一款印度尼西亚超级应用,提供 20 多种支持数据的数字服务,如食品配送、运输、商业、支付等。就此而言,这是该国第一个独角兽和十粒玉米,Syafri 监管着一个大型数据产品组合,并管理着各种数据角色。

Adel Nehme:在这一集里,Syafri 讨论了他的背景,高影响力数据团队的标志,他如何衡量数据活动的 ROI,每个成功的数据团队所需的技能,数据成熟组织的最佳组织模式是什么?新冠肺炎如何影响 Gojek 的数据团队。他对数据素养和数据治理的想法。数据科学和人工智能的未来趋势,以及为什么数据科学家应该在日益自动化的时代提高他们的数学和机器学习技能。

Adel Nehme:此外,我们非常欢迎您对我们如何让 DataFramed 为您提供更好的节目的反馈,以及您认为我们应该在节目中邀请哪些嘉宾。我在剧集描述中留了一个调查链接,请务必填写,我非常感谢。Syafri,很高兴你能上节目。

Syafri Bahar:是的,当然。非常感谢,事实上,我很高兴参加这个播客。

Adel Nehme:我很高兴与您讨论数据科学推动 Gojek 以及您在这样一个数据成熟的组织中开发的领先数据科学的所有最佳实践。在我们开始之前,你能简单介绍一下你的背景和 Gojek 的使命吗?

是的,所以我的名字叫赛法里。我已经在 Gojek 工作了大约三年。所以在此之前,我花了…就像我职业生涯的大部分时间实际上是在金融机构做模特一样。银行、资产管理、保险。我正在从一种风险跳到另一种类似的风险。我认为这很好,因为每种风险类型实际上都包含了不同的数学模型。所以这也让我接触到了很多不同的定量技术。

Syafri Bahar:然后,是的,现在我和 Gojek 在一起。所以,我实际上是在监督整体数据。因此,我在 Gojek 监管一个与消费者科学和分析相关的投资组合。我基本上监督几个工作阶梯。在 Gojek,我们有数据科学、决策科学和商业智能。所以,是的,这是我的一点点。我相信你也对 Gojek 很好奇。

Syafri Bahar:我认为 Gojek 本身就是一个超级应用,就像按需应用一样。尤其是与 Tokopedia 合并后,我们现在肯定是印度尼西亚最大的公司。然后加上 Gojek,我们有大约 20 多种产品,实际上,你能想到的都有。所以我们有打车服务,我们有送餐服务,我们有物流服务,实际上甚至还有流媒体服务。所以还挺多的。

Syafri Bahar:这些是我们可以向印度尼西亚客户提供的不同产品。我认为每四个印尼人中就有一个安装了 Gojek。所以这是件好事。就我们的司机而言,我们有大约 250 万名司机。所以基本上这是相当大的一笔,我想加上我们的新朋友,Tokopedia,我们已经贡献了印尼 GDP 的 2%左右。所以它相当大。是啊。

Adel Nehme:是的,这是巨大的。我认为对于我们的西方观众来说,如果我没有弄错的话,与 Gojek 最相似的可能是微信。因此,考虑到 Gojek 提供的各种工具和服务,我确信数据科学在不同 Gojek 产品和服务的价值链中扮演着重要角色。您介意简要概述一下为 Gojek 带来价值的数据科学的一些关键领域吗?无论是给客户还是内部使用?

Syafri Bahar:是的,当然。所以我认为,特别是我真正喜欢 Gojek 的地方,因为数据科学在我们提供的不同产品中发挥着核心作用。基本上,如果我们观察客户的整个生命周期,从获得、激活、保留、最大化,对吗?从他们的预订价值,甚至客户服务。我们有许多机器学习系统实际上在为这些用例提供动力。所以其实挺宽泛的。

Syafri Bahar:但如果我能说出其中的一些,那么我肯定认为 Gojek 的数据科学的第一个用例将是我们的匹配引擎。基本上,这是一个负责匹配司机和订单的引擎,对吗?我认为,从商业角度来看,它真正的好处在于它是一个多目标的项目。因此,人们实际上可以指定企业想要优化什么样的目标。然后系统会自我学习,然后给出最佳分配,这是第一点。

Syafri Bahar:你也可以在我们的搜索和推荐引擎上看到标准、简单、普通的用例。所以我们也申请那里。我认为 Gojek 最大的机器学习系统之一叫做[Gobstopper]。所以 gobstopper 本质上是一个推广分配引擎,对吗?因此,它基本上负责公司 80%的需求生成预算,这实际上是一笔巨大的预算。

Syafri Bahar:所以这个引擎要做的就是将正确的凭证分配给正确的客户。现在,我们基本上将反事实机器学习与一些抽象类型的优化相结合,以实现这一点。所以它是多种事物的结合。所以我对此非常兴奋。

Adel Nehme:是的,这是一个非常大的投资组合。一定很刺激。我想为今天的谈话做个铺垫。你现在是 Gojek 的数据科学副总裁。Gojek 是一个相当成熟的数据组织。它诞生时就考虑到了数据,许多组织将 Gojek 这样的公司视为他们想要成为的黄金标准或北极星。

高绩效数据团队的标志或特征是什么?

Adel Nehme:因此,成功实现数据转型和培养高绩效团队有很多方法。高性能数据团队是其中非常重要的一部分。我想知道你认为高绩效数据团队的标志或特征是什么?

Syafri Bahar:我认为,对我来说,是高绩效团队,但我描述高绩效团队的方式有几个特征,对吗?所以第一,他们需要被授权。我认为管理层的赞助在其中起了很大的作用。因为再一次,如果你看机器学习投资,有时需要几年。

Syafri Bahar:甚至不是几个月,它需要几年才能体现为可以测量的东西,对吗?因此,有一个执行赞助商是非常重要的,绝对是第一位的。这将确保团队感到被授权。我认为,授权也意味着团队应该有相对的自由去尝试不同的方法。我认为,特别是在 Gojek 内部,我们总是鼓励我们的数据科学家尝试最新的技术、最新的堆栈。然后他们带着实验结果回来给我们。

Syafri Bahar:这也非常有趣,因为这也是我们在公司层面上尝试做的事情。因此,当我们与高管交谈时,高管们已经预料到我们尝试了所有这些不同的东西。然后,当我们进行对话时,这不是关于我们是否可以开始调查它,而是,“嘿,这些是我们已经尝试过的一些新方法。这是结果,我们应该扩大规模吗?是还是不是?”

Syafri Bahar:但我认为这也影响到我们的数据科学家团队。所以赋权真的很重要。因此,能够非常敏捷地使用方法和进行实验、测量,就像非常快速的迭代一样。与赋权相关的是要有快速失败的勇气,但也要从中学习。所以这非常重要。

Syafri Bahar:第二,我认为一切都需要是可测量的。我想我们稍后会讨论它,关于可测量性。所以在我们拥有的所有不同的机器学习系统中,第一个问题是产品工程是我们想要集成的系统吗?它是否有足够的能力进行测量?我们希望在我们实际参与任何机器学习系统项目之前,确保这一点已经到位。

Syafri Bahar:所以,这也非常重要。当然,第三,我认为团队也需要被授权去做分散的决策。这也是授权的一部分,因为能够自己做决定,当然,使用科学的方法,我们将能够再次授权团队做出正确的决定,而不需要非常复杂的决策结构。是啊。

Adel Nehme:你在这里提到了产出的可测量性。我看到你们讨论的一件事,也是你们在这里提到的,就是确保高杠杆团队提高团队中每个数据科学家的投资回报率的重要性。其核心是衡量影响的能力。我认为许多数据领导者都很难量化他们的工作,尤其是在业务领导者关心的指标方面。那么,你能描述一下,为了让你的团队产出的量化值达到如此高的透明度,你必须跨越哪些步骤吗?

Syafri Bahar:是的,我认为进行数据驱动型对话的一个非常重要的因素,特别是与高管的对话,是通过问正确的问题开始一切,例如,影响是什么?在哪里可以找到数据?我们作为北极星使用的测量方法是什么?我认为这些对话实际上会渗透到团队层面的执行,对吗?所以,这绝对是第一要素,得到管理层的赞助。如果我看一下我们的首席执行官 Kevin,他在 Gojek 之前曾是 Zalora 的 BI 主管。

Syafri Bahar:当时他和另一位高级数据主管 Crystal 在一起,实际上他们建立了数据组织。因此,我们真正理解了拥有适当的数据提出正确的问题的价值。拥有正确的北极星度量标准也非常重要。因为使用这个度量标准,实际上,我们可以让每个人朝着同一个方向前进,对吗?所以毫无疑问,这是一个非常关键的问题。第二件事,比如有合适的工具也很重要。拥有合适的基础设施来进行测量。例如,我不得不说,拥有成熟的 A/B 测试能力非常重要。

Syafri Bahar:配置管理真的很重要。实际上,我们能想到的所有这些不同的基础设施,到位是非常重要的。这是第二层的数字。第三层是能够采用正确的方法进行测量,因为不是每个人都能通过 A/B 测试,对吗?这也是为什么我们有专门的工作阶梯的原因。我们称之为决策科学,实际上,他们基本上结合了许多统计技术,以真正回答我们在公司内部遇到的一些最大的问题。

Syafri Bahar:例如,我们如何衡量忠诚度的影响?你不能真的 A/B 测试忠诚度,对不对?然后我认为为了这个目的,我们求助于许多因果推理技术,为了能够做到这一点。然后,再一次,有如此多的选择,它们真的取决于我们试图回答的用例或问题。但是我想我想说的是,有一个真正合适的科学方法是非常重要的,这样才能提出问题,衡量它们,并且真正有意识地去做。有一个真正研究这个问题的专家,因为它本身就是一门学科,实际上对于达到那个阶段会有很大的帮助。

投资数据解决方案

Adel Nehme:既然您非常强调创建这种基础架构,并采用这种多层方法来衡量数据解决方案的影响,那么这在您的决策过程中会起到什么样的作用呢?您会进一步投资哪些数据解决方案呢?

Syafri Bahar:是的,是的,它确实影响了我们的很多决策,对吗?因为还是那句话,机器学习投资,或者说数据科学投资,总的来说,是相当昂贵的。因此,在我们开始任何机器学习项目之前,能够确定市场规模真的很重要,对吗?我们需要能够识别,我的意思是,如果我们比较五个用例,例如,我们谈论的是 1 美元对 100 美元的影响吗?或者我们说的是 40 美元,60 美元的影响。

Syafri Bahar:所以我认为这非常重要。毫无疑问,我们确实使用所有这些不同的基础设施来真正成为我们在公司内部进行各种对话的基础。这就是能够进行这种测量并能够使用它来进行正确投资的重要性。不仅如此,实际上,我在说…我是说,这还是第一层。所以第一层实际上是关于我们想投资是还是不是?

Syafri Bahar:第二层问题可以是,“好的,现在,如果我想解决这些问题,我有 10 种不同的解决方案,不同的数据科学,会有不同的方法来构建这些问题,对吗?”例如,我可以把它框架为无监督的,监督的,强化学习。每一种都有自己的复杂程度。我认为能够衡量这种努力是非常重要的;真的要衡量努力和影响之间的权衡,放入尼斯象限,然后真的,“好吧,这是我们想要做的方法。”这就是我们进行决策的深度,基本上使用所有这些不同的基础架构来对我们的数据科学项目进行决策。是啊。

Adel Nehme:你在这里提到了决策科学家的使用。因此,从技能的角度来看,考虑到 Gojek 内部数据科学的流行程度和多样性,您认为每个数据团队应该雇佣哪些不同的角色和不同的技能组合?

Syafri Bahar:是的,实际上这是一个有趣的问题。首先,我们想要一个,和这个播客特别相关的是数据科学家。好吧,所以我认为对于我们 Gojek 的数据科学家来说,他们擅长构建可扩展的机器学习系统。因此,从本质上来说,Gojek 的数据科学家有望成为全栈科学家,并且能够在构建这个机器学习系统时应用良好的软件工程原则。

Syafri Bahar:这就是数据科学家,如果我说得对的话,我会说得更清楚,Gojek 的数据科学家专门帮助公司快速、频繁地做出微观决策。好吧。现在,轮到决策科学家了。所以决策科学家,如果我想和数据科学家对比的话。决策科学家将专门帮助制定不太频繁的重大决策,这本质上需要大量类似的统计知识,以便能够找到问题并应用正确的技术。

Syafri Bahar:基本上我们还有商业智能。因此,商业智能在 Gojek 中的作用实际上是确保你有一个单一版本的真理,我们在这个版本中看待事物。然后,他们还负责定义正确的指标,确保数据可用。在某种程度上,他们也做[听不清]。能够绘制我们拥有的不同业务流程,并将其转化为我们拥有的表格。

Syafri Bahar:只是为了确保我们有一个合适的数据模型。因为我认为这也是非常重要的,因为如果你没有非常坚实的数据基础,我们就不能真正做很多我们想做的高级分析,对吗?拥有单一版本的真相真的很重要。拥有每周不会中断一次的可靠数据非常重要。所以是的,这些是不同的角色。当然,你也可以操作我们在 Gojek 内部雇佣的机器学习工程师。

Adel Nehme:当我们谈到数据团队时,我很高兴能够对此进行更多的讨论。通常,经历数据或数字化转型的组织都在努力寻找组织其数据人才的最佳方式。一些组织倾向于集中式卓越中心模式,其他组织则倾向于嵌入式模式,在这种模式下,数据科学家被整合到职能团队中。Gojek 的数据人才是如何组织的?

是的,我认为对我们来说,这也是一种进化。所以我们实际上尝试了各种不同的模型。我们从度量组织开始,我认为这对一个非常小的团队很好,因为我们想确保每个人都遵循相同的实践。因此,在我们应该如何做事的问题上,需要有一个集中的声音。

Syafri Bahar:基本上,我们当时所做的是,我们有一个中心团队,我们将他们分派到不同的产品上。但那时我们几乎是在扮演顾问的角色。但是随着团队的成长,随着 Gojek 内部用例的增加,这种模式不再可持续。所以我要说,我们现在所做的是根据联邦系统来运作的。

sy afri Bahar:Gojek 的每个数据主管或数据负责人都有自己需要关注的领域,我们在业务团队和产品团队中非常深入,只是为了确保我们真的感受到压力,就像我们真的投入了一样,我们也参与到了这场游戏中。这也让我们能够思考比我们试图解决的问题更大的问题。

Syafri Bahar:这也非常重要,对吗?为了确保我们在实践和职业道路等方面的一致性,我们在 Gojek 的数据领导者中成立了一个委员会,以确保我们也遵循相同的实践和标准。但目前,我们已经完全融入了业务团队和产品团队。

Adel Nehme:那么您认为随着组织数据成熟度的提高,运营模式需要随着组织的数据能力而发展,并转向更加混合的方式吗?

Syafri Bahar:是的,我会说,即使这是不可避免的,我会说。因为否则,组织会变得太复杂而难以管理,对吗?对于职能部门的领导者来说,这也是非常困难的。尤其是在数据科学领域,对吗?这就像,如果你想进行有意义的对话,数据领导者需要有两到三个层次,更深的背景深度,基本上是为了能够与团队和他们的业务领导者进行有意义的对话。

Syafri Bahar:然后,如果我们这样说,在这里很难保持知识,比如有一个背景,特别是在 Gojek 的各个领域。我认为这种模式是不可避免的。

Adel Nehme:正如你所说,游戏中的皮肤非常重要,因为否则,数据科学家只是在特定或运动的基础上创建分析,这不一定会使影响最大化。

Syafri Bahar:正确。我想我还想鼓励的一件事是,我试图鼓励传统的数据人员,一般来说,数据专业人员,被视为服务提供商,但我试图在组织中树立的是,数据人员不是服务提供商,我们是思想伙伴,对吗?这意味着我们需要在问题形成的最开始就参与进来。因为这样我们才能给出一份好的推荐信。我们在游戏中有一个皮肤,等等,等等。我认为这样做有很多好处。

结合商业智慧和数据

Adel Nehme:那么你是否认为数据科学家最终往往没有真正打造出商业敏锐感或对他们正在研究的用例的理解?你认为数据团队应该专注于向他们的数据团队灌输商业智慧吗?

是的,我也这么认为。我认为,让我们的数据团队了解全局对我们来说非常重要,这也有助于我们超越给我们的预定义问题陈述。所以,是的,但我认为这真的很重要。我并不是说所有的组织都是这样工作的。我认为这真的取决于我们解决的问题的类型。我认为对于一个非常超优化类型的问题,这是有意义的,对不对?

Syafri Bahar:第一,我们只是基本上坚持问题,我们真正深入问题 100 层,然后真正解决它。但特别是对于有很大程度模糊性的问题,我认为参与对话真的很重要,对吗?因为它可以走向多个方向,特别是在我们想要解决的目标中,所以我认为这就是我如何区分何时特别是数据团队需要从一开始就参与。

Syafri Bahar:或者也可以是问题陈述非常清楚,对吧?我们希望优化转化,例如,通过建立我们的推荐引擎,然后很明显,我们需要高度关注这个问题。

Adel Nehme:作为一名数据领导者,作为一名管理多个数据团队的人,这些团队负责不同产品和服务的组合,我确信新冠肺炎·疫情极大地影响了您的团队以及您所从事和维护的不同数据科学解决方案。你介意向我们介绍一下你是如何处理影响你的模型的概念漂移的,更重要的是,你是如何在巨大的不确定性和压力下设法维持高绩效的数据科学家的?

Syafri Bahar:所以我主要从两个角度来阐述这个问题。第一,这就是疫情对我们团队的影响。所以我认为,就疫情本身的影响而言,或者更具体地说,我们需要远程工作的事实,它并没有对我们的团队产生太大影响,因为即使在疫情之前,我们已经是一个分布式团队了。所以我们的团队其实分布在几个城市。我们在新加坡、泰国、越南和班加罗尔都有团队。例如,我们的一些同事甚至也在亚洲以外的地方工作。所以这对我们来说不是问题。

Syafri Bahar:我们加倍努力的一件事是我们需要非常擅长文档。每个人都需要非常擅长文档,因为每个人都需要远程工作,这意味着一个强大的通信手段将是通过文档。所以我们非常重视文档,这是肯定的。我们总是在 confluence 上更新,只是为了确保模型有适当的文档,它可以被遵循。有链接到我们的数据源,到 GitHub,和许多其他东西,对不对?这是第一点。

Syafri Bahar:第二,对模型的影响。我认为,即使在疫情会议之前,如果你看看市场,我们也承认并意识到我们已经在不稳定的环境中工作。尤其是我们在一些市场占据主导地位的事实,这意味着我们对模型所做的任何改变都有可能改变客户的行为,这意味着还有很多反馈回路,对吗?这意味着市场无论如何都会改变。然后我们需要像往常一样处理这件事。不是作为一种现象,对吗?

Syafri Bahar:但是我们总是需要确保我们的特征没有漂移。我们需要确保我们有一个频繁的培训。我们越来越意识到,我们需要在建模中采用更多的适应性学习技术,以便能够捕捉不断变化的市场形势。所以我认为对我们来说,现在可能只是总结一下,一切如常。但当然,就业务本身而言,它在很大程度上受到了疫情的影响,对吗?所以这是肯定的。我们看到了。但是就我们如何工作,以及我们基本上如何创建和监控我们的模型而言,没有什么显著的变化。

Adel Nehme:是的,我认为这就是 Gojek 的数据成熟度发挥作用的地方。我认为,许多组织今年意识到,他们确实需要投资于 MLOps 以及在生产中监控和更新模型的能力。这在 Gojek 可能不是问题,因为这是你们已经具备的能力。

Syafri Bahar:对,没错。我还必须称赞数据科学平台团队。我认为他们做得很好,为我们提供了我们需要的所有不同的基础设施,以便通过反馈回路、部署技术等来实时监控模型性能。所以他们很棒。

一个数据成熟的组织有什么特征?

Adel Nehme:太不可思议了。我很乐意将我们的对话扩展到创建高影响力团队之外。正如我们在本集前面所讨论的,Gojek 是一个真正高度数据成熟的组织,它生活和呼吸着数据。您认为在高影响力团队之外,数据成熟组织的特征是什么?

Syafri Bahar:我认为它不仅在于我们可以看到和触摸到的有形的东西,而且我认为,在精神上,它也是非常重要的。我认为,一个特征是,这与数据团队关系不大,但它只是整个组织。我们需要生活、呼吸,然后我们需要在日常对话中使用这些词汇,对吗?

Syafri Bahar:我们真的需要问一下相关性与位置、偏差、值、贝叶斯漂移是什么?我认为这应该是日常对话的一部分,这样一个组织才能被贴上数据成熟组织的标签,对吗?所以这是文化中固有的。我认为这不仅仅是工具和仪表板。我认为这确实是一个特征。

Syafri Bahar:我认为这也非常重要,我怎么强调都不为过,你的领导要树立榜样,对吗?因为一切都始于向产品团队和数据团队提出正确的问题。因为这些问题实际上会影响很多事情。我也许可以举一些早期的例子,当我们说,“嘿,我们想衡量一下,例如,拥有一定的忠诚会员会有什么影响,对吗?”

Syafri Bahar:这让我们想到,“嘿,我们还没有任何基础设施来测量这些东西。所以我们需要开发更多的东西,对吗?”然后我们开始探索,我们看到,“嘿,也许我们可以使用工具变量。比如随机鼓励,对吧?”这也引发了我们围绕这一点构建能力。比如,“嘿,作为一家公司,我们可以产生哪些工具变量来帮助我们衡量某一现象的边际影响,而这种影响无法用传统的 A/B 测试来处理,对吗?”

Syafri Bahar:我想再次说明提出正确的问题是多么重要,特别是对于数据成熟的组织,因为这将揭示我们需要从数据角度构建的所有流程。是啊。

Adel Nehme:当谈到创建数据驱动的组织时,我完全同意精神和文化的重要性。我真的认为这是主要的区别。你在这里提到了基础设施。关于 Gojek,令人印象深刻的一点是基础设施如何适应创建高影响力的数据科学。

Adel Nehme:我看到你在其他采访和小组讨论中谈到了这一点,这也是 Gojek Medium 博客中的重点内容。您介意向我们介绍一下 Gojek 为了促进高效数据科学而采用的不同技术和基础架构级别的创新吗?

Syafri Bahar:对。所以我认为有几个…所以我们可以从 MLOps 的角度来谈。我们也可以从我们现有的下游数据工程堆栈来讨论它,对吗?因此,我认为我真正喜欢 Gojek 的一点是,我们喜欢开发自己的解决方案,尤其是当我们认为第三方解决方案实际上无法满足我们的需求时,对吗?所以我们实际上也开发了很多内部系统。

Syafri Bahar:它是必不可少的,也像包装最近的一些技术,例如,我们谈论存储轨道,例如。所以我们围绕它做了很多包装。仅举一个例子,为了帮助我们将数据从一个地方移动到另一个地方,我们在 Gojek 内部构建了大约 20 到 30 个数据工程工具。我们希望得到不同的转换,例如,数据编目,我们也有一个解决方案。

Syafri Bahar:例如,我们还构建了 Optimus,这是用于进行数据转换的 CLI。所以我们制造了相当多的工具,对吗?这只是从数据工程的角度来看。所以 20,30 个工具。当我们看 MLOps 团队时,数据科学平台实际上已经为我们构建了相当多的工具。我也许能告诉他们中的两三个。

Syafri Bahar:比如梅林。所以 Merlin 是数据科学家用来部署模型的工具。过去部署一个模型需要两到三周时间,现在我们只需 10 分钟。我们需要做的就像保存 pico 文件一样,二进制文件。然后,我们将 MLFlow、Kubernetes deployment、Docker 等不同的技术结合在一起,实际上将它们整合为一个简单的数据科学抽象。

Syafri Bahar:所有这些都由我们的数据科学平台团队管理。以 Merlin 为例,数据科学家只需保存来自 scikit-learn 或 PyTorch 的二进制文件,例如 TensorFlow,然后放入它,现在我们需要调用某个 API 链接。它会自动上传它部署在 Kubernetes。集群,它将创建测井系统,监测系统,以及漂移监测。就像一气呵成。挺好看的。

Syafri Bahar:我们也有,例如,Feast 是我们的另一个重要产品,我们与谷歌共同开发,现在也有几家公司在使用它。因此,Feast 基本上允许我们分离特征冲浪和模态冲浪,基本上只需为培训创建一个层 00:30:47]。

Syafri Bahar:例如,我们可以使用相同的抽象来服务模型。它还提供了一些很好的特征注册的可发现性,例如,能够进行历史冲浪或历史批量计算,或者像在线实时冲浪一样,对吗?只是使用一个通用的抽象。所以这非常非常酷。我们做了很多事情。当然,我们也有图灵,还有很多其他的东西,比如发条,这也是另一个产品。但是我建议观众们去看看我们的博客,看看我们制作了哪些不同的工具。

Adel Nehme:是的,我强烈建议大家去看看 Gojek 博客,这是一个展示团队开发的令人惊叹的专有技术和工具的真正橱窗。这些解决方案是开源的吗,Syafri?

Syafri Bahar:是的,我想大部分人现在都知道了。是啊。所以我认为尤其是我们的数据工程工具。我想就在最近,大概一两个月前,我们开始开源我们自己开发的工具。是啊。

数据治理

Adel Nehme:显然,以上我们都没有谈到。到目前为止,如果没有高水平的数据清洁度、质量和组织范围的数据治理,您介意描述一下数据治理对于扩展数据成熟度有多重要吗?

Syafri Bahar:是的,当然。实际上,我认为数据治理经常被忽视。人们通常认为这是理所当然的。嗯,对我们来说,这真的很重要,因为特别是,如果你看看印度尼西亚的监管框架,我们基本上是非常严格的。我们真的也想保持消费者对我们的信任。因此,我们实际上非常重视数据治理,甚至我们有自己的数据保护官。我们有一个数据治理委员会,它决定谁应该访问哪个列。

Syafri Bahar:在我们进入 NDA 之前,我们需要签署任何文件。最近,你们还推出了一个名为[海洋]我们的数据仓库的工具。新的数据仓库工具。有了海洋,我们基本上可以分离实体,我们真的可以治理,例如,我们可以在表示层和数据标记层之间进行分离,并提供非常具体的访问权限。

Syafri Bahar:所以我认为对我们来说,我想说的基本上是,这对我们来说是非常重要的事情。我们确实有一个委员会,我们确实有一个关于如何利用现有数据的管理流程。当然,我们内部也开发了各种工具来帮助解决这个问题。我认为我们的工作方式总是首先,我们讨论在拥有适当的数据治理和数据保护方面我们需要什么,然后我们会根据这些要求构建工具。

Adel Nehme:您认为在整个组织中实现高质量数据时,数据领导者的角色是什么?您能简要描述一下 Gojek 的数据治理计划的一些特点吗?

Syafri Bahar:事实上,这非常重要,因为我认为数据领导者在整个纵向数据治理中扮演着几个角色。我认为第一点就是设定期望值。我认为这很重要,对吗?

Syafri Bahar:因为没有明确的预期,这是一个有时被人们忽视的领域。所以设定期望值是一回事。第二,也是关于教育,关于我们为什么需要教育,对吗?例如,为什么一家公司在上市前需要适当的数据治理。

Syafri Bahar:所以我认为这是第二件事。我认为第三件事是需要在各利益相关方之间架起一座桥梁,基本上是在数据治理方面,对吗?因为我们需要从监管角度和消费者角度沟通多个利益相关方。消费者也是我们的利益相关者,但也喜欢不同的功能,不同的产品。所以我觉得搭桥也很重要吧?这实际上是三件事。设定期望,桥接,第三个是认证。

Adel Nehme:就工具而言,您在 Gojek 使用哪些工具进行数据治理?

Syafri Bahar:我们在内部开发了许多这些功能。我们围绕它创建了许多包装器。还有创造,例如,能够真正显示数据谱系的工具。并且也要理解,例如,这是否来自我们也定期维护的可靠的表。因为从历史上看,从我们拥有的超增长遗产来看,我们有数据有机增长的问题,真的就像它无处不在。

Syafri Bahar:例如,我们从派生表创建一个派生表。所以你最终创造了一个桌子的森林。所以我们也在清理过程中。所以,是的,但我认为就工具而言,我们试图在内部开发许多这样的功能,对吗?我们可能会使用第三方工具,但老实说,我对此知之甚少。

数据素养

Adel Nehme:我想重点讨论一下组织数据素养。作为一名数据科学高管,你的角色包括获得高管的认同,证明资源分配的合理性,以及所有这些有趣的事情。您认为高管需要具备什么样的数据素养才能在这些对话中富有成效,并批判性地评估数据项目计划的成功?

Syafri Bahar:但我认为这是我们无法真正控制的事情。我认为,总的来说,如果你看看这些公司,对吗?尤其是,当你看到不同类型的公司时,会有不同类型的领导。这些公司的领导层也将来自不同的背景,对吗?所以这有点像我们无法真正控制的事情。但我认为,这真的取决于数据领导层能够向他们清楚地表达这一信息…

Syafri Bahar:我真的希望有一些基础知识,至少在数据方面。但是,假设基础已经存在,就他们希望如何基本上尝试在数据方面提出某些议程而言,这实际上取决于数据领导者,以便迎合他们的受众。这作为一个例子,如果例如,如果我想为数据科学推动更多的资源,那么我会做什么,只要同行是理性的,我们基本上可以进行基于事实的对话。

Syafri Bahar:我会带着我的数据说,“嘿,这就像是三个人的团队,我们为每个用户,每个数据科学,实际上已经产生或者节省了这么多钱……”因此,我们实际上可以将其归一化为每数据科学的收益。然后,是的,我可以用它作为论据来推动更多的资源。所以这只是在数据科学的背景下。但是我认为在项目的背景下,比如在数据治理中,我认为,尤其是在数据治理方面,这正是我们需要做的事情。这是卫生用品,对吗?所以真的没有其他方法可以不这样做。说实话。

Syafri Bahar:我认为,为了在这个问题上进行富有成效的对话,我认为对方肯定需要对数据有一定的了解。我认为,特别是对于领导层,他们基本上是在上个世纪形成的,所以我要说,我认为他们在数据方面的素养应该没问题。

Adel Nehme:太好了。在我们的交谈中,您多次提到了数据文化、数据精神以及这一点的重要性。我相信这也与在组织内创建非常强大的自助服务分析能力有关。您认为数据团队在更广泛的组织中创造和打造这种文化以及使用自助分析方面的角色是什么?你在 Gojek 采取了哪些最佳实践来保持这一点,你有什么经验可以分享吗?

Syafri Bahar:是的,实际上这是一个非常好的问题。因此,在自助服务分析方面,我们正在尝试做几件事情。所以第一件事就是要有一个正确可靠的数据。这确实是第一位的。所以我们做的第一件事实际上是,我们试图先解决基本问题。你可能还记得过去成千上万的有机增长的表的所有这些不同的问题,对吗?

Syafri Bahar:我们试图先整理一下,对吗?首先要确保它是可靠的,基于可靠的数据来源,然后能够在此基础上创建适当的数据标记。所以这绝对是我们需要注意的基本问题。然后,当我们进行信息检索时,我们基本上会尝试做几件事情。

Syafri Bahar:所以第一,也鼓励我们的分析师或商业智能人员能够创建更动态的仪表板。因此,我们使用像 Streamlit 这样的工具,例如,能够创建一个复杂的可视化效果,以便能够满足商业人士的需要,例如,如果他们想创建一个故事,只需点击几次,就足够直观了。

Syafri Bahar:例如,一旦他们对某个领域感兴趣,按钮就会出现。只是为了帮助他们利用我们在 Gojek 获得的各种信息。这是我们尝试做的另一件事。另一件事是,我们试图开发另一个内部工具,基本上,也许我现在不能具体说明名称和它的作用,但基本上我们需要的功能是定义尺寸和测量,然后是过滤器。所以企业只需要知道三件事。

Syafri Bahar:所以他们可以拖放东西,他们可以增加尺寸,他们可以增加尺寸,然后里面的需求可以很好地产生。但这也需要我不是说我们 100%在那里,而是因为它需要大量的标准化。特别是考虑到我们有大约 20 多种产品,这不一定是最容易做的工作。能够标准化一切以达到那种状态。是的,但这些是我们目前正在思考和积极做的一些事情。

Adel Nehme:在消费者方面,数据教育在更广泛的组织中处于什么位置?在 Gojek,他们的文化教育有多重要?

Syafri Bahar:是的,这是一个有趣的问题,对吗?因为我们也意识到我们的许多消费者来自不同的背景。因此,我们也在积极推动数据扫盲。我可能会提到一个项目。我们有一个名为[数据英雄]的项目。因此,这实际上是一个旨在从根本上教育数据消费者的计划,教他们 SQL,教他们数据的基础知识。

Syafri Bahar:什么是你的数据仓库,数据集市,数据湖,和类似的东西,基本上是为了帮助他们自助。所以,这真的很重要,我认为你在创造这种意识。当然,这也很有帮助,因为我们的大多数领导(如果不是全部的话)都有很高的数据素养,对吗?因此,高层领导总是鼓励他们不断向下属询问数据,这样人们就会意识到进行数据驱动的对话有多么重要。这也给他们自己创造了教育自己如何正确使用数据的紧迫性。

趋势和见解

Adel Nehme:太好了。我想通过讨论一些趋势和见解以及你对数据科学和人工智能在未来扮演的角色的看法来结束我们的谈话。因此,Gojek 通过其技术在印度尼西亚和其他地方产生了如此大的影响,您如何看待人工智能和数据科学的进步进一步推动了 Gojek 客户的价值?你最感兴趣的进步是什么?

Syafri Bahar:是的,我认为有一些事情是正确的。所以我对因果机器学习的使用感到非常兴奋。因为我们做的很多事情都是固有的,例如,查看推广优化引擎的特定领域,对吗?把它框架为因果问题实际上是非常自然的,只是给你一个例子,例如,如果你想做流失预防,预测流失不会很有用,因为它会造成恶性循环,对吗?你预测那些天生就很难约束的人。

Syafri Bahar:所以我们需要做的是能够预测它们何时会被搅动,然后了解哪些治疗方法最有效地防止它们被搅动,对吗?所以能够以这种方式表达出来。我想我真的很高兴,特别是在最近几年,我们能够将因果推理重新构建到机器学习中,这样就可以利用机器学习在处理高维数据等稀疏数据方面的优势。这非常重要。

Syafri Bahar:在过去,我们需要手动指定混杂因素,但现在随着因果机器学习的最新进展,我们只需将数据放在那里,然后就可以获得边际影响估计。这个算法基本上会学习哪些是最可能的混杂因素,如果你在技术中使用混杂因素的话。

Syafri Bahar:这是第一条规则。我认为第二点,我也看到强化学习类型的算法有一个很有前途的未来。实际上我对此非常兴奋。如果你愿意的话,再深入一点,特别是关于马尔可夫决策过程,我认为它也有很好的应用前景,尤其是在动态市场的背景下。因为我们希望能够拥有可以在线学习的算法,基本上,我们不需要先下载它,进行动态训练,然后再将其推向生产。因此,我们希望尽可能地推进这种状态,基本上就像是一种自我学习。

Syafri Bahar:特别是在行为建模领域,特别是在营销和促销优化引擎的背景下,我们至少可以探索很多领域的潜在应用。所以,我也很兴奋。当然,最近的进展也在 GPT-3,你提到了与 AutoML,对不对?我认为这也是一个非常令人兴奋的发展,在这个领域也是如此。尤其是 GPT-3,我认为,我们仅仅是抓了抓我们能做的。

Syafri Bahar:是的,我认为我看到了一个数据科学解决方案将被商品化的世界,将会有许多开箱即用的解决方案,这样,作为数据科学家或数据专业人员,无法取代的将是真正的创新部分。因此,我强烈建议,尤其是那些有抱负的数据科学家,要真正提高解决问题的技能,比如创造力,要能够使用这些不同的工具。因为同样,我们可能只在一次点击中估计模型,但仍然需要对数学和统计学的深入理解,以便能够解释那些模型,那些解决方案,并能够从中做出决策。

Adel Nehme:是的,我知道你是一个超级数学迷,我也看到你争论为什么数据专业人员应该对他们正在处理的模型进行更深入的技术理解。您如何将这种世界观与数据科学家日益增长的自动化技术相协调?

Syafri Bahar:顺便说一下,我认为它有一个很好的目的,有各种不同的优化。它的基本目的是让机器学习和人工智能民主化,对吗?我认为对于某些特定的问题领域,这是有意义的。因为它基本上会特别是在重复性的东西上。我想我还记得吴恩达引用的话,所有可以在一秒钟内完成的事情,现在实际上就像是机器学习或人工智能的主要用例,对吗?

Syafri Bahar:但我认为也有越来越多,我们也发现了许多不同类型的问题,这些问题无法在一秒钟内真正解决。这些都是非常模糊的问题,例如,分发代金券,如何将用户发展到更成熟的状态。所以这是一个非常棘手的问题,对吗?所以,我想说的是,它有一个好的目的,但它可能无法解决我们目前面临的所有行业问题,特别是在可以产生很大影响的各个领域。这是第一点。

Syafri Bahar:第二,我认为,即使将来会有很大程度的自动化。但我认为,理解这些自动化解决方案背后的机制也是非常重要的,实际上,对于人类来说,能够就如何正确使用它做出明智的决定。例如,能够解释那些估计的副产品也是非常重要的;如何,而不是喜欢盲目套用。但是,在某些领域,我们可以轻松做到这一点。但也有另一个领域,你不能只是盲目地应用一些力学,对不对?因此,理解其机制并真正理解其功能非常重要。

行动呼吁

Adel Nehme:太棒了。最后,Syafri,在我们今天结束之前有什么行动要求吗?

西亚夫里·巴哈:对,我认为有很多…我也想和机器学习自动化的进步有一点点联系。我想有些人可能会想,“嘿,我们的工作将被取代,它将不再性感。”但我认为相反,我会说,未来将会需要越来越多不同种类的数据科学家;能够运用第一原则解决问题的人,他们试图将各种可用的解决方案结合起来,并能够决定哪些解决方案实际上能够解决特定的问题。

Syafri Bahar:所以这是一句鼓励的话,基本上,仍然要投资于该领域,特别是在一些新兴国家,如印度尼西亚,我们几乎没有注意到我们在影响方面可以做什么。尤其是如果你看到其中一些国家的结构性低效,数据专业人员就有巨大的机会在那里创造影响。

Adel Nehme:是的,非常感谢你的真知灼见,Syafri。我真的很感激。

Syafri Bahar:是啊,不客气。

Adel Nehme:今天的 DataFramed 节目就到这里了。谢谢你和我们在一起。我非常喜欢 Syafri 关于数据科学驱动 Gojek 的见解。如果你喜欢这个播客,一定要在 iTunes 上留下评论。下一集,我们将采访渣打银行前集团首席技术官、TruEra 现任首席战略官 Shameek Kundu。我希望这对你有用,我们下次在 DataFramed 上再见。

建立对人工智能的信任以加速其采用

原文:https://web.archive.org/web/20221129045128/https://www.datacamp.com/blog/building-trust-in-ai-to-accelerate-its-adoption

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

金融服务业坐拥大量数据。难怪这个行业充满了有前途的人工智能和机器学习用例。根据麦肯锡的估计,如果成功推出,人工智能可以在银行业产生高达 2 万亿美元的价值。在最近的一次网络研讨会中,渣打银行前 CDO 集团、TruEra 现任首席战略官 Shameek Kundu 概述了如何加速人工智能在金融服务中的价值。

Shameek 解释说,数据科学和人工智能在金融服务中的价值可以分为三大类:

  • 通过更好的客户体验和更好的决策提高收入
  • 通过更有效的风险管理和更高的运营效率降低成本
  • 发掘未实现的潜力和商业模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能在金融服务中的应用很广泛,但很肤浅

今天,金融服务中的许多人工智能项目仍处于起步阶段,由于各种原因,无法达到全面部署的最终目标。这些问题包括数据可用性和质量有限、部署人工智能系统的技术瓶颈等技术问题,以及缺乏数据人才和对人工智能系统的信任有限等非技术障碍。

解决人工智能系统中缺乏信任的问题

虽然复杂的机器学习模型,如深度学习模型可以为以前难以解决的问题,如蛋白质折叠提供深刻的解决方案,但它们并不擅长解释它们的预测。

如果这些黑箱的结果被盲目地应用在高风险决策中,如反洗钱和信用评分,它们会带来社会风险。不知道黑箱模型如何得出他们的预测,最终用户发现很难相信他们的输出,特别是考虑到高调的偏向人工智能系统的事件。

根据 Shameek 的说法,三个关键行动可以培养对人工智能的信任。

通过教育揭开机器学习的神秘面纱

全民教育教育是解决对人工智能恐惧的长期策略。随着内部利益相关者、监管者和客户对人工智能如何影响他们有了大致的了解,他们变得更有可能接受人工智能。

旨在解决技能差距的专业教育技术人才的缺乏阻碍了公司大规模实施人工智能系统。因此,旨在从人工智能系统中提取价值的公司必须愿意雇佣数据人才或提供专业培训来提升现有员工的技能。

为人工智能系统设置内部护栏

内部护栏是实现、评估和监控人工智能系统的指导方针。

这些护栏有三个主要部件。

  • 一套指导原则定义了人工智能在公司内部可以做什么的界限。
  • 内部利益相关者的促成因素促进人工智能的安全实施
  • 标准工具和技术评估人工智能系统的公平性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用工具和技术提高人工智能质量

人工智能生命周期中的差距导致质量问题蔓延到人工智能系统中。幸运的是,有工具可以减轻它们。

解释黑盒模型可解释人工智能领域仍然是一个活跃的研究领域。它有望打开黑匣子,揭开预测生成过程的神秘面纱并建立信任。

解决数据和标签质量低的问题学生可能在一个不熟悉的话题上考试不及格;如果在错误的数据上训练,机器学习模型可能表现不佳。如果用于训练人工智能系统的数据与它在部署中看到的数据截然不同,人工智能系统可能会失败。微软的 pythonResponsible AI Widget可以帮助识别和解决这类问题。

测试模型的透明度和公平性由于用于训练模型的数据中存在隐藏的偏见,模型可能会对某个群体产生不公平的偏见,如少数民族或特定性别。像 fairlearn 和 IBM 的 AI Fairness 360 这样的开源解决方案可以帮助解决这些差距。

结论

在公司内部建立对人工智能的信任需要协作和时间。组织需要提升人工智能人才的技能,并建立人工智能安全的保障措施,而人工智能从业者需要充分利用他们可用的工具,使人工智能对所有人公平。只有当人工智能成功赢得用户的信任,人工智能系统才能被广泛采用。

如果你对人工智能在金融服务中的应用感兴趣,请务必查看 Shameek 的点播网络研讨会“在金融服务中扩大人工智能的采用”。它提供了对人工智能应用的见解和加速其采用的实用建议。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据能帮助你申请 H-1B 签证吗?

原文:https://web.archive.org/web/20230101103415/https://www.datacamp.com/blog/can-data-help-your-h-1b-visa-application

如果你想获得 H-1B 签证,你应该在 3 月份通过位于纽约市的印度外包公司获得签证认证,雇佣程序员分析师,支付超过 75,000 美元的基本工资。或者至少,这是对来自 h1bdata.info 的数据的分析所表明的。

在当选总统唐纳德·特朗普(Donald Trump)以非法移民为中心的竞选活动之后,废除 H-1B 签证的声音和对 H-1B 签证改革程度的猜测越来越强烈,不仅在美国,在印度也是如此。距离唐纳德·川普就任美国第 45 任总统还有 15 天,现在是时候看看过去几年已经认证的 H-1B 签证了。

第一个发现是,获得签证的前 15 家公司大多是外包公司。尤其是总部设在印度的公司,如 InfoSys、Tata Consultancy Services 和 Wipro,占据了大部分份额:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其他印度外包公司,如 Tech Mahindra Americas,总部设在其他国家的公司,如埃森哲,总部设在美国的外包公司,如 Cognizant Tech Solutions,或总部设在美国的其他公司,如德勤,通常较少依赖 H1-B 员工。

这与其他消息来源非常一致,即如果 H-1B 改革通过,外包公司将是第一个接受更严格审查的公司。这些公司显然是所谓的“低垂的果实”:它们充分利用了当前的 H-1B 政策。然而,即使实施任何改革,仍然会对总部设在美国的其他 6 家公司产生影响。

但是,这不是外包与其他公司的问题,这 15 家拥有 H-1B 认证工人的公司表明,技术行业将受到影响:这些是信息技术或技术公司的名称。

抛开对行业的影响不谈,数据还显示,该州人口越多,需要 H-1B 签证的工作机会就越多:大多数申请人位于加利福尼亚州、新泽西州、纽约州和得克萨斯州。分析中突出的城市是纽约、休斯顿、亚特兰大、芝加哥和圣何塞。这些州认证最多的工作机会是程序员分析师。接下来是持有 H-1B 签证的软件工程师、计算机程序员、系统分析师和软件开发人员。

有一个问题是 H-1B 是否是一个廉价劳动力项目。数据显示,事实上,被拒绝的 H1B 申请的薪水更低。此外,75,000 美元以上的工资有更好的机会获得认证。乍一看,这似乎不一定适用于上面提到的工作:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

很明显,超过 75,000 美元的基本工资对大多数 H-1B 员工来说是无效的:中位数大约在 60,000 美元以上。将这些工资与可以在 PayScale 等网站上找到的工资相比,这并没有给人一种廉价项目的初步印象。这是需要在进一步分析中解决的问题。

h1bdata.info 数据还表明,三月是 H1B 应用获得认证的高峰。这意味着大部分人在一月份前已经申请了签证。但是,一般来说,申请人不必担心你的 H-1B 申请获得认证:在我们的数据集捕捉到的所有申请中,只有 5.13%没有获得认证。这个比例看起来很高,考虑到这个签证是给从事特殊职业的工人的(如上所述),以及要求,也许确实如此。这肯定是要重新考虑的事情,因为保护和增加美国就业法案似乎证明了取消硕士学位豁免的提议。

下图总结了上述调查结果。它显示了前五名 H-1B 工作的认证签证。不同的颜色表示签证的起始年份,圆圈表示基本工资:

https://web.archive.org/web/20220525030851if_/https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Leaflet_TopJobs_H1B.html

研究数据以帮助你的 H-1B 应用程序可能会有所帮助,但只是在一定程度上。目前,我们只知道这一点:我们不确定川普和他的政府将如何打击 H-1B 签证,但上面已经给出了一个好主意:外包公司可能是 H-1B 计划改革的第一批解决对象,从更高的层面上说,人口更多的州的科技行业是第一个感受到影响的。此外,对候选人的要求可能会变得更加严格。

你想亲眼目睹这一切吗?

你自己去分析数据吧!DataCamp 讲师 Ted Kwartler 将通过一系列 R 教程来指导您完成它!

  • 在 R | Exploring H-1b Data Pt 中进行 Web 抓取和解析数据。1 :在系列教程的第一部分,你将学习如何通过 R. 收集 H1B 签证的数据。
  • 使用 R 探索 H-1B 数据:第 2 部分:您将在收集的数据的基础上进一步构建,并了解如何为探索性数据分析(EDA)工作添加更多视觉效果并引入一些新功能。你可以在这里找到教程。
  • 使用 R 探索 H-1B 数据:第 3 部分:了解如何通过 API 对经纬度坐标位置进行地理编码,如何创建数据地图,了解 H-1B 软件开发人员的顶级雇主,并比较他们每年的工资。进入本页开始教程。

案例研究:数据现代化计划如何帮助转变您的公司文化

原文:https://web.archive.org/web/20230101103339/https://www.datacamp.com/blog/case-study-how-data-modernization-initiatives-can-help-transform-your-company-culture

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据我们最近进行的一项调查, 81%的公司专注于实施流程重新设计和文化变革,以建立数据流畅性。但是说起来容易做起来难。

对于许多公司,尤其是大型企业来说,有许多移动部分—常见的挑战包括遗留平台、繁琐的内部流程、抵制变革的文化以及不具备适当技能的员工。这些公司可能会受益于指导其数据转换的现代化计划。

“我的公司所做的最佳实践是定义他们的愿景,并成立一个委员会来监督这一转变。”—制造业总监

让我们看看我们的一个客户,一家全球保险提供商,如何从建立现代化委员会和精算学习支持小组中受益。

建立精算科学现代化委员会

精算师为保险公司分析金融风险,在美国等许多国家,他们必须通过一系列严格的专业考试,就像律师和医生一样。在他们的日常工作中,他们使用数学和统计学来评估保险和金融的风险。

精算行业在使用数据科学方面相当成熟,但这并不意味着每家保险公司都完全精通数据。许多公司希望在人工智能和机器学习方面进行创新并实施最先进的举措,但仍处于商业应用的早期阶段。

“保险是监管最严格的行业之一,保持正常运营需要付出很大努力。很多精算师很少有时间考虑未来。”—精算现代化经理

虽然我们的客户长期以来一直是保险领域的专家,但他们认识到需要跟上行业领先的趋势,如自动化和人工智能定价。因此,他们创建了一个精算现代化委员会,使精算师能够利用工具和技术来充分发挥他们的能力。

该委员会支持公司的所有精算师,帮助他们建立广泛的数据技能基础。它目前有大约 30 名成员,包括有经验的员工和新员工。他们的重点是通过推动数据和技术计划来扩展业务专长,特别是 Python,这是一种通用语言,能够解决几乎任何编程挑战

使用 DataCamp 边做边学

该委员会与一个跨职能学习支持小组合作,通过 DataCamp 对员工进行 Python 培训。他们发现 DataCamp 的边做边学方法对概念的实际应用很有用。7 月,学习支持小组建立了一个新的结构,成员在三到四周的冲刺阶段完成选定的数据营课程,并每周会面以练习和分享知识。

自 5 月份以来,33 名个人学习者在平台上花费了几乎 800 个小时,完成了 10,000 多次练习,完成了 53%的课程,这对于一个在线学习平台来说是一个很高的完成率。他们学习了 Python 的数据操作和可视化等技能,处理包含字符串和数字数据(包括时间序列数据)的真实数据集。许多学习者也在利用 DataCamp 的 R 课程来准备精算科学预测分析考试。

为了跟上数据和技术的不断变化,公司必须拥有重视持续学习的文化。有远见的公司不仅仅是雇佣数据人才,他们还在培养一种让员工保持学习热情的公司文化。投资于持续学习的文化创造了一个良性循环,因为这些公司正在吸引和留住顶尖人才。

您可以以我们的客户为榜样,通过 DataCamp 采用数据科学和分析来实现公司的现代化。让我们来帮忙。了解如何在datacamp.com/business安排我们平台的演示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cassie Kozyrkov 讨论决策和决策智能!

原文:https://web.archive.org/web/20221129045010/https://www.datacamp.com/blog/cassie-kozyrkov-discusses-decision-making-and-decision-intelligence

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220615200135if_/https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/516368949%3Fsecret_token%3Ds-zgV8g&color=%23ff5500&auto_play=false&hide_related=false&show_comments=true&show_user=true&show_reposts=false&show_teaser=true

数据营播客 DataFramed 的主持人 Hugo Bowne-Anderson 最近采访了谷歌首席决策科学家 Cassie Kozyrkov。

下面是播客链接

介绍凯西·科兹尔科夫

雨果:你好,凯西,欢迎来到 DataFramed。

凯西:嗨。谢谢你,雨果。很荣幸来到这里。

雨果:很高兴你能来参加我们的节目。我真的很高兴你们能在这里谈论数据科学、决策、决策科学和决策智能。但在此之前,我想先了解一下你。首先我想知道你的同事会怎么说你。

凯西:哦,天哪。嗯,我想这取决于同事。但我认为他们的共识是,我在应用数据科学方面有一些专长,尤其是。我帮助谷歌团队和我们的云客户有效地应用机器学习。

应用数据科学

雨果:太好了。你能告诉我应用数据科学对你意味着什么吗?

凯西:是的,所以当谈到数据科学时,让我们从数据科学的含义开始,然后我们会深入了解它。因此,对我来说,数据科学是一个伞状学科,其下有统计推断、机器学习和分析或数据挖掘。对我来说,这三者之间的区别不在于它们使用的算法,因为如果你聪明,你可以对它们使用任何算法。也不是因为工具,而是因为在不确定的情况下,你想用工具做出多少决定。有了数据挖掘,你真的想得到启发。还没有你想要的具体决定,但是你想看看你的数据激发你开始思考和梦想什么。统计推断是在不确定性下的一些真正重要的决策,然后机器学习和人工智能,它们归结为重复决策的处方。很多很多不确定的决定。

凯西:实际上,我认为数据科学是一门决策学科,将信息转化为行动。现在,这是应用还是研究方面的事情?研究人员更关注启用其他人将用来解决业务问题的基本工具。而应用人员会去寻找可用的工具,他们需要什么来解决这些问题。所以我不关注如何开发一个新的神经网络架构。我更关注的是,在商业领袖身上似乎有这种想法的萌芽。我们如何实现它,让它成为现实,建立一个团队来完成这项工作,然后确保从开始到结束的整个过程都经过深思熟虑并得到执行,最后,有一个安全可靠的结果。

你是做什么的?

Hugo:我认为,将这种形式的数据科学和应用数据科学作为一个分支学科,就像决策一样,是我们在这次对话中会越来越多地展开的内容。所以这真的很好地设置了场景。所以你说你的同事会将你视为应用数据科学的专家,并思考如何有效地使用机器学习。现在,你实际上是做什么的?他们对你所做的事情很满意吗?

凯西:他们很接近了。但我认为我关心的核心是统计学中第三类错误的概念。对于那些不记得你的错误的人,让我们快速提醒一下。第一种错误地拒绝了一个零假设。第二类错误地拒绝了无效假设,第三类正确地拒绝了错误的无效假设。或者,如果你更喜欢对同一件事的贝叶斯陈述,这是解决完全错误的问题的所有正确的数学。

雨果:太好了。你能给我举个第三类错误的例子吗?

凯西:是啊。因此,这是一个数据科学家小心翼翼地钻下去的兔子洞,小心翼翼地回答一个不需要回答的问题。因此,这可能是一些数据科学家听起来很熟悉的事情,我希望你不要太痛苦,因为这有点像新手抓住你,但它是这样的:你在那里,完成了本周的大部分工作。这可能是一个周五的下午 4 点,你为一个美好、自由的周末而兴奋,因为这是进入工业界而不再是学术界的全部意义。对吗?开玩笑的。不管怎样-

雨果:你一点也没开玩笑。

凯西:我是…好吧。我是开玩笑的。

雨果:当然。一点点。

凯西:是啊。好吧。

雨果:太好了。继续,继续。

凯西:好吧。我一点也没开玩笑。所以你在那里,你正准备回家,说一个产品经理来找你。带着这种紧迫感,他们想从您这里得到一个具体的测量值。或者回答的某个具体问题。你对自己说,“我的天哪。但这很难。那至少要花掉我整个周末。一直到深夜。我首先要想办法获取数据,然后我必须与数据工程师保持同步。我得在教科书上查找所有这些方法。这将是一件困难的事情。但你看,我是一个伟大的数据科学家,我可以做到这一点。我可以正确地做到这一点,我可以确保所有的统计假设都得到满足。到了周一早上,我会完美地交付这个东西。”所以在周一早上,你跪下来,向产品经理汇报这个结果。他们伸出头看着你,说,“哦。我甚至没有意识到这就是我所要求的。”

凯西:所以你在那里,一丝不苟,非常正确地解决了这个问题,但也相当无用。它没有任何发展,产品经理没有使用 ut 做任何事情,它只是被遗弃在丢失结果的沙发后面。这是第三类错误。

沟通和流程

雨果:那你怎么阻止这种事情发生呢?大概是在周五下午。大概涉及到沟通。对吗?

凯西:沟通是其中之一,但也是过程。因此,数据科学团队应该知道他们所依赖的其他利益相关者负责什么,以及这些工作看起来如何才能正确完成。所以我想谈谈这种数据科学的广度和深度方法。因此,一个严格的方法与一个更肤浅的,收集灵感的方法。第二个总是好的,只要你不会在上面浪费你的数据,希望你能尽快提醒我。但是,只要你有分配给灵感的数据,轻松、温和地查看它总是一个好主意。把你的眼睛放在那些数据上,看看它能激发你思考什么。它帮助你构建你的想法。

雨果:所以在这种情况下,我们正在考虑某种快速原型制作,以便-

凯西:我们在考虑一些更基本的东西。我们在考虑策划这件事。这与对一个具体而重要的目标的非常谨慎、严格的追求是分开的。首先,把这两者分开,说前者,那种宽泛的,浅显的方法,总是…这对每个病人都适用。我们就这么说吧。医生总是这样规定。只要你有多余的数据,就去做吧。但是不要把自己的结果看得太重,也不要做得太细致。

凯西:另一方面,这种更严格的方法需要付出很多努力。这不仅需要数据科学团队付出大量努力。这种情况下,问题是如何提出的,什么样的假设是可以接受的,等等,这实际上是决策者,商业领袖的责任。他们必须恰当地做好自己的工作,才能让这项细致的工作有意义。因此,如果你要去做一些严谨的事情,你需要确保这项工作是为你设计的。

雨果:对。因此,在这种情况下,数据科学家花了一个周末来解决这个问题,做了产品经理认为他们不会做的基本工作,解决这个问题的方法是做一些快速数据可视化,探索性数据分析,然后与产品经理就他们真正想要的进行对话。

凯西:我会说,事实上,正好相反。先和产品经理谈谈他们真正想要的是什么。如果他们想要的是情感上的东西,去感受一些东西,那就需要多打开一点,也许他们想要的是可能的,也许不是。也许看一看这些数据会产生他们想要的东西所需要的灵感。也许他们希望数据科学家是神灯中的精灵,可以实现不可能实现的愿望。因此,与他们交谈并弄清楚他们想要什么实际上应该是第一步。但比这更好的是,一个没有这种敌对关系的组织,假设产品经理不知道他们的角色。更好的方法是给项目配备训练有素、技术娴熟、知道如何做好本职工作的决策者,而数据科学家只需检查传入的请求。如果请求具有某种特征,他们会倾向于不做工作或做轻松的工作,如果请求具有不同的特征,他们会按照熟练的业务领导者所要求的严格和复杂程度,仔细、严谨和一丝不苟地做事。

雨果:我喜欢。因此,我们实际上是在明确地谈论,定义角色和定义围绕工作的流程-

凯西:当然。所以这可能会变得非常大和有趣,关于你如何安排这些团队,以及你如何安排这些过程。在最简单的形式下,它可以是谁以什么顺序与谁交谈的问题,但它可以比这大得多。

浪费数据

雨果:太好了。这是我们将在稍后的对话中深入探讨的,是这类工作的常见组织模式。但在此之前,我想提醒你一下,你之前提到的浪费数据的想法。或许你可以告诉我你这么说是什么意思。

凯西:当然。嗯,我们都在统计学和数据科学课上学到了一些相当简单明了的东西。不幸的是,我们最终有点忘记了。这是我们真的不应该忘记的事情。那就是,一个数据点可以用来激发灵感,或者严谨,但如果你在处理不确定性,如果你想超越你的数据,就不能两者都用。因为当你进行评估时,不管你的观点是否在现实和总体上成立,你都需要确保你检查了你的观点,而不是你用来形成观点的东西。因为我们人类是那种能在一片吐司中找到猫王的脸的生物。如果我们用同一块吐司来启发思考吐司是否看起来像猫王,然后回答吐司是否,总的来说,看起来像猫王,我们就有问题了。你需要去吃不同的吐司。

凯西:所以你可以用数据来获得灵感或严谨,但不能两者都用。所以,如果你用你所有的数据来获得灵感,找出你想问的问题,那么你就没有数据来严格地回答它们了。

Hugo:我认为可以对零假设显著性检验进行类似的比较。对吗?例如,你会做探索性的数据分析,开始注意到一些东西,然后在那里做一个测试,因为你在原始数据的零假设和替代假设中受到启发,你可能实际上过度拟合你的世界模型到那个数据集。

卡西:是的,我认为这种事情在现实世界中实际上会发生,因为学生在课堂上被教导的方式。所以在课堂上,让你看看一个玩具数据集的条件是有意义的,看看在那个数据集中什么样的假设可能成立,什么样的假设不成立,然后看看当你把一个特定的方法应用到那个数据集时是什么样子。这个可怜的玩具数据集会被撕成碎片,而你实际上可以合理地从中学习到什么,被学生和教授成千上万次地折磨这个可怜的小数据集。但这没关系,因为你在课堂上应该做的就是看看数学是如何与数据互动的。但是你会习惯这个想法,你首先被允许查看和检查这个数据集,然后你被允许对它应用算法或统计测试。

凯西:然而,在现实生活中,你最终会遇到这个问题,在这个过程中,你会使自己的结论无效。您真的不应该将同一个数据集用于这两个目的。你不应该选择你的统计假设,并当场测试它。我的意思是,像这样考虑一下:你在这里,有 x 变量和 y 变量,很好的散点图。你拿着这个小数据集,把它画出来,在你刚刚画出来的这个点云中,你会看到一个向上的,向上的,向右的上升的影子。你刚刚看到了这个,所以你问自己,"也许我可以画一条直线,看看我是否在统计上有显著的正相关。"恭喜你,你将会得到这样的结果,是的,你确实在统计学上有显著的正相关性,因为你首先被这些特殊的点是如何落在你的散点图上的启发而提出这个问题。你得出的结论可能与现实完全无关。如果你受到这个数据集的启发,去从物理现实中的相同过程中获得另一个数据集,并确保你的灵感在那里成立。

凯西:我们人类,我们确实看到方便、有趣的模式,无论我们对什么感兴趣,并且可能根本不触及现实。

Hugo:我们有几种方法来解决这个地方性的问题。当然,你提到的一点是,在对你的数据集进行探索性分析并提出假设之后,然后去收集更多的数据,这些数据是由相同的过程生成的。另一个当然是在开始查看任何数据之前的预注册技术。我想知道你有没有想过,或者你认为值得讨论的其他方法来帮助应对这个挑战。

凯西:实际上,问题在于数据分析的心理因素。你在找什么东西。当你寻找东西的时候,你的大脑是如何欺骗你的。数学技术应该帮助你做一些事情,比如在极端情况下用交叉验证进行验证,这些真的很容易被打破。从心理上来说,它们实际上并不能保护你不去做错误的事情。

凯西:所以我建议人们开始思考这个问题时,如果你与一个绝对想把你引入歧途并欺骗你的数据科学家竞争,当你给他们的过程施加某些约束时,他们还能给你一个坏结果吗?他们还能惹你吗?他们还能骗你吗?这些方法中的大部分…事实上,我想不出一个不是这样的,他们中的大多数人都容易受这种胡闹的影响。不幸的是,作为一名优秀的数据科学家,你可能会以同样的方式欺骗自己。

雨果:这非常有趣,因为我认为这暗示了一个事实,即由于我们的认知和心理偏见,我们不一定有好的技术。我们需要开发流程,但是我们还不一定有好的技术来处理这个问题。

凯西:当你谈到一项研究的预注册时,这与其说是一种技术,不如说是一种声明,即在这些数据中,你不会去调整你的观点和问题。所以你是说,在收集和处理这些数据之前,无论你的假设来自哪里,它现在都是固定的。不管怎么说,应该是这样的。所以即使你提出这个问题,把两者分开,实际上也是在说同一件事的两个方面。如果你想形成一个假设,去探索数据,但如果你打算去做一些严格的过程,你打算认真对待自己,就从轨道上抛弃数据集。你应该有你的整个问题,所有的假设,甚至所有的代码,最好在数据收集之前提交,但是一定要在数据碰到代码之前。

什么是决策智能?

Hugo:现在我想谈谈决策智能,你是谷歌云的首席决策科学家,你在决策智能领域工作。我想知道你能否为我们框定,决策智能实际上是什么,以及它与数据科学在整体上有何不同?

凯西:所以我喜欢把决策智能看作是数据科学,再加上社会和管理科学。专注于解决实际业务问题并将信息转化为行动。所以它以决策为导向。如果我们必须重新开始设计这样一门学科,我们会问每一门科学,这门科学对我们如何将信息转化为行动有什么看法?因为我们是一种动物,我们实际上是如何做到的呢?如果我们想要为一个特定的目标建立一个可靠的系统或可靠的结果,我们如何以一种实际上达到目标的方式去做,而不是走一条讨厌的弯路?

凯西:所以它非常面向过程。它非常注重决策。当然,其中很大一部分是应用数据科学。

为什么选择 data science plus plus?

Hugo:那么你能告诉我为什么数据科学 plus plus 吗?为什么这里有两个加号?

凯西:啊,我想是升级版的 plus plus。和语法中一样,你会得到 I+plus。我想,那只是一些可爱之处。但是想象一下这样的升级:一个数据科学家被教导如何分析调查数据,如何仔细思考大量的数学问题,如何处理如果他们的数据是连续的,如果他们是分类的,会发生什么。如果这个人使用了滑动标尺,等等呢?有多少问题?我们如何纠正这么多问题?诸如此类的事情。但是在他们的培训中,没有直接教给他们的是,如何构建这个调查?你如何确保调查最大限度地减少,比如说,回答偏差,也就是用户或参与者对你撒谎,给你错误的答案?你认为这项调查的最初目的是什么?我们为什么要这样做?调查是正确的方式吗?我们如何决定什么是值得衡量的?这些东西通常不会教给数据科学家。

凯西:所以,如果数据科学家希望他们的工作有用,那么有人,无论是他们自己还是队友,谁有能力彻底思考这些东西,就必须参与进来。

雨果:对。数据科学家参与从数据收集、实验设计、问题设计到实际决策过程的每一步,这重要吗?或者说,这是最好的情况吗?

凯西:那取决于你的预算是多少。对吗?如果你有无限的钱,也许你可以雇佣一个非常非常罕见的独角兽,他真的考虑过所有的事情,并且精通所有的事情。没有那么多这样的人。如果你打算雇佣他们,你必须付钱给他们。因此,打算以这种方式为你的项目配备人员,难怪你会抱怨人才短缺。所以事实是,你将不得不与跨学科团队合作。此外,即使你有一个人什么都懂,在一个大规模的项目中,仍然有比某人一天中几个小时所能做的更多的工作。那么,如果他们在任何情况下都必须在流程的不同部分工作,为什么你真的需要这些完全知识工人的完全相同的副本呢?因此,数据科学家将技能提升到极致,然后拥有一切,这是一个美好的梦想,但听起来不太现实。

凯西:相反,我认为他们最适合他们花了最多时间学习的部分。他们真正应该更担心的是,如何从负责流程其他部分的同事手中接过接力棒,并拥有检查该部分是否做得足够好的技能,以确保他们自己的工作是值得的。因为不幸的是,数据科学正处于这个过程的中间。它依赖于书挡。如果书立,比如决策方面、产品领导方面和社会科学方面,如果没有正确完成,或者如果在下游,你没有办法把它可靠地投入生产,即使原型有漂亮的数学,它在实践中实际使用起来也太乱了。那么数据科学家的工作就没有意义了。这就变成了第三类错误。

凯西:所以他们可能会和一个跨学科的团队合作。他们应该把重点放在能产生最佳影响的部分。

组织模式

雨果:太好了。所以就决策而言,我想了解这些团队。我喜欢你对我之前问题的回答是,“现实情况是……”我想更多地了解现实,我想更多地了解数据科学家及其工作如何被纳入或嵌入决策过程的实际性质。那么,你能告诉我一些最常见的组织模式吗?数据科学家是如何参与其中的?

凯西:是的,当然。一个显而易见的方法是收集大量的数据科学家,并将他们放在一个集中的数据科学团队中,这往往由他们的数据科学总监谨慎地指导,他将他们从最恶劣的第三类错误请求中缓冲出来,并确保组织的其他人将他们用于良好的目的,或者至少用于最有影响力的业务目的。这种结构中的初级数据科学家不需要驾驭政治。

凯西:还有另一种模式,就是在一个大型工程团队中安插一名数据科学家,让他们变得有用。

凯西:还有决策支持模型。在这种情况下,您可以将数据科学家添加到领导者中,数据科学家可以帮助领导者做出决策。

凯西:当然,还有数据科学家拥有大部分流程,尤其是决策。因此,在这里,数据科学负责构建决策环境,找出哪些问题甚至值得问,然后负责回答这些问题。

Hugo:我们有纯粹的数据科学团队、嵌入式工程、决策支持和作为决策者的数据科学家。我认为-

凯西:第五个将是决策智能选项,这是没有这些。

雨果:我期待着讨论这个问题。一般来说,数据科学家的决策顺序似乎是从少决策到多决策。这样说公平吗?

凯西:啊,很公平。

雨果:那么在这个光谱的不同点上有什么好处和坏处呢?

凯西:超级集权的一个明显的缺点是,如果你是一个小而杂乱的组织,那就忘了它吧。你不可能有这么大的数据科学组织。另一个不利之处是,他们倾向于做企业已经知道值得去做的事情。所以从某种意义上来说,这是一个亲。他们将与业务中最微妙或高价值的问题联系在一起。缺点是,可以灵活地帮助更广泛的组织抓住不寻常的机会,因为所有的请求都是通过这种单点发出的。这有助于使请求变得更加一致。这也意味着个体数据科学家与决策功能的接触非常少。那可能对他们有利。对于一个初级数据科学家来说,这可能是一件压力很大的事情。但是他们的工作和贡献很难通过这种方式得到关注。

凯西:所有这些真的都在数据科学领导的掌握之中。因此,如果他们的数据科学主管不知道他们在做什么,我们就有麻烦了。该行业确实面临着数据科学领导者短缺的问题。有些人自称为数据科学领导者或分析经理,但这些人可能并不真正知道如何玩组织政治。他们可能没有良好的商业意识。或者也许他们主要是领导者,他们拥有所有这些…他们渴望影响力,但他们不明白如何让数据科学团队变得高效。所以这可能会有一些问题。

凯西:嵌入工程:专业是你可以影响工程。然而,你最终会完成各种各样的任务,这些任务可能与数据科学有关,也可能无关。通常,工程团队并不真正知道你是哪种动物,也不真正知道你是干什么的,不知道你是否有用。他们认为你是一个不怎么样的程序员。“你怎么了?你一直在白板上忙乱的东西是什么?”你可能不被认为是非常有用的,你可能会发现自己承担了你可能不想做的产品管理任务,你不认为你将不得不做,你没有接受过培训。因此,你最终只能完成非专业的任务,而且没有针对你的政治缓冲。

Hugo:随着我们越来越多地向从事决策支持和决策者工作的数据科学家靠拢,这种情况也会发生吗?

凯西:这里也有一些元素。有了决策支持,领导者,一个好的领导者会很快想出如何让你变得有用。所以你不用花太多的时间四处游荡,甚至不去想如何在第一时间做出贡献。现在,你最好的贡献可能与你在研究生院花了这么多年学习的复杂方法无关,你的数据科学任务可能最终会被你可能正在做的其他事情冲淡。但是在这种情况下,你的价值会得到更好的保护。

Hugo:那么作为实际决策者的数据科学家呢?

凯西:当然,好处是在数据科学、工程和决策功能之间转换不会有这种损失,因为数据科学家拥有所有这些东西。缺点是,为了做到这一点,你需要真正获得几个黑带。如果你没有它们,你可能会认为你是有用的,但你可能弊大于利。因此,也许你认为你擅长理解业务影响,但实际上,你更擅长的是计算。你最终会把组织推入兔子洞,比没有你的时候更糟糕。所以你真的需要这些多重黑带,你需要明白你必须为这些事情分别培训。因为一个标准的培训计划并不能让你成为二合一或三合一的工人。

凯西:所以实际上,这是一种稀有动物。

作为决策情报人员的数据科学家

Hugo:当然,你提到的第五个模型,我现在想重点介绍一下,是作为决策情报人员的数据科学家。这里发生了什么?

凯西:所以将会有一些时间和人力资源分配到数据科学的分析或数据挖掘方面。因此,将对公司进行持续的暂停检查。因此,这种广泛的轻度接触分析将一直存在,无论谁最擅长在数据科学下工作,都会这样做,这在一定程度上是由领导层的需求驱动的,但也是由探索而不是利用的态度驱动的。

凯西:然后,如果需要其他的东西,为了完成这项工作,项目生命周期中会有一些必须完成的阶段。因此,这有点像这两种模式的结合,在这两种模式中,你被嵌入到工程中,或者你被嵌入到决策中,但是这种匹配发生在一个集中的劳动力池中,并且它发生在以所需的方式构建项目的基础上。例如,当你在一个项目中需要统计帮助时,你可能有决策支持框架。为了做到这一点,必须有一些特定的步骤,比如选择,如果你要走频繁主义的道路,选择默认的行动,决策者默认想要做什么,了解如何说服他们,他们的衡量标准是什么,这有点像通过社会科学的功能。他们在考虑什么样的人口。他们愿意处理哪些假设。这将是来自社会科学或数据科学的人与决策者一起工作,帮助他们构建决策环境。

凯西:一旦这些都准备好了,你就可以给项目配备真正能做繁重工作、计算和数据工作的员工。当然,您还需要为该项目配备数据工程人员。所以大家走到一起,就知道自己在那里是为了什么。

雨果:这实际上是一种更广泛的挑战。我的意思是,我们以前讨论过这个问题,但这种想法是,很多人在知道他们想回答什么问题之前,就想雇用数据科学家或进行机器学习或最先进的深度学习或人工智能。对吗?

凯西:是啊。所以你应该做的是…这是我给大家的建议。如果你不知道你想要什么,就把你的数据想象成阁楼上的一大堆旧照片。将分析或数据挖掘想象为将要进入阁楼的人或职能部门,他们实际进入阁楼查看数据的机会将得到数据工程的支持。他们会去阁楼,他们会把地板上那些大盒子的照片倒过来。他们会查看这些照片,然后向耐心等待的人总结他们所看到的,并询问这些人是否考虑用它做更多的事情。这种方法总是有意义的。你永远不会知道这堆照片里有什么。你永远也不会知道是否值得用它做任何严肃的事情。还因为这是一堆照片,你不知道是谁拍的,也不知道是出于什么目的,所以除了照片之外,你不应该了解任何东西。

凯西:所以,作为公民,我们已经知道如何思考一堆照片,或者你在路边发现的一张照片。你唯一能合理解释的是,“嘿,这就是这里的东西。”这启发了我吗?它让我做梦了吗?它让我想问关于这个世界的其他问题吗?当然可以。也许吧。但是我会认真对待这些吗?不,当然不是。这是一些照片,众所周知,数据科学本质上是 Photoshop,我们不太清楚那张照片是如何拍摄的,也不知道为什么拍摄。我们不能据此做出严肃的决定。但是看一看总是有意义的。只要你继续合理地思考它,就像你思考那些照片一样。所以这对每个项目都有好处。如果任何团队,任何组织说,“我想多了解一点我的数据。我想挖掘我的数据,看看我的数据,找出里面有什么,”这总是一件好事。

凯西:但是现在,如果你不能真正控制这些数据的质量,你可能会非常小心、严格地处理这些数据。照片都是空白的。对吗?没有任何意义。或者也许它们都是以一种完全不可靠的方式拍摄的,对于你想要回答的问题,因为你实际上没有计划数据收集,所以如果你看我在旅行中拍摄的照片,你会注意到所有这些超级旅游地标。然而,不知何故,我是唯一一个在那个地标拍照的人。根据我的一堆照片,你无法断定有多少人会去这些地标。但是你仍然可以看一看,只要你不把它们看得太重,然后你可能会开始考虑你可能想用它们做的事情。当你开始弄清楚你可能喜欢做什么时,你就开始朝着那个目标计划整个过程。然后开始考虑雇佣能做额外工作的人是有意义的。

为什么如此多的组织无法正确使用数据科学?

Hugo:那么 Cassie,考虑到在决策过程中嵌入数据科学家的各种不同模型,我想知道为什么这么多组织未能使用数据科学来正确和可靠地制定决策。

凯西:嗯,这归结为一个将信息转化为行动的问题,以及决策者如何组织和培训来做到这一点。因此,这可能是因为决策者实际上不知道他们自己在流程中的角色是什么,他们不知道如何正确地为数据科学项目构建决策环境,而不仅仅是数据挖掘和分析,这种广泛而肤浅的方法。在没有决策者控制过程的情况下,有意义的是一个好的、肤浅的、广泛的数据挖掘方法。挖掘一切寻找灵感,不要太把自己当回事。不要花费太多精力。如果你只是坚持这一点,你真的,真的不把自己看得比你应该的更重要,最大的危险是在人事上超支。也许你已经雇佣了一群教授,现在你已经用他们完成了一些任务,这些任务在他们看来太简单了,因为他们受过严格的训练。

凯西:但是,往往会发生的是,决策者最终没有正确地深入细致、严谨的工作。所以,也许他们只是雇了一群数据科学家,然后把他们留在一个房间里,独自一人。他们没有给他们任何指示,然后当从那个房间出来的唯一东西是研究白皮书时,他们感到惊讶。也许有这样一种情况,所有那些为了追求研究和严谨而追求研究的人,因为这是最舒适的事情,他们在研究培训中的舒适模式,这些人并不真正有资格诊断什么对业务有用,决策功能只是让他们自己去做。

凯西:这可能是整个组织不理解灵感和严谨之间的区别,以及如何在这些事情上使用数据,以及每个需要多少努力的情况。所以另一个失败是你得到相反的结果。你最终使用数据来获得灵感,然后你认为你已经做了一些严谨的事情,而你实际上并没有。你开始把这些结果看得比你应该的更严重。你变得过于自信,一头撞墙。

凯西:组织面临的另一个问题是,使用数据科学工作的成果作为一种在会议上打击决策者的方式非常方便。所以每个人都想就一个无法用数据解决的问题进行辩论并提出自己的个人观点,真的。这可能与组织的战略有关,而不是谦逊地坚持,拥有你不知道的东西,并使用争论来与你的决策者同事讨论下一步应该做什么,你带来一些高深莫测的报告,这些报告被方程覆盖,你说,“因为我的神奇数据科学家说过,这是事实。”但是,你知道统计推断,你知道问题几乎比答案更重要。如果你所做的只是带来一个答案,那么,这个答案可能是,也可能不是,其他所有人都在问或假设的问题的答案。这就像道格拉斯·亚当斯的事情,你只是把 42 带到会议上,你说看看所有这些让我们达到 42 的方程。因为上面写着 42,所以我是对的。其实没多大意义。需要很大的努力。而且浪费了很多时间。

凯西:此外,还有一个错误的决策责任委派的因素。在这种情况下,有些人希望承担决策责任,他们希望严格地制定决策,但他们希望更多的决策超出他们实际上有时间处理的范围。因此,他们有点自欺欺人,认为自己可以成为决策者,而无需花时间来实际构建决策环境、通过假设进行思考、与数据科学团队合作等等。所以最终发生的是,职位比他们低的人最终篡夺了这些角色,并以他们自己的方式做出决定。也许他们做得很严谨,也许没有,然后花费数据科学团队的所有精力来说服或说服这个假装的决策者,这实际上是他们的想法。现在,有一个大惊小怪的因素,如果决策责任被适当地委派,这是可以避免的。没必要搞这种篡夺的东西。如果你没有时间付出必要的努力,那么把这个决定交给有时间的人,如果他们打算以这种密集的统计方式仔细、严格地追求它。或者说,“我们将基于灵感。这将是一个轻松的分析和策划案例,但我们不会让自己变得比我们的方法更自信。”

凯西:所以,实际上,大多数脱节要么与被雇佣的人有关,要么与决策者自己不知道他们自己的角色是什么有关,因为他们是启动整个过程的人。他们有能力做到这一点真的很重要。

数据素养

Hugo:关于一个组织中有多少人能说数据,是否存在另一种脱节,即数据素养和数据流畅性不一定在组织中传播或分布。我想我的问题是:在你见过的组织中,数据素养是如何在组织中传播的,你希望看到这种变化是怎样的?

凯西:所以我在这里不会特别针对谷歌。我要说得更笼统一些,一次说我们所有人。

凯西:在这个世界上,数据素养处于一种令人遗憾的状态。至少从我的角度来看,我真的希望我们在这方面做得更好。我们惊人地擅长通过照片数据进行思考。我们很讲道理,很讲道理…我们仍然可能做一些愚蠢的事情。但是我们对此是相当合理的。我们相当合理地笑着说,“哦,哈哈,书里说的并不意味着这是真的。”但不知何故,当它涉及到数学和数据时,我们开始用大写的 D 来读数据,好像它是一些客观真理的来源,与最初决定收集它的人类完全无关,并决定他们将如何收集它以及为什么收集它。所以数据素养处于一个令人遗憾的状态。我在这个世界上不断看到的是,我们缺乏谦逊地说,“嗯,如果我们的团队中没有人可以扮演这个角色,没有人有能力承担决策者的角色,那么我们就不应该太把自己当回事。”

凯西:相反,你在野外看到的是,这些团队配备了非常细致的数学头脑和不熟练的决策者,整个团队,整个团队…因此,我看到世界上缺少的是谦逊地说“认真对待我们自己实际上需要工作,需要技能”的团队。如果我们缺乏这些技能,我们将无法做到。我们能从中获得的最好的东西与我们从一堆照片中获得的东西是一样的。”这实际上还是有意义的。令人惊讶的是,我们有能力拿一个 SD 卡,当它放在你的手掌中时,对你来说毫无意义,你把它插到你的计算机上,你使用一些可视化软件,我不知道,微软画图,或其他东西,现在你可以得到灵感,看看那里有什么。这是一件非常强大的事情。这对每个人都有好处。每个人都应该在更多的数据类型上做更多的工作。

凯西:但不要以为任何旧数据加上非常复杂的数学就能无中生有。例如,不确定性中的确定性。缺乏基本初始技能的良好决策过程。我喜欢说灵感是廉价的,但严谨是昂贵的。如果你不愿意付钱,不要指望有什么神奇的公式会给你。没有数据素养,请不要尝试做非常复杂的事情。

数据科学和决策科学的未来

Hugo:对,这就是数据科学、决策、决策智能和数据素养的现状。在你看来,数据科学和决策科学的未来以及它们的交集是什么样的?

凯西:随着我们开始用数据做更多的事情,我希望看到这个世界提高决策技能的质量,启动并指导这些项目,不断发展。我们真的承受不起大规模数据自动化,以及基于糟糕的决策技能的一切。这对做这件事的公司来说将是一场灾难。因此,我们必须更加认真地对待这些技能,而不是仅仅把它视为你有天赋或才能的东西。但是,即使我认为无论我们现在学习还是以后艰难地学习,这些技能都会变得更好,但它们不一定要完全由目前授予他们决策责任的人来承担。还有另一个选择。

凯西:另一个选择是雇佣一个能帮你进行严谨思考的助手。科学决策的一部分可以由科学家来完成,帮助拥有直觉和政治等相关部分的决策者。所以,如果你不想亲自去学习,你可以雇一个帮手来提升你的技能。但我确实认为,总的来说,未来需要我们更加认真地对待第一点。

行动呼吁

雨果:那么在未来,我的最后一个问题是:你对我们的听众有最后的行动号召吗?

凯西:是的,两个。第一,是时候把我们的注意力从单纯的研究转移到选择你是想做研究,还是想做应用的东西。这两者都是同等有价值的重要方法。其中一个现在人手严重不足。我可以说两者都是,如果你想进入这个领域,这是一个非常令人兴奋的时刻,因为随着研究人员制造的通用技术变得更容易应用,这将变得越来越重要。对此我有一个类比,研究人员可能是制造微波的人,新的更好的微波。而应用型人才考虑的是大规模的厨房和食谱创新。我想指出的是,如果你想说,创建麦当劳,仅仅因为你不必为你自己的微波炉布线并不意味着这很容易。因此,对于一个新的研究领域和新的学科来说,这是一个激动人心的时刻。

凯西:我想留给你们的另一件事是,这个世界正在产生越来越多的数据。我们真的应该让这些数据变得有用。在第三种错误上浪费我们所有的时间和资源是一件非常可悲的事情。所以我们真的是时候认真对待这个问题了,因为我们已经有太多了。让我们用它做些有益的好事。

Hugo:我很喜欢这一点,因为这真的让我们的对话进入了一个完整的循环,在我们的对话开始时,你说你所做的很大一部分工作是帮助团队避免或降低数据科学中第三类错误的发生率。实际上,我们已经兜了一圈。这是行动的号召之一。对吗?我们一起工作,使用数据和建模技术,质疑我们越来越降低第三类错误的能力。

凯西:是的,当我回想我们的谈话时,我认为我对决策智能整体的伤害是,我真的和你谈了很多关于数据科学家的事情。我讲了很多关于决策者的内容。我隐约提到了社会科学家。但这是一个更加多样化的游戏。我真的忽略了所有其他应该参与的人。工程师,可靠性专家,伦理学家,设计师。在这个领域有许多重要的工作要由各种各样的人来做。我想请那些因为这不适用于他们而正在考虑溜之大吉的人重新考虑一下。决策对我们所有人都很重要。如果我们要认真和大规模地做这件事,那么如果你对把信息转化为行动有什么要说的,每个人都可以发挥作用。

雨果:我完全同意。凯西,很高兴你能来参加这个节目。

凯西:非常感谢你。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值