员工聚焦:为数百万学习者创建数据科学内容
你加入 DataCamp 的历程是怎样的?
从我记事起,我就一直很好奇不同的领域是如何交叉在一起,让我们对这个世界和我们生活的时代有一个更清晰的认识。所以在某种意义上,我认为自己是一个有点博学的人,我加入 DataCamp 的道路有点偏离常规。我在黎巴嫩贝鲁特出生和长大,毕业于贝鲁特美国大学,获得经济学学士学位。
毕业后,我在追求技术职业还是政治科学职业之间左右为难。作为一家智库的研究助理实习生,我通过搜集 Twitter 数据来补充几篇关于中东政治的研究论文,成功地将两者结合起来。在那个项目中的工作帮助我认识到,处理数据是我热衷的事情,大规模采用数据科学的意义对我们生活的社会有着巨大的影响。
这就是为什么我决定收拾行李,搬到巴黎攻读数据科学硕士学位。在研究生院,我发现了 DataCamp,它是一个非常有价值的学习工具,成为我数据科学教育中不可或缺的一部分(它还帮助我通过了一些课程😉).作为一名有抱负的数据科学家,我最喜欢的事情之一是向非技术观众揭开数据科学中使用的复杂工具和算法的神秘面纱,因此加入 DataCamp 的内容团队是一个自然的选择。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
作为 DataCamp 内容团队的一名内容开发人员,我的职责是与我们出色的讲师社区一起开发关于 R、Python、SQL 等的课程和现场培训课程,以及开发我自己的课程和现场培训课程。
我的角色中最有趣的部分实际上是我从与世界上最好的数据科学家一起工作中吸取的所有知识,以及通过创建尽可能最好的内容为数百万学习者创造出色体验的满足感。
加入 DataCamp 后,你的职业发展如何?
自从加入 DataCamp,我的职业生涯得到了极大的发展。总是有机会增长我的技能,并接受越来越多的挑战性项目,同时获得内容团队和其他团队的数据营员的一系列令人难以置信的指导。
2020 年你最期待什么?
尽管 2020 年并没有让我们对 DataCamp 以外的领域抱有太多希望,但我对 2020 年和 DataCamp 致力于在组织间传播数据流畅性感到非常兴奋。这一承诺真正推动了我们不断改进学习体验的意愿,以及我们提供的内容类型的创新,如现场培训课程(观看此空间😉).
你最喜欢为 DataCamp 工作的哪一点?
毫无疑问,在 DataCamp 工作的最大好处就是员工。我与其他 DataCamp 成员进行了一些我一生中最引人入胜的对话——我很难在其他地方找到像 data camp 一样重视对其他团队成员的关心和同情的文化。我还感到非常荣幸能够开发一种产品,以大学教育的零头,让人们拥有在当今世界竞争的技能,从而不断改善人们的生活。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
我之前提到的我最喜欢的 DataCamp 文化价值观之一是关心其他 DataCampers 并将团队放在第一位。我们真的努力成为一个不容忍非团队方法的组织,同时也培养一种同理心,关心团队中的每个人。
你今天看到的最有趣或最重要的趋势是什么?
除了我们今天看到的政治动荡,我认为我们今天看到的最重要的趋势/故事之一实际上是监控技术的不断崛起,以及它如何与今天如何定义经济价值相交叉。肖莎娜·祖博夫的《监控资本主义时代》是一本关于这个问题的好书。
你还有什么想和我们的学员分享的吗?
你想加入 Adel 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:Hettie McConnell,软件工程师
你是如何成为一名软件工程师的?
由于我在大学里学的是经济学,所以我接触工程的时间比一些人晚一些。我真的很享受我在大学的时光,毕业后我很快就进入了就业市场,但我发现我一直在做错误的工作。这份工作对我来说不够有挑战性,所以我和我姐姐聊了聊,作为一家金融科技公司的软件工程师团队的负责人,我非常尊敬她。她把我介绍给了她团队中与我背景相似的人,他们给我指出了我可以自己尝试的在线资源。接下来的几个月里,我真的钻研了这些资源,然后决定这可能真的是我的职业。没过多久我就确定了——我辞掉了工作,申请了伦敦市中心一个为期 16 周的编码训练营。不幸的是,由于疫情,我们的团队不得不主要在网上工作,所以我们在某些方面错过了,但在这个忙碌的时间里有一个真正的目标是很好的。新兵训练营结束后,我开始在一家人工智能网络安全公司工作,一年后加入了 DataCamp。
你觉得学习成为一名软件工程师所必需的技能很难吗?
是也不是。我从小就有数学天赋。我妈妈是一名数学老师,她的热情被传递了下去。工程学和数学有很多相似之处。解决工程问题的逻辑步骤和过程与解决数学问题的逻辑步骤和过程非常相似。同样,如果你的答案不正确,你可以请人来检查你的工作。他们会准确地告诉你哪里出了问题,如何解决。这种逻辑思维吸引我走向工程,并让我留在这里。我也发现学习这些技能的过程很愉快,这真的很有帮助。软件工程可能很难,它并不总是容易的,但能够破解一个困难的工程案例只是让它对我来说更加有趣和令人满意。
你为什么决定加入数据营?
当我在以前的公司工作时,我想拓展一下业务。我主要是一名 JavaScript 开发人员,但也想涉足 Python。我喜欢软件工程的一点是完全没有进入壁垒。对于任何编程语言来说,网上都有大量真正高质量的资源,更不用说周末和晚上聚会的实体社区了。时间不多了(在疫情中还有 和 )我选择寻找一个在线平台,在那里我可以轻松地学习 Python 并从容不迫地使用它,于是我遇到了 DataCamp。我尝试了入门课程,很快就被吸引住了。当我在寻找订阅的时候,我注意到在网站的角落里有一个框,上面写着,“我们正在招聘。”我找到了一个适合我技能的角色,所以我申请了,结果证明这是一个很好的匹配。我们生产的软件的质量是驱使我申请这里的原因,我很高兴我这样做了。
你的超能力是什么?
当谈到解决问题时,我真的只有一个想法。包罗万象。当工作变得更困难时,我会更有动力。我喜欢用我大脑的逻辑部分工作。这让我在工作中自我激励,不需要太多的外部输入。我的毅力和组织能力使我在工作中表现出色。
你最喜欢的数据营记忆或时刻是什么?
我还是个新人,大多数人,包括我自己,都主要在家工作,所以我没有太多机会留下特别的回忆。但我确实记得我对公司的介绍。我喜欢 DataCamp 的一个原因是它在各个层面上的开放政策。其中一部分是两周一次的全公司会议,会上每个人都被告知公司的重要事务。这也是一个介绍新员工和向离职员工告别的好机会。我被要求介绍自己,这是一项相当艰巨的任务,因为有相当多的人从你的屏幕上看着你。除此之外,我还跟踪了两名相当资深的新员工。我们的新任首席税务官做了一个简短但非常鼓舞人心的演讲,介绍了他自己和他之前从事的工作。另一个雇员也照着做了。作为一个只有一年软件工程师经验的人,我有点慌了。有人告诉我,我所需要的只是一个简短的问候!当我告诉妈妈我的新工作时,我脑海中唯一浮现的是她的反应:“数据和露营——你最喜欢的两件事!”—所以我说。我立刻觉得有点傻,但每个人都喜欢它。许多人通过我们的内部消息系统联系我,说这让他们笑了,询问我的情况,并真的试图与我联系。我真的很欣赏这一点,尤其是当你无法直视他人的眼睛时,网上互动会让人感觉很冷。热情的欢迎总是让我对 DataCamp 大家庭产生积极的感觉,我在这里真的感觉很舒服,所以我不得不说这是我迄今为止最喜欢的回忆,但我相信随着人们回到办公室,会有更多的回忆。
员工聚焦:Jeremaia
原文:https://web.archive.org/web/20221129054701/https://www.datacamp.com/blog/employee-spotlight-jeremaia
你在 DataCamp 做些什么,一天是什么样的?
我是企业团队的软件工程实习生,这是 DataCamp 的服务,旨在管理我们 B2B 客户在所有数据科学方面的员工。因此,我的团队的责任是维护和扩展企业产品。
是什么让你成为 DataCamp 的一员?
在加入 DataCamp 之前的 12 年里,我在活动行业工作,主要从事门票销售和营销工作,为各种不同的组织工作:大型场馆、节日和著名的票务代理机构。在这些职位上,我将密切监控门票销售的营销活动,包括使用分析来了解广告的表现以及了解我们的客户。2012 年毕业后不久,当我创办了一家票务初创公司时,我重新运用了这些知识。
这段经历是你对工程感兴趣的开始吗?
没错,我雇了一些后端工程师来开发平台,自己负责前端。通过在线教程和论坛,我学到了设计网站页面风格所需的技能,也学到了很多软件开发和项目管理方面的知识。那些学习经历真的让我难以忘怀。
去年,我负责伦敦圆形剧场的票务部门,当时疫情罢工了,我被放了假。在这一点上,我有了重新思考我的职业生涯的喘息空间,我决定给编码更多的尝试。今年 1 月,我参加了一个名为 Le Wagon 的全栈 web 开发训练营,在那里,我通过三个月的强化学习磨练了自己的技能。在这之后,我出去寻找 web 开发方面的工作,就在那时我遇到了 DataCamp。
有什么是你会不一样做的吗?
最终我确实犯了错误,如果让我再做一次,我会做得完全不同——从项目管理到我们使用的语言类型。尽管如此,这仍然是一次很好的学习经历。
我给那些遇到知识缺口的首席执行官和企业家的一些建议,特别是在软件工程方面,是雇佣能够填补这些缺口的人,与他们建立良好的关系,并信任他们所做的事情。如果你想自己学习,伸出手和人们交谈。人们喜欢谈论他们自己以及他们对感兴趣的人做了什么。所以,不要害怕去 LinkedIn、Twitter 或者参加聚会。
另外:使用 Ruby 编写你的网站。自学很容易,但是如果你需要外界的帮助,也有相当数量的开发人员专门从事这方面的工作。
你已经实习一个月了,到目前为止你有什么想法?
这太棒了,这家公司有很好的文化,我的团队合作得很愉快。我的导师弗朗西斯科非常支持我,如果我有任何问题或疑问,他几乎会立即联系我提供帮助。我在入职过程中花了几周时间,虽然 DataCamp 有创业文化,但它比我以前工作过的一些其他组织要大得多,所以其中一部分只是为了熟悉谁做什么以及不同部门如何工作。另一个主要部分是了解我从事的不同项目,以及我们使用的各种技术和工具。
你业余时间喜欢做什么?
在过去的一年里,我大部分时间都花在了学习软件开发上,因为我还在学习,并试图提高我的技能。诚然,这可能不是最令人兴奋的答案,但这是事实。提升技能和转行需要很多时间和精力,尤其是在技术领域,所以我的很多空闲时间都花在这上面。在这方面,这次实习肯定会有所帮助,我今年夏天的最高目标是尽可能多地从中获益。
我确实花了相当多的空闲时间阅读科幻小说,现在我正在阅读《广阔无垠》的第六部,现在封锁正在解除,我将尝试走出去,尽可能多地见人。当然,我很想在某个时候去度假,但是我想发生了这么多事,我需要考虑一下。
你想加入 Jeremaia 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:马腾
原文:https://web.archive.org/web/20230101103202/https://www.datacamp.com/blog/employee-spotlight-maarten
你在 DataCamp 做些什么,一天是什么样的?
我最初是核心课程团队的内容开发人员,从事 R 和 Python 课程。然后我转到了课程扩展,在那里我专注于 Tableau 和 Power BI。很难说典型的一天是什么样子的,因为它可能变化很大,但通常有两种方式。
一个是,我研究如何获得某些软件的认证,然后我整理了一个粗略的列表,看看它是否可以成为一个可行的课程。接下来就是创建概念性的课程、练习和演示视频。另一个过程是我们与外部主题专家一起工作,这个人提供应该出现在课程中的材料,以及我们应该如何呈现它。然后,我们将这些材料应用到 Teach 中,这是 DataCamp 用于构建课程的工具。目前,我正在同时进行两门课程,但是我们正在改进这个过程,这样我们就可以同时处理更多的课程。
你自己教过这些课程吗?
作为一名内容开发人员,我真正喜欢的是我们也有机会成为指导者。我真的很喜欢你接触到的世界,对我来说,我第一次发布课程并从我的网络之外的人那里获得反馈真的很好。
你对自己工作的兴趣是从哪里开始的?
我有科学背景,正在攻读水生生态学博士学位,正是在那段时间里,我接触到了复杂的数据集,我被要求进行自己的数据分析。这些通常是非常专业的,而在当时,R 并不在今天的位置。我记得在 R 语言中创建图形是一件痛苦的事情,我记得我们在 R 语言中的第一堂课有点可怕——没有人真正理解我们在做什么。后来在我读博士的时候,我明白了能够以自己的方式编写自己的分析代码的价值。
我博士研究的重点之一是调查土地利用对水质的影响以及小水体中蚊子的存在。完成博士学位后,我有机会参加了一个黑客马拉松,主题是登革热的传播,这是一种由蚊子传播的病媒传播疾病。正是通过这种方式,我接触到了数据科学中的新技术和工具,在黑客马拉松中获奖让我找到了第一份工作,成为了一名数据科学顾问。
什么风把你吹到数据营来了?
由于当时缺乏有经验的数据科学家,我们正在寻求自我培训。就在那时,我发现了数据营。我真的很喜欢互动的教学方式和练习。作为一名顾问,我从事的项目涉及机器学习、数据可视化和创建仪表板,但我最喜欢的工作是给客户或学生开研讨会。我心想,应该有办法把教学方面的事情当成全职工作来做。此外,我拥有教学硕士学位,所以我一直被教育所吸引,当我看到 DataCamp 的职位空缺时,我认为这是一个追寻激情的理想机会。
你对申请 DataCamp 职位的人有什么建议?
我认为这在很大程度上取决于他们申请的部门,但就我而言,我认为当你了解这个平台,当你上过一些课程,并且知道底层信息是如何呈现的时候,这是非常好的。新员工将会体验到在自己的项目中工作的独立性,尽管在需要的时候会有帮助。在 DataCamp 工作的另一个特点是总有改进的空间。新功能一直在不断涌现,所以不要害怕建议和尝试新事物。内容团队也有各种各样的背景。除了我自己,我们还有来自商业工程和经济学、市场分析、计算机科学、生物统计学、心理学、地质学和社会学的人,这种多样性产生了关于数据集、练习和概念见解的有趣想法。简而言之,如果你想进入数据科学领域,或者想从内容开发人员做起,你的背景并不重要。
工作之余,你成立了一个名为“ConForte Symphonic”的乐队,这个乐队还活跃吗?
是的,我和我的妻子创建了它!我们总是在管弦乐队中演奏,但作为业余爱好者演奏的机会很少。因此,我们决定在 2019 年底成立自己的乐团。我们举办了三场慈善音乐会,正在为未来制定计划,但是疫情发生了。最近,我们又可以开始演奏了,可以期待未来的音乐会了。
与此同时,我一直在研究如何利用 ConForte 的数据做出更好的决策。例如,我能够使用回归来预测我们慈善音乐会的门票销售数量,我们做出了正确的决定,举办三场音乐会,而不是最初计划的两场——三场音乐会都销售一空。
你是否发现在 DataCamp 中有很多对这类项目的支持?
在我入职期间,我和我们的首席运营官 Martijn 谈到了我们乐队的成立,他对此非常感兴趣。总的来说,他热衷于了解人们的兴趣,尤其是在创建类似副业项目的情况下。我也认为这是一个双赢的局面:你在业余时间学习可以应用到日常工作中的技能,反之亦然,所以这真的会让你在这两个领域都保持动力。
你业余时间喜欢做什么?
我真的很高兴我们又开始玩音乐了,但除此之外,我大部分时间都和我们的两个(很快就是三个)孩子在一起。作为一个对教学充满热情的人,看到他们在世界各地漫游并第一次接受这一切真的很好。我真的很喜欢建立他们对事物的理解,所以如果他们问一个问题,我有时会回答,其他时候我会问一个问题作为回应,以便他们思考——实际上这有点像机器学习,你可以说,他们通过例子和重复来学习,这就是机器学习的工作方式。通过看大量的例子,他们知道如何在特定的情况下重复特定的事情。无论如何,现在他们已经离开了这个夏天,花更多的时间和家人在一起会很好。
你想加入 Maarten 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:从巴西到英国追求科技职业
你加入 DataCamp 的历程是怎样的?
一切都始于我想获得新的体验。我的目标之一是成为世界一流的开发人员,为此,我想去国外看看,体验不同的文化和项目。当我看到 DataCamp 为我目前的软件工程师职位发布的招聘信息时,我可以很容易地想象到从事数据科学教育产品的工作是多么值得。所以我决定申请。对我来说,一件大事是 DataCamp 将我从巴西重新安置到英国,这是我多年来的目标之一,并使这一官僚程序非常顺利。谢谢,哈利和埃尔斯!
我在 DataCamp 的入职之旅非常顺利,几乎没有什么挑战。我觉得我的路径和入职项目做得很好,而且直截了当。对我来说,这种经历不同于其他公司,因为我不必做那些不是我日常工作的任务,这对我是一个很大的好处。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
我目前在 DataCamp 与企业团队合作,我们专注于为 B2B 管理员提供最佳体验。我的团队是一个很棒的团队——我们互相帮助,我们一起讨论项目,我们一起享受乐趣,感觉就像我在和朋友一起工作一样。在这里,我经历了人生中最棒的团队建设活动。关于我的角色,最有趣的事情是我创造新功能的能力,这将直接提高 DataCamp 为我们的用户提供的质量。看到自己的工作帮助了别人,感觉超级满足。
加入 DataCamp 后,你的职业发展如何?
到目前为止,我有很多机会学习新的东西和从事新的项目。每次我想尝试新的东西,我都能从我的领导和队友那里得到支持。
对我来说,最令人兴奋的事情是我有很多机会与趋势科技合作。举个例子,在过去的几个月里,我可以从事云基础设施项目,这对我来说是一种全新的体验。在接下来的几周,我将成为我们应用程序中一个新功能的赞助商,这让我有机会做更多的管理工作。
2020 年你最期待什么?
我对新的挑战感到兴奋,尤其是赞助特定项目的机会,如为我们的企业客户定制跟踪报告。这将是一项新功能,使业务管理员能够在 DataCamp 上查看其同事使用情况的详细信息。
你最喜欢为 DataCamp 工作的哪一点?
我得说,致力于一个试图通过教育改变世界的产品绝对是我在这里工作最喜欢的部分。这让我为自己的工作感到骄傲。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
思想的多样性毋庸置疑。我喜欢当我在讨论中提出一些新的东西时,它会产生持久的影响,每个人都会深入探讨它。
如果你可以选择任何一个人做你的导师,那会是谁?
我会选择亚伦·贝茨,他是我直属团队的一员,也是公司里我最钦佩的人。他是一个非常聪明的人,也是我在这里最好的朋友之一。他教了我很多东西,不仅在专业方面,甚至在文化方面,因为我来自一个不同的国家,每当我看到英国的东西时,我仍然会感到困惑。
你想加入玛丽亚的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。如果您想尝试 Maria 工作的企业平台,请访问datacamp.com/groups/business。
员工聚焦:将团队和客户放在首位
你加入 DataCamp 的历程是怎样的?
我很幸运,当我完成在霍巴特和威廉·史密斯学院(HWS)的学业时,发现了 DataCamp。我是通过学院的职业服务中心和校友网络了解到 DataCamp 的。DataCamp 的一名高级客户经理萨姆·西思(HWS 大学 14 届毕业生)告诉 HWS,纽约的销售团队有一个职位空缺。经过几次面试,感觉非常合适,我得到了一个业务发展代表的职位!
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
2019 年 1 月从销售团队跳槽到客户成功团队。我们的 CS 团队是由深思熟虑的,迷人的,好奇的,最重要的是,有趣的人组成的。和团队的每个成员一起工作都很愉快。我们不断地相互学习,获取新的想法,并不断地推动对方在我们角色的各个方面进行改进。与这个团队一起工作,我真的学到了很多,我期待着 DataCamp 客户成功团队的未来。
我发现我的角色最有趣的地方是我发现自己在和各种各样的人和人物一起工作。我可以与一家公司的实习生通话,该实习生希望了解更多关于 DataCamp 的信息,然后 30 分钟后,我可以与一家财富 500 强公司的首席数据官交谈,讨论为数千名分析师创建一个培训计划。它只是显示了有多少不同角色和不同公司规模的人可以利用 DataCamp 来提高他们的技能集和增长他们的数据技能。
加入 DataCamp 后,你的职业发展如何?
当我在 DataCamp 开始工作时,我是销售团队的业务发展代表,每周发送数百封电子邮件和电话,与我们的用户群进行互动,并了解更多关于公司如何利用我们的平台的信息。我们的目标是为我们提供与员工积极使用 DataCamp 的公司合作的机会。大约 6 个月后, Adam Kuznia (他是 CS 的负责人,现在是我们的 CRO)认为我很适合一个新的角色:客户成功代表(CSR)。CSR 的角色是让我们的企业客户支持他们的团队,并帮助他们成功利用 DataCamp 提供的一切。我还与一些组织合作,为他们更大的员工群体或整个公司扩展对 DataCamp 的访问。今年 5 月,我被提升为客户成功经理,这意味着我现在管理的客户要大得多,涵盖数百甚至数千名员工。我的客户来自各行各业,包括金融、医疗保健、科技、政府、制造、运输等等。我喜欢通过 DataCamp 帮助他们成功实现目标。
2020 年你最期待什么?
希望一切回归正常!虽然远程工作很好,但我确实怀念从帝国大厦办公室看到的风景,怀念与队友面对面的合作,尤其是当我有快速的问题或评论时。此外,我真的很期待/祈祷 NCAA 和 NFL 橄榄球赛季的回归。
除了显而易见的,我期待看到我的客户在 DataCamp 上取得成功。今年,我与不少客户合作,针对数百甚至数千名员工的需求,协调培训计划和路径。我很高兴看到这些计划将如何取得成果,并且很高兴知道我们在世界上一些最大的公司中传播数据流畅性方面发挥了重要作用!
你最喜欢为 DataCamp 工作的哪一点?
在 DataCamp 工作,我最喜欢的一点是 DataCamp 为员工提供的自由。只要你及时完成你需要完成的事情,没有人会问你问题。DataCamp 允许我们以适合个人的方式平衡工作和生活。也就是说,作为一个面向客户的角色,请求在一天的任何时候都会到来,因此 DataCamp 允许我们按照自己的时间表工作,而不会被固定的朝九晚五的时间表所束缚。
什么是最受欢迎的 DataCamp 文化价值,为什么?
“以团队为重。”当每个人都适应了团队第一的心态,我们都赢了。无论是相互交流想法,邀请其他部门的团队成员加入电话会议,还是只是在午餐时进行交谈,我们总是试图相互支持,并帮助彼此以任何可能的方式改进。目前,DataCamp 正处于快速增长的阶段,并且有一些大的事情即将发生。如果我们都有一个共同的目标,并继续把团队放在第一位,那么这家公司的发展是无限的。
如果你可以让任何人做你的导师,那会是谁?
我会选择威尔斯·克罗泽。威尔斯·克罗泽也被称为“戴红色头巾的人”,他是纽约的一名股票交易员,在 911 事件发生时在世贸中心工作。当袭击发生时,他本可以活下来,但他是一个英雄,他回去帮助从大楼里救出了至少 18 个人。他为了拯救他人而牺牲了自己的生命,这就是我希望作为导师的那种人。我强烈推荐人们了解他的故事,并观看一部关于他的故事的纪录片:红色头巾的男人。
为什么人们叫你 Mac?
我的全名是詹姆斯·麦金纳尼·斯蒂芬斯。因为我们家已经有好几个詹姆仕了,他们不得不把它混在一起。从小到大,我认识的每个人都叫我麦克。这有点好笑——我所有的家人和朋友都叫我 Mac,但我所有的客户都叫我 James。在这一点上,它是完全可以互换的!
你想加入 Mac 的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:招聘讲师和建立 DataCamp 的实时培训计划
你加入 DataCamp 的历程是怎样的?
我之前见过数据营的成功讲师主管 Jen,通过她在大会上作为数据分析讲师的介绍工作。我是她班上的一名学生,她推荐我去 GA 找一个教学助理的职位,结果我做了整整一年。
然后,她联系我,看我是否有兴趣参加兼职实习,作为帮助她找到潜在的数据营导师并向其发送信息的实验的一部分。随着我们对更多导师的需求增长,我的实习时间从每周 20 小时增加到 40 小时,我在 2019 年 6 月获得了一个全职职位。所以即使我的“正式”开始日期是 2019 年 6 月 24 日,但我实际上从 2018 年 11 月起就一直在 DataCamp 工作。
描述一下你现在的团队。你觉得你的角色最有趣的是什么?
我在成功导师团队工作。简而言之,我们的目标是照顾现有的 DataCamp 讲师,并找到新的讲师来为我们的学员开发内容。我还帮助建立了当前的现场培训计划,在那里我安排和安排教员,并自己进行培训。到目前为止,我最感兴趣的是通过我遇到的和一起工作的人了解数据科学的世界。报名参加我们即将到来的现场培训课程!
加入 DataCamp 后,你的职业发展如何?
我最初是一名兼职实习生,现在我正在主持讲师网络研讨会,并帮助协调新的现场培训计划!一路走来,我学到了很多以前不知道的技术——比如 Google 套件、Gem、Google Colabs 和 GitHub。
2020 年你最期待什么?
看到实时培训计划的启动和发展是如此令人兴奋——我们收到了一些令人难以置信的话题和来自用户的大量反馈,他们真的从中发现了价值。我迫不及待地想看到我们推出什么新的主题,以及这些会议如何继续发展!
你最喜欢为 DataCamp 工作的哪一点?
我喜欢结识来自世界各地的新朋友,并与来自不同行业和背景的人一起工作。每个人都有可以奉献和贡献的东西。
你最喜欢的 DataCamp 文化价值观是什么,为什么?
关心数据营员。DataCamp 在照顾员工方面做得很好,我们互相照顾。在疫情期间,管理人员和员工团队的反应非常迅速,他们竭尽所能保护我们的安全和健康。在过去的几个月里,每个人都很关心彼此并保持社交,尽管我们在社交上有所疏远,但我从未感觉到与我的团队有如此紧密的联系!
你做过最诡异的工作是什么?
当我十几岁的时候,我在科罗拉多文艺复兴节上工作了四个夏天。这个节日是这个国家唯一拥有永久性建筑(不是帐篷)的节日之一,而且规模巨大!有一个充满了角色和大量游乐设施、商店和餐馆的完整法庭。我们被期望保持角色,使用像“神奇的钱箱”这样的术语,而不是 ATM 机,并且把墨西哥胡椒发音为“jah-lop-pen-os”,每次有人给小费,我们就大喊“Huzzah the tipper!”在我们肺的顶端。
你想加入凯尔西的数据营吗?我们目前正在纽约招聘员工;伦敦;比利时鲁汶;和偏远地区。查看我们的空缺职位。
员工聚焦:数据科学家 Sara Billen
你是怎么结束在数据营工作的?
在 DataCamp 工作之前,我在咨询公司工作。我是一名数据科学顾问。“人员”团队联系了我,因为 DataCamp 结合了我感兴趣的两个方面——数据方面和学习方面。这对我来说是一个有趣的机会,所以我决定开始在这里做一名内容开发员。四年后,我仍然在这里工作,不是作为一名内容开发人员,而是作为一名数据科学家。
你的背景是什么?
我学的是经济学,主修市场营销。在学习期间,我学习了一些专注于市场分析的课程,这是我第一次发现自己对数据分析和统计的热爱。之后,我去根特学习了一些专门针对市场营销的数据科学方面的东西。我参加了侧重于 CRM 应用预测分析的课程。在那里,我了解了更多关于机器学习和网络分析的主题。
自从加入以来,你的职业发展如何?
我最初是作为一名内容开发人员加入的。我与教师一起创建了我们平台上的课程。因此,我结识了许多专家,接触了与数据相关的话题,这真的很酷。之后,我转换了角色,成为了一名课程经理。我负责一部分课程,在这一点上,我也换了团队。我没有继续研究我们的核心课程,比如 R、Python 和 SQL,而是转到了一个更专注于课程扩展的团队。我们致力于构建更新的技术,如 BI、概念课程和数据工程。在决定转到数据科学之前,我在这个职位上呆了大约两年。我选择申请这个职位,是因为我确实缺少数据分析方面的东西,而且当时我们公司有一些数据科学家的职位。我得到了这个角色,我已经做了两个月了。
你能在不使用数据科学这个词的情况下描述你作为数据科学家的工作吗?
我从事产品方面的工作。这意味着我负责帮助公司根据他们收到的数据发现见解。这些见解有助于我们对将要做出的某些决定采取行动。例如,他们帮助我们的产品经理就如何在我们的平台上设计学习体验做出更好的决策。
作为一名数据科学家,您从完成 DataCamp 课程中学到了什么新东西吗?
我认为总有新的东西要学。我喜欢 DataCamp 的一点是,它很容易介绍给你感兴趣的话题。我实际上从开发这些课程中学到了很多。作为一名内容开发人员,我创建了关于商业智能的课程。因为我创建了这些课程,我学到了很多关于 Tableau 和 Power BI 的知识。在我的工作中,我可以说我确实学到了很多,成长了很多。
你希望 DataCamp 平台增加什么技能?
我对即将推出的商务智能课程计划感到非常兴奋。当我加入这个团队时,我们仍在试图弄清楚它是否有吸引力,但现在公司内部实际上有很多需求。我对那边即将到来的扩张感到非常兴奋。我们的 R 和 Python 课程也在改进,这很令人兴奋。
你的超能力是什么?
在我目前的工作岗位上,我有幸在 DataCamp 呆过一段时间。在内容团队工作意味着我对我们的平台以及我们的用户与之互动和学习的方式有了很好的了解。我有丰富的领域知识,这也有助于我完成剩下的工作。除此之外,我要说的是,我对商业和数据科学的热情让我擅长自己的工作。我喜欢让公司和公司员工做出更大的决策。
有你想更精通的技能吗?
我认为,作为一名数据科学家,你总能学到一些技能。这是一个非常广泛的职业,要想做好这份工作,你需要知道很多东西。我在这份工作中学到的更多的是数据工程方面的东西。公司内部的完整数据流,而不仅仅是最后一条信息。我们使用一些工具将数据从我们的来源导入我们的管道,最终使我们能够做出正确的商业决策。我的优势更多是在业务的接触点方面。我还喜欢的是,我可以体验真正广泛的知识。我们所有的数据科学家都知道从开始到结束的整个过程,这是你在许多其他公司看不到的。
你能用 5 个或更少的词描述一下在 DataCamp 的工作吗?
有教养的,快速发展的,了不起的人。
在 DataCamp 工作真是一阵旋风。我喜欢我们的雄心壮志。对我来说,在这里工作最重要的部分无疑是那些了不起的人。和我一起工作的人都很聪明,能够和他们一起工作真的很棒。
你能告诉我你最喜欢的数据营记忆或时刻吗?
我想那一定是在我们工作的某个星期。在一个工作周内,我们将整个公司聚集在一个目的地,您终于有机会见到您在网上联系了这么久的人。上一次是在里斯本,这也是疫情奥运会前我们最后一次这样做。我们开了一个假日派对,真的有机会互相了解,这真的很好。
想加入我们神奇的国际团队吗?我们在招人!请访问我们的求职公告板并立即申请。
增强现代数据分析师的能力
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了 Mozart Data 的联合创始人&首席执行官 Peter Fishman 。
介绍彼得·菲什曼
Adel Nehme:大家好。这是 Adel,数据科学教育家和数据营的布道者。在过去的几年中,新工具和框架的加入令人难以置信,即使是最小的数据团队也能完成更多工作。这些工具通常被称为现代数据堆栈。现代数据堆栈的一个方面是,它使数据分析师等从业者能够以更快的速度提供见解并提高价值。这就是为什么我很高兴能与莫扎特数据公司的首席执行官彼得·菲什曼交谈。Mozart Data 为数据分析师提供了现成的数据仓库,任何人都可以轻松地连接不同的数据源,应用简单的转换,并开始分析数据,而无需任何数据工程师。在我们的谈话中,我们谈到了他推出 Mozart Data 的经历、大多数数据团队在努力进入角色时面临的考验和磨难、现代数据分析师需要具备的技能、培养主题专业知识分析角色的重要性等等。
Adel Nehme:如果你喜欢这个播客,一定要订阅并评价这个节目,但前提是你喜欢它。此外,如果您对现代数据堆栈感兴趣,并希望将您的本地笔记本环境过渡到基于云的协作环境,我强烈建议您查看 Data Camp Workspace,在那里您可以用 Python 和 R 编写代码,并使用一系列模板和数据集,让您在浏览器上就能开始学习数据科学。现在,让我们开始吧。彼得,很高兴你能上节目。我很高兴能与您谈论现代数据堆栈、定义当今成功数据分析师的技能等。但在此之前,你能给我们介绍一下你自己的背景,以及你是如何走到今天这一步的吗?
彼得·菲什曼:很高兴来到这里。我是皮特·菲什曼,莫扎特数据公司的联合创始人兼首席执行官。像数据领域的许多人一样,我是一个失败的学者,过渡到了应用统计经验并将其应用于技术的世界。所以我在过去的十多年里一直在创业公司工作,主要是在数据功能方面,最终决定…我和我的朋友丹决定把我们自己建成一个服务。然后我们建立了莫扎特数据,我们称之为最简单的方法来旋转现代数据堆栈。
Adel Nehme:太好了。那么你能给我们介绍一下你在工业界和学术界的这些经历是如何让你推出莫扎特数据的吗?你能给我们介绍一下莫扎特数据试图解决的挑战吗?
彼得·菲什曼:这里有一个很长的线索,因为它确实可悲地捕捉了许多、许多、许多年,但在主题上有许多一致性。基本上,随着时间的推移,数据变得越来越大。不仅仅是大数据的流行词,基本上计算能力最终会产生很多下游影响。人们可以收集更多的数据,因为他们可以从这些数据中获得更多的价值。我的弧线看起来像是我在研究生院做非常早期的实证研究,显然统计学已经存在很长很长时间了。但是第一次你可以真正利用成千上万或者上百万的观察数据。
彼得·菲什曼:今天,用数百万的观察数据进行分析不仅仅是琐碎的事情,人们会对此不屑一顾。但对我来说,这是我在博士项目期间处理的数据集的大小,在当时几乎无法想象,超过了 Excel 所能做的一切。
彼得·菲什曼:但最终发生的是,你在数据中发现洞察力,然后公司想出利用它的方法。然后你必须去寻找数据中的下一个洞察力。因此,我在脸书的游戏领域开始了我的职业生涯,在那里,许多公司都在以新颖的方式竞争使用数据。脸书有数十亿用户。因此,数据的大小和数量是巨大的,你可以做出真正新颖的见解。我们开始非常非常密切地关注 CAC 和 ltb。游戏是建立一个良性循环,非常有效地购买人们的眼球,然后将其转化为货币,让更多的人进入你的平台,实现良性循环。
彼得·菲什曼:然后我看到了将它应用到 B2B 世界的机会。所以我职业生涯的决定性部分就是这个公司的抱怨。在 Yammer,我们在软件开发中采用了很多 B2C 方法,然后将其应用于 B2B 世界和自下而上的 SaaS 世界,这在当时并不存在。但这需要大量了解你的用户在做什么,了解潜在客户的吸引力,这是谁在实际使用你的产品的函数,这需要数据人员。不仅如此,数据基础设施。所以我和一个非常棒的团队在 Yammer 开发了一个叫做 Avocado 的工具。今天的鳄梨实际上是莫扎特数据加模式分析。从那以后,我有很多不同的机会在不同的公司拥有类似的数据基础架构,最终决定自己构建它。
数据驱动的组织
Adel Nehme:这非常令人兴奋。我很高兴能进一步解开这个谜团。不过,在此之前,我想先介绍一下景观数据团队目前的工作,以及真正促成莫扎特数据发布的动力。正如你所说,我完全同意这种观点,数据科学已经成为赌注,不再是一件好事。所以,我想以这样一个问题开始我们的聊天,你如何定义一个数据驱动的组织,以及一个组织如何将数据科学集成为当今的实践?
彼得·菲什曼:当然。因此,我认为大多数人对数据驱动型组织的印象是办公室里到处都是电视。现在,有不存在的办公室。这些电视有 KPI 的时间序列,人们只要在大楼里走动,就可以通过观察 KPI 的时间序列来了解公司的情况。我设立了一个稻草人,但我非常不同意。
彼得·菲什曼:所以我要说的第一件事是,很少有一成不变的数据分析方式能提供你所说的必要见解。在数据驱动型组织中,数据在关键决策表中占有非常重要的位置。这可能意味着一个非常高级的管理人员是一个数据人员。这可能意味着每次会议都有数据开始。这可能意味着数据分析师可以接触到各种关键决策者,或者最终数据比战略一词更能成为关键决策者。
彼得·菲什曼:我经常发现非数据驱动的组织经常谈论战略投资,这些投资几乎不能用数据来证明。当你创办一家公司,没有想法,没有数据,没有员工,或者其中任何一个,你最终真的需要有战略眼光。你需要想象一个不存在的世界,一个不能通过回顾来证明的世界,你需要运用你自己的方向、思想和信念。现在,数据可以告诉我们。我是说,我最喜欢的例子之一。当我在这家名为[听不清 00:07:49]的脸书游戏公司工作时,我们有时会在基本上是半成品的游戏上做广告。虽然你不能从统计学的角度对游戏的有效性或成功性做出高度自信的结论,但你可以感受到获得用户的难度。
彼得·菲什曼:所以你对这一点的信念甚至可以在游戏存在之前得到验证。所以,这并不是说在一个超早期的公司,你必须只依靠直觉和策略。但我所认为的数据驱动型组织是这样一种组织,数据是一等公民,但不仅仅是他们收集数据,他们有仪表板,他们看时间序列,他们晚上可以睡觉,因为他们知道他们的公司在上升并向右移动。而是关键的决策是由数据、数据的删减、潜移默化、总结和模型决定的。
Adel Nehme:所以,在数据驱动的组织中,数据在整个决策生命周期中成为一种习惯,而不是看上去的东西。
彼得·菲什曼:当然。
Adel Nehme:那么,影响当今真正希望充分利用数据的组织的主要挑战是什么?
彼得·菲什曼:一个组织实现数据驱动的方式是不被数据驱动。所以,把你带到这里的成功不会是数据驱动的成功。这将是一个成功,通常是由创始人推动的,但通常对世界的信念在当时不一定是正确的,但最终证明是正确的。但你通常会遇到这种逆风,因为你不是数据驱动的。
Peter Fishman:组织如何成为数据驱动的往往是一个潜在的信念,即我们的组织必须是数据驱动的。不是因为一个风险投资家告诉你要以数据为导向,也不是因为《世界》和你听的播客告诉你要以数据为导向,而是因为你最终真的相信,当以正确的方式汇总和总结时,世界给你的信号将会提供更多的信息。
彼得·菲什曼:我有时在柏克莱大学教书,我在柏克莱大学攻读博士学位,当我回去的时候,我会贴一些不同的广告,这些广告来自我们在脸书运行的游戏。我说,“哪一个是最有效的,哪一个会得到最好的点击?”人们举了手,不是不分青红皂白,但他们有一些喜欢的,他们喜欢的往往是更好的。但是当你把广告展示给一亿人看时,他们的观点比任何真正的专家都正确。我认为你需要做的是随着时间的推移锻炼肌肉。现在,这并不是说如果你没有这样做,如果你没有被灌输,你真的需要考虑数据,以正确的方式考虑数据并使用数据。
彼得·菲什曼:你仍然可以很快接受它。如果我回到我在 Yammer 的时候,我们有两个非常固执己见的领导者,两个联合创始人,大卫·萨克斯和亚当·比索尼,他们有很多直觉。众所周知,他们在产品和技术方面非常有天赋,而且他们有丰富的直觉。事实上,正是这种直觉让 Yammer 成为一家吸引我加入的公司。但是在我职业生涯的早期,实际上是在我职业生涯的前三个月,我们对新的用户流进行了 AB 测试,这与他们的两种直觉都相反。我们这样做几乎是偶然的,但它真的为我的职业生涯奠定了成功的基础,因为结果非常清楚,有点违反直觉。你很少在科技领域看到这种情况。我认为,即使是数据人员也喜欢炒作,哦,你运行这些实验,你得到这些违反直觉的结果,然后你的公司变得更好。
彼得·菲什曼:这很少发生。更多的时候,你会从你认为几乎肯定会成功的事情中得到无效的结果,而不是得到违反直觉的有统计学意义的结果。这种情况发生在我身上,在我的职业生涯中不算少数,但在我的职业生涯中非常非常非常少。这只是发生在我在 Yammer 的早期,这基本上改变了他们对发布产品时运行 AB 测试有多重要的整体看法。它成为了发布标准的重要组成部分。我认为最终这是一点点的机会,但这两个人的思想很开放,他们现在都是莫扎特数据的投资者,但最重要的是,我认为这需要要么是你的核心,要么你得到一个非常清晰的教训,这就是你如何成为一个数据驱动的组织。
现代数据堆栈
Adel Nehme:太棒了。我希望我们能奉献一整集来展示你在 Yammer 的经历,以及与 David Sachs 这样的人一起工作的经历。现在,当然,成为数据驱动型组织的一个关键要素是一套工具和支持基础架构,以加快洞察速度。这就是通常所说的现代数据堆栈。如果您能对您认为的现代数据堆栈的含义进行细分,我会很高兴,它与数据团队习惯使用的前一套工具的区别是什么?
彼得·菲什曼:现代的数据堆栈其实并不那么现代。现代数据栈是现有数据工具和已经存在了很长时间的数据管道工具的现代化。它的品牌很棒,因为我一直听到这个词,在某种程度上它是当之无愧的,也就是说云数据仓库在数据空间的用户中已经变得无处不在。所以我要说的第一件事是,这些强大的[听不清 00:13:17]能够再次处理大量数据。不是我 20 年前处理的数据大小,而是像巨大数据集上的真正关节。这就使得你可以使用来自多个地方的数据。
Peter Fishman:所以现代的数据堆栈实际上与 Excel 中的 V 查找没有太大的不同,也就是说,它是连接来自多个地方的数据。帮助您实现这一目标的是 EL 工具、强大的数据仓库和 T,即转换层。这是一个从本质上清理数据的层。因此,你必须从许多不同的来源提取和加载数据,然后你必须清理和转换它。所以感受一下数据。因此,当人们谈论现代数据堆栈时,他们谈论的是 ELT,但 T 现在有了很大的意义。
彼得·菲什曼:每个人都知道清理是数据人员工作的一个重要部分。我以前在微软的老板是罗尼[听不清 00:14:21],他有一个笑话。而且我不知道这是不是他开的玩笑,但我知道他爱用,就是说“95%的数据科学都在清洗数据,只有 5%的数据科学在抱怨清洗数据。”他的笑点比我好一点,但他说的是,实际上他会想,哦,这都是从你竞争或获得的这些美丽的数据集建立这些不可思议的模型。实际上,很多工作都是清理和确保数据的正确性和一致性。
彼得·菲什曼:数据人员做的工作很少是真正的数据分析。当然不是 0%,但当你期望答案是 5%时,这个笑话会更好,但只有在其余时间里,它实际上只是抱怨。如果我想一想现代数据堆栈是什么,现在所有这些工具都代表了清理层。它不仅仅是基本上计划好的表,它还包括各种不同的部分,以确保您在下游查看的数据(无论最有可能在您的 BI 工具中)实际上是原始的,基本上没有任何问题。
Adel Nehme:对我来说,现代数据堆栈令人兴奋的一部分是数据堆栈中新类别的出现。例如,去年我们采访了蒙特卡洛的首席执行官 Bar Moses,以及他们如何开拓数据可观察性类别。在过去的几年中,你看到哪些类别和工具的出现让你感到兴奋?
彼得·菲什曼:当然。当然,我会说管理数据管道是我认为最酷的类别。我碰巧喜欢其中的一家公司。然而,除此之外,还有各种各样的工具更适合,我称之为上游和高端市场,进入更大的公司,这些公司拥有更大的数据团队,以各种方式使用他们的数据。但是最终一旦你将数据加载到你的仓库中,会有很多事情发生。有数据可观察性,有数据编目。我记得很久以前,我们有专栏。收入强调最终,强调一个使用,强调你真的想要这一个 V6。我认为,很明显,大型数据团队能够很快了解这个世界,实际上,你会发现,一旦你有了一个成熟的数据组织,可能需要几周甚至几个月的时间来了解这个堆栈。
彼得·菲什曼:DJ 帕特尔有一句关于他在 LinkedIn 的经历的话,“作为一名数据科学家,在 LinkedIn 取得成功很大程度上取决于在最初的 90 天里取得成功。”如果你花了 90 天或 89 天才登上排行榜,你最好表现得令人惊讶。你最好能在一天内找到不可思议的东西。然而,如果你花了一周或一天或一个小时才爬上了顶峰,那么,现在你就有了在那家公司取得成功的真正机会。
彼得·菲什曼:所以,像 LinkedIn 和 Yammer 这样真正精明的公司正在开发和使用各种工具。显然,Airbnb 已经建立了许多著名的工具,这些工具是为了让数据人员变得有效。现在,很多公司已经涌现出来,他们花费了无数的资金来建造这些工具…Airbnb 大概花了上亿美元。这并不重要,但他们花费了数百万美元进行开发,现在让那些没有 Airbnb 或脸书或其他任何公司的预算的公司也可以使用。所以我看到了这一领域的巨大发展。很明显,其他出现的类别…反向 ETL 是一个非常好的下游例子,我们已经建立了自下而上的 SAS 世界和类似的子规模,对不对?因此,我认为现在有这样的服务,或者有提取和加载的服务,对公司来说是非常非常重要的。
莫扎特数据
Adel neh me:Mozart 数据在现代数据堆栈中处于什么位置,它如何解决我们到目前为止讨论的一些挑战?你能给我们介绍一些莫扎特数据的例子吗?
彼得·菲什曼:莫扎特数据基本上是一个一体化的数据平台。这意味着在不到一个小时的时间内,您可以开始连接多个数据源,我们会为您构建一个雪花型数据仓库,您可以开始编写转换,连接 BI 工具或反向 CTL 工具,并开始获得见解。
彼得·菲什曼:真正神奇的是,这通常需要几个月的时间和大量的数据工程师,或者你做大量的供应商评估,然后选择你的供应商来做,或者你聘请一名顾问来做。今天,这一切都可以在短时间内完成。当您完成演示时,您就可以开始运行并在您最喜欢的 BI 工具中查询您的数据了。事实上,这种速度对洞察力提出了挑战,Mozart 不仅希望像非常精明的数据工程师一样,而且希望数据领域的每个人都能够非常快速地启动并运行这种现代数据堆栈,而不会受到工程的限制。
Adel Nehme:我喜欢 Mozart Data 的一点是,它让数据分析师和公民数据分析师能够快速上手数据并快速提供价值,而无需依赖数据工程或基础设施工作。你领导过数据团队,在开发 Mozart 数据和其他数据时与许多数据分析师合作。如果您能详细说明您认为数据分析师这一角色在过去几年中是如何发展的,以及您认为它在未来将走向何方,我会很高兴。
Peter Fishman:就在那时,数据科学这个术语,再次像 Jeff[听不清 00:20:06]和 DJ Patel 开始使用数据科学家这个术语。然后,这个行业出现了令人难以置信的快速增长。数据科学家的头衔在数据领域无处不在。原因是,作为一名数据科学家,基本上意味着你的报酬比数据分析师高得多。所以每个人都开始使用这个术语。然后你看到它代表着,你有一直在做 ML 工程的人,也有可能是刚从大学毕业第一次从事数据工作的人,他们都有数据科学家这个头衔。它代表了一套完全不同的技能,所有这些技能都包含在同一个标题中,但又各不相同…在不同的公司,这意味着不同的事情。
彼得·菲什曼:今天,你可以看到更大的粒度。你会看到拥有 rev ops 或 BI ops 头衔的人。你会看到一些人,他们的专业技能是出类拔萃的。因此,分析工程师与数据工程师截然不同,如今的数据科学家在公司中有着特定的角色。数据分析师往往有特定的角色。现在,我们仍然看到很多,如果我们有一个技能集的维恩图,很多会重叠。我认为实际上最好的…我不认为这一个标题是…没有大于号。我认为很多核心技能最终都是一样的。真正伟大的数据科学家实际上造就了真正伟大的营销运营分析师,也就是说对因果关系和推理的深刻理解,就像是一套不同的技术技能。显然,在公司和组织中,这是一个不同的角色。您每天都在做不同的事情,但核心仍然是关于数据思维和数据能力,而不是特定的技术专业知识。
数据分析师
Adel Nehme:我完全同意这一点,特别是因为随着角色的发展,有一层技能在一定程度上发生了变化。您认为数据分析师应该培养什么样的决定性技能才能在当今的现代数据团队中取得成功?
彼得·菲什曼:我有一点偏见,因为我 20 多岁的时候花了很长时间思考真正的因果关系。所以我读了经济学博士。我学的是行为经济学。通常情况下,你会得到不是由实验产生的大量数据。所以数据集,你随着时间的推移测量事物,你随着时间的推移了解一个有 ID 的个体,但你不一定有你真正想要的东西,那就是进行科学实验。但是在条件 A 和条件 B 下的人会有一个假设,看看哪一个会胜出。
彼得·菲什曼:当你没有这些的时候,你基本上只能做一些统计学上的小把戏。你必须思考,好吧,什么是实验?我经常想,这是数据中最被低估的技能之一,真正思考你试图用你的数据做什么,本质上是分配一个基于过去的因果关系,你认为这在未来适用,原因有很多,对吗?
彼得·菲什曼:你认为有一种机制带来了它,这种机制至今仍然存在。所以我认为那些真正有深度思考的人喜欢理解因果关系和理解数据的典型错误。所以经典的例子是你说,好吧,好吧,溺水死亡总是在冰淇淋消费上升的月份上升。这就像,显然所有的新手都会说,“嗯,那是因为在温暖的月份,人们会吃着冰淇淋,去海滩或者去游泳池。”当然,他们意识到这实际上不是因果机制,但是你把它从那个特定的玩笑环境中分离出来。然后你把它带到一个有很多事情正在发生的世界,你的工作取决于,在某种意义上,你给公司带来的价值取决于确定一种你认为会推动公司发展的关系…无论是他们的营销,他们的业务,他们的产品,他们的用户前进。
彼得·菲什曼:然后,你开始放弃批判的观点。所以总的来说,我喜欢的是一套几乎是对好作品的拆解,思考一个好的见解或好作品可能存在缺陷的所有方面。也许有人做了一个健壮性检查,证明它没有缺陷,但至少当你读它的时候,你能吗…或者看看已经完成的工作,你能不能持怀疑态度,说,好吧,好吧,也许它主要是由一些不一定会重复的东西驱动的,因为他们做了很多复制研究。当我在微软工作时,我在必应工作。宾,你拥有的不仅仅是数百万,不仅仅是数十亿,数万亿的观测数据。
彼得·菲什曼:你可以继续测试,并从中得出结论。所以我觉得像推断才是大本事,不过话说回来用小数据推断也是真本事。这有点令人困惑,因为通常情况下,你无法用少量数据做出推断。因此,如果你寻找一个或两个观察或 NF1,实际上你不能从中做出有效的统计推断,但真正深入思考机制以及如何设置它,以在一个受数据库限制的空间中实际学习答案,你会发现,我们在 Bing 发现,即使当你的数据大小是无限的,你也总是想切割它,切割它,切割它,切割它,切割它,切割它,切割它到越来越小的群组,以做出越来越精确的推断。
彼得·菲什曼:你一定会用完数据,即使数据看起来是无限的。我认为有两种技能对我来说是最被低估的。这是我认为人们应该发展和努力的方向。这也是我们采访的对象,不仅仅是莫扎特,还有很多我工作过的地方。
Adel Nehme:能够做出这些推论并发现数据集中的这些偶然关系需要大量的专业知识。通常,围绕提升技能和进入技术领域的讨论中缺少的是主题专业知识和领域知识,尤其是能够在分析角色和数据角色中取得成功。您能否评论或阐述一下主题专业知识在数据角色中的重要性,以及它对您的职业生涯有何帮助?
彼得·菲什曼:嗯,就像你提到的,从最后一个问题中,如果你的关键洞察力是思考驱动你归因于你的数据的因果关系的正确机制,那么实际了解你的用户在做什么以及什么激励你的用户是至关重要的。所以,我在 Yammer 工作。作为一家公司,我们是我们产品的最大人均消费者。所以不奇怪。丹和我,我的莫扎特数据的联合创始人。他和我,13 年前,开了一家辣酱公司。我们也是那种辣酱的头号消费者。因此,主题专业知识 100%就像是一个赌桌,认为你必须带着才能理解这些关系。
彼得·菲什曼:现在,翻转有时对你非常不利。所以它不是线性上升的。它不一定只是凹的,随着你获得越来越多的专业知识,这个一阶导数仍然是正的。你会发现,有时候你沉浸在自己的世界中,以至于忽略了典型用户正在做的事情。实际上,在过去的工作中,我们经常遇到这样的问题,我们是用法的正确尾巴,希望每个人都理解工具中正在发生的一些微妙的事情。你会发现人们有一种令人惊讶的表面意愿去关注。你对你来说是最重要的。很多时候你可以构建软件。对你来说,这是不可思议的,但是对于不愿意花同样的钱去学习你所有的细微差别的典型用户来说,情况可能不是这样。
彼得·菲什曼:首先,专业知识是入门的基础。如果一开始就不了解你的用户,你就无法合理地理解驱动你的用户群的机制。这就是为什么你经常看到像 Airbnb 和优步这样的公司,消费公司,在那里工作的人只是对使用这些产品着迷。众所周知,布莱恩·切斯基在 Airbnb 呆了整整一年。没有公寓。这是发展领域专家的关键部分…是的,这是关于对客户的同情,但也是关于调整该领域的专业知识。我认识的每个在拼车行业工作的人都到处拼车。他们必须穿过街道,他们要一起乘车。我认为这不仅仅是在培养专业知识,也是在真正了解用户的心态。
Adel Nehme:鉴于你在初创公司和小型组织中工作的经验,当初创公司在招聘员工时不一定拥有如此庞大的用户群,你如何向初创公司灌输这方面的专业知识?
彼得·菲什曼:我在一家名为 Open Door 和 Open Door 的公司工作,当时我在凤凰城主要从事房屋买卖。我没有买卖的欲望。我在凤凰城没有自己的家,但我也没有在凤凰城买房的欲望。很明显,现在他们进入了很多很多更多的市场,而我没有能力在基本的购买过程中获得专业知识,因为我从未经历过。你并不总是有我和消费公司讨论过的情况,在那里你是一个数据科学家,他们说,脸书,你的狗一直在叫。我认为关键是一,显然,如果你能做到这一点,这是一个巨大的优势。如果你不能,我认为你真的想不成比例地投资与…类似 YC 的比喻,就是和顾客交谈,和顾客交谈,和顾客交谈。
彼得·菲什曼:所以我认为坐下来,观察客户,与客户交谈,与拒绝你的潜在客户交谈,所有这些事情都在试图增加你的知识。现在,相反的是,我现在销售的产品实际上是我工作了 20 年的产品。因此,你的专业知识并不一定是在你签署录取通知书的那一刻就出现的,你的专业知识,希望你利用了我 40 多年的专业知识。但除此之外,你希望能够真正了解你的客户,不管那个客户是不是你,不管那是不是详尽的研究。你不应该也想到你的头衔。我的标题说数据在里面。所以我不得不躲在角落里,做数据。我喜欢用的很多术语是“用你的脚”,这是指与你组织中面向产品或客户的人交谈。或者如果可以的话,和客户聊聊。
发展主题专业知识
Adel Nehme:太好了。稍微转换一下问题,如果我在 data analyst 进入一个新的垂直领域,无论是在初创公司还是在企业,我发展主题专业知识的最快方式是什么?
彼得·菲什曼:所以我认为相邻问题是有帮助的。我是说,我喜欢读内特·西尔弗的书已经很久了。我确实认为阅读那些以正确方式思考数据的人。我在 NFL 开始职业生涯时是一名统计学家,而不是一名球员。我一生都在研究体育统计学。我认为这与棒球的想法有很多相似之处,著名的棒球解决了很多类似的实际问题,比如找出什么与表现有密切关系,什么具有可预测性,等等。但是那件事深深地激励了我,我很兴奋,我对它充满了热情。我读了很多关于它的书。我认为如果在你喜欢的领域有分析。现在,对我来说,那是棒球和足球,现在有大量的材料。当时,材料数量有限。
彼得·菲什曼:但是如果你能发现那些热爱写作的人在你所热爱的领域里真的很有悟性,我认为你会发现很好的分析、思考问题的分解,这将适用于你将要做的任何学科。我的意思是,读迈克尔·刘易斯的《金钱球》,我最喜欢的书,和我给早期创业公司的想法是一样的,事实上这和 YC 给的建议是一样的,写下成功的等式,然后把它分解成几个部分,然后衡量这些部分,然后深入其中一个是不行的,分组,切割,总结。这就是你在任何地方开始分析的方式。但这肯定是几年前当他们试图与更大的市场团队竞争时 as 所做的。
Adel Nehme:太棒了。在我们结束对话时,我希望我们能思考一下未来,你认为哪些趋势将真正影响个人和组织处理数据的方式。如果您能列出一些您对现代数据堆栈特别感兴趣的趋势,以及它将如何影响数据驱动型组织,我会很高兴。
彼得·菲什曼:我认为我们触及了其中之一,那就是公民数据科学家的真正崛起。首先,你会看到一群聪明的人编写没有数据标题的 SQL。商业运营、营销运营,所有这些写 SQL 或 R 或 Python 或类似的东西在几乎完全非技术的角色中并不罕见。我认为,对于数据领域的任何人来说,这都是一个激动人心的时刻,因为数据现在向公司的许多许多更多的角色开放,许多许多更多的人有能力做一些事情,对他们的数据有点危险。我认为,对于试图为中小企业解决数据问题的公司来说,这是一个大趋势。
彼得·菲什曼:显然,我对其中一家公司莫扎特数据公司感到非常兴奋。这种趋势的另一部分让我感到兴奋,这也与莫扎特数据有关,它过去需要花费你雇用几名数据工程师和购买一系列昂贵的基础设施,你可能会花费 2 美元、3 美元、4 美元、5 百万美元来开始你的数据之旅。
彼得·菲什曼:今天,刷一张 6 美元的信用卡,你就可以去看赛马了。现在,它是计量的,你的账单变得很重要。您对数据的投资最终会变得非常重要。但事实上,你可以几乎不花钱就开始工作,这是令人难以置信的。这是一个巨大的差异。所以,如果你考虑一下公司的类型,这些公司是真正能够负担得起数百万美元数据投资的公司,因此他们可以拥有这种优势,是最大的公司。
彼得·菲什曼:你只能在最大的公司找到工作,因为那些公司有数据团队。这些公司利用了数据,能够有效地利用他们的规模并应用这些数据见解。今天,这正越来越早地成为桌面赌注。因此,越来越多像我们这样的公司,不仅仅是我们,而是像我们这样的公司,正在真正授权和支持中小企业使用数据基础架构,这种类型的数据工具在市场上我看到得更多。事实上,一般来说,我发现在有十几个真实来源之前,数据堆栈在下游实际上更强大。这实际上有点自相矛盾,实际上预算越紧张,就越有可能最终得到更紧凑的数据堆栈。
行动呼吁
Adel Nehme:太好了。我尤其喜欢第一种趋势,这是我们在 Data Camp 中明确看到的工作混合以及数据技能在传统角色中的出现,如财务、营销等。最后,彼得,我今天和你聊得很开心。在我们结束之前,你还有什么最后的行动要求吗?
彼得·菲什曼:是的。很明显,我支持许多人的数据之旅,我们喜欢在不到一个小时的时间内帮助小公司开始他们的数据之旅,并运行他们的数据基础架构,而不需要任何数据工程支持。如果你对此感兴趣,我们很乐意在莫扎特数据公司与你交谈。所以我是【电子邮件保护】
Adel Nehme:太棒了。非常感谢你,彼得,参加播客。
斯坦福 2022 年人工智能指数报告的要点
斯坦福大学的海研究所旨在以人为本的方式研究人工智能,其灵感来自人类思维的深度和多样性,并关注其对社会的道德影响;他们的任务是使用人工智能来增强人类的能力,而不是取代它们。
由该机构在学术界和商界的领先专家研究和撰写的第五期年度人工智能指数报告展示了过去一年人工智能领域最新趋势背后的数据。这份报告长达 230 页。在本文中,我们概述了报告每一章的要点。
请继续阅读,了解哪些国家在人工智能方面取得了最大的进步,全球人工智能工作的最佳地点,人工智能监管的状况等等。
第一章:研究和发展
章节摘要
人工智能是一个热门商品,因此去年进行了广泛的研究和开发。本章试图量化学术机构、政府组织和行业的研究和发展。
该报告从会议论文、期刊文章、研究论文和专利等公开来源收集了以下数据集。它还研究了开源仓库中的 GitHub stars,甚至是会议出席情况。这使得人们可以鸟瞰人工智能研发如何在世界范围内发展。
主要亮点
美国和中国是同志
在研究人工智能领域的国际合作时,尽管两国之间存在政治分歧,但从 2010 年到 2021 年,美国和中国在人工智能出版物上的合作数量最多,自 2010 年以来增加了五倍。第二紧密的伙伴关系是英国和中国。
中国在出版物方面处于领先地位
中国出版了数量最多的出版物、期刊、会议和知识库,目前在人工智能研究活动中处于领先地位。
出版的期刊达到了历史最高水平
2021 年,所有发表的 AI 文献中,51.5%是期刊(即研究论文)。作为一个普遍趋势,人工智能期刊和知识库正处于历史最高水平。然而,自 2018 年以来,举办的会议数量一直在下降。
发展最快的研究领域
自 2015 年以来,模式识别和机器学习方面的出版物增加了一倍多。2021 年,每个领域分别发表了约 52,000 篇和 40,000 篇研究论文。
跨部门合作
从 2010 年到 2021 年,非营利组织和教育机构制作了数量最多的跨部门人工智能出版物。接下来是私营部门和教育机构之间的跨部门合作,其次是政府和教育机构之间的合作。
人工智能专利创历史新高
随着人工智能的发展加速,更多的研究人员和科学家争相保护他们的工作,专利申请量以 76.9%的年增长率复合增长。
人工智能知识库:共享人工智能研究的新方式
发表关于 arXiv 和 SSRN 的预同行评审研究已经成为人工智能研究人员分享他们的发现的一种流行方法。在过去的 12 年里,人工智能知识库出版物的数量增长了近 30 倍。
流行的开源人工智能库
该报告比较了过去七年来流行的开源人工智能库 GitHub stars 的总数。tensor flowGitHub 明星最多,其次是 OpenCV 、 Keras 、和 Pytorch 。其他 40k 星以下的热门库还有 faceswap 、 100-Days-Of-ML-Code 、 AiLearning 。
第 2 章:技术性能
章节摘要
本章跟踪计算机视觉、自然语言处理、语音、推荐、强化学习、硬件和机器人技术中各种模型的进展。本章试图使用常用的模型基准和 10 年间的专业调查来量化这些模型的性能。报告中使用的一些基准如下:
| 计算机视觉图像&视频 |
| 机器学习问题 | 使用的基准测试 |
| 图像分类 | ImageNet:前 1 名和前 5 名的准确性 |
| 深度假货检测 | face forensics ++ Accuracy
Cele b-DF:曲线下面积分数(AUC) |
| 语义分割 | 城市景观挑战:平均交叉联合(IOU) |
| 活动识别 | 动力学-400,动力学-600,动力学-700 数据集:最高精度 |
| 目标检测 | [上下文中的公共对象] COCO-TEST-DEV:平均精度 |
| 语言 |
| 机器学习问题 | 使用的基准测试 |
| 英语语言理解 | 强力胶:分数,1.1 班和 2.0 班:F1 分数,需要逻辑推理的阅读理解数据集(RECLOR):准确性 |
| 文本摘要 | ARXIV:红色-1,发布日期:红色-1 |
| 自然语言推理 | 斯坦福自然语言推理溯因自然语言推理 |
| 推荐 |
| 机器学习问题 | 使用的基准测试 |
| 商业推荐 | MOVIELENS 20M:标准化折扣累积【电子邮件保护】 |
| 点击率预测 | 标准:曲线下面积分数(AUC) |
| 强化学习 |
| 机器学习问题 | 使用的基准测试 |
| 街机游戏 | ATARI-57:平均人类标准化分数
PROCGEN:平均标准化分数 |
| 人类游戏:国际象棋 | 国际象棋软件引擎:ELO 分数 |
主要亮点
大数据是成功的关键
大型训练数据集是构建高精度成功模型的关键。几乎所有具有数百万个参数的最先进模型都是在大型数据集上专门训练的,以获得良好的结果。在这方面,大型科技公司拥有优势,因为它们拥有大量数据。
负担得起的人工智能
所有这些年的创新都得到了回报,因为普通人现在可以轻松地建造大型模型。自 2018 年以来,训练一个图像分类器的成本下降了 63.6%。此外,训练模型所需的时间提高了 95%。培训时间的缩短是成本降低的一个原因。其他因素,如专用云服务、高效的开源软件包和人才的可用性,也有助于降低成本。
廉价的机器人手臂
根据人工智能指数团队开展的一项调查,机器人手臂的价格有明显的下降趋势。2017 年,机械臂的中值价格为 42,000 美元,但在 2021 年,该成本下降了近 50%,为 22,600 美元。
聚焦医学影像
根据该报告,计算机视觉研究正朝着更加面向用例的应用方向发展,如医学成像。从他们的数据集,人工智能指数发现,使用 Kvasir-SEG 医学成像数据集和 CVC-ClinicDB 的研究显著增加——2020 年,只有 3 篇论文使用该数据集,而 2021 年有 25 篇相关出版物。
人工智能仍然缺乏语言技能
即使 SuperGlue 和 Squad 等模型已经在阅读理解等相对简单的任务上超过了人类,但对于溯因自然语言推理(aNLI)等更复杂的语言任务,AI 模型仍远未达到人类水平的熟练程度。
一般强化学习的改进
在过去的 10 年里,人工智能已经能够熟练地完成狭窄的强化学习任务,例如下棋。然而,在 2021 年,在更一般的强化学习任务方面有一个显著的趋势,例如 Procgen,这是一个强化学习环境,测试人工智能学习可概括技能的能力,由 OpenAI 在 2019 年发布。
第三章:人工智能技术伦理
章节摘要
毫无疑问,人工智能在过去几年里为企业创造了巨大的价值。然而,随着这些机器学习模型的生产化,它们的使用暴露了 AI 中偏差的一些最重要的缺点。在许多情况下,人工智能模型使用真实世界的数据进行训练,其中包含某些社会偏见。当机器学习模型围绕有缺陷的数据建立时,这些偏差会进一步放大。
本章试图通过为各个领域(如自然语言和计算机视觉)提供深入的基准来量化消除偏见的进展。使用的一些基准可以在下面找到:
| 自然语言 |
| 道德问题 | 基准测试 |
| 自然语言中的毒性 | 透视 API 真实毒性提示 |
| 刻板印象偏见 | 立体组按模型大小评分
乌鸦对 |
| 性别偏见 | Winogender Winobias
T5WINOMT |
主要亮点
人工智能伦理成为主流
关于人工智能模型公平性的研究增加了许多倍——从 2014 年开始,出版物数量同比增长了 71%。各种商业模型的结果中的偏见导致这些模型在现实世界的应用(如信用卡评分)中不公平地歧视特定的子群。因此,它引起了学术研究人员和商业公司对公平机器学习模型的极大兴趣。
大型语言模型是有偏见的
拥有数千亿参数的巨大的最先进的语言模型,如 GPT-3,在基于语言的任务中已经变得非常成功。这些模型背后的技术创新是应用具有注意力的变压器的双向训练。然而,新的数据显示,这些大型模型更容易从其大量的训练数据中产生偏差。
多模态模型更倾向于偏向
与大型语言模型类似,像 DALL E 2 这样的多模态语言视觉模型展示了一系列不同的能力,因为它们将文本和图像作为单个数据流进行了大规模训练。这不仅产生了从文本提示生成的顶级真实感图像,还产生了反映社会陈规定型观念和偏见的输出。
第四章:经济和教育
章节摘要
本章考察了人工智能对经济和教育的影响。该报告从 Linkedin、计算研究协会、麦肯锡、Netbase Quid 和 EMSI 燃烧玻璃公司收集了公开可用的数据。它还研究了人工智能对就业的影响,包括招聘、劳动力需求和技能渗透。
主要亮点
人工智能是高投资
2021 年,人工智能初创公司融资 935 亿美元,是 2020 年融资额的两倍。然而,新资助的人工智能创业公司数量从 2019 年的 1051 家减少到 2021 年的 746 家。2021 年有 15 轮 5 亿美元或以上的投资。
美国正在押注人工智能创新
美国对人工智能的私人投资最多,新投资的人工智能公司也最多,分别比第二名中国高出近两倍和三倍。
投资优先考虑云
云数据管理和处理领域的公司,如 Databricks,获得了最多的私人资金。亚军是医疗保健和金融科技。
人工智能工作的热门地区
从 2016 年到 2021 年,新西兰、香港、爱尔兰、卢森堡和瑞典的人工智能职位空缺增长最快。
美国境内的人工智能工作范围
硅谷所在地加利福尼亚州的招聘数量最多,是第二名德克萨斯州的 2.3 倍。然而,与美国的整体职位发布数量相比,华盛顿 DC 拥有最多的人工智能职位发布。
人工智能是计算机科学博士中最受欢迎的专业
过去十年,计算机科学博士中最受欢迎的专业是机器学习/人工智能。2020 年每五个博士毕业的 CS 学生中就有一个是 AI 专业的。
第 5 章:人工智能策略和治理
章节摘要
本章分解了影响全球人工智能的立法和法规。它着眼于不同国家和地区如何努力适应人工智能技术,同时将人民的福祉作为核心焦点。研究人员研究了全球的政策制定,并量化了提到人工智能的提案和通过的法案。
主要亮点
越来越多的国家正在规范人工智能的使用
该报告分析了 2016 年至 2021 年在 25 个国家通过的人工智能相关法案(包含人工智能作为关键词)的数量。报告显示,在过去两年里,通过的与人工智能相关的法案数量急剧增加。西班牙、英国和美国通过的人工智能相关法案数量最多,各有 3 项。
美国率先提出人工智能相关法案
美国立法记录显示,监管人工智能的提案数量急剧增加。2021 年,美国的立法提出了 130 项法案。然而,其中只有 2%被通过成为法律。
美国州级人工智能立法
在美国,围绕人工智能的立法已经在全国范围内得到考虑,50 个州中有 41 个在 2012 年至 2021 年期间提出了至少一项人工智能相关法案。提出人工智能法案最多的前三个州:
- 马萨诸塞州(40)
- 夏威夷(35)
- 新泽西(32)
民主党与共和党在人工智能上的较量
在美国,州级人工智能立法数据可以通过政党赞助进一步细分,数据显示民主党人比共和党人更支持人工智能立法。多年来,这一差距进一步加大。2021 年,民主党比共和党多发起 39 项法案。
大赦国际在全球立法听证会上提到
AI Index 报告分析了 2016 年至 2021 年 25 个国家以“人工智能”为关键词的口头记录听证会。人工智能的提及次数在过去六年中增长了 7.7 倍,到 2021 年达到 1323 次。
跟上人工智能
人工智能领域正在不断发展,全球数百万专家正在夜以继日地工作,以保持这一现实。为了进一步了解人工智能及其进展,你可以查看下面的更多资源。
事件回顾:发展一个人工智能文化国家
如果您想了解更多信息,您可以点击观看完整的网络研讨会。
2017 年 6 月,AI Singapore 成立,其使命是在新加坡建立人工智能能力,通过人工智能创造社会和经济影响,培养人工智能人才,并创建一个充满活力的人工智能生态系统。建设一个人工智能流畅的国家包括开发工具,使公民能够成为人工智能意识,人工智能素养和人工智能专家。在网络研讨会期间,AI 创新总监 Laurence Liew 和 AI Singapore AI 创新高级副总监 Koo Sengmeng 思考了 AI Singapore 如何成功推出覆盖新加坡社会各阶层的国家技能提升计划。在讨论中,出现了三大主题:
建设充满活力的国家人工智能生态系统的支柱
为了实现其建立一个充满活力的人工智能生态系统的使命,人工智能新加坡公司的核心活动基于五个主要支柱
建设一个人工智能流畅的国家,人才培养是关键
2017 年 6 月,作为其人工智能创新支柱的一部分,AI Singapore 推出了一项名为“ The 100 Experiments ”的计划,旨在创建 100 个不同的人工智能项目。主要的挑战是为项目雇佣合适的技能和人员。与脸书、谷歌和微软等大型科技公司的竞争导致新加坡人才短缺。作为一种解决方案,AI Singapore 专注于招聘对学习人工智能技能充满热情但没有机会获得现实世界经验的工程师。工程师将经历 9 个月的学徒计划,这将使他们获得相关的经验,以承担未来的项目。
使用 DataCamp 提升技能
AI 新加坡的目标之一是揭开 AI 的神秘面纱,让每个人都可以使用它。在早期,他们会举办一个长达 3 小时的名为“AI for everyone”的研讨会。由于研讨会的成功,他们看到了进一步提供高质量人工智能课程和培训的必要性。这种需求促使他们与 DataCamp 合作,这使他们能够扩展他们的学习计划,并将其提供给任何感兴趣的人。Laurence 解释说,由于“今天学习,明天应用”的方法,DataCamp 已经成为他们计划的一个关键部分。他进一步提到,“我喜欢 DataCamp 组织课程的方式。你看一个短视频,然后直接应用这些技能。考虑到 AI Singapore 的客户目标是每天工作 8 到 10 个小时的专业人士,他们没有精力耐着性子看完长长的视频教程,学习一项新技能。然而,通过 DataCamp 方法,AI 新加坡的项目完成率达到了 30-40%。
“Datacamp 今天要学,明天要做”——新加坡人工智能创新总监 Laurence Liew
推广全国技能提升计划的最佳实践
在推出全国性的培训项目时,每个公民都面临着不同的挑战。包容性和可及性是 AI 新加坡成功的关键因素。
保持包容性计划
Koo 解释说,AI Singapore 不是一个人工智能人才发展计划,相反,它是一个世代发展人工智能能力计划。他们正在努力让任何人参与进来,不管他们的年龄、性别或社会地位,因为每个人都必须有平等的机会,并成为有文化的人工智能。此外,由于新加坡的语言多样性,AI for Everyone 计划已被翻译成英语、普通话和马来语。
“我们希望确保社会各阶层,无论年龄、性别、经济地位如何,都能接受最优质的人工智能教育。”— Koo Sengmeng,AI Singapore 人工智能创新高级副主任
Koo Sengmeng 还讨论了 AI Singapore 如何努力超越语言,为所有年龄段的人设计学习计划,从儿童到工作专业人员和老年人。最近与学校的合作使他们能够为学生开发人工智能。通过遵循 DataCamp 的方法,他们将 AI for Everyone 程序转换为小型视频,使其可以在线访问。当新冠肺炎登陆新加坡时,他们在网上有一整套学习工具包,任何学校都可以访问。通过将该计划扩展到学校,AI Singapore 已经能够总结出一些共性和差异,这些在设计全国性计划时需要考虑:
- 一个共同的基础对所有年龄段都非常重要。这可以通过标准化常用术语来实现。
- 开发一种心理叙事,将人工智能定位为一种工具,它不应该被恐惧。
- 继续强调创造道德的人工智能解决方案。
- 根据不同学习者的需求,将技能融入情境中。这种背景将使数据素养和流畅性成为一个强大的基础。
- 让学习体验变得轻松、顺畅。
为什么道德必须成为课程的一部分
劳伦斯强调,数据偏差确实很重要,但这并不是什么新鲜事。人类倾向于得出有利于特定结果的结论。出于这个原因,学生们需要在课程期间至少学习一门人工智能道德模块。此外,AI Singapore 一直与行业专家合作,这使他们能够提高对潜在的边缘道德问题的认识。
构建一个涉及每个公民的人工智能叙事
辜提到,为一个国家建立一个提高技能项目的最重要的因素之一是让公民为此做好准备。为了让这个项目成功,许多职业人士和孩子需要具备人工智能意识。此外,与其他政府机构的合作是关键,因为没有一个机构可以独自实现人工智能国家。劳伦斯进一步强调,如果行业没有意识到,公民不接受技术和人工智能,你不能只关注学术研究人员。国家计划需要确保它们能够让公民掌握数据和人工智能。
AI 新加坡如何看待学习的未来
劳伦斯解释说,人工智能新加坡公司设想对当前的学习环境进行彻底的改变。学校需要更有活力,因为技术的快速发展迫使他们重新适应他们教授的技能。当然,英语或数学等基础课程可能不会有太大变化,但总体而言,学校感受到了加快发展和教授行业相关技能的压力。Koo 提到,“这个行业说你需要培训你的学生,这样他们就可以更快地运用他们的技能”。新加坡的一些机构正在引领这一进程,因为他们希望允许学生设计自己的模块,这样他们就可以学习自己热爱的东西。劳伦斯将其总结为“追求你的爱,而不是机构强加结构化的课程路径,这种路径可能并不适合所有人”。数字化和人工智能的采用进一步加速了这种转变。
佛罗伦萨·南丁格尔:数据可视化的先驱
数据可视化经常与商务会议和闪亮的董事会会议室联系在一起,但它的起源非常不同。虽然很难确定数据可视化的唯一发明者或来源,但其先驱之一是一位在英国广受赞誉的现代护理创始人:佛罗伦萨·南丁格尔。
从 21 世纪的角度来看,医院应该干净卫生的想法似乎是理所当然的。然而,在维多利亚时代,由于各种医生和护士的工作,如南丁格尔本人,改革尚未实施,情况正好相反。1854 年 10 月,南丁格尔作为一名军医被派往伊斯坦布尔。在这里的军事医院结束是它自己的一种死刑判决:床有肮脏的床单,经常在不同的居住者之间更换和清洗,到达完整医院的士兵将不得不与住院的老鼠分享同样肮脏的地板。结果,这些医院夺去的生命是战场的 10 倍。所有这些在当时都被认为是正常的:许多有影响力的政治家和官员,包括英格兰的首席医疗官,都认为传染病导致的死亡是不可避免的,不良卫生条件与这些死亡之间没有联系。
南丁格尔确信提高护理质量将减少这些死亡,并以照料士兵而闻名,被称为“拿灯的女士”。她关心他人的天性继续被载入史册,但这个故事中不太为人所知的一面是南丁格尔改进了簿记制度。南丁格尔从小就对统计有着浓厚的兴趣,当她发现医院已经失去了对士兵死亡的记录时,她就指派特定的人做记录。这对她返回英国将是无价之宝。
南丁格尔试图推动广泛的医疗改革,觉得她在土耳其的成就还不够。作为变革故事中的常态,她将不得不面对怀疑者——比如首席医疗官——她自己也知道这一点。
她在战争期间收集的数据和之后制作的图表是她的武器。她理解,公务员和公众的目标受众更容易理解可视化,而不是数据表:
“印刷表格和全包双栏,我不认为有人会读。只有科学家才会看报告的附录。这是给庸俗的公众看的。”
*在南丁格尔的时代,庸俗这个词会被理解为普通的意思。
她最著名的可视化作品是她早期制作的:克里米亚英军死亡人数及其原因的玫瑰图。它通过色彩设计和图案展示了医院死亡人数的减少将会挽救成千上万人的生命。基础数据的收集和可视化过程对南丁格尔也是一个启示:在政府于 1855 年 3 月派出一个卫生委员会清理医院的饮用水和通风设备后,士兵的死亡率大幅下降。在她后来的出版物中,她非常重视改善卫生。
南丁格尔在战争期间已经是一个标志性的人物,他的作品在读者中非常受欢迎,从普通市民到维多利亚女王本人。这是首次使用数据可视化说服决策者进行社会改革的案例之一。由于这些努力,军队医院的卫生状况得到了显著改善。到 19 世纪末,他们的平均死亡率已经下降到平民医院的一半,而在此之前,平民医院的平均死亡率一直较高。南丁格尔将继续利用她的影响力和对数据的热情,在世界各地和各种场合推动医疗改革,从印度的产科病房到美国内战中的医生帐篷。
这是数据可视化用于说服决策者进行社会改革的最早实例之一。
在 Python 、 R 、 SQL 、 Tableau 、 Power BI 甚至计算机本身存在之前,南丁格尔是一名数据科学家。在今天这个时代,只需要几分钟就可以收集大量的数据并从中构建图表。然而,没有改变的是使用可视化来推动数据素养的基本概念:医疗保健组织直到今天仍然是可视化驱动的,广泛使用 R 和 Python 来改善患者护理和创建更健康的社会。
就像南丁格尔用一种他们容易理解的方式向公众发布她的数据集一样,可视化仍然是数据民主化的一个有价值的工具。
如果您想提高可视化技能来交流数据见解,我们可以提供:
- 可视化软件包上的课程包括: Matplotlib 、 Seaborn 、 Plotly 、 ggplot2 和 lattice 。
- 可视化工具中的课程,如电子表格、 Tableau 、 Power BI 。
- 现实世界的医疗保健项目,包括 R 的预期寿命和 R 的新冠肺炎病毒传播。
- 一个项目涉及使用 Python 来模拟另一位著名的数据驱动的维多利亚医生:约翰·斯诺博士的工作。
来源:
- https://www . science news . org/article/Florence-niddinger-生日-力量-可视化-science
- https://medium . com/nightingale/Florence-nightingale-is-a-design-hero-8 BF 6 e5f 2147
- https://www . science news . org/article/Florence-nightingale-激情-统计学家
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2920984/
- https://www . ASTMH . org/ASTMH/media/Documents/Thomas-Mackie-Presidential-address . pdf
- https://www . Smithsonian mag . com/history/surviving-history-infograph-180959563/
您的团队可以开始利用数据科学的四种方式
受实现数据驱动这一难以实现的目标的驱动,组织一直在努力积累数据、构建基础设施和吸引高技能人才。考虑到数据经常被吹捧为解决无数问题的灵丹妙药,这些组织正朝着正确的方向前进。
然而,拥有合适的工具和人才并不能自动证明一家公司是数据驱动型的。成为数据驱动的最大障碍在于建立数据文化,在这种文化中,数据科学被每个人视为解决业务问题的方法。事实上,任何渴望成为数据驱动的组织都需要首先培育一种数据文化,方法是培养组织范围内的数据流畅性,让每个人都具备执行数据任务所需的技能,从而超越自己的角色。这种思维模式的根本转变给公司实现数据驱动的目标带来了相当大的挑战。事实上,根据 2018 年 Gartner 首席数据官调查,35%的首席数据官认为低数据流畅性是从大规模数据中提取价值的最大挑战。
成为数据驱动型和大规模利用数据科学的好处数不胜数,并被广泛记录在案。下面是数据科学的四个领域,组织可以快速采用这些领域来开始从数据中提取价值,并通过具体的使用案例进行说明。
1.通过数据可视化快速简洁地交流复杂的见解。
交互式数据仪表板已变得越来越普遍,因为它们允许利益相关者轻松访问最新信息。
仪表板的用途非常广泛。它们可以是公司长期北极星指标的望远镜,也可以是专注于短期运营细节的显微镜。无论哪种方式,它们都允许组织扩展其数据驱动的决策。如今,许多无代码商业智能工具,如 Tableau 和 PowerBI 都以直观的拖放界面来构建强大的仪表板而自豪。另一方面,基于流行编程语言构建的开源包,如 Python 的 plotly 和 R 的 Shiny ,在构建高度可定制的交互式可视化时,为组织提供了低门槛。
2.通过分析历史数据做出更好的决策
数据驱动型公司描述、总结和了解其历史表现,并利用它来指导决策,使 it 部门能够加倍努力,纠正不可行的做法…德勤(Deloitte)的一项调查发现,大约一半的公司声称,分析的最大好处是实现更好的数据驱动决策。此外,62%的公司表示数据对于推动业务战略非常重要。显然,数据正日益成为企业工具箱中不可替代的工具。
数据驱动的决策制定可以保持并增强组织相对于竞争对手的竞争优势。例如,购物篮分析可以帮助实体零售商更好地优化实体空间,为客户创造更好的购物体验。营销人员可以分析历史电子邮件点击率,以评估电子邮件营销活动的成功。财务分析师可以将时间序列分析应用于他们的历史数据,以优化预算规划。
当数据量很小时,这种对历史数据的分析可以在 Microsoft Excel 和 Google Sheets 等电子表格工具上高效地完成。随着数据的增长,使用像 R 和 Python 这样的开源编程语言可以最有效地进行分析。
3.用统计思维补充现有的专业知识
统计学可以用来简明扼要地总结大量数据。统计数据的基础是汇总统计数据,它代表平均值(如均值、众数和中位数)和与平均值的偏差(如标准差和方差)。这些汇总统计数据是箱线图等工具和相关系数(衡量两个变量之间关系强度的指标)等指标的组成部分。例如,零售商可以计算购买产品之间的相关性,以优化交叉销售活动。在推出新产品功能或改变产品定价之前,市场研究人员可以利用联合分析来确定客户偏好的理想组合。
受控实验可以帮助公司隔离变化的影响,在两个指标之间建立明确的因果关系,并做出更好的决策。基于统计学的基础,受控实验提供了一种相对简单而严格的方法来验证或拒绝主题专家的直觉。受控实验的一个简单例子包括 A/B 测试电子邮件主题行,并选择点击率最高的一个。在 AirBnB,只有当一项实验最终表明最高价格过滤器的变化导致转换率增加时,这种变化才会对所有用户实施。在 Shutterstock,当的实验提供了强有力的证据证明这种改变会降低转化率时,删除搜索页面图像水印的想法被否决了。
4.利用机器学习进行预测和发现新知识
公司可以利用过去的数据,通过机器学习对未来做出预测。例如,通过利用监督学习,一种训练算法对数据进行分类或用标记数据预测结果的技术,任何组织都可以根据客户的历史活动预测哪些客户最有可能流失。在金融建模中,交易公司可以使用股票的历史价格来预测未来价格。
与监督学习相比,非监督学习是一种可以被对原始数据集知之甚少的公司用来探索其数据的技术——即使它不知道它在寻找什么。聚类是无监督学习算法的一个示例,它将数据分类到未预先确定的类别中。例如,一家电信公司拥有关于其客户数据的宝贵数据,但尚未找到细分其客户的方法,可以使用无监督学习来识别具有独特特征的客户群。
无监督学习在寻找关联方面也很出色。在电子商务中,以“喜欢产品 X 的人也喜欢产品 Y”形式的产品推荐通常是发现这种隐藏联系的无监督学习技术的结果。这种产品推荐可以构成有效交叉销售策略的基础。
构建数据驱动的组织
显然,朝着数据驱动的方向迈进可以为组织带来许多潜在的好处。职能团队可以一起开始应用许多唾手可得的数据用例,前提是他们拥有开始应用的必要技能。这就是为什么 DataCamp for Business 为需要提高和重新提高员工数据技能的公司提供了一个互动学习平台。主题从数据素养、数据科学到数据工程和机器学习,超过 1,600 家公司信任 DataCamp for Business 来提升他们的人才技能。
获得为期一周的免费访问,并参加 XP 挑战赛
原文:https://web.archive.org/web/20221129041202/https://www.datacamp.com/blog/free-week-xp-challenge
什么是自由周?
DataCamp 致力于为每个人提供提高数据素养技能的机会。除了数据培训,我们还提供一系列免费资源,如文章、教程、播客和备忘单。
数据教育是我们的激情所在,在 11 月 7 日至 11 月 13 日期间,我们将为新老用户提供对我们整个 Learn Premium 平台的无限制免费访问。
免费周提供为期一周的无限制访问 DataCamp Premium 提供的所有内容,可供个人随时随地使用。因此,如果你想学习或发展你的编程技能,你可以免费开始。
这意味着在我们的免费周期间,任何人都可以访问我们的整个图书馆,包括 388 门课程、85 个项目、60 次练习和 23 次评估,涵盖 Python 、 R 、 SQL 、 Power BI 、 Tableau 、Julia 等等。不仅如此,为了确保您自信地结束一周的休假,您还可以访问以下资源:
什么是 XP 挑战?
您不仅可以享受为期一周的免费无限学习奖励,还可以在我们奖励的 XP 挑战赛中赢得现金奖励。随着您本周免费参加我们的高级课程,您可以在我们的 XP 排行榜上一路攀升,有机会赢得高达$3000 的现金大奖!你学得越多,你可能挣得越多。
什么是 XP?
XP 代表经验值。虽然你可以通过多种方式在 DataCamp,活动中获得经验值,但你只能通过完成课程在 XP 挑战赛中获得经验值。
因此,你完成的数据营课程越多,积累的经验就越多,赢得挑战的机会就越大!
XP 挑战赛是如何进行的?
我们的学习者喜欢极限编程挑战,这一次我们做了一些不同的事情。这个挑战是关于社区目标的。总的来说,我们的 DataCamp 学员需要在免费周的课程中达到 2.5 亿经验值的集体目标。
如果你达到这个目标,将有现金奖励。这意味着如果社区达到 2.5 亿 XP 的目标,我们将提供:
-
单日奖励250 美元,奖励单日在课程中获得最多经验值的个人。
-
一周内前 10 名学员的周奖
-
最高 XP 奖金获得者 -一等奖:1250 美元
-
二等奖:1000 美元
-
三等奖:750 美元
-
四等奖:500 美元
-
五等奖:400 美元
-
第 6-10 名:每人 300 美元
此外,如果社区在免费周结束时达到集体 5 亿经验值,我们将让 T2 的奖金翻倍。因此,每日获奖者将获得 500 美元,每周获奖者将获得高达 2500 美元。
从 11 月 8 日到 11 月 13 日,每日 XP 获胜者将在美国东部时间 11 月 7 日上午 9 点到晚上 11 点 59 分之间接受评估&。
每周获胜者将根据美国东部时间 11 月 7 日上午 9 点到 11 月 13 日晚上 11:59 这一周获得的经验值进行评估。请参见完整条款和条件了解更多信息。
我如何报名参加 XP 学习者挑战赛?
注册 XP 学习者挑战赛只需要两个步骤:你需要做的第一件事是登录或注册 DataCamp。其次,您必须确保您选择参加 DataCamp 的促销活动。
就这样,你就进入了游戏!请访问 XP 挑战页面了解更多信息。记住,你学得越多,获奖的机会就越大!
怎么才能赚到 XP?
你可以通过探索我们的课程来获得经验。目前有 388 门不同级别、主题和技术的课程。平均下来,只要上完 4 个小时的课程,就可以收集到 3000 到 5000 的 XP!
参加课程是探索各种学习主题和为评估做准备的好方法,同时可以批量收集您的 XP。
什么是 XP 加速器竞赛?
在 XP 挑战赛中学习和获得 XP 的同时,学习者有机会通过参加 XP 加速器比赛来提高他们的 XP 50,000 点。这是在 DataCamp Workspace 上托管的,为每个学习者提供了应用他们新获得的数据技能的机会。有关更多详情,请查看 XP 加速器竞赛页面。
急;只有 10 名获奖者将被选中!
我怎样才能知道 XP 总数是多少?
我们将在这篇博客文章的顶部更新社区 XP 总数,所以请确保您每天都查看这篇文章,看看总数是多少,以及奖品是否已经解锁。
11 月 13 日前免费使用
我们对 DataCamp Premium 为期一周的免费访问允许任何职业或教育背景的任何人学习和提升他们的数据读写技能。如果您刚刚开始您的数据素养之旅,我们的团队已经准备了教程和挑战来指导您完成我们的许多课程。
DataCamp 也是中高级数据从业者通过我们的无限资源提升数据技能的绝佳环境:
- 我们的数据分析师和科学家认证是向雇主展示你技能的绝佳方式
- DataCamp Jobs 搜索门户可以帮你找到你梦想的工作。完成一份个性化的简历,突出你的技能,让潜在雇主直接联系你。
- 数据营工作空间和项目是利用你的数据技能处理真实世界数据的绝佳工具。
如何注册
要注册我们的免费周,您需要访问我们的免费周+ XP 挑战页面。您只需输入您的电子邮件地址进行注册,您就可以开始学习并享受免费访问 DataCamp 的乐趣了!
免费周访问从美国东部时间 11 月 7 日上午 9 点开始,持续到美国东部时间 11 月 13 日晚上 11:59。
可以尝试的最佳课程
我们的包容性电子学习平台适合所有人:从没有数据素养背景的人到精通许多编程语言和数据技能的人。也就是说,下面是每个级别的示例课程列表,让您可以一窥我们全面的课程库:
初学者课程
中级课程
高级课程
宣布获胜者
我们非常期待这次挑战的获胜者。虽然每周每天都有奖品可供争夺,但我们只会在 2022 年 11 月 16 日下午 1 点(美国东部时间)之后宣布获奖者。关注我们的社交渠道,了解最新动态,不断学习!
立即注册,开始学习赢取大奖的方法!
2022 年数据科学常见问题
目录
- 数据科学工作有需求吗?
- 数据科学工作通常需要什么?
- 数据科学家赚多少钱?
- 开始学习数据科学的前提条件是什么?
- 学习数据科学需要大学学位吗,还是可以在线学习?
- 学数据科学需要多长时间?
- 数据科学家在编码方面应该有多精通?
- 成为一名数据科学家需要学习的最重要的编程语言是什么?
- 数据科学家需要什么样的数学背景?
- 我应该去哪里找数据科学的工作?
- 雇主希望数据科学家具备哪些技能和素质?
- 在寻找数据科学工作时,我应该记住什么?
- 在哪里可以找到我的数据科学课程和项目的数据集?
- 结论
近年来,数据科学已经成为世界上最吸引人、讨论最热烈、不断发展和竞争最激烈的领域之一。毫不奇怪,许多人都很好奇这个研究领域到底是什么,它对未来有什么看法,如何学习,数据科学家在日常工作中做什么,他们赚多少钱,以及你在哪里和如何才能找到这个领域的工作。
在本文中,我们讨论 2022 年数据科学最常被问到的问题。这些问题的答案将特别有助于对职业改变感兴趣的人,以及那些决定在大学毕业后获得第一个学位并考虑将数据科学作为潜在职业的人。
数据科学工作有需求吗?
随着现代技术的快速发展,目前对数据科学的需求非常高,而且这种需求只会越来越大。为了验证,只需在谷歌中键入“数据科学职位”,或者在 LinkedIn、Glassdoor 或 Indeed 等任何求职网站上搜索。你会被这个领域的大量工作机会淹没。
对于这种流行有许多解释。世界各地每天产生的数据量都在快速积累,每个企业都需要数据分析和预测建模来在当今竞争激烈的市场中保持活力和成功。任何领域的科学研究,只有收集到足够的史料,才能进行。换句话说,一个组织或科学收集的数据越多,它从数据中得出的预测就越可靠。
也就是说,与任何其他领域一样,数据科学在其存在的不同时期存在(并且正在存在)各种各样的“时尚”趋势:机器学习、深度学习、数据工程、大数据,甚至新冠肺炎数据科学。
数据科学工作通常需要什么?
广义而言,数据科学家收集和调查与特定业务或科学任务相关的数据,并从中提取有意义的见解和隐藏的趋势。他们使用机器学习和深度学习算法来建立预测模型,然后创建他们的发现报告,并将他们的结果传达给非技术股东。反过来,股东可以做出战略性的、数据驱动的决策来改善业务。
所有这些步骤都要求数据科学家是多技能的专业人士。特别是,他们应该拥有足够的编码工具知识,熟悉各种机器学习算法背后的数学原理,了解特定兴趣领域的业务领域的细微差别,遵循数据伦理,并具有出色的沟通技巧,以便向非技术观众清楚地解释复杂的想法。
以上是对传统数据科学家角色的完整描述。然而,由于这一职业相对较新,不同的公司可以对数据科学家的角色应该包括什么有自己的理解。例如,在某些情况下,数据科学家更像是数据分析师,专注于历史和当前数据的调查,而不预测未来的情况。在其他公司,数据科学家应该使用图形用户界面(GUI)应用程序来建立机器学习模型,所以他们实际上不需要编写任何脚本。最后,有时数据科学家意味着数据工程师,他们的主要任务是将原始数据转换为可用的形式,并设计和维护数据存储基础架构。
数据科学家挣多少钱?
与许多其他职业一样,这个问题的答案很大程度上取决于公司所在的国家,即生活水平。例如,根据 PayScale ,在撰写本文时(2022 年 2 月),美国一名数据科学家的平均工资为每年 97038 美元,而在这个职业需求也非常高的印度,这相当于每年 11521 美元的₹860,454。
在任何国家,影响数据科学家薪酬的另一个重要因素是他们的资历水平。再以美国为例,一名初级数据科学家的年薪为 76,213 美元,而一名高级数据科学家的年薪为 129,446 美元,几乎是普通数据科学家的两倍(实际上是)。
数据科学家的工资还取决于公司概况(小公司或跨国公司)、关注领域(商业或学术环境)和合同类型(永久或临时)。
你可以使用专门的网站,如实际上、薪级表和薪酬专家,查看你所在国家的数据科学家的平均薪酬和你的资历水平。您还可以研究其他数据相关职业的平均工资信息,如数据工程师、数据分析师和数据记者。
开始学习数据科学的前提条件是什么?
虽然对于数学家、统计学家和程序员来说,学习数据科学的过程可能会更顺利、更快,但这并不一定意味着数据科学职业完全不适合具有不同资质的人。事实上,有很多鼓舞人心的成功故事,讲述了一些人从完全不相关的职业进入这个领域,取得快速进步,现在快乐地工作。
然而,声称一个人开始学习数据科学没有任何先决条件也是不正确的。为了在研究中取得成功,您需要对数据及其背后隐藏的东西着迷,具有探索的心态,一定的创造力,以及学习数据科学的强烈动机。
学数据科学需要大学学历吗,还是可以在线学习?
虽然拥有一个数据科学的大学学位没有错,但你必须记住一件重要的事情:时间很重要。如果你最近刚从大学毕业,正在决定继续深造,那么一个扎实、基础良好的数据科学大学学位可能是一个很好的选择。相反,如果你是一个转行者,你可能不想在被雇佣前至少再花两年时间学习。
幸运的是,如果你属于第二类人,对你来说有一个好消息:你可以在在线训练营学习数据科学,达到足够的水平,可以被聘为数据科学家。此外,这种方法给你更多的自由来组织你的学习过程,管理你的时间,大量练习,并在你觉得准备好的时候加速你的进步。
在工作的世界里,你花多少时间学习数据科学或者你是否有世界级的证书都无关紧要。潜在雇主真正希望在技术能力强的候选人身上看到的是与感兴趣的工作职位相关的一系列经过证明的技能(通过项目组合来证实)。
学数据科学需要多长时间?
这个问题的答案取决于很多因素,比如你选择的学习方式(基于书本或基于视频的自学,在学校,新兵训练营,硕士项目等。)、您学习的课程、您准备投入多少时间来学习数据科学、您的初始背景等。平均而言,对于一个之前没有编码经验和/或数学背景的人来说,需要 7 到 12 个月的密集学习才能成为入门级的数据科学家。
一定要记住,只学习数据科学的理论基础,不一定能让你成为真正的数据科学家。无论您选择什么程序,您都应该注意练习您的技能,制定数据科学项目,创建您的项目组合,探索各个领域的数据科学用例,并尝试解决相同数据科学任务的替代方法。所有这些活动,如果勤奋和坚持不懈地进行,可能会相当耗时。然而,这是掌握您的数据科学技能和获得工作就绪的熟练度的最佳方式。
为了加快您的学习过程,请考虑选择在线自学计划,该计划的课程设置非常均衡,涵盖了数据科学最重要的技术和方面。这将帮助你有效地管理你的时间,决定学习材料的最舒适和最有效的方法,并允许你在任何有电脑和互联网接入的地方按照自己的速度学习。有了数据营,你可以从完全打包的职业轨迹中选择适合初学者的,专门的技能轨迹来提高特定技能,以及短期的课程来探索狭窄的主题。
一个数据科学家在编码方面应该有多精通?
虽然编码对于任何数据科学工作来说都是一项基本技能,但编程方面的专业知识并不是该领域入门的必备条件。毫无疑问,一个想要在数据科学领域找到工作的人应该熟悉某些编程语言和相关的技术工具,而雇佣数据科学家的公司通常需要这些技能。然而,数据科学家的编码工具包肯定不像软件开发人员或计算机科学家那样广泛。与解决数据科学任务相关的编程语言的选择也非常有限,学习其中一种语言的基本数据相关方法和技术可能是一个很好的起点。
数据科学不是一个纯粹以编程为重点的学科,而是一个广阔的研究领域,除了编码之外,还需要一系列不同的技能和能力,例如具有分析思维、理解统计数据、概率、线性代数、高效讲故事和业务领域知识。
要成为一名数据科学家,学习哪些编程语言是最重要的?
在数据科学中有三种广泛使用的编程语言:Python、R 和 SQL。
Python 是一种开源、面向对象的高级编程语言,最初用于计算机科学中的通用编程,但后来在数据科学中变得非常流行。它的主要优势是广泛的标准库和大量的附加模块,这些模块对解决数据科学任务特别有帮助。此外,Python 直观易懂,易学易用,可以在多种操作系统中运行,并且有强大的社区支持。
r 是一种流行的面向数据科学的编程语言和免费软件,在统计计算和数据可视化方面非常强大。就像 Python 一样,它提供了许多用于解决不同任务的数据科学和机器学习库,是操作系统友好的,并且具有出色的在线支持。然而,这种编程语言被认为不如 Python 直观。
虽然 Python 和 R 在功能上非常相似,但 SQL(结构化查询语言)用于不同的目的:查询关系数据库管理系统,如具有连接数据条目的表。SQL 有几种风格,都有相当相似的语法;其中一些是免费和开源的(例如 MySQL、SQLite、PostgreSQL)。
数据科学家需要什么数学背景?
首先,开始学习数据科学不需要任何数学背景。另一方面,如果你已经决定成为一名数据科学家,并准备为此付出努力,那么你不可避免地要熟悉一些与数据科学相关的数学概念。除了普通学校课程中教授的数学基础知识,你还需要微积分、概率、统计和线性代数的知识。
但是,这并不意味着你必须从头到尾学习上述科目。此外,大多数数学已经包含在数据科学工具和方法中,所以许多复杂的操作只是由机器在引擎盖下根据输入参数进行计算。数据科学家首先是一名科学家,因此他或她必须了解所有这些算法如何以及为什么在幕后工作,以便能够选择最佳算法,定义初始参数,并适当地调整它们。在数据营技能课程、职业课程和课程中,您将逐步了解所有必要的数学理论,这些理论适用于解决数据科学中的各种现实任务。
我应该去哪里找数据科学的工作?
第一个想到的地方是免费的工作列表网站。可以考虑使用这两个通用的求职门户网站( LinkedIn 、 Indeed 、 Google for Jobs 、simple Hired、 AngelList 、 Hired 等。)和数据科学小众工作板( KDNuggets 、 DataJobs 、亚马逊 Jobs 、 StatsJobs 等。).还有专门搜索远程工作的网站: Upwork , Remote , JustRemote ,我们远程工作。您还可以使用专门的工作板,例如外部连接,专门用于数据科学领域的远程工作。
除此之外,你可以尝试直接联系感兴趣的公司。找到他们的官方网站,探索其主页,职业页面和联系方式。阅读他们的价值观和使命,他们的业务看起来像什么,并考虑你如何才能成为这个组织的完美人选。有了这些信息,你可以给他们发一封附有你的数据科学简历的电子邮件。这种方法虽然可能更耗时,但比第一种方法更有优势,因为它能让你对公司表现出真正的兴趣,从而脱颖而出。
为了有更多的机会快速找到数据科学工作,参加数据科学活动和会议(现场和在线),在社交网络上与合适的人联系,以及与专业数据科学社区中的数据科学专业人员和学习者交流可能会有所帮助。在数据营,你会发现一个由数据科学爱好者组成的友好的社区,在这里你可以获得帮助和支持,并扩大在数据科学领域的联系。
雇主在数据科学家身上寻找什么样的技能和品质?
雇主通常期望数据科学家具备的最基本技能包括:
- 熟练掌握 Python 或 R(尤其是这些语言的流行数据科学模块)
- SQL 方面的能力
- 使用命令行的能力
- 对统计概念的理解,
- 数据清理、争论、分析和可视化技能
- 使用机器学习或深度学习算法的预测建模和模型估计
- 使用非结构化数据
- 讲故事
- 网页抓取
- 排除故障
这并不意味着任何数据科学职位都需要所有这些技能。要了解每个特定公司希望在数据科学家身上看到什么,您应该阅读相应的工作描述,并列出他们需要的具体技术技能和工具。
至于数据科学家必备的软技能,最受欢迎的是:
- 批判性思维
- 团队工作
- 商业领域知识
- 高效沟通
- 决策
- 多任务处理
- 灵活性
- 好奇心
- 创造力
- 满足紧迫期限的能力
在寻找数据科学工作时,我应该记住什么?
首先是要有一个准备好的项目组合。这对于那些在这个领域缺乏实际工作经验的候选人来说尤其重要。这样的作品集应该包括您在数据科学训练营或课程中完成的项目。此外,考虑多做 2-3 个项目,让你的投资组合与众不同。对于入门级的数据科学家或职业改变者来说,如果一开始你的投资组合包含混合主题和技术的项目,这是完全可以的。然而,当申请一个特定的工作职位时,试着弄清楚你的哪一件作品突出了该工作所需的所有技能中最好的一项。
下一个关键点是你的数据科学简历。在申请不同的工作职位之前,考虑创建一份主版本的简历,在其中放入关于你的教育、工作经验(即使与数据无关)、课程、训练营、项目、技术和软技能以及任何其他相关成就的所有信息。如果这个版本的简历很长,或者由多个部分组成,也不要担心。现在,无论何时你想申请一份特定的数据科学工作,你都可以使用你的主简历作为基础。简单地创建一个副本,删除所有多余的细节和部分,并根据职位描述为该职位量身定制简历。记住,根据每次提交的内容修改你的简历是你求职过程中的一个必要步骤。如果你需要更多关于如何创建一份优秀、专业的数据科学简历的技巧,你会发现这篇文章很有帮助。
你应该意识到的第三件重要事情是,你可能无法立即找到数据科学的工作。如果出现这种情况,不要气馁。如果你的求职过程需要时间,这是绝对正常的。不要让最终的拒绝让你沮丧,让你开始认为自己不是一个好的专家。相反,继续掌握你的数据科学技能,并尝试分析你的简历、项目组合和总体申请流程中可以调整的地方。如果你从你申请的任何一家公司得到了一些反馈,充分利用这些信息,改进你突出的弱点。
在哪里可以找到我的数据科学课程和项目的数据集?
实践你的数据科学技能(并向潜在雇主展示)的最佳方式是做数据科学项目。除了数据科学学校或训练营建议的项目,您可以考虑为您的投资组合创建一些独特的项目,使其脱颖而出。要做到这一点,您需要找到更多的数据集来进行分析并从中获得有价值的见解。幸运的是,有很多有用的在线资源,有很多免费数据集可供选择。例如:
- 最受欢迎的网站,包含数千个免费的真实世界或合成数据集,涵盖广泛的主题。
- UCI 机器学习库-最古老的在线存储开源数据集的地方之一,适用于机器学习。大多数数据集都相当干净、结构良好、记录良好,并且随时可供进一步使用。
- FiveThirtyEight–一个发布关于各种流行话题的交互式数据驱动文章的网站。更重要的是,它提供了用于这些文章的数据集,所以你可以很容易地下载并独立分析它们。
- 谷歌数据集搜索——一个基于关键词的搜索引擎,其工作方式与普通谷歌搜索相同,允许访问大量(超过 2500 万)免费公共数据集。
- 谷歌云平台——云存储,提供对各种来源的公共数据集和 BigQuery 工具的免费访问。每月前 1 TB 的数据是免费的。
- 世界银行维护着包含全球发展中国家各种统计信息的数据集。这些数据集可以在网站的不同部分找到。
- Quandl 包含大量免费和付费的经济和金融数据。数据集大多是干净的,结构良好的,可以用于机器学习任务。
- data camp Workspace–一个预加载数据集的在线 IDE,用于编写代码和分析数据,帮助您从学习数据科学转向从事数据科学。
结论
综上所述,我们讨论了 2022 年关于数据科学最热门、最热门的问题。希望这篇文章能帮助你解开“21 世纪最性感的工作”的一些秘密,并证明无论你的背景和最初职业是什么,成为一名数据科学家都是完全可行的。最重要的是要有足够的动力来激励你去学习,去实践,去不断前进。现在你应该有一个清晰的路线图,知道从哪里开始,如何学习数据科学,如何找工作,以及你可能需要培养什么技能和素质。如果你想更多地练习真实世界的数据问题, Datacamp 提供了广泛的项目选择,这些项目可以成为建立你自己的数据科学项目组合的良好起点。
FT 排名:DataCamp 被公认为 2022 年美洲发展最快的公司之一
DataCamp 连续第二年被评为美洲发展最快的公司之一。《金融时报》(FT)和全球领先的统计门户网站和行业排名提供商 Statista,Inc .将这一荣誉授予 2017 年至 2020 年期间复合年收入增长最高的公司。你可以在英国《金融时报》的网站上找到成长速度足够快的公司的完整名单,这些公司入选了 2022 年美国成长最快的公司。
DataCamp 的首席执行官兼联合创始人 Jonathan Cornelissen 将 DataCamp 的成功归功于对懂数据的角色的需求增加以及 DataCamp 平台的创新:
DataCamp 已经发展到为超过 1000 万会员和超过 2,500 家公司提供服务,帮助他们利用我们全新的基于云的 IDE Workspace 来弥合学习和工作之间的差距。乔纳森补充道:
2022 年会有什么?
我们不会就此止步。除了寻求在这一享有盛誉的排名中连续第三次排名之外,在 2022 年,我们将扩大我们的培训目录,为您带来新的 Power BI 和 Tableau 课程、MLOps,并在 Julia 中添加一项新技术。我们还在制作Workspace终极笔记本,用于在浏览器中分析数据,并发布我们新的data camp Jobs平台。
无论你是在提升技能、更新技能、找工作,还是想雇佣优秀的数据人才。DataCamp 可以帮助你在 2022 年取得成功。注册参加我们即将举办的 路线图网络研讨会 ,了解我们新的培训、工作空间和 DataCamp 工作平台的运行情况。
加入我们不断壮大的团队
DataCamp 的使命是为全球数据专业人士提供支持。如果你对改变全球人民使用数据的方式充满热情,你热爱协作,重视透明度,加入我们!
关于 DataCamp
我们是数据科学教育的领导者。我们的互动和自定进度学习、专家讲师和创新的数据解决方案让我们脱颖而出。我们已经帮助 1000 多万学习者和 2500 多个组织提高了数据素养,而我们才刚刚开始。
访问我们的 求职页面 ,找出你适合的位置!
全栈数据科学(抄本)
这是播客的链接。
介绍 Vicki Boykis
雨果:你好,薇琪,欢迎来到 DataFramed。
非常感谢你邀请我。
你在数据科学社区以什么闻名?
雨果:非常高兴你能来参加我们的节目。我真的很高兴能谈论你在 Python 教育、全栈数据科学、端到端数据科学方面的工作,这些东西实际上意味着什么,以及你在咨询方面的工作。在我们开始之前,我想了解一下你。我想知道您在数据社区以什么闻名。
可能首先也是最重要的,关于各种数据和编程相关事物的可怕双关语和迷因。次要的是内容。我的策略有点像 BuzzFeed,对吧?用迷因打击他们,然后在它们之间插入严肃的内容。
Vicki:我写了很多关于如何在 Python 中做具体的事情,如何在数据中做具体的事情的博客文章,然后只是谈论我们在数据社区中的一般情况,所以非常高水平的文章,谈论将复杂的概念分解成易于理解的类比的事情。
雨果:太棒了。我喜欢次要的是内容,主要的是糟糕的双关语和迷因。我不想让你为难,但是你说过或想到或听过的最糟糕的双关语是什么?
薇琪:他们都很糟糕。我有一系列双关语,基本上是我假装和一个电视制片人说话,向他们推销可能的节目或电影,所以这是一系列非常糟糕的推文。
雨果:我们肯定会在节目笔记中链接到这一点。这是首要的。次要的是内容。我想我应该提一下,就内容而言,你们也正在创建一个数据营课程。
是的,没错。我正在学习一门讲授 Python 面向对象编程的课程,特别是在数据设置的背景下。我将介绍如何创建对象,如何操作 CSV 文件,以及如何深入研究 NumPy 和 pandas 的内部机制,因此我对此非常兴奋。
雨果:太棒了。你之前也提到过,你现在所做的教育工作本质上是成为你开始时所需要的人。
是的。是的,所以互联网是一个相当大的地方,有很多资源,但如果你刚刚开始学习编程或刚刚进入数据科学,你能做的最好的事情是有一个面对面的导师或在你前面的人,你可以问问题。当我刚开始的时候,我真的没有那样的人,所以我的目标是成为那些刚刚进入这个领域的人的那样的人。
雨果:太棒了。实际上,DataCamp 本身也有类似的起源故事,我们的首席执行官 Jonathan Cornelissen,当他在研究生院时,他一直在寻找类似 DataCamp 的东西,但没有找到。他说,“好吧,等我读完研究生,我要做这个东西,”本质上来说。
是的。
你的职业是什么?
雨果:这是我们的几个起源故事之一。话虽如此,你能告诉我们你目前的职业吗?
是的,所以我是一名顾问。我在 CapTech 咨询公司工作。我们做很多不同的事情。我们公司一部分是经营管理咨询,一部分是深度技术咨询实践。现在,我根据项目范围同时从事数据科学和数据工程咨询。
Hugo:这听起来非常像全栈数据科学的想法,对吗?
Vicki:对,所以这个想法是,许多公司一开始没有建立基础设施来进行数据科学,因为数据科学实际上是一种成熟的产品。我们将进入,我们将构建这些管道,然后我们将进入数据科学方面,即创建模型并呈现这些结果。
雨果:太好了,我们稍后会讲到更多。特别是,我真的很有兴趣考虑建立管道的工作,这样做,但同时需要在组织内尽快展示价值。这很了不起…这是我们稍后将讨论的一些事情的一个小引子。
你是怎么进入数据科学的?
Hugo:在我们开始之前,数据科学很有趣,因为很多人有不同的途径,在某种意义上,所有的路都通向数据科学。我想知道你的旅程是什么。你最初是如何进入数据和数据科学领域的?
我想我来自一种非传统的,传统的背景。它有点在中间。我开始是一名主修经济学的本科生,我选择这个专业的原因是因为我不想主修英语,也不想主修数学,我喜欢经济学这两者的结合。我喜欢多用我的左右脑。那是我的本科学位。
在那之后,我实际上进入了经济咨询行业,这是非常罕见的,因为我不知道有多少人在大学毕业后专注于他们的专业,所以我想我是幸运的,或者在这种意义上可能是不幸的。那是我开始研究数据的地方。通常当你刚从大学毕业时,你会开始用电子表格做事情,所以我开始用电子表格做事情。后来我听说了一种新的很酷的免费编程语言,叫做 r。我接触了一点。我有几个基于分析的角色。然后我的最后一个角色是数据分析师,在那里我学习了 SQL。
Vicki:然后我厌倦了等待数据进入 SQL 数据库,这是我开始真正专注于学习 Python 和统计方法编程的时候,然后我成为了一名数据科学家作为我的下一个职位。与此同时,我决定我也想获得 MBA 学位,因为我对技术领导感兴趣。就硕士项目而言,我实际上没有统计学或开发背景,但我是通过工作领域接触到它的。
雨果:那真的很有趣。因为在考虑给有抱负的数据科学家的建议时,我和许多人交谈过,最重要的技能之一不是能够建立一个一千层的递归神经网络,而是能够在工作中学习,并在前进的过程中掌握新技能,听起来这是你旅程中不可或缺的一部分。
是的,我认为这一直对我来说很重要,因为在数据科学中有太多东西要学。在咨询行业,这也是主要技能之一,因为你永远不知道你将进入什么样的环境,也不知道客户需要什么。学习和广泛的技能。
雨果:太好了。我只是想知道,以你的经济学背景和 MBA 学位,这些对你作为一名数据科学家的工作有什么影响?你觉得你开发的技能和工具以及经济学和 MBA 的思维方式对你在数据科学领域的工作有用吗?
是的,所以经济学和计量经济学实际上非常接近数据科学,我认为这可能是数据科学的部分来源。例如,有很多假设检验。有很多统计学和计量经济学在进行。有很多像社会科学的方面,你有一个关于特别大规模的系统如何工作的假设,这是现在很多数据科学家做的,对吗?他们测试大规模的社交系统,如社交网络或平台,看看事情会如何表现,所以这是它的一部分。
你认为数据科学在哪些方面影响最大?
雨果:我们来谈谈你在咨询行业的工作吧。我假设您在各种不同的行业工作,但是根据您的经验,您认为数据科学对哪些垂直行业的影响最大?
这将是一个真正的咨询式的答案,但它真的取决于,它真的是一个广泛的、广泛的垂直市场。到目前为止,我在咨询生涯中关注的领域是电信、银行和医疗保健。只要正确实施,只要企业相信数据并将其视为优先事项,数据科学就会对所有这些领域产生影响或占有一席之地。
Hugo:在展示数据科学在这些行业中的价值时,你发现了哪些挑战?
维基:很多时候…我们可能稍后会谈到这一点,但很多时候,它甚至在建立管道,以达到您可以进行数据科学的地步,但很多时候,特别是在较大的公司中,我的公司主要与财富 500 强公司打交道,正在达到您可以证明您的假设或您说要做的任何事情,您的行动呼吁,实际上会导致业务变化的地步。
雨果:太好了。你能给出任何具体的例子吗?我指的不是公司的名字或类似的东西,而是电信、银行或医疗保健领域实际数据科学项目的具体例子?
维基:很多项目…因此,我所从事的每个行业都是如此。每个公司都希望能够衡量客户流失或客户离开或加入其平台的原因,尤其是追踪公司不开心的原因。对于较大的公司来说,这可能会产生大量的功能,而不是所有的功能都可以控制。例如,注册流程、计费流程、他们对你的服务或他们的服务的问题、接触他们的外部人员。你可以创建一个潜在导致客户流失的模型,但这不一定反映真实世界。我认为这也可以追溯到计量经济学,因为在计量经济学中,你试图创建一个整个经济的模型,但你真正拥有的是一个表示,因为你无法追踪所有的数据。
雨果:对,很好。这是一个很好的例子,实际上我最近思考了很多,今天早上也谈到了,事实上,特别是客户流失的例子,客户将业务转移到其他地方的可能性,是数据科学和决策科学的交叉点。因为你可以建立一个模型,它可以告诉你或近似世界上正在发生的事情,关于为什么客户在搅动,但它不会告诉你该怎么做,对吗?
Vicki:对,所以在我看来,最终是由数据科学家提出一些选择,清楚地提出他们对公司的看法,然后是公司前进的方式。这就是我们把它交给客户的原因。我们会推荐几个选项,但我们显然不会说,“这是你必须做的。”
雨果:太好了。在客户流失的情况下,我可以想象几种行动方案。第一种是,如果你认为一个客户会流失,联系他们,根据他们对你公司的价值,给他们一些优惠。另一个办法是,在他们打算大动干戈之前,尽量把它扼杀在萌芽状态。这些是你提出的建议类型,还是还有其他的?
是的。通常它是预防性的,或者你可以在他们即将流失时改变它,或者你可以创建预防性措施,以便他们可以在某个地方疏导他们的挫折感,例如,新的支持渠道。
数据科学中最常见的模式是什么?
雨果:太好了。在您在所有这些行业的工作中,您在这些行业的数据科学中看到了哪些共同的模式?
其中之一是,我想我们已经听过很多了,但是将数据收集到可以进行数据科学研究的程度总是需要 80%的工作。通常,当我们进入一家公司时,很多工作都是将数据带到我们可以进行数据科学的地方。工具的选择和了解业内其他人在做什么。这种理解最佳实践的需要。我们是否选择了正确的工具?这是业内其他人在做的事情吗?这是我们这个行业的人在做的事情吗?或者是那些对数据科学感兴趣的人,他们认为我们需要有人来帮助我们进行数据科学实践,我们实际上需要数据科学,我们实际上需要帮助来做出这些决定。那些可能是大的。
雨果:有意思。实际上,那里有很多让我想到的东西。首先,我想重点介绍的是它的大量数据准备工作,进入一种您可以使用它进行分析或数据科学工作的形式。你必须做的大量准备工作,你认为在未来 2 年、5 年、10 年内会有所改变吗?这些类型的东西会越来越自动化,有希望产品化吗?
有一部分,但最终我认为这只是数据的特征。因为通常除非你在制造业或其他相关领域工作,你所拥有的是人类生成数据,理解数据,定义它在商业上的意义,而这种数据总是杂乱的。尤其是在大型组织中,您可能有 5 个、10 个甚至 20 个不同的数据流。有时你有两个数据流。它们完全一样,只是有一点点不同。这种和解将一直存在。
Vicki:我确实看到最近越来越多的事情发生,许多组织呼吁更多的数据治理。在大型组织中,更多的元数据管理变得越来越重要。我认为,在过去 4 年左右的时间里,推动因素是将数据放入数据湖。怎么做不重要。它只需要都在一个地方,这样我们就可以用它做一些事情。现在的想法是,我们希望能够在数据湖中管理我们的资产。我们需要能够看到他们,代表他们,并让业务能够像 S3 桶或 Hadoop 集群或类似的东西一样进行清点。
雨果:太好了。你提到的我想讨论的另一件事是,你提到了找出行业最佳实践的趋势,以及其他人正在做的事情。我想讨论的是,在我看来,很多人…许多数据科学工作在许多不同的咨询小组、许多不同的组织中各自为政,许多人似乎在以多种方式平行地重新发明轮子。那也是你见过的吗?
是的,我认为这绝对是真的。我在我的几个项目中看到,真正成功的是组织或客户致力于集中所有这些东西。我在大型组织中看到的是一种叫做卓越中心的东西,在那里你有跨职能团队。你有工程师,你有数据分析师,你有数据科学家,他们都聚在一起谈论他们作为一个团队在做什么。我最近越来越多地看到这种结构。
最有效的数据科学团队结构是什么?
Hugo:这是你认为最有效的数据科学团队组织结构吗?
我想是的。如果可行的话,我强烈支持让任何给定的数据科学项目的所有利益相关者都在场。例如,如果你有大约 200 人要影响,可能不会,但我真的总是推动开发人员与数据分析师,更重要的是,与业务用户坐在一起。因为通常开发人员是流程的第一部分,而业务用户一直在下面。这就像一个电话游戏,开发人员构建了一些东西,放入某个仓库,放入仪表板。当它建立起来的时候,业务用户不一定总是想要它,也不能对它采取行动。我总是喜欢让所有的人都在同一个房间里。
Hugo:你对商业用户的数据素养的未来有什么看法?我们是否会越来越多地看到管理层、首席级人员和使用仪表盘的人越来越了解什么是数据以及数据是如何工作的?
我想是的。我对此非常乐观,不仅仅是因为对我来说这是工作保障,因为人们想要越来越多的数据。我确实相信大众媒体,或者至少是科技媒体,已经到了这样一个地步…我在《哈佛商业评论》(Harvard Business Review)或诸如此类的商业文献中也看到了这一点,现在许多高管都明白了数据驱动的必要性。通常在会见客户时,他们会说,“我们希望数据驱动。”我认为接下来的两到三年将会弄清楚这对他们来说意味着什么。
雨果:我想这意味着某种计算素养。我想这也可能意味着一些统计数据。你认为人们需要学习数学、线性代数、逻辑回归等基础知识吗,或者这是不是期望太高了?
不。我认为数据科学家有责任为不同的受众提供信息。如果你是一名数据科学家,并且你正在向其他数据科学家演示,你显然可以谈论细节,你在逻辑回归中的参数或你有什么。如果你和项目经理,尤其是高管交谈,你应该用一种非常不同的方式说话,你应该用一种他们感兴趣的方式说话。高管可能不会对你使用的算法感兴趣,但他们会对你的发现和你认为他们应该采取的行动感兴趣。我坚信应该用人们理解的语言与他们交谈。
全栈端到端数据科学解决方案
Hugo:我想稍微转换一下话题,谈谈您构建全栈端到端数据科学解决方案的方法。不过,在我们开始之前,我想知道您是否可以给我们一个电梯间推介或类似的东西,介绍一下全栈端到端数据科学是什么或意味着什么。
Vicki:对我来说,全栈基本上意味着构建一个数据科学产品。你从某种数据流开始,在某种环境下转换数据,然后输出一个模型并显示这个模型。对我来说,这是端到端的数据科学,这更像是一个产品,而不是一个项目,例如,我认为这是对特定模型的迭代。
Hugo:太好了,那么你构建这些解决方案的方法是什么?
我没有标准的方法。真的要看情况。我通常会在第一周左右来到客户的网站进行观察。我知道团队规范是什么,他们使用什么样的工具,他们的痛点在哪里。我变得很烦人,问了很多问题,做了很多文档。然后,我们通常从查看数据流入该团队或组织的位置开始,并查看我们可以留下哪些易于维护、可复制的内容,在这些内容中,您可以了解进入其中的模型,并且可以轻松地可视化输出。这是端到端项目的黄金理想。
雨果:太好了。你能给我举一个你最近参与的,你认为特别有价值的例子吗?
是的,所以我几年前做了一个项目,将预测建模能力构建到软件即服务平台中。这个客户有很多,比如说,很多他们想要预测的关于他们客户的事情。他们有描述的能力,但是他们没有预测的能力。我的工作是获取他们已经从客户那里获得的数据,将这些数据放入一个模型中,所以我使用了一个马尔可夫链模型,这个模型有点类似于为这个特定行业的页面浏览量建模。然后,我将其集成到他们现有的软件平台中。
Vicki:实际上,我的角色是,第一,吸收公司目前在其任务平台中收集的数据,分析这些数据,理解这些数据,因为之前没有进行过数据分析,找出哪种模型最适合用来预测,结果证明这是一个马尔可夫模型,因为,这种产品类似于页面视图,你可以预测这个人或客户的下一步行动。然后将该模型包装成您可以集成到他们的软件即服务平台中的东西。
Hugo:一旦这个模型投入生产,那么谁来负责维护它,并负责检查模型漂移?对于我们的听众来说,模型漂移是一种现象,例如,当你有一个生产化的机器学习模型时,它可能不会工作,例如,它可能不会在三到六个月后给出你期望的结果。那么谁负责这种类型的维护呢?
这取决于项目的类型。通常我们会和我们的公司一起做的是,我们会和客户一起工作一个月左右,然后监控这个模型,但通常我们会让它在客户端很容易改变,因为最终它是他们的。然后,我们必须确保它易于记录和易于更改,这就是为什么首先进来观察它是很重要的,就像我说过的那样,看看他们习惯使用什么工具集,他们使用什么编程语言,团队成员的统计技能集是什么,这样我们就可以将它传递给他们,而不是让它成为一个黑箱。
雨果:太棒了。这实际上是设定期望,以确保公司内部有人甚至有能力进行这种类型的维护。
数据科学通才
Hugo:当您阐述构建完整的端到端数据科学解决方案的过程时,我想到的另一件事是,这个过程中有很多步骤。能够作为一个人而不是一个拥有不同专业的团队来做这件事,这看起来就像你…要做到这一点,你需要成为一名数据科学通才。
是的,我想这是真的。总的来说,我讨厌宣扬数据科学独角兽的神话。我当然不是独角兽,但我确实认为有多面手和专家。特别是对于咨询业来说,如果你是一个多面手,如果你想成为一个多面手,这是有意义的,因为你可以做很多不同的事情。
Vicki:最近我在 r 中做了一些原型设计。现在我正在将数据导入 AWS。如我所说,我以前做过马尔可夫链建模。所有这些实际上都是了解客户需求的技能组合,能够找出如何进行研究,并到达您可以提供解决方案的点,而专家可能在特定行业的深度学习等方面非常非常了解。
Hugo:是的,你提到了 R,当然,在你的工作中隐含的是你使用 SQL。为了做你需要做的事情,我敢肯定你需要做一堆命令行的东西,你也用 Python 工作,所以有这种你用来完成工作的一整套工具,对吗?
是的。是的,我会说我的主要工具,当我可以使用它时,是 Python,因为它也有点像语言的瑞士军刀。实际上,我最近在某个地方读到 Python 是几乎所有语言中第二好的语言,我同意这一点。这是我个人最喜欢的语言。如果你想做几乎任何事情,你可以用 Python 来做。特别是对我的位置来说,它真的很好。
就像我说的,我和 R 一起工作过,我和 Scala 一起工作过,我做过很多命令行的事情。最近,我越来越多地参与云平台工作,特别是 AWS,这是一个全新的技能组合,越来越多地参与工程工作,如持续集成,这是放置您的模型并确保您可以继续构建它并将其集成到软件中。
Hugo:实际上,我把 Python 称为瑞士军刀,多年来我一直听到它被称为瑞士军刀。我刚刚脑中闪过一个念头,如果那是一个术语的话,也许我们可以称之为荷兰军刀,因为圭多。
为了荣誉,是的,为了荣誉。
雨果:好的,太好了。我只是想让所有的听众明白,虽然薇姬…我的许多客人都是数据科学家通才。肯定不是每个人都是,也没有必要成为多面手。我们稍后可能会讨论的是,我们实际上正在看到这个学科中出现许多专业化,对吗,Vicki?
是的,我完全同意。我认为两者都有一席之地。我也非常支持数据科学团队,而不是一个人孤军奋战。我总是在团队中工作。通常是懂一点统计学的人,懂一点工程学的人,更面向业务或业务分析师的人,以及完全面向业务的人。你有三四个这样的人。我参加过的最好的团队在这些方面是互补的。
关于学习途径的建议
Hugo:对于那些想从事构建完整的端到端数据科学产品和解决方案的人来说,在学习途径方面,你会给他们什么建议?
我会说只学一件你感兴趣的事情。我得到的最好的建议是学好一门语言。学习什么语言并不重要,尽管对于多面手来说 Python 可能更有意义。真正学好一门语言,学习这门语言的内在,这样你就可以把它应用到其他事情上。
因为多面手真正擅长的是理解不同的事物如何应用于其他事物。例如,这是对象在 R 中的工作方式,这是对象在 Python 中的工作方式,这是数据流入 AWS 的方式,这是数据流入 Hadoop 的方式,这是我们在 Tableau 和 D3 中的工作方式。多面手通常能很好地处理模式,并且能够研究不同的事物。
我的建议是,首先,学习一种语言,然后能够从这种语言中进行推断,并尝试构建一个端到端的产品或项目。我有一条关于这个的推特,我可以链接到上面。因为有时候想出项目点子真的很难,也很令人畏惧。我为自己挠痒痒的方式是我建立了一个名为苏联艺术机器人的项目,它在推特上发布社会主义现实主义艺术。为此,我不得不从一个网站上获得这些艺术。我必须把它放在 AWS 中,我必须有一个 AWS Lambda 来创建这个机器人来发推特。这让我很想弄明白所有这些不同的部分是如何组合在一起的。就像我说的,我有一条推特,我可以链接到它,上面有一些不同的项目想法,你也可以…
雨果:我喜欢,我们肯定会在节目笔记中链接到这一点。
雨果:目前文化意识中的一些东西已经出现了一段时间,这是预测分析,机器学习和深度学习的权衡,在多种形式之间,所以一个模型在预测它想要预测的东西方面有多好,并且是可解释的,所以试图找出为什么它会做出预测。我想知道在你和你的客户的工作中,一般来说,这种权衡的方法是什么?
Vicki:我个人的方法是总是创建稍微简单一点的模型,但是总是更容易在幕后看到。原因是什么…如果我是一家公司的全职员工,我可能会有不同的答案,但作为一名顾问,你总是需要能够留下其他人可以看的工作,他们可以拆开,他们可以依赖,很容易记录。尤其是和不太懂技术的人打交道时,能够很好地解释这些事情是很重要的。对我来说,我总是宁可简单一些。
云
Hugo:你之前提到的事实是,越来越多的数据科学工作正在转移到云上,我很想听听你对此的看法。作为一个社区,这对我们来说是一个相对较大的挑战,我想知道你们在工作中是如何处理这个问题的。
是的,所以我们最近看到的是,虽然这是过去几年的趋势,但我看到越来越多的项目出现了这种情况,很多客户开始意识到他们不想维护基础设施,他们想把一切都带到云上。当然,当他们这样做时,他们希望考虑这样一个事实,即现在有一些事情需要你去管理。例如,您必须管理云的安全性。
就像最近有很多新闻报道一样,例如,S3 水桶就像是敞开着,所有的数据都泄露了出来,所以处理起来很重要。您需要处理一些云管理,最重要的是,您需要了解所有这些部分如何协同工作,因为这可能比在 scikit 中创建一个模型、腌制它,然后将其放在某个服务器上更难。你必须了解生态系统的所有部分是如何协同工作的,所以这在数据科学中也变得越来越重要。我认为特别是对于云中的数据科学,工具集在这一点上才刚刚出现。例如,我知道有 SageMaker,Google Cloud 有一些东西,还有 Azure 机器学习,但我觉得所有这些都刚刚开始进入自己的领域,但随着人们朝着这个方向发展,它们将成为更重要的组件。
Hugo:另外,我认为这些新兴和快速发展的技术意味着进入的门槛可能会稍微高一些,对吗?
维基:有可能。是啊,在某些方面可能是,但在其他方面就不那么可能了。如果你已经知道如何在云环境中移动,那么进入云的门槛就很低,进入机器学习的门槛也更低,因为已经有一些原型组件可以放在一起。如果你不知道如何在这样的环境中经营,从这个意义上说,进入的门槛会更高。我最近看到的是,许多从事数据科学的人甚至有点向工程道路靠拢。
雨果:对。是的,我想我真的在想那些正在工作的数据科学家或精通机器学习的人试图去云,甚至从文档的角度来看,做什么和怎么做可能都不明显。
维基:对。是的,这些云服务的文档还有很多不足之处。
雨果:我们肯定会看到情况有所改善。
是的。事实上,我知道 AWS,我想微软也在 GitHub 上开源了他们的文档,这是一个积极的方面。
Hugo:没错,实际上我最近邀请了 Paige Bailey 参加播客,她是微软 Azure 的软件开发人员倡导者,她在很多工作中也发挥了重要作用。
在你看来,数据科学的未来是什么样的?
Hugo:很好,我们已经谈了很多关于数据科学的前景和你目前的工作。我想知道在你看来,数据科学的未来是什么样的。
我认为我们将会看到大量的标准化,就像缩小行业范围一样。过去五年是关于这个叫做数据科学的新领域的爆炸式增长,起初没有人真正知道它是什么,所以我们开始定义它。现在有很多向数据科学的转变。几乎每个人都知道数据科学家是统计学家。
对你来说,我认为我们现在看到的更多的是专业化。有很多人专门研究深度学习或人工智能。正如我提到的,更多的软件开发活动。尤其是随着越来越多的东西进入云中,数据科学家需要知道如何在这些环境中工作。一如既往,我认为未来属于那些灵活的人,那些能用任何语言编写和阅读优秀代码的人,以及那些能随着环境变化而自学的人。
雨果:太好了。您之前谈到的一些事情是试图了解数据科学中的最佳实践是什么样的。目前还没有…我的意思是人们谈论某些事情,但是没有像前端软件工程那样的最佳实践的固化系统,对吗?
是的,我认为这才刚刚开始。就像我看到脸书和谷歌都发布了关于机器学习的指南和一些值得一看的东西。谷歌的特别好,因为它有你应该看看的东西,脸书刚刚发布了一堆视频。我认为这将开始变得更加稳固。另一方面,你也会听到很多人谈论机器学习和数据科学中的道德规范,我认为从这个角度来定义数据科学的含义可能也会有一些压力。当然,GDPR 法规会让我们定义可以收集的数据。我认为所有这三件事加在一起会让我们对那是什么有更多的了解。
雨果:对,很好。我认为 GDPR 是一个有趣的例子。我们会越来越多地看到这种情况。这在很多方面都是欧盟特有的,如果你有任何数据也可能通过欧盟的话。随着我们看到越来越多的国家采用这些类型的东西,我想知道这是否也会影响我们使用云技术的方式。
我相信在某种程度上会的。我认为云计算中最重要的事情是解决安全性问题…安全和数据流第一。
伦理学
雨果:对。你提到了数据科学中的伦理。我想知道你认为道德领域最大的问题是什么。
我个人认为现在最大的问题可能是数据泄露。有很多不同的事情,但我想把重点放在实际问题上,即许多人没有保护他们的数据。这里的问题是潜在的收集太多,然后没有足够仔细地监控它。
最受欢迎的数据科学技术
雨果:好吧。是的,我同意。我们已经谈了很多关于数据科学和数据科学流程的不同方面。我特别想知道你最喜欢做的数据科学方面的事情是什么,我指的是技术还是方法?
是的,所以我最喜欢做的是决策树,因为我从中获得了最多的回报。我如此喜欢它们的原因是因为它们非常容易与不一定是数据科学家的人讨论。它们很容易被形象化,给你一个清晰的行动路线。如果我能利用他们,我会的。
Hugo:这再次说明了我们之前讨论过的可解释性,你可以展示某人沿着树往下走,以及在每个分支点做出了什么决定,但也说明了可解释性的容易程度,或者只是能够向其他人解释一些事情。
是的,而且在多个平台之间移植也很容易。
雨果:在什么意义上?
Vicki:实现细节,这样你就可以在 scikit-learn 中本地创建一个决策树。你可以在 r 中创建一个,你可以在几乎任何平台上创建一个,所以我喜欢这样。
雨果:太好了。当然在 scikit-learn 你可以…很好,它与 Graphviz 兼容,所以你可以立即看到它。
是的。
Hugo:那么数据工程呢?真正得到的是…你喜欢在那里做吗?
我真的很喜欢 AWS Lambdas,它基本上是…把它们想象成短暂存在的虚拟环境。他们旋转起来,做些事情,然后就走了。它们有很大的应用潜力,我真的很有兴趣对它们进行更多的探索。我在过去的两个项目中使用过它们,我看到它们只会越来越多。
雨果:有什么收获?你认为 AWS Lambda 环境的最大优势是什么?
Vicki:它们有点像快速完成任务的功能。他们可以移动数据。他们可以发微博。我在我的机器人中使用 Lambda 函数每隔一定时间发一次微博。它们很容易维护。一旦你设置好并让它们运行,它们就会一直运行下去。
行动呼吁
雨果:太棒了。好的,那么我的最后一个问题是,你对我们的听众有最后的行动呼吁吗?
是的,所以我在推特上。我是 @vboykis 。你可以在那里找到我的网站,我的技术博客。如果你对我的公司 CapTech 有更多的兴趣,你可以去 captechconsulting.com。我们一直在招人,也一直在接纳新客户。
雨果:太棒了。我想我还有一个跟进问题。就招聘流程而言,这是我经常遇到的一个问题,你对进入面试流程的人有什么建议或通用的经验法则吗,我指的是和你一起或在其他地方?
首先,做好充分准备,了解你面试的公司。特别是在咨询业,这有一点不同,因为我们在寻找技术好的人,但我们也在寻找对做很多不同的事情感兴趣、擅长做很多不同的事情、能够自学和做很多研究的人。
第二件事是对你谈论的内容充满热情。说说你对什么有热情。如果你在工作之外做过项目,告诉我你做过什么类型的项目。尽可能多地告诉我你的工作项目。
基本上,当我去面试某人时,我希望有…我不是想骗你。我想和你谈谈,看看我是否能和你一起工作,就这样。
Hugo: Vicki,很高兴你能来参加我们的节目。
维基:谢谢你邀请我。
4 月 30 日前免费使用 DataCamp
过去的一年非常困难,这是一个保守的说法。但是一线希望是向数字化工作的转变——这包括在线培训和教育。
为了加速数字化转型,许多组织已经开始使用 DataCamp for Business 来提高跨团队的数据素养。由于 COVID 而被解雇的个人利用他们在数据营学到的技能在数据科学和分析领域找到了新的工作。通过 DataCamp 捐赠,我们的合作伙伴社区为 60 多个国家的学习者分配了免费的 DataCamp 订阅。许多学校和大学已经使用课堂数据营来免费补充他们的在线教育项目。
DataCamp 的使命是数据民主化。这就是为什么从 4 月 22 日到 30 日,我们将举办一个免费周,向任何人和任何想免费试用 DataCamp 的人开放我们的整个平台。(我们所有课程的第一章 永远 免费。)你可以参加任意多的课程、项目和评估——我们甚至不会问你的信用卡号码。没有陷阱。你只需要一个电子邮件地址就可以开始了。
我们的第一个免费周是去年五月的第一周,我们在 T2 举办了另一个免费周。我们看到成千上万的学习者加入我们,学习新的技能,以促进他们的职业生涯。
MLOps 入门
原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/getting-started-with-mlops
如今,太多的机器学习模型没有部署到生产中,而是留在数据实验室中。就像任何新兴领域一样,现代数据团队需要采用的一套最佳实践、工具、技术和角色尚未成熟和标准化。这给希望从大规模机器学习中提取价值的企业和希望超越笔记本实验的数据科学家带来了不满。MLOps (机器学习操作) 在过去几年中应运而生,旨在解决数据团队面临的部署挑战。
线索就在名称中:正如 DevOps 围绕业务需求塑造了快速敏捷的应用程序开发,MLOps 旨在通过弥合复杂性和机器学习模型部署之间的差距来做同样的事情。
【MLOps 如何应对这些挑战?在本文中,我们旨在揭开 MLOps 作为新兴学科的一些概念的神秘面纱,并回答一些关键问题,如
- 什么是 MLOps,成功的 MLOps 实践的关键要素是什么?
- m lops 和 DevOps 有什么不同?
- 【MLOps 如何重新构想机器学习的工作流程?
- 现在如何开始使用 MLOps?
什么是 MLOps?
专注于模型监控的 MLOps 初创公司 WhyLabs 的首席执行官阿莱西娅·维森吉奇 恰如其分地将 MLOps 描述为 【一套工具、实践、技术、文化和心态,确保机器学习系统的可靠和可扩展部署】 。
从这个角度来看,MLOps 建立在 DevOps 的现有原则之上,即高效编写、部署和运行企业应用程序的现代实践。这是一个跨职能、协作和迭代的流程,可将数据科学付诸实施。MLOps 将机器学习视为一门工程学科,其中模型被视为可重用的软件工件,然后可以通过可重复的过程进行部署。
MLOps 还涉及对生产中的模型进行持续监控和再培训,以确保它们在数据随时间变化时表现最佳,这种现象也被称为 数据漂移 。
简而言之,MLOps 允许数据团队通过以下方式扩展他们提供的价值:
- 通过自动化流程更快地部署更多型号
- 通过协作和模型重用优化生产力
- 降低从未投入生产的模型的风险和成本
- 随着数据漂移的发生,持续监控和更新模型
回到维森吉奇对 MLOps 的定义,上面所说的既需要现代数据团队的工具创新,也需要当今许多数据科学家思维方式的转变。
为什么 MLOps 很重要?
我们已经介绍了 MLOps 如何解决当今许多数据团队面临的部署挑战。然而,是什么让机器学习如此独特,以至于它需要像 MLOps 这样的新的专门操作功能?
机器学习应用与传统软件有本质区别。以下是组织在将机器学习系统部署到生产中时面临的一些重大挑战。
- 所有权与协作: 传统上,数据科学家倾向于创建和开发机器学习模型,IT 团队承担部署和管理它们的任务。然而,这两个团队之间的合作并不尽如人意,而且容易产生摩擦。例如,数据科学团队越来越多地被不同的业务部门请求解决越来越多的问题。鉴于现代 IT 系统的复杂性,数据科学家很少关注生产环境和现有的 IT 系统,因为那是 IT 团队的责任。类似地,IT 团队倾向于不关注数据科学家产生的解决方案的内部工作方式——这导致了对这些模型的可部署性的错误期望。这种动态导致了需要不惜一切代价避免的摩擦和反模式——数据团队满足于 “让我们构建一个模型,发送给它,它们将接管”的思维过程。
- 数据是机器学习驱动的软件的一个定义方面: 数据是机器学习系统的命脉 。与传统软件不同,在传统软件中,软件工程师设计一个精心制作的过程,接受一组输入并提供一组输出,机器学习系统依赖于统计方法,将杂乱的真实世界数据作为输入,并将预测作为输出。这意味着机器学习系统的行为会因数据的变化而发生变化。此外,这意味着评估机器学习模型的性能需要观察和分析。最后,这意味着机器学习工作流是杂乱的,本质上是实验性的,并且自然地适合于与传统软件工程不同类型的技能集。
- 部署复杂度: 机器学习模型系统的复杂度越来越高。与传统软件相反,部署机器学习模型包括从不同的工具编排各种相互关联的步骤。这包括数据收集、存储、转换、特征工程等等。此外,再现性和版本控制是数据团队面临的主要挑战。鉴于机器学习的实验性质,数据科学团队使用同一数据集的不同版本构建模型的许多版本。因此,传统的版本控制需要变得更加健壮。
MLOps 与 devo PS—有什么区别?
在上一节中,我们分析了为什么机器学习需要专门的操作功能。然而,MLOps 在实践中与 DevOps 有何不同?
DevOps 是开发(Dev)和运营(Ops)的缩写。它结合了 It 部门的两个基本功能:应用程序开发和系统工程。DevOps 试图缩短开发周期,并加快软件工程团队的产出速度。它通过为开发团队引入自动化、更新的过程和工作方法来做到这一点。更广泛地说,DevOps 在软件开发过程中引入了两个原则:
- 持续集成(CI)—对版本控制库进行频繁的小迭代的过程。这减轻了处理部署问题的负担,因为代码经常被部署到产品中。
- 连续交付(CD)—将应用程序和软件交付到生产环境所需的步骤自动化的过程。
鉴于机器学习的独特性质,这里有一些 MLOps 不同于 DevOps 的实用方法:
- 持续集成 从测试和验证代码扩展到测试和验证模型和数据
- 连续交付 从将应用交付到生产的自动化步骤扩展到自动交付触发机器学习预测的数据管道
- 引入了持续培训——这是机器学习所独有的——模型被自动重新培训以供部署
- 引入了持续监控——监控与机器学习模型相关的质量、模型性能和业务指标方面的生产数据中断
m lops 工作流程
为 MLOps 重新设计数据科学工作流程
考虑到将机器学习模型部署到生产中的额外复杂性,数据团队如何开始在他们的数据科学工作流中采用 MLOps?在本节中,我们将介绍 MLOps 流程中的一种简化的逐步方法:
- 构建: 一旦模型被创建,它们通常被放在一个版本控制下的可审计的存储库中,以支持整个企业的重用。
- 评估: 通过在新的独立数据集上测量新训练的模型性能,在此阶段量化模型预测的质量。
- 生产化: 将模型或管道导出、部署并集成到生产系统和应用程序中。
- 测试: 连续测试对于基于 ML 的应用程序来说很重要,它涉及到自动重新训练和服务模型。
- 部署: 需要持续监控以确保最佳性能。当数据改变时,可以重新训练该模型或者用新的模型替换该模型。
- 监控和可观察性: 许多公司在将机器学习模型迁移到生产环境中时都面临着挑战。
为 MLOps 重新设计数据角色
在较小的数据科学团队中,一个人可以扮演多个角色,身兼数职。然而,在规模更大、处理量更大的数据团队中,您会发现拥有 MLOps 工作流不同元素的各种角色和技能。这些角色可以看如下:
- 数据科学家: 数据科学家通常被视为任何 MLOps 团队的主要成员,他们是利用公司数据创造价值的专家。他们的角色是理解、构建和解释这些数据,以预测模型的形式从这些数据中获得并提供见解。他们创建、测试和评估机器学习模型。在一些公司,一旦模型投入生产,还要部署和监控模型的性能。
- 数据工程师: 数据工程师负责创建和维护允许数据团队中几乎所有其他功能运行的环境。他们负责开发、构建、维护和测试架构,例如数据库和处理系统。简而言之,它们支持从提取、转换到交付的数据流。
- 软件工程师 : 在一个 MLOps 流程中,软件工程师负责将机器学习模型整合到公司的应用和系统中。他们还致力于确保机器学习模型可以毫不费力地与公司内任何非基于机器学习的应用程序一起工作。
- 机器学习工程师 : 机器学习工程师处于数据科学和数据工程的十字路口。机器学习工程师的角色是在数据工程师准备的基础设施内优化数据科学家开发的模型并将其投入生产。
【MLOps 入门
正如本文所讨论的,MLOps 仍然是一个新兴领域,许多工具、最佳实践和方法今天仍在涌现。本节专门介绍您可以开始使用 MLOps 的不同方法,您可以开始尝试的工具,以及您现在可以使用的学习资源。
【MLOps 要考虑的工具
-
Kubeflow : Kubeflow 是一套在 Kubernetes 集群上运行机器学习工作流的工具。Kubeflow 的目标是使最好的开源机器学习解决方案能够以简单、可移植和可扩展的方式在 Kubernetes 集群上运行。最初 Kubeflow 是 TensorFlow Extended (TFX)的开源实现,这是一个在生产中部署机器学习管道的端到端平台。Kubeflow 因此允许简化 Kubernetes MLFlow 上 TensorFlow 作业的执行:MLFlow 是一个将机器学习项目的端到端开发过程工业化的工具。它的目标是通过促进模型的监控、复制、管理和部署来简化公司中机器学习项目的开发。
-
数据版本控制(DVC) : DVC(数据版本控制)是一个 Python 包,它使管理您的数据科学项目变得更加容易。这个工具是 Git 用于机器学习的扩展,正如其主要贡献者 Dmitry Petrov 在本次演示中所述。DVC 与 Git 既相似又互补。
-
Pachyderm : Pachyderm 和 DVC 一样,是机器学习和数据科学的版本控制工具。最重要的是,它基于 Docker 和 Kubernetes,这有助于它在任何云平台上运行和部署机器学习项目。此外,pachyderm 确保所有摄入机器学习模型的数据都是有版本和可追溯的。
MLOps 的学习资源
机器学习基础
- 《绝对初学者的机器学习:简明英语入门》(第二版)奥利弗·西奥博尔德 。正如标题所示,这本书为初学者提供了机器学习的完整介绍。当我们谈论初学者时,我们指的是真正的新手。不需要任何数学基础知识,也不需要任何编码经验。这是对机器学习的基本介绍,适合对这个话题感兴趣的人。使用的语言非常简单,以免读者被难以理解的行话淹没。不同的算法附有清晰易懂的解释和直观的例子。这本书还介绍了一些简单的编程概念,以更好地将机器学习融入上下文。
- 约翰·保罗·穆勒和卢卡·马萨隆的《假人的机器学习》。对于新手来说,“给假人”系列的书也是一个很好的起点。这本书介绍了机器学习的基本概念和理论,并解释了如何将它们应用到现实世界中。它介绍了基本的编程语言和工具,并解释了如何将一个相对深奥的概念变成一个实用的工具。他讨论了编程语言 Python 和 R,这两种语言用于教机器识别模式和分析结果。
- 预测数据分析的机器学习基础:John D. Kelleher、Brian Mac Namee 和 Aoife D’Arcy 的算法、工作实例和案例研究。这本书涵盖了机器学习的所有基本概念,提出了理论方面和实际应用。它提供了具体的例子和案例研究,以更好地传达知识。建议具备分析的基础知识,以便更好地理解这些基本概念。这本书介绍了机器学习的不同方法,并用算法和模型说明了每个学习概念,以及将这些概念付诸实践的具体例子。
- 德鲁·康威和约翰·迈尔斯·怀特的《黑客机器学习》。这里的“黑客”一词指的是为特定目的和实际项目编写代码的程序员。这本书是为没有数学背景但知道如何编码和使用编程语言的读者准备的。机器学习通常依赖于数学概念,因为它使用算法来分析数据,但许多有经验的编码人员通常不具备高度发达的数学技能。这本书没有纠缠于数学理论,而是基于实践研究提出了现实世界的应用。它解决了经典的机器学习问题,并解释了如何使用 R 编程语言来解决这些问题。无论是根据参议员获得的票数来比较他们,还是创建一个推荐系统供人们在 Twitter 上关注,或者根据其内容来识别垃圾邮件,机器学习的可能性是无限的。
- DataCamp 的机器学习科学家与 Python 或 R 数据科学家赛道。无论您是 R 用户还是 Python 用户,这两条路线都涵盖了机器学习的来龙去脉。每条赛道都包含数十门互动课程,涵盖了机器学习的基础知识,以及深度学习和特征工程等更高级的主题。
数据工程基础
- Andreas Kretz 的数据工程食谱。关于如何成为一名数据工程师,有很多困惑。这是一本由 Andreas Kertz 编写的电子书,包含详细的案例研究、代码、播客、采访、案例研究等等。我认为任何人成为数据工程师都是一个完整的过程。还有锦上添花?这本电子书是免费的!!!是的,你可以立即开始使用它。
- DW 2.0——数据仓库之父 WH·因蒙的下一代数据仓库架构。这本书从架构和技术两个方面描述了当今技术上可能实现的数据仓库的未来。它结构严谨,涵盖了与数据架构及其底层挑战相关的大多数主题。如何使用现有系统并围绕它构建数据仓库,以及以非常实用的方式证明费用合理性的最佳实践。
- 敏捷数据仓库设计:协作维度建模,从黑板到星型模式。这是一本很棒的书。Lawrence Corr 提供了一个全面的分步指南,帮助您捕获商业智能和数据仓库需求,并使用一种称为模型风暴的技术将它们转化为高性能模型。此外,您将发现一个名为 BEAM 的概念,这是一种敏捷的维度建模方法,用于改善数据仓库设计人员和商业智能利益相关者之间的交流。
- DataCamp 的数据工程与 Python 职业轨迹。本专题讲座提供了几十门课程,涵盖了构建有效的数据架构、简化数据接收、构建管道等内容。
深入 MLOps
- MLOps:运营数据科学,作者:David Sweenor、Dev Kannabiran、Thomas Hill、Steven Hillion、Dan Rope 和 Michael O’Connell 。这 6 位数据分析专家提供了一种四步方法来创建基于机器学习的应用程序,并将其投入生产。
- Emmanuel Ameisen 构建机器学习驱动的应用。在本书中,作者 Emmanuel Ameisen 将教你如何从最初的想法到部署的产品,构建一个机器学习驱动的应用程序。
- 汉尼斯·哈普克,凯瑟琳·尼尔森构建机器学习管道。在本书中,作者汉尼斯·哈普克和凯瑟琳·尼尔森展示了使用 TensorFlow 生态系统自动化机器学习管道的步骤。
- Noah Gift,Alfredo Deza 的实用操作。强调 DevOps 和 MLops 之间的区别,这本书将把你的注意力吸引到 MLOps 是什么,以及它如何确保操作你的机器学习模型。这本书介绍了一些工具和方法,使你能够在 AWS、Microsoft Azure 和 Google Cloud 中实现 MLOps 项目。此外,请务必在 DataCamp 上观看 Noah 关于实用 MLOps 的现场培训。
- 马克·特雷维尔&介绍 MLOps 大台库团队。本书的作者能够深入理解 MLOps 的关键概念,以确保数据科学团队能够运营机器学习模型,从而随着时间的推移增强业务变化并改进模型。
- Google Cloud 提供文章、博客和论文,引导您了解用于构建高效机器学习模型的最佳实践和流程。在所选文章中,您将了解 MLOps 流程以及如何从手动流程转变为自动化流程。
- Nvidia 的博客提供了一些文章,带您了解 MLOps 的生命周期,并展示了该领域的一些成功案例。
- Ml-ops.org由 Larysa Visengeriyeva 博士、Anja Kammer、Isabel Bä、Alexander Kniesz 和 Michael Plö创建。该网站旨在收集有关 MLOps 的所有必要信息,并展示端到端流程的每个步骤。
我们希望这组资源能够帮助您开始 MLOps 学习之旅。有关 MLOps 的更多文章和资源,您还可以查看以下文章:
- MLOps 上的 10 大资源
- MLOps 最佳实践以及如何应用它们
- Noah Gift 的 MLOps 实用指南
- 与阿莱西娅·维森吉奇一起使用 MLOps 操作机器学习
- 与丹·贝克尔一起从预测到决策
Gitgirl 希望通过数据营培训 1300 万非洲女性
Gitgirl 的创始人 Yvonne Alozie 与即将毕业的 Gitgirl 学生一起庆祝
Gitgirl 是一家总部位于尼日利亚拉各斯的女性数据科学学院,成立于 2018 年。他们的任务是训练 1300 万非洲妇女掌握数据。迄今为止,他们已经培训了 150 多名女性,而这才刚刚开始。
git girl 75%的学员拥有硕士或博士学位,涉及统计学、计算机科学和法律等不同领域。至少,所有 Gitgirl 的学员都至少拥有学士学位,并有强烈的从事科技工作的愿望。
我们与 Gitgirl 的合作伙伴负责人埃伊泰米·予言合作,将数据营整合到 Gitgirl 的核心课程中。
Gitgirl 的合作伙伴负责人埃伊泰米·予言
Gitgirl 正在建立一个为非洲女性量身定制的培训项目
Eyitemi 和 Gitgirl 的创始人 Yvonne Alozie 采取了务实的方法来建立 Gitgirl 的学习计划。他们首先考虑的是位置:拉各斯是非洲最大的城市之一,他们的学生主要在拉各斯,尽管他们也有来自尼日利亚其他地区的学生。其次,拉各斯的交通状况是出了名的糟糕,尤其是在高峰时段,因此期望他们的团队经常出差参加面对面的会议是不合理的。他们知道他们需要一个在线项目。
他们为期六个月的项目通过有问答环节的讲师指导网络研讨会来培训学生。Gitgirl 使用一个松散的小组来分配任务和促进讨论,并在尼日利亚的拉各斯和阿布贾提供可选的每月面对面聚会。这些聚会为学习者提供了一个安全的空间,让他们聚集在一个全是女性的共同工作空间,向讲师提问,与其他学习者见面,并在酒后进行学习小组会议。
促进 Gitgirl 学生整体健康的社区瑜伽课程
Gitgirl 开始其培训计划,重点是电子表格,以帮助其团队建立强大的数据基础。但是他们的一些学习者更高级,渴望更深入的训练。DataCamp 的课程既适合开发电子表格等基础技能的初学者,也适合更高级的学习者。
选择 DataCamp 作为他们的在线学习伙伴
Gitgirl 的许多学生都希望获得数据科学技能,以获得薪酬更高的工作,但进入一个全新的领域可能会令人生畏。因此,Eyitemi 专门寻找一个具有无缝入职体验的提供商,可以引导新手走上正确的道路。DataCamp 是一个完美的选择,我们帮助学习者探索数据科学的不同方面,尝试不同的语言,并通过精选的学习内容注册技能和职业跟踪。
有了 DataCamp,学生们也可以按照自己的方式学习,而不必遵守严格的时间表。这一点很关键,因为 Gitgirl 的许多学生在工作之外有全职工作和其他义务,所以他们需要灵活性。DataCamp 的移动应用是一个有用的补充,因为尼日利亚的移动连接通常比互联网好。
学生喜欢 DataCamp,因为他们可以按照自己的速度学习。他们可以专注于他们想要学习的领域和他们想要培养的技能。
另一个重要的考虑因素是成本:尼日利亚专业人员的平均工资约为每月 300 美元,因此 Gitgirl 的一般学习者无法负担得起留出许多资金。反过来,DataCamp 捐赠了 35 个许可证,以支持我们在全球传播数据流畅度的共同使命。
绘制通往数据流畅的路径
为纪念 2019 年国际妇女节,当地公司举办了 Gitgirl 培训班
超过 150 名学生参与了 Gitgirl 的计划,但并不是所有人都决定专业地追求数据科学,一些人将数据技能带入了各自的行业。截至 2019 年 11 月,他们的 35 名高级学员已经超越了电子表格,进入了 Python 和 r 中的数据建模和数据可视化等高级主题。这是 DataCamp 的课程产生最大影响的地方:
我们希望为我们的学生提供世界一流的标准教育,并有能力让我们的学生对此充满信心。当然,鉴于我们是尼日利亚的一家初创公司,我们帮助学生利用当地数据集进行学习。但与此同时,我们希望确保他们在数据科学方面获得的基础技能符合世界标准。通过将 DataCamp 集成到我们的课程中,我们确保了这一点。
想进一步了解 Gitgirl?通过电子邮件联系他们。要了解如何在您自己的组织内建立数据流畅性,请阅读我们的新白皮书《300+ L & D 领导者从建立数据流畅性中学到了什么》
点击了解更多关于 DataCamp 合作关系的信息。要成为合作伙伴,请联系 【邮箱保护】 。
向最需要的人赠送 10,000 多个 DataCamp 订阅
在新冠肺炎事件和当前的经济衰退之后,日子很艰难。许多人希望提升自己的技能,以便在就业市场上更具竞争力,或者完全转向新的职业。作为学习数据技能的最佳在线平台,DataCamp 能够独一无二地帮助个人在家中安全地把握技能发展机会。我们正在兑现从 5 月开始的承诺:在半价促销期间购买的每一个年度 DataCamp 订阅,我们都将赠送一个给有需要的人。
我们的使命是为每个人普及数据教育
为了支持 DataCamp 将数据技能民主化的使命,我们为我们的学习平台提供了经济实惠的月度和年度订阅,并且我们已经通过课堂的 DataCamp 向超过 30 万名学生免费提供了数据科学教育。今天,我们很高兴地宣布了一项新的举措,以帮助那些受新冠肺炎病毒影响或有其他需要的人。
通过免费的 DataCamp 访问服务有需要的社区
我们与几个服务于不同社区的组织建立了合作伙伴关系,这些组织有一个共同点:他们的成员需要技能来获得工作,并在这些困难时期推进他们的职业发展。我们向这些组织捐赠年度 DataCamp Premium 订阅,以支持这些社区。这使我们能够帮助那些可能从未了解过我们的人,同时与那些与我们的数据技能民主化使命一致的组织建立新的关系。
免费 DataCamp 订阅的收件人
以下是将集体获得超过 10,000 份年度 DataCamp Premium 订阅的一些优秀组织:
通过严格、免费的技术培训和职业发展,Per Scholas 为积极和有才华的成年人做好了成为 IT 专业人员的准备,并为需要他们技能的雇主创造了条件。迄今为止,已有超过 10,000 人参加了 Per Scholas 的培训,发展了持久的技能,并在技术领域开始了成功的职业生涯。
【黑人女孩守则】正在引领一场在科技领域建立平等代表权的全球运动。他们与广泛的社区合作,通过增强年轻有色人种女孩的自信、让她们接触数字时代看不见的可能性,并让她们具备成为明天的创造者、创新者和领导者所需的工具和思维习惯,来召集她们并赋予她们权力。
LaunchCode 是一家非营利组织,通过向美国各地的科技生态系统添加新人才来创造经济机会。虽然技术领域的职业传统上是留给那些有能力获得计算机科学学位的人的,但 LaunchCode 的项目是免费的,对有积极性的个人开放,这些人被评估的是激情、动力和才能,而不是证书。
Blossom Academy是一家招募和发展非洲数据科学家的人才发展机构,目标是将他们与工作机会联系起来。Blossom Academy 提供与行业合作伙伴合作设计的基于技能的课程,反映真实世界的经验。培训包括构建分析工具以应对特定地区的业务挑战,以及关键软技能的培训。
DataU 是柬埔寨第一所专注于开发数据科学、数据 IT 和数字营销领域软硬技能以满足全球需求的学院。他们与电信、银行、金融科技、消费品和制造业的领先组织合作,通过招聘、培训和部署高技能毕业生来释放数据的力量。
Code Louisville和 Tech Louisville 是 KentuckianaWorks 的劳动力培训项目,旨在帮助成年人过渡到新的科技职业。通过将在线学习、与志愿技术专业人员的聚会以及与当地政府和非营利机构的合作相结合的独特模式,他们能够接触到边缘化社区,并通过免费技术教育改善生活。
Boldr 是一家以目标为导向的公司,旨在帮助人们成长和联系。他们所做的一切的核心是致力于为他们的客户、公司和社区培育积极的、可衡量的增长。Boldr 在回馈社区方面享有盛誉,在他们的帮助下,我们能够支持以下非营利组织。
为菲律宾而教致力于为所有菲律宾儿童提供包容性、优秀和相关的教育。他们与具有领导潜力的公立学校教师合作,培养学生成为有责任感的公民,能够批判性地思考,清晰地表达,并追求目标。“为菲律宾而教”组织与教育部合作,旨在改善公立学校系统。
青年妇女参与技术公司(WiTech) 是一个由青年领导的非营利组织,旨在激励、教育和赋权青年打破性别障碍,用科学和技术做出贡献。
支持 DataCamp 的合作计划
我们意识到许多人可能会从一年的免费数据营中受益,但我们决定与社区发展组织合作开展这项免费活动。如果您符合我们上面列出的合作伙伴组织的资格标准,请考虑申请成为他们的会员,并让他们知道您希望获得免费的 DataCamp 订阅。一旦被接受,您可能会被列入免费订阅的等候名单。
如果您知道某个组织有兴趣与我们合作,请联系 【电子邮件保护】 。
在我们的帮助中心了解更多关于 DataCamp 的赠品计划。
本文于 2020 年 7 月 30 日编辑,以纳入其他培训合作伙伴:Blossom Academy、Boldr、Teach for the Philippines 和 WiTech。
GPT-3 和下一代人工智能服务
在过去的几个月里,随着 OpenAI 最新语言模型 GPT-3 的到来,数据科学和人工智能世界一直在热烈讨论。对许多人来说,该模型代表了一种算法在各种任务中用人类语言进行推理的能力的重大飞跃。
测试 GPT-3 的开发者提供了许多有趣的用例。基于简单英语提示的自动代码生成、回答医疗问题和法律语言翻译的例子点燃了许多数据科学家对下一代人工智能软件的想象。
虽然机器学习在组织层面的大部分价值都在低悬的果实中,如预测客户流失、简单的销售预测和客户细分——但考虑一下 GPT-3 的商业化对未来意味着什么是有用的。它有可能改变我们对人工智能的思考和操作方式。
定义人工智能、机器学习和深度学习
商业世界和媒体充斥着人工智能(AI)、机器学习(ML)和深度学习(DL)等热门术语。在深入研究 GPT-3 如何工作之前,让我们快速定义这些术语。
谷歌大脑(Google Brain)的联合创始人、前百度首席科学家吴恩达将人工智能描述为“让计算机智能运行的庞大工具集”这包括明确编程的软件,如计算器,以及 ML 应用程序,如推荐系统和无人驾驶汽车。
人工智能和计算机游戏领域的先驱亚瑟·塞缪尔(Arthur Samuel)表示,机器学习是“无需明确编程就能让计算机具备学习能力的研究领域”。通常有两种类型的机器学习算法。第一种是监督学习,算法学习现有数据(输入)和标签(输出)之间的模式,并根据看不见的数据预测输出,如新客户是否会根据历史流失数据流失。第二种是无监督学习,算法发现数据中的一般模式,并将彼此相似的不同数据点聚集在一起,如根据共同的行为模式对客户进行细分。
深度学习是一种基于多层人工神经网络的机器学习形式,其灵感来自大脑中的生物神经网络。它们可以是有监督的和无监督的,并且在很大程度上是过去十年中备受瞩目的 ML 用例的原因,如图像识别和情感分析。深度学习模型在架构上各不相同,根据神经网络架构中的层数和节点数,从简单到复杂。模型越复杂,参数就越多。如果你想了解更多关于深度学习模型是如何建立的,请查看 DataCamp 的深度学习技能跟踪。
要更深入地探索这些话题,请阅读我们的电子书商业领袖机器学习权威指南。
GPT 3 号是如何工作的
那么 GPT-3 与人工智能、机器学习和深度学习在哪里相交呢?首字母缩写词 GPT 指的是“生成性预训练转换器”(generative pre-trained transformer)——一种无监督的深度学习算法,通常在大量未标记的文本上进行预训练。它在一个大型特定任务的标记数据集上进行微调和训练(例如,英语到法语的翻译),然后负责在给定一组特定输入(英语单词)的情况下推断最可能的输出集(法语翻译)。对于各种不同的语言任务,您可以将这看作是一种高度复杂的自动完成形式。
GPT-3 是这一模型的第三次迭代,尽管它没有对其前辈的架构进行创新,但它在包含互联网大部分内容的超大型数据集上进行了预训练,包括公共爬行数据集,并在其网络架构中包括更多层。这使得 GPT-3 成为有史以来最复杂的语言模型,其网络架构中有 1750 亿个参数。这比 GPT-3 发布前最复杂的模型,微软的图灵-NLG 多十倍的参数,比 GPT-2 复杂 117 倍。
最重要的是,GPT-3 受益于少量学习,预先训练的模型不必针对特定的语言任务用大量标记的训练数据进行微调。相反,它只是给出了一个任务描述——将英语单词翻译成法语——以及几个输入映射到输出的例子。再加上易于使用的即插即用界面,GPT-3 在很大程度上消除了进入障碍,并允许非专家在不同的语言任务中产生有意义的结果。
为什么 GPT-3 如此重要
仅仅通过几个例子和任务描述,GPT-3 就可以与经过微调的语言模型相媲美,这些语言模型已经针对各种语言任务的特定任务训练数据进行了训练。GPT-3 在需要推理的任务上也表现出某种形式的成功,比如算术,这不一定是语言任务。例如,GPT 3 号在被喂了一些加减法的例子后,对两位数的加减法表现出了 100%的准确率。具有较少参数的较不复杂的模型还不能在这些任务上突破 60%的精确度上限。虽然 GPT-3 在更复杂的算术形式上表现不佳,但这意味着更复杂的模型可能有能力在它们接受训练的领域之外进行概括。
有趣的是,这表明纯粹通过增加数据集和模型的大小可以获得更多的收益。目前,该模型跨不同任务的总体性能似乎没有在 175B 参数处停滞不前。假设从 GPT-2 到 GPT-3 的参数缩放比例有相同的增加,人们只能想知道如果 GPT-4 的参数比 GPT-3 多 117 倍,模型性能将如何缩放。
虽然它目前正在私人测试版中进行校准,但将 GPT-3 包装在即插即用的 API 中意味着它一旦离开私人测试版就可以大规模使用。正如人工智能研究人员 Shreya Shankar 指出的,一个重要的挑战将是有效和方便地为组织提供这个 API。
这对未来意味着什么
新技术通常遵循 Gartner 的炒作周期——事实上,OpenAI 首席执行官 Sam Altman 已经敲响了关于 GPT-3 的炒作警钟。
然而,来自 GPT-3 开发者的用例揭示了我们中长期可以期待的人工智能应用类型。潜在的应用包括帮助设计者轻松制作原型、简化数据分析、实现更强大的研究、为内容营销人员自动生成内容等工具。
此外,将模型打包在一个简单的即插即用界面中可能会改变人工智能在整个组织中的工具化动态。例如,这可能会抑制组织开发自己的内部模型,并允许较少的技术专家使用 GPT-3 构建解决方案。
最后,当考虑大规模部署人工智能系统时,你必须意识到通过偏见传播伤害的能力。正如许多研究人员在测试 GPT-3 时指出的那样,基于中性输入,产生强化刻板印象和偏见的有害输出相对容易。
像任何正在大规模部署的机器学习算法一样,GPT-3 需要对潜在的危害进行认真的审查和监控。
婴儿潮一代如何在 60 岁成为数据科学家
马克·比格特不是典型的数据科学家。他不是千禧一代,也没有数学或计算机科学的高等学位。马克 62 岁,职业是电气工程师。他还令人耳目一新地谦逊,称自己是“一个相当无趣的人”
12 年来,Mark 一直是一家大型电信公司负责光学产品的工程总监。他管理着一个由电子工程师和光学物理学家组成的团队,这些人都倾向于使用 Python。在这个职位上,Mark 开始在 DataCamp 上学习 Python,以提高他的数据分析能力。当他开始超越电子工程和光学时,他遇到了使用 R 的其他社区。他回到 DataCamp 学习 R,R 很快成为他解决问题的首选语言。
“我在 DataCamp 获得的 Python、R 和统计学知识对我的工作至关重要。”
Mark 的管理角色需要处理大量现场故障和制造数据。他本可以将这项工作分配给员工,但数据分析深深吸引了他,他愉快地投身于数据库、SQL 和数据科学。他利用这一知识展示了某些故障模式与天气条件、零件批次、安装人员和部件制造商之间的相关性。
这一知识的影响是深远的。这有助于他通过确定需要培训和工具的领域来改善客户体验和降低产品故障率。一个项目涉及开发电池电量计:他设计了一个实验来表征电池性能,分析了结果,确定了给定一些实现约束的最佳模型,并向软件团队提供了一个执行规范。
“我很快发现自己对数据科学比对管理更感兴趣。”
马克已经在电子和光学领域工作了 39 年,但到了 2018 年 5 月,他开始寻求改变。他决定自己创业,开办一家咨询公司。马克加倍了他的数据营训练。他通过 R 职业轨迹完成了数据科学家的工作,并开始寻找需要数据分析的电子工作。他比以往任何时候都更加忙碌和多产。
在咨询业务的早期,Mark 主要专注于电气工程工作,但在去年,他加入了更多的数据分析工作。他现在为一家主要的床制造商做合同工作,帮助他们分析现场故障数据。这需要设置测试协议,定义数据库模式,分析数据,并创建仪表板供管理层在决策中使用——所有这些都使用了他在 DataCamp 中学到的技能。
“我非常喜欢这种简短的演讲和指导练习的形式。这对我很有效。”
那么,马克当初为什么选择 DataCamp 呢?他实际上尝试了许多在线学习平台,但 DataCamp 的教学方法最适合他的个人学习风格。他发现我们的边做边学方法最有效,这种方法首先通过短视频教授概念,然后是练习和动手项目,使学习者能够解决现实世界中的问题。他还赞赏 DataCamp 的即时反馈和平台上的教学质量。
“数据营提供最广泛的课程,并一直保持高质量的展览.”
Mark 每天晚上都会留出一个小时用于 DataCamp,并在上下班的公交车上使用 DataCamp 手机应用程序来强化他的学习。迄今为止,他已经完成了 75 门课程,积累了超过 330,000 点经验值!他最初使用 DataCamp 是为了培养日常工作中需要的特定技能,特别是整理和绘制数据。然后,他通过学习实验设计和建模课程,进入了统计学领域。最近他一直专注于报道。
Mark 的 DataCamp 之旅让他积累了数据科学和分析技能的深度,从而实现了他的职业目标。职业生涯任何阶段的专业人士都可以做到这一点。受马克的故事启发?在 LinkedIn 上与他联系,并在他的博客上关注他的数据冒险。
一如既往,我们会支持你。您现在可以开始在 DataCamp 上学习,或者利用 DataCamp for Business 在数据科学和分析的所有领域提升您团队的技能。点击此处安排我们平台的免费演示。
全球人工智能社区如何战胜饥饿,识别火星上的异常现象并应对气候变化
DataCamp 合作伙伴 Omdena 是一个快速发展的全球平台,通过参与解决饥饿和气候变化等重大问题的现实世界挑战,加速有抱负的数据科学家、人工智能工程师和爱好者的学习。
我们的口号是“为了好,为了人民,为了人民,建设人工智能”,这代表了我们的使命:使人工智能民主化,并为个人和使命驱动的组织提供机会,以开发高影响力的人工智能解决方案。
我们的平台是独一无二的,因为我们专注于我们的支持性和多元化社区之间的协作。在我们为期两个月的挑战中,由 30 至 50 名爱好者和导师组成的小组通过利用不同的观点和确定最适合的模型,从不同的角度解决一个问题。
“在一个被贪婪、仇恨和不宽容所困扰的世界里,奥姆德纳带来了一股清新的空气,消除了障碍和精神限制,创造了一个我们都能繁荣发展的环境。”—印度萨米尔
所以,真正的英雄是我们的社区成员——我们只是提供环境来培育真正的变化。
Omdena 其实是偶然开始的。印度一家名为 cleantech 的初创公司联系了 Rudradeb Mitra 来建立一个机器学习模型,以识别低分辨率图像上的屋顶,目的是加速印度对太阳能的采用。这家初创公司显然存在一个有意义的问题,但缺乏解决该问题的技术知识和资源。在各种数据科学门户和小组上分享该项目后,来自印度偏远地区的 50 名爱好者和导师组成的社区合作建立了一个复杂的 ML 模型。非凡的结果和反馈——来自爱好者和创业公司——导致了 Omdena 的形成,它正式确定了这种社区驱动的合作模式。
参加奥姆德纳挑战赛
作为 Omdena 的合作者,您将与世界领先的合作伙伴一起应对挑战,如联合国世界粮食计划署、联合国难民署、屡获殊荣的非政府组织以及世界各地的新创企业。
开始的过程很简单。首先,你将在我们的网页上选择一个挑战。接下来,您将通过回答几个问题来申请挑战。最后,如果您被我们的全球挑战赛选中,您将会收到通知。
我们的社区已经为一些非常了不起的项目做出了贡献。我们之前面临的一些挑战包括:
- 在尼泊尔与联合国 WFP 一起鉴定作物和对抗饥饿。
- 建立一个端到端的管道,能够直接从火星轨道数据探测器下载图像,并使用深度学习模型分析火星表面的异常情况。
- 构建深度学习模型来识别树木,预防森林火灾,拯救生命,降低基础设施修复成本。
- 了解气候变化、社区被迫流离失所和索马里暴力冲突之间的关系。
- 打造对话式 AI 助手帮助创伤后应激障碍患者克服创伤。
我们的合作者来自不同的领域和专业水平,我们将让他们的反馈为我们说话:
“这是我与 Omdena 合作的第二个项目,这是一条非凡的成长之路!这里的经历真的很有价值。”—Leo,巴西,数据科学家和管理顾问
“感谢你们帮助世界各地像我这样的人实现他们的梦想和目标,同时拥有令人惊叹的导师,并在世界上产生积极影响。”—Gerardo Duran,墨西哥,初级数据科学家
我们如何利用 DataCamp 使我们的社区数据流畅
DataCamp 被我们社区中的许多合作者使用。我们苛刻的现实世界挑战需要强大的人工智能理论基础,DataCamp 允许我们社区中具有不同经验水平的成员在方便的时候以自己的速度学习。DataCamp 提供超过 275 门数据科学和分析课程,相当于 1000 多个小时的学习内容!
DataCamp 的使命与我们的紧密一致:使数据技能大众化,并提高数据流畅性。我们与他们合作,为应对我们的挑战的优秀合作者提供一些关键的好处。
“DataCamp 旨在提供学习数据科学和分析技能的最佳平台。我们希望让每个人都有机会使用这些工具,让数据变得流畅。我们支持 Omdena 的 AI 使命,用数据解决世界上最大的问题。”—Martijn Theuwissen,DataCamp 的联合创始人
参加奥姆德纳挑战赛的好处
通过参加 Omdena 挑战赛,您有机会获得免费的 DataCamp 访问权限。虽然最多可有 50 名合作者参加挑战赛,但我们会邀请最积极参与的成员参加,他们承担领导责任并产生切实的成果,为挑战赛的整体成功做出贡献。
我们还有一个知识分享计划,你可以在一篇文章中分享你的挑战结果,就像这篇文章一样,我们会在我们的社交媒体平台上与我们的观众交流。
最后,您将获得成就证书,并有机会在我们的社区中晋升,担任机器学习首席工程师、社区经理或导师等角色。
最重要的是,你将成为奥姆德纳的合作者,并善用你的技能来解决这个星球上一些最大的问题。
如果你想获得我们的人工智能挑战的更新,获得专家采访和提高你的人工智能技能的实用技巧,订阅我们的每月简讯。你可以在 LinkedIn 、 Instagram 、脸书和 Twitter 上与我们联系。
一个非数据科学家如何学习 R 并以快 3 天的速度提交报告
2016 年,克里斯·卡迪罗(Chris Cardillo)是支持 M & C Saatchi Performance (当时称为 M & C Saatchi Mobile)媒体购买团队的策略师,这是一家拥有 100 多名员工的数字广告公司。他的团队面临一个很多人都熟悉的问题:如何有效地为客户报告聚集数据。
罪魁祸首是多重信息来源。他支持的团队必须从不同的平台上提取和汇编信息,包括社交媒体(脸书、AdWords、Twitter)、广告服务器(DoubleClick)、移动测量合作伙伴(Kochava、AppsFlyer)和网络供应商。很多时间都花在了登录每个平台、下载报告、复制和粘贴数据、用客户关键信息丰富原始数据以及手动对报告进行质量检查上。根据帐户的大小,可能需要一到三个工作日来生成一个可供客户端使用的报告。这个过程冗长、耗时,而且容易出现人为错误。必须做点什么。
将点与数据营联系起来
当时,克里斯说“没有人真正想过使用任何一种编码语言来解决他们的问题。”Chris 偶然发现了 DataCamp:他正在面试分析师,一位有前途的候选人在他的简历上列出了一些 DataCamp 课程。Chris 决定尝试一下 DataCamp,并开始向 R track 的数据科学家学习。
当 Chris 在 R 中感觉足够舒适时,他能够构建概念的证明。当他学习了大约 8-10 门课程(30-40 个小时)时,他已经能够构建小工具,比如一个监控脸书广告活动的工具,以便更快地发现问题。当他对 R 有了更多的了解后,他为一个可靠的客户创建了一个定制的报告解决方案,可以每周使用。然后,随着他熟悉 R 中的其他工具,如 Shiny ,他能够通过部署一个 Shiny 应用程序来扩展该解决方案,以应用于多个客户端。该应用程序包含简单的指示,让他的团队更有效地汇总他们的报告。为了达到这一点,Chris 花了大约 80 个小时在 DataCamp 上学习。
总体而言,这是一种适合 M&C 具体需求的混合方法。M&C 使用 R 来简化他们的报告过程,但是考虑到他们的基础设施没有建立完整的数据管道,仍然需要 Excel。“目标不是消灭 Excel,而是最小化它。”
Chris 还为其他客户设计了专门的解决方案。一个客户的媒体成本计算可能是一个 800,000 行的电子表格,因为一个供应商可能有 500 个不同的站点,并且这些站点根据它们驱动的安装数量获得不同的报酬。因此,10 个供应商 x 500 个网站 x 5 个创意人员 x 3 个 CTAs x 7 天=每周 525,000 行**。Chris 利用在 DataCamp 中学到的技能实施了一个流程来删除站点维度,并在计算成本后汇总剩余信息。当删除站点级信息并进行汇总后,报告从 525,000 行变成了 1,000 行。发送给客户端的文件大小减少了 99%。**
**## 数据营的影响
Chris 使用 R,尤其是 Tidyverse 工具来操作和导入不同类型的数据。影响是巨大的:曾经需要三天的报告现在可以在八个小时内完成。较小的客户报告可以在一个小时内完成。
一旦克里斯用他的新技能证明了效率的不可否认的提高,他就能够说服 Once 萨奇购买一个 DataCamp for Business 订阅。
克里斯在 2017 年被提升为 M&C 盛世长城的战略副总监,但他已经不在那里工作了。现在,他在 DataCamp 工作,是一名支持企业业务的数据科学家。如果你像 Chris 一样是数据营冠军(现在仍然是),请在 datacamp.com/business的了解更多关于如何让你的团队参加数据营的信息。点击此处安排我们平台的演示。
非营利组织如何利用数据营让学习者快速就业
DataCamp 首批捐赠合作伙伴之一是 LaunchCode,这是一家提供免费技术教育和就业机会的非营利组织,总部位于密苏里州圣路易斯市。DataCamp Donates 是我们向那些在当今严峻的经济形势下需要帮助开始 STEM 职业生涯的人捐赠优质 DataCamp 订阅的计划。八个月后,我们在全球捐赠了超过 21,000 份订阅,我们见证了 DataCamp 如何帮助当地社区的人们实现职业目标。
LaunchCode 的社区参与经理 John Woolbright 表示:“DataCamp 与我们在 LaunchCode 的使命非常契合,即为任何希望学习编程的人提供免费教育,不管你在参加 LaunchCode 课程之前有什么经验。“当我们开始合作时,我们几乎没有人支持想要在堪萨斯城学习数据科学的人。从那以后,我能够让我们的学生从 web 开发过渡到数据科学,以获得更广泛的学习体验。”
在 DataCamp 上实现高参与度和高采用率
这种合作关系在他们的许多学习者中一炮而红。“我很高兴能有一个个人和职业发展的新途径,”Forest Roberts 说。
像珍·墨菲这样的其他学习者锁定了特定的课程。“Seaborn 数据可视化简介”用清晰的视频解释概念。实践学习是以这样一种方式建立的,即每个问题都需要我作为一个学习者付出更多。到最后一步,我已经自己提供了几乎所有需要的代码。”
成为 DataCamp 捐赠合作伙伴所带来的兴奋感导致了极高的采用率和参与度。“我们的学生非常喜欢 DataCamp,并发现花在该软件上的时间非常有价值,”John Woolbright 说。数字不会说谎——LaunchCode 的学员平均每人已经完成了四门数据营课程(此外还有 launch code 自己的计算机科学和编程课程)。
DataCamp 为工作准备培养技能
LaunchCode 社区的一些成员甚至利用从 DataCamp 捐赠合作伙伴关系中获得的技能找到了工作。Megan Cullins 第一次开始学习 LaunchCode 和 DataCamp 时,她已经在一家办公家具公司工作了九年。她完成了 50 门 DataCamp 课程,积累了 322,000 XP 来扩展她的 Python 技能。“经过几个月的学习,我有足够的信心去面试,并最终在一家数据分析公司找到了工作!在这门课之前,我对 Python 一无所知,但由于 DataCamp,我能够诚实地告诉面试官我确实有经验,这帮助我在他们公司找到了一份工作。”
约翰对梅根能够获得一个职位并不感到惊讶。令人印象深刻的是她和其他人做好工作准备的速度。“我们从 9 月份开始为堪萨斯城推出 25 个席位。让学生入职轻而易举。到年底,四名顶尖的 DataCamp 学员获得了数据科学领域的工作,他们之前没有任何经验,只在 DataCamp 学习了三个月。”
Megan 没有忘记在 DataCamp 上学习的时间和工作准备之间的相关性。“我觉得我进入 DataCamp 绝对有助于我找到工作,”她说。“我在 DataCamp 上学到的知识每天都应用在我的工作中,我喜欢它!”
要了解更多关于数据营捐赠的信息,请阅读我们最近的博客文章宣布向非营利组织捐赠 20,000 个许可证,以及数据营捐赠常见问题。代表组织申请,邮箱 【邮箱受保护】 。如果你住在大堪萨斯城和圣路易斯地区,想要免费的数据科学教育,或者你想直接支持 LaunchCode 的努力,请访问www.launchcode.org。
一名跨性别活动家如何使用 DataCamp 支持委内瑞拉 LGBTQIA+社区
委内瑞拉 LGBTQIA+社区面临的挑战
委内瑞拉正在经历的情况是极其悲惨的,被经济学家称为 20 世纪中期以来在一个没有战争的国家发生的最严重的经济危机。食品危机、不稳定的医疗体系和不断上升的失业率让这个国家的生活变得更加艰难,如果你属于 LGBTIQ 社区,就更是如此。在我国危机的不同后果中,还有因我的性别身份而受到歧视的问题。我不可能在足够的条件下找到一份工作来养活自己。在委内瑞拉,任何我称之为“普通工作”的普通商店或办公室工作对我们 LGBTIQ 社区来说都是不可能的,因为我们受到歧视,甚至不会被视为真正的工人。我们唯一的方法是瞄准更大的国际公司,并拥有我们高度精通的特定技能。这样一来,我们的专业知识就胜过了我们的个人身份,招聘人员别无选择,只能承认我们是求职者。因为这个和我的研究,我需要开始学习数据科学。事实上,我正在攻读新闻与传播硕士学位,必须写一篇研究论文。自从我开始攻读硕士学位以来,我一直在寻找开始数据科学培训的机会,但一直找不到出路。
米歇尔使用她的免费数据营捐赠访问教育她的社区
在寻找如何学习数据分析的过程中, Yakera 通过社交媒体出现。一个众筹平台,负责创建一个新的模式来释放世界各地的国际慷慨,人们可以创建他们的活动,并接收来自世界各地的人们的捐款。他们已经开始与数据营捐赠合作,我申请了这项奖学金。
DataCamp 已经成为我接触许多大学学位没有提供的知识的渠道。对我来说更有影响的是,由于我可以免费访问 DataCamp,我能够让我社区的另外 12 个人(其中一些是无家可归者)掌握 SQL 技能。
通过数据科学讲述引人入胜的故事的力量
作为安德烈斯·贝略天主教大学的一名新闻专业学生,我不断被要求讲述引人入胜的故事。数据分析是讲述故事的最佳方式,因为它可以召集任何观众,无论他们的背景和世界观如何,达成共识。在大赦国际的一篇文章中,我谴责了委内瑞拉社会中的变性恐惧症:从法律和制度到委内瑞拉文化的根深蒂固,变性恐惧症使得 LGBTIQ 社区的成员很难过上他们的身份每天都不会被质疑的生活。虽然我们可以只从自己的经历中讲述我们的故事,但数据技能让我能够创造一种基于事实和数字的方式来展示面对压迫时的反抗故事。讲述我的故事是最基本的,但有数据证实我的经历可以吸引观众。因此,我应该在这里说 92%的 LGBTQIA+社区成员都是委内瑞拉歧视和暴力的受害者,其中 73%的人因为歧视考虑过移民。
在这个比以往任何时候都更需要积极争取平等的时代,全民数据科学教育是人类所需要的。因此,这些倡议必须持续下去,以惠及尽可能多的人。
我感谢 Yakera 的爱、关注和耐心,感谢 DataCamp 给我机会训练自己和他人。你们的支持有助于我的事业:拥抱一个人的性取向和性别表达不会成为获得服务或机会的障碍的委内瑞拉社会。
对于世界各地的所有非营利组织,让您的学习者和员工能够免费使用数据科学技能讲述更有影响力的故事。立即向 DataCamp 申请捐款:https://www.datacamp.com/donates/apply
AI 新加坡如何发展 AI 流畅国家[信息图]
如果你想了解更多关于新加坡人工智能如何建设一个人工智能国家的信息,你可以在此观看完整的网络研讨会或阅读活动摘要博客文章。
人工智能新加坡如何发展成为一个人工智能流畅的国家
不断学习的文化如何推动 Shopify 的创新
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了数据科学和工程副总裁 Ella Hilal,Shopify,T2,T3
介绍艾拉·希拉勒
Adel Nehme:大家好。这是 Adele data science,教育家,DataCamp 的布道者。在 DataCamp,我们一直在思考的一件事是,持续学习的文化对数据团队有多重要。与软件工程等其他技术学科相比,数据科学仍然相对较新。
而且太频繁了。现在,我们看到了新的框架、新的工具和处理数据的新方式。这无疑需要数据科学家不断学习的文化。这就是为什么我对今天的节目如此兴奋。Ella Hela 是 Shopify 商业和服务线部门的数据科学和工程副总裁。她是一位经验丰富的数据领导者,拥有丰富的简历,我不能用这个简短的介绍来公正地评价她,她领导过各种项目,是数据分析、机器学习、自主系统和 IOT 等领域的专家。她也是数据科学家不可思议的学习倡导者。
在这一集中,我们讲述了她作为 Shopify 领导数据团队的经历,数据科学家如何培养持续学习的心态,以及数据领导者如何在团队中创造创新空间。她从这些案例中学到了很多,如果你喜欢这一集,一定要评价、评论和订阅,但前提是你现在喜欢它们。艾拉。很高兴你能上节目。
埃拉·希拉勒:谢谢你。来到这里我真的很兴奋。
Adel Nehme:太棒了。因此,我很高兴与您讨论数据科学、供电、Shopify、您的方法、始终学习的心态、您如何领导数据团队等等,但在我们开始之前,我想谈谈您的背景以及您是如何走到今天这一步的。那么,您能简单地向我们介绍一下您的旅程以及您是如何加入 Shopify 的吗?
埃拉·希拉勒:首先,我是一个来自中东的女孩。我实际上是在开罗上的大学,学的是计算机工程。然后我去旅行攻读硕士学位。我在开罗和开罗之间做了我的硕士联合休假。德国的大学,这太棒了。我要学很多东西。我确实在糖业大学学过一些课程。
我参观了德国各地的不同校园。然后我去了,当时我有德日富布赖特的全额奖学金,在加拿大也有 OGs 和 insert 的全额奖学金。最后我来到了滑铁卢大学,在那里我开始了人工智能的机器学习。然后我毕业了,然后我不会带你看我的整个职业生涯,但也许我会给你一些亮点。
我有专利分析和机器智能的博士学位。我以一名开发人员的身份开始了我的职业生涯,因为当我开始研究数据时,科学在当时还不存在。从那时起,我开始领导创新团队,然后开始领导数据团队,然后在一家名为智能机电系统的公司领导数据科学组织。
然后我进入了 Shopify,担任 plus 的数据总监,这是一家大型商家,国际 plus 就像我们的许多大商家一样,如特斯拉、通用电气和一些卡戴珊家族。比如,说吧。任何重要人物都在上面。我们有许多非常了不起、非常有才华的商人在国际上建立自己的品牌。
我们最初的使命是让 Shopify 成为一个完美的市场,适合我们所在的所有市场。我们已经进入了 175 个市场,但我们的初衷是解决当地的需求,而不仅仅是一个平台,一个考虑到商家需求的全球平台。从那里成长为领导增长和收入的组织。现在,我是数据科学副总裁,主管所有商业和服务数据科学。
永远学习的心态
Adel Nehme:鉴于你在 Shopify 担任数据领导者的丰富经验,我看到你谈到的一件事肯定要求 it 部门能够在这样的角色中取得成功,那就是培养一种始终学习的心态,这正是我今天的主题。因此,我很乐意为我们今天的对话搭建舞台,谈谈您如何定义“不断学习”的心态,以及为什么您认为数据科学家在其职业生涯中取得进步如此重要。
埃拉·希拉勒:我认为这是数据科学家能够拥有的最重要的超能力。例如,我与数据科学领域的许多领导者交谈过,他们会说,哦,哦,我的天哪。我们需要一个有博士学位的人,我们需要一个有硕士学位的人。我就想,不要误会我的意思。我有硕士学位。我确实有博士学位,但我不认为这能成为一名优秀的数据科学家。我实际上认为好的数据科学家是具有这种学习者心态和学习者心态的人。我把它定义为能够回去学习的人。不会陷在他们所知道的东西里。他们实际上能够继续收集额外的工具、额外的数据思考格式、哲学和思维模式,随着他们的旅程添加到他们的工具箱中。总体而言,数据科学技术正在快速发展,与工程和其他技术相比,它还处于相对早期的阶段。已经在那里待了很多很多年了。正因为如此,事物在进化。很快。框架发展很快,我们一直在使用新技术和新方法。
诀窍是不要总是知道最新的,但诀窍是能够学习。当正确的问题和正确的设置出现时,新的技术。所以这不是关于闪亮的新东西。这是关于从你的工具箱中挑选合适的工具。如果没有,那就去找到它,得到它,添加它,学习如何使用它。
数据科学家犯的错误
Adel Nehme:那真是太棒了。我很高兴能与您一起分享您在此学到的学习方法。你提到的一件事是,与其他领域相比,数据科学还没有相对成熟,但数据科学本质上是多学科的。你知道,数据科学家需要融合两种广泛的技能才能创造价值。其中之一就是商业头脑,对吧?了解你正在开发的产品,具备沟通技巧,能够与合作者一起解决业务问题,还需要技术技巧,数据科学的基本知识。因此,也许从技术技能开始,因为作为一名数据科学家,这可能是更舒适的成长方式,数据科学家在技术方面的许多成长来自于在工作中实际学习新工具和实验。
但是,正如您所说,鉴于在短期内交付价值的重要性,数据科学家应该如何在应用经过验证和测试的技术来解决问题和学习并试验可能无法在短期内交付的新工具之间进行权衡?
艾拉·希拉勒:所以我会把这个答案一分为二。我几乎相信专注于。通过关注影响,你可以不断迭代。像我一样,我相信增量运输。所以你可以从一个简单的事情开始。你被要求对顶线指标进行预测。你可以用最新的,最酷的,最有趣的论文来研究这个神经网络,它可以让你优化一个有很多参数的超级模型。
然后就像,用它来做一些事情。超调一些回归或什么,你可以用这些,一些非常复杂的技术多层次的权利。但是不要误解我。是的。你学到了很酷的东西。但是你真的解决了商业问题吗?你真的知道如何有效地使用它吗?
你知道有效还是基线?我不这么认为。我认为正确的方法是从最简单的开始,你知道,不太合适的部分。从,然后再进一步。让我们应用一些,一些逗留回归,也许,你知道吗,让我们做一些逻辑回归,也许然后我们,当你迭代时,你理解进度,你理解你的数据,你理解你的不同参数,你理解你正在拉动的杠杆。
然后随着你的迭代,你会发现越来越多,学到越来越多,并且更好地理解你为什么要利用和使用它。我看到数据科学家犯的最大错误之一是试图站在技术的前沿。他们立刻奔向最闪亮的东西,问题是最闪亮的东西并不意味着这是最重要的或最实际的东西,是有效的和成功的。为了在你的工艺中达到这种精通,你需要明白从你的工具箱中拿出什么工具来以最有效的方式解决问题。它不是最花哨的工具,也不是最闪亮的工具,而是大小合适的工具。要做到这一点,你需要建立这种迭代意识,即增量运输。随着时间的推移,您会变得更好,因此您可以使用更复杂的技术。更复杂的技术实际上有时会让你看不到为什么它会以这种方式运行,因为它是一个黑盒。
就像你花了很多时间试图向它扔东西,但事实是你在向墙扔东西,而你真的试图了解你在拉什么杠杆。说到底,任何机器学习模型实际上都是多维度之间的高线性拟合,或者像二维内的超平面拟合。
这是线性数学伙计们。是数学。这不是,这不是火箭科学,这是数学。如果你明白这一点,那么任何新技术都不会闪闪发光。你需要理解基本的数学来选择,为了理解基本的数学,你可以从最复杂的方程开始。你需要从那里开始,然后继续前进。所以带着这种心态,我认为你倾向于整合和忘却。我和我的团队做的第二件事是。我们使用 BLT 时间或 hack days,或者是 paper programming time,这是学习新事物的好方法,data digest,人们可以在这里展示他们的工作并互相教授,或者 hack days,你可以尝试新事物。
所以,你总是需要在新的预定空间里有一些空间,去选择新的东西,去实验。但是在日复一日的工作中,你也可以通过迭代、通过突破界限以及通过实验来学习。但是不要从你不能调试和理解它为什么工作的东西开始,或者从简单和迭代开始。
Adel Nehme:这里有两个框架。第一个框架是不断迭代,从简单开始。解决方案和避免闪亮玩具的诱惑,因为我认为许多数据科学家陷入了简历驱动的发展道路。第二个框架也是作为一个领导者,为团队创造分享知识和试验新工具的空间,这些工具可能闪亮也可能不闪亮。我可以全程展示作品吗?对吗?
埃拉·希拉勒:是的,完全正确。不管是好是坏,如果你理解了为什么你理解了数据集的分布,你就可以迭代。您可以有更好的方法来增强现有的算法,甚至是新的。
持续改进框架
Adel Nehme:现在就商业敏锐度而言,我认为这对数据科学家来说是一项更具挑战性的技能,因为它融合了沟通技能、协作、产品意识等。这不是你能学到的东西。这在数据科学教育中是必不可少的,这不是一个有技术头脑的人可能会倾向于什么是框架和心智模型以及类似的东西,团队中的机制对持续提高技能集也很有用。
埃拉·希拉勒:我喜欢这个问题。我无法告诉你我有多爱这个问题。所以我认为最重要的事情是。重复就像作为数据科学家,我们需要关注结果,而不是输出。我知道这句话很简单,但它是如此真实。我们花了很多时间关注算法的发布,但我们没有发布业务影响。
我们不关注业务影响,这是结果。我们专注于算法的发布。因此,为了让我们自己与业务影响联系起来,我认为我推荐给每个人使用的关键工具之一是五种方法,我实际上引用了很多。你需要理解我们为什么要这么做,你真的想从一个人类的角度来讨论这个问题。
举个例子,如果我想告诉你,给我造一个推荐引擎,这是 PM 产品经理可以说的一句话,就像,问题是为什么。然后你可以说,我们需要为商家主题推荐主题,这就像,你的模板是什么?那么,那么另一个问题是,我们为什么要节省时间呢?当你继续对话时,你会意识到当商家开始他们的商店时,他们最大的摩擦点之一实际上是选择正确的业务使用什么主题。
他们想让它独一无二,但他们想。有用。他们想让它适合他们正在销售的产品,但他们仍然想把他们的闪光放在它上面。因此,像这样的智能合作伙伴,像这样的自动化,智能推荐助理类型的算法,往往会节省他们很多时间,实际上也成为一个共鸣板。
这对商人来说是一个真正的影响。当你明白你实际上可以从什么开始?你其实不需要推荐工程师。也许我们可以从排名开始,然后从那里开始。然后随着你获得排名,也许下一次迭代会是一个完整的推荐引擎,对吗?
就像这样,你可以随着时间的推移不断迭代,知道你试图推动的结果,并使用你的技能集和你在第一步中建立的这个庞大的工具箱,能够做出正确的事情,而不是对特定的 AC 请求采取行动。商业敏锐性也建立起来了。出于好奇,没有其他黑客。
我可以给你一大堆框架,但所有这些都是建立在我们问问题、要求理解驱动因素、关注结果,而不仅仅是我们在运输什么的基础上。这有很大的不同。你也会看到和你的对手在参与度上的巨大差异。因此,如果你和产品经理一起工作,就要看到他们以不同的方式与你互动。
如果你在一天结束时与工程师甚至销售代表或任何人一起工作,你也有一个共同的语言,这真的很重要,不管技术或非技术的业务问题或业务敏锐度,业务问题是共同的,并且由在某个小组工作的所有技术人员共享,所以现在你的语言从像数据科学技术语言变成了跨部门共享的业务通用语言。所以这种结合,这种联系,这种排列变得更加放大和快速。
Adel Nehme:那真是太棒了。我喜欢这样。你将展示的框架的好处在于,通过将业务问题分解为多个组成部分,比如五个为什么,还可以将技术解决方案分解为多个组成部分,并在此基础上进行迭代。
埃拉·希拉勒:完全正确。还有你,你要明白司机不仅仅是。由首相翻译。所以首相听到了什么,然后回来了。就像,我,我昨天在一次谈话中,有人过来说,我想要一个神经网络。就像,为什么。然后当我们开始谈论它时,就像,是的,他需要做分类,也许是神经的,网络不是数据集的最佳选择。
因为任何机器学习模型都有其潜在的统计数据。所以也许我们过于复杂了。嗯,我们只是,这是线性数据。我们只需要简单得多的东西。所以这是,这是关于理解的对话,也是理解。当你在讨论时,因为你在谈论人,用法,比如说,如果我们回到主题的推荐引擎的例子,它也做了一个假设,当你问这些问题时,你会假设商家什么时候会在他们旅程的什么阶段使用它,他们做得足够早,对吗?
好像他们还不习惯购物。你会明白他们,他们也许不会。他们生意的完整主题。因此,也许这实际上让你对不同的排名或推荐产生了另一种想法,或者类似的,你可以在单独的步骤中为他们提供额外的工具,使这一步对他们来说更容易,对吗?喜欢它可以给你这种感觉,商人的旅程和周围的信息。因此,您可以构建这些不同的组件,不仅可以看到产品,甚至可以看到周围产品的生态系统。
Adel Nehme:那真是太棒了。在去年的播客中,我们请到了 go check 的数据科学副总裁 Shri Bahar,他也是一个高度数据成熟的组织。他提到的一件事是。将数据科学家嵌入到不同的业务团队中,仅仅是因为它支持通用的业务语言。它使数据科学家能够参与他们正在开发的这些解决方案的游戏。你同意这种世界观吗?这种世界观对你在 Shopify 的工作有何影响?
ella hil al:Shopify 的数据科学领域是一个集中的行业。但是我们和嵌入式团队合作。这意味着什么呢?每个团队都嵌入到他们自己的组织中?原因是他们需要接近业务问题。数据科学不能躲在一堵墙后面,在那里你用问题扔东西,并期望在另一边得到正确的答案,因为即使是基本的问题也有一个假设。举个例子,如果我告诉你,我们商家网站上的买家怎么样。所以买家是从我们的商家那里购买的顾客。商家是我们自己的客户。对吗?很简单的问题。买家的定义是什么?是来结账的那个吗?是刚进去浏览的那个吗?这是一个会议开始,有人只是顶上,然后离开吗?买家的定义是什么?所以有了这些讨论和理解,就像接近问题空间有助于建立第一,这种更好的心态和对事物如何工作的理解,使数据科学家能够更好地完成他们的工作,在不同的群体之间创造了一种共同语言,并创造了对产品本身如何工作的进一步、更大的好奇心。
管理权衡
Adel Nehme:太好了。我喜欢这样。真的,我认为这标志着 Shopify 的数据团队如何平衡他们的技能,并采用这种学习,总是学习的心态,你谈到过回到权衡,也许是短期优先事项和长期创新投资之间的权衡。作为一名领导者和你自己的团队,你如何处理这种权衡,你如何为你的团队创造时间来试验新技能?你能给我们介绍一下这些程序的细节吗?
埃拉·希拉勒:是的,那很好。有很多不同的项目。所以我们有线索了。我喜欢这东西。我在很多年前做过这个,大概有七八年了。从那以后,我一直在我领导的每个团队中使用它。这叫做迷你短跑。这个想法类似于黑客日的想法,嘿,黑客日是每个人都来建造的,但是你不需要总是调用大规模的黑客日。团队中有人有一个想法,我们相信它。比如说,你知道吗?我,我可以把这个提高 20%。我只需要几天时间。我们可以调用迷你冲刺。那个人现在调用 mini sprint。所以这并不是说他们会自己去做。你可以召集不同小组的人,像你们一样说,四个人,有这个愿景,用它做一个迷你冲刺实验,然后回来。
所以投资小。投资两到三天。有时我会坚持一周,但通常,就像是一个尖峰。这是一个。但它的价值是,它的交叉团队不一定是特定的团队。它也在不同的团队之间建立了紧密的联系,同时也为快速创新和实验创造了空间,以证明类似于钉鞋的行为。但是,它不是在同一个组内预先计划的,而是在整个组内进行的,并且由重要的业务调用。或者一个问题。所以,这让很多像我们这样的人快速试验,快速失败,并感到前进,对不对?我们是这里的场景,这个团队,这四五个人建立了一个纽带,我们通常使人多样化。
因此,通过这种方式,我们继续在不同的团队之间建立纽带和联系。这是最坏的情况。最好的情况是学习一些非常有用的东西,无论是积极的学习还是消极的学习,就像学习没有用的东西或学习有用的东西。所以这是,这是一个很好的方法,可以促进实验。
但我们也有一个非常具体的周期,我们称之为金库项目,这是提案原型。然后我们进入建筑。构建是我们正在为长期构建而构建的,我们能够构建健壮、可靠的工程系统,但在原型中,这是一个正常的周期,正常的冲刺或两个阶段,但在原型中是你快速站立的阶段。解锁。通过命名。所以我跟你们分享的是两种实验技术,以及快速实验和长期构建之间的区别。我为什么这么说?因为对两者都有命名,对两者都有阶段,有意识地对它们都进行命名,可以让我们专注于我们。
问题是,当你快速构建某个东西,却把它放在一边,忘记了它是快速的 hacky,这就是技术债务产生的地方,你需要解决这个问题。你需要为它有词和名字,你需要有意向性。你需要区分这两个阶段的输出质量,相应地,如果你有一个原型的输出,期望它在一个。
如果你幸运的话,如果它不是阿尔法,但在生产周期或建筑周期的输出,它是一个完全生产的系统。所以它更强大,更可靠。所以有了这个,有了意向性,当你在构建你的路线图时,你就。清楚地指出这是在哪个阶段创造了空间,意图让你快速发货以解锁业务,但也为更长期的计划和迭代。
也许有一件事我想在这里提一下,因为我知道很多数据科学家都有这方面的困扰,即席提问往往会占用人们大部分时间。我认为有很大的机会。小姐,当我们回答成人问题时,我们讨厌他们,这没什么,就像,我知道他们是破坏性的,但我们只是走开。
但事实是,ADHA 问题之所以出现,是因为有一个系统缺失了,或者说有一个系统被打破了。如果我们停下来或思考一下,也许可以做一个 RCA 根本原因分析,比如和大家坐在一起,比如,你认为我们为什么会得到这些。缺少什么。您可能会发现缺少特定的报告。您可能会发现缺少特定的工具,因此您可以将这些快速类型的问题转移到系统构建中,目的是减少这些问题。如果你能有效地做到这一点,你可能会喜欢,我有一些案例,我们非常成功地将成人问题减少了 70%或 80%。
Adel Nehme:哇。那真是太棒了。我想从某种程度上解开你们已经制定的许多不同的倡议和计划,也许从迷你冲刺开始。在这种情况下,作为一名领导者,你如何确保时机成熟?迷你短跑队,对吧?你提到了人们联系在一起的最坏情况,但你如何在我们需要在本季度实现的绝对目标和我们需要在本季度实现的小冲刺空间之间取得平衡?你用的气压计是什么?
埃拉·希拉勒:我喜欢这个问题。这也是迷你冲刺的一部分,就像我的债务一样,无论何时你有一个想法,它都不是随机的。你有一个想法,然后你就去实现它。你需要把它泡掉,在你的引线上反弹。如果是这样的话,这是一项投资,因为你,你从来没有自己运行它。你来经营。和更多的人一起。所以这是意向性的,通常,因为我们让它可见,它不是这个作品的一面。我们开始了解迷你冲刺的开始,因为有一个 raw。就像,嘿,我们要开始一个小冲刺了,哒,哒,哒。然后在结束的时候,人们会发一份迷你冲刺的总结。因此,它创造了一种主人翁感和责任感。所以人们不只是随意的跑着做这些,因为它看不见,因为它是可见的,人们想做好工作。因为它被传达了,人们会有意地考虑,它是否值得。
处理临时请求
Adel Nehme:也许会涉及到您的回答系统构建和特别请求的最后一个要素。我知道这是数据科学家非常讨厌的事情。这是怎么做到的,你在这里提到,肯定像特别的请求创建,创建连接,以了解我们需要什么系统来提供我们需要提供的工具。请向我们介绍一下自助分析可以如何解决这些问题。临时请求的权利,也许可以向我们介绍一些例子,更详细地说明您是如何将临时请求减少 70%的。因为我知道有很多数据领导者在听这个节目,他们想知道这个秘密。
埃拉·希拉勒:非常乐意。因此,事实上,没有真正的业务需求,临时问题是不会出现的。如果是的话,我们应该拒绝。不,谢谢。我们有其他更重要的事情要做,但如果他们是为了业务需要而来,让我们看看是什么。正在重现。我们能看到什么?例如,有一件事让团队和当时的 plus data 团队非常恼火,那就是我们以前每次做电子邮件营销时,我们都需要获得一份电子邮件列表,这是一个 PII,所以它需要检查数据,我们需要确保我们进行多次交叉检查,以确保我们尊重那些选择加入和选择退出的人,等等。
就这样。在那个时候,因为这个系统在 Shopify 和 plus merchant 之间支离破碎。我们不得不手动执行许多许多步骤。所以这是,这是一个每次需要两到三个小时的问题,这样的问题来了,问题也选择来了。好像他们已经建立了整个活动,现在他们需要它。他们需要在接下来的 24 小时内。马上给我,诸如此类的。所以如果你看这个,这绝对是。系统化的候选人首先,请求需要 X 个工作日周转,除非,除非有例外,第二,系统中的许多这些部分就像有人工验证之类的东西,所有这些都可以自动化。
因此,通过这样做并创建带有正确警报和正确检查的正确报告。我们只是建立了一个系统,现在已经不那么可怕了,也不需要数据科学家的太多参与了。每次我们发电子邮件宣传大规模沉浸感时。这是一个简单的例子。就像你可以一直抱怨,哦,我的上帝,这些问题来了,但只是看到模式和他们每一个来了,并没有带来相同的数据调查。就像,哦,我们在做这个活动。我们需要数据支持。哦,我们在做这个新的活动。我们需要数据支持。同样的事情发生在我们的漏斗里。很简单的问题。你可以,再一次,每次回答问题还是你。没错。非常非常复杂的回答。但是如果你做的次数足够多,你会发现 70%的答案实际上是你在寻找的系统图表。因此,您可以构建一个报告套件。
我用了套房这个词。我不知道,比如说报告仪表板。我说套件的原因是因为您需要考虑您正在构建什么类型的仪表板,以及它们如何相互交互。如果你认为,如果你认为。将报告作为一种数据产品,帮助您走向成功。我这么说的原因是,当你把它当成一个产品时,你会想到用户体验,你会想到导航。你想想正常运行时间。想一想很多事情,实际上仪表板被遗弃在仪表板的黑洞中的很大一部分原因。是因为我们没有考虑这些事情。
我们创建了许多一次性仪表板,因为这很容易,但我们没有在它们之间创建导航。我们并不确定这些答案是连贯的,全面的问题。我们只是希望他们每个人都能回答一个随机的问题,但是我们该如何解决这个问题呢?现在我们需要一名数据科学家来做这件事。
他们决定让他这么做。因为这是可怕的工作,不酷的工作。因此,如果您退一步,从数据产品的角度来考虑它,它现在变成了一个数据产品,它现在变成了一个伴随着它和 ups 运行的所有用户体验,它很容易导航,并且工作得更好。这也是我解决这些问题的方法。我退后一步,看了看,我们的问题问进来了。每当我们看到一个好的收藏,我们就试图通过解决潜在的根本原因来系统化。
Adel Nehme:那真是太棒了。你提到的关键词是产品对吗?数据产品。我认为,当您开发仪表板报告套件时,正如您所提到的,关注用户体验以及您的仪表板将如何被消费是许多数据科学家必然会错过的事情,因为它是人们最终会消费的数字产品。它需要有与人们对数字世界相同的体验或期望。
埃拉·希拉勒:我同意这一点。同样,整个想法是,从数据中思考你自己的经历。比如你是一名数据科学家。我不知道,谷歌分析或者你在你的推特或者你使用的任何工具上使用你的分析。你想看什么,什么对你有意义?如果您开始看到您喜欢的体验的主题,并开始将这些带入您构建的仪表板中,并将这些带入您构建的工具中,它会变得更容易被业务利益相关者采用,使用起来更愉快,从而减少对您的影响。
数据素养的作用
Adel Nehme:我们明确谈到了为更广泛的组织创建这些系统如何有助于减少数据团队的工作量,同时也有助于加快数据驱动的决策,改善整个组织的业务成果。并且自动化了许多不同的任务。非技术利益相关者的数据、文化和组织数据素养在为数据团队的输出创造消费者中起了多大作用。
埃拉·希拉勒:这是一个很好的问题。我告诉你,这有很大的不同。然而,大多数组织喜欢当你开始群体和互动时,类似于任何关系,对不对?就像你不会从每个人都知道如何完美地合作开始。即使他们来自以前的角色或组织,你所拥有的并不意味着喜欢,它只是点击。
因此,通过具有高度的意向性和显示值的重复性,它有助于提升对数据的理解。因此,我们确实在 Shopify 中开设了许多课程,为非数据科学家提高数据科学水平。所以,你是如何理解图表的?或者,如果你感兴趣的话,可以问一下你在 SQL 的情况。
但是我认为关键的,真正的关键是。保持适当的对话水平并展示价值。如果你在谈论复杂的方程式,你会失去一些人。如果你在用一种语言交谈,这可以追溯到商业敏锐度,你可以追溯到谈论商业问题,这是一种常见的共享语言,不管技术如何,人们倾向于听得更多,然后理解得更多。作为我们领域的专家,我们有能力扮演这个翻译的角色,我们从商业的角度来谈论,这并不意味着我们把它拿下来或者不喜欢谈论花哨的东西,而是意味着我们谈论真正重要的东西,也就是业务和对客户、消费者的影响,我不这样认为。当谈到数据科学工艺时,以非常高的精确度进行讨论会在没有人理解时更好地服务于我们,我认为被理解。比你说话时的精确更重要,就像,如果你在谈论你的 F1 分数,你的敏感度,你的精确度和你的假阳性。
你就像,如果你谈论所有这些事情,所有这些,就像我们在日常生活中互相交谈时都使用它们。但是如果你和一个商业利益相关者交谈,你谈论所有的这些和所有的那些,就像在他们的头脑中根本没有记录一样,那么你们都是这次谈话的输家。但是如果你把它简化成真正重要的东西。他们能够将你的学习付诸行动,因为他们理解你的学习。你们都是赢家。所以保持这一点非常重要。
Adel Nehme:我完全同意最后一点。我认为这对数据团队极为不利,因为如果这发生在高管面前,你将失去高管对数据团队的信任,减少对数据团队、长期产出和工作成果的投资。
埃拉·希拉勒:百分之百。所以我要告诉你一些有趣的事情。我真的看到了。例如,一名数据科学家进行了一项实验,该实验被设置为 EB 测试,但当然,任何设置都有某种形式的警告。因此,数据科学家进来分享见解。和 SLT 一起。这是一个真实的故事。
我只是喜欢抽象,而数据科学家希望他们使用的词语非常精确。所以他们进去了,这个实验产生了积极的影响。他们参加这次会议的目的是倡导向每个人推广这个实验。他们进去了,准确地说,为了不偏不倚,他们列出了这么多警告。
事实就是这样,参加会议的人认为这个实验是无用的,他们都喜欢分散注意力。虽然很严谨,但做得很对。有适当的意义。一切都是对的。这就像,再一次,我们,这位数据科学家在他们的脑海中出现了太多,他们用数据科学语言谈论了太多,以至于发生的事情与他们参加这次会议时的意图相反。
Adel Nehme:这是一个伟大的故事。可能会更好的说,你知道,嘿,我负责这个实验。这是我们应该做的。这是你能做的。这就是 exp,和预期的一样。如果你想看附录,这是附录。
埃拉·希拉勒:没错。或者,即使你想说警告,也没关系,但不要列出你做的每件事。
阿德琳娜:对。
埃拉·希拉勒:可能在全世界都发生过,只是以防万一,就像专业人士一样,就像它不起作用一样。
数据科学中有趣的用例
Adel Nehme:这是一个很好的例子。现在,Ella,当我们的聊天接近尾声时,我一定要谈谈你在 Shopify 的商店中处理的一些数据科学用例。那么,你开发的可以公开分享的最具影响力的数据科学解决方案是什么?
埃拉·希拉勒:当然。哇哦。有很多很酷的。所以我可以肯定地告诉你,我们谈了很多关于 Shopify capital 的事情,Shopify capital 为商家提供贷款,帮助他们扩大业务规模,这太棒了。已经很过时了。这无疑对商家及其生活产生了巨大的影响。我们还有 Shopify balance。
我们确实有我们的产品分类,以及我们的受众,我们称之为受众,这就像是让商家更好地营销,这是商家在广告支出上的投资回报,这样他们就可以实际扩展,这非常非常酷,因为把它想象成原始工具。构建 Ross 组织通常要么是非常数据驱动的。因此,他们已经有了大型数据团队,或者他们使用第三方工具来帮助他们。这实际上是 Shopify 产品的一部分,非常酷。我个人非常兴奋并投入其中的一些,比如其中一些是内部的,比如我们自己的预测算法家族。
就像在现在的经济环境中,预测 G 或者预测 Mer 商家数量或者任何一个都是相当困难的问题。所以这很酷。另一个是最佳下一步行动,即推荐引擎。我告诉过你,这是 Shopify 商家开始的时候。创业不易。失败的可能性更大,因为就像创业很难一样,not Shopify 的目标是让创业尽可能简单,尽可能消除障碍。正因为如此,就像我们有这个推荐引擎,这是最好的,最好的下一步行动,可以帮助你。在你的早期旅程中成为你的伙伴,确保你在 Shopify 和创业方面有一个成功的开端。因此,有很多事情值得兴奋和自豪。
Adel Nehme:我喜欢这些用例。我最喜欢它们的一点是,当然,Shopify 从这些用例中产生了很多价值,但它也为潜在的创业者提供了很多价值,如果没有这些用例,他们可能不会成为创业者。这很令人惊讶。回到这一集的主题,这是我的最后一个问题,你从这个项目中最大的收获是什么?
埃拉·希拉勒:是的,这是个很好的问题。所以仔细想想,我会说第一点,正如我之前分享的,从简单开始,因为当你开始时,简单地创建一个基线,你就知道用最低的摩擦点可以做什么。所以,即使是像“最佳下一步行动”这样的东西,我们也没有从目前最先进的算法开始。我们刚开始。好吧。不如我们。这些组织了这个列表。就像我们要做的分析,就像武力组织他们。然后也许我们可以自动堆叠它们。然后也许我们把这个机器学习输入进去,然后我们在上面创造它。所以从简单开始让我们明白了影响。
我们通过实验。所以我们在迭代的时候知道了值,确保我们检查了我们的假设。所以第一,从简单开始。第二,实验学习,迭代也不要陷入证实偏差,对吗?我想确认一下,你是不是真的在最后检查内脏。创造一个实验和小型冲刺的空间实际上每次都会让我感到惊讶。像我一样。我是它的大力支持者。我们很多很酷的内部解决方案都是从一个迷你的 sprint 开始的,然后发展成为一个完全生产化的产品。所以这非常有帮助,我肯定会鼓励我们继续这样做,也鼓励其他人这样做。
Adel Nehme:那真是太棒了。也许,你知道,就个人而言,你从一个个人贡献者变成一个管理数据团队的人,最大的收获是什么?因为那也是一个跳跃。在数据科学中,这一点谈得不多,也不知道你作为数据领导者面临的挑战和不同领域。
埃拉·希拉勒:老实告诉你,每一天都是一次学习,但我会告诉你,当我做这种转变时,我多年前就这样做了,但我认为最困难的事情是,我仍然看到那些从个人贡献者转变为领导者的人,嗯,挣扎的是知道信任,放手,为他人创造这个空间。
作为一个个体贡献者,有时要学习和向前,尤其是当你处于行业的顶端时。这就是为什么你被提升为经理,你认为这就像,哦,你就像,我能在 15 分钟内做到。是的,你能做到。也许你可以在 15 分钟内完成,而其他人可能会在两个小时内完成,这是你做的八倍。
但是,如果你让他们今天在八个小时内完成,明天,他们会在两个小时内完成,也就是八倍的时间。比如,如果你让他们花两个小时做,明天他们会花一个小时。后天他们会在半小时内完成。然后你熟练了自己。作为一名经理,不要忘记你的工作是通过其他人工作,并在你周围提升他们,因为这不是,就像最好的经理不是桌子上最聪明的人。
最好的经理是那些身边有非常强大的人的经理,团队中的每个人都互相激励。这是一个重要的提醒。这不仅仅是雇佣优秀的人,并摆脱他们的影响。我知道这是史蒂夫·乔布斯非常流行的一句话。雇佣优秀的员工,给他们学习的空间,提升你的水平,你也提升他们的水平。
所以这是一个共享学习的环境,我总是称之为协作智能,因为你们聪明地聚在一起。
行动呼吁
Adel Nehme:这是一个非常棒的结局。现在终于。在我们结束今天的节目之前,你还有什么最后的行动号召吗?
埃拉·希拉勒:我能说的是,也许我最后的行动呼吁是,数据科学是一个伟大的领域,我们可以做很多事情来塑造它。所以玩得开心。不要拘泥于一个工具或方法,或者只是喜欢。专注于业务问题。这是我们的超能力。我们是问题解决者,数据科学家是问题解决者。
所以专注于此。我想很多好事都会随之而来。
Adel Nehme:非常感谢。我很幸运得到了数据。
埃拉·希拉勒:谢谢你。我很高兴来到这里,我很高兴有这次谈话。非常感谢你邀请我。
数据发现工具如何实现数据民主化
当今最成功的组织都非常依赖数据来做出决策。许多这些数据流畅的组织每天都会生成数百万行数据,供各种团队使用和分析。让团队具备访问和使用数据的能力的关键挑战之一是确保数据是收集的、可信的、可靠的、可操作的和可发现的。
为了驾驭这些复杂的数据环境,许多组织开发并开源了内部技术,称为数据发现工具。
在最近的网络研讨会中,DataCamp 的产品研究副总裁 Ramnath Vaidyanathan 描述了组织如何从数据反应型(没有人拥有处理数据的技能或权限)发展到数据流畅型(每个人都拥有处理数据的权限和技能并做出数据驱动的决策)。组织可以通过对 IPTOP 框架的投资来提高他们的数据成熟度:基础设施、人员、工具、组织和流程。随着组织通过投资数据基础架构来扩展对数据的访问,他们将需要使用数据发现工具来提供轻松的数据发现能力。
如果人们无法访问数据,如果他们不了解所收集数据的背景,如果他们找不到他们需要的东西,那么数据就是无用的。这就是数据发现工具非常重要的原因。Ramnath Vaidyanathan,DataCamp 产品研究副总裁
数据流畅的公司如何使用数据发现工具
许多数据驱动型公司已经在其数据基础架构中实施了数据发现工具。让我们来看看像优步数据手册和 Lyft Amundsen 这样著名的数据发现工具背后的动机和驱动因素。
要考虑的数据发现挑战
一个关键的数据发现挑战是生产效率和合规性。 Lyft 概述了随着其数据规模呈指数级增长,并且预计至少在未来 10 年内将继续以类似的速度增长,Lyft 将面临这些挑战。在开发 Amundsen 时,他们注意到分析师大约 25%的时间花在数据发现上。他们还发现,他们所服务的国家对合规性的要求越来越严格。
优步表达了类似的担忧,因为它开始超越其作为拼车应用的主要功能,向优步 Eats、优步货运和 Jump Bikes 等服务扩张。在开发 Databook 时,优步每天有超过 1500 万次旅行,不同团队有 18,000 名员工。另一个挑战是它的数据以许多不同的形式存在,包括蜂巢、普雷斯托和 Vertica 。分析师需要能够有效地访问和理解各种数据源,以实现数据流畅。
脸书建立了其 Nemo 数据发现平台,以满足随着不同角色和地理位置的数据量和复杂性的增加,对高质量、值得信赖的数据的需求。由于与他们分析的数据相关的隐私问题,脸书还面临着重大的法规遵从性问题,在向特定分析师提供表格时必须解决这些问题。
来自 Airbnb 的约翰·博德利在 2017 年会议的一次演讲中说“随着 Airbnb 的发展,围绕数据的数量、复杂性和模糊性的挑战也在增加。”这意味着员工经常发现数据是“孤立的、不可访问的和缺乏上下文的”因此,员工会制作重复的表格,如果不信任数据,就不会使用。Airbnb 开发了数据门户,通过消除生产性数据分析的这些障碍,帮助显著提高数据发现过程的效率。
这些挑战普遍存在,不受行业限制,适用于任何希望扩大数据驱动型决策的组织。随着组织希望实现数据流畅,对易于发现的数据的需求将变得至关重要。
数据发现工具的四个关键目标
现在我们已经了解了数据发现挑战,让我们看看各种数据发现工具是如何应对这些挑战的。优步将成功的数据发现平台的目标分为四个部分:
- 可扩展性:轻松向表中添加元数据、存储和实体的能力
- 可访问性:以编程方式访问所有元数据的能力
- 可伸缩性:支持大量并发读请求的能力
- 电源:支持跨多个数据中心的读写请求的能力
随着组织数据能力的成熟,实现这些数据发现目标的机会越来越多。随着数据规模的增加,这些组件变得越来越重要。
Lyft 和 Airbnb 提供了详细的元数据
Lyft 的工程团队认为“元数据是未来应用的圣杯”他们将元数据分成两个子类别。第一个是描述性数据集,由应用程序上下文(即,人们需要了解数据的哪些内容才能对其进行操作)、行为(即,谁拥有特定的数据集及其常见的使用模式)和变化(即,数据集如何随时间变化)组成。第二个组件是所描述的数据,即以任何格式存储在组织中的任何数据,如数据存储、仪表板、数据流等。
在开发 Airbnb 的数据发现平台 Dataportal 时,元数据是该平台对数据管道的附加值的一个组成部分。在引入 Dataportal 之前,由于缺乏上下文和元数据,许多员工不信任他们使用的数据。Airbnb 认为,“对整个数据生态系统的理解,从事件日志的产生到可视化的消费,比其各个部分的总和提供了更多的价值。”
资料来源: Airbnb
通过数据发现确保高质量的搜索结果
一旦提供了这个上下文,数据发现就需要有效的搜索。无论每个表多么值得信赖和易于理解,只有当分析师能够快速找到他们需要的数据时,数据发现平台才有用。
Lyft Amundsen 的登录页面允许用户使用自然语言查询来搜索表格,并提供组织中最常用表格的可见性,以便快速访问。此外,分析师可以选择在表格上留下反馈,以调整未来的搜索结果。
脸书的数据发现解决方案 Nemo ,允许分析师对数据的使用、隐私限制和新近性进行过滤,同时还利用了脸书在自然语言处理方面的能力,允许用户在搜索栏中键入问题以获得相关表格。
优步数据薄允许分析师根据名称、所有者、列和嵌套列等维度进行筛选,从而实现类似的搜索筛选功能。优步利用弹性搜索快速有效地提供搜索结果。
通过数据发现实现数据民主化
扩展数据流畅性和数据可发现性是相辅相成的,因为分析师需要轻松访问数据以做出基于数据的决策。
数据成熟度较低的组织应该专注于培养数据技能和文化,并扩展数据基础设施。然而,随着组织在其数据成熟度之旅中取得进展并扩展数据访问,支持可扩展和可伸缩的数据发现将是成为数据驱动型组织不可或缺的一部分。有关提高组织数据成熟度的所有手段的深入讨论,请观看我们关于数据流畅之路的网络研讨会。
数据领导者如何构建有效的人才战略
凯尔·温特伯顿是“数据驱动:播客”的主持人,Orbition 的创始人兼首席执行官,Orbition 是一家人才解决方案提供商,为英国、欧洲和美国的数据、分析和人工智能团队提供服务。作为一名在人才获取、吸引和保留以及扩展数据团队方面卓有成就的专家和思想领袖,Kyle 被 Data IQ 评为 2022 年 100 名最具影响力的数据人物之一。
Adel 是 DataCamp 的一名数据科学教育家、演讲者和布道者,他在 Data camp 发布了关于数据分析、机器学习和数据工程的各种课程和现场培训。他热衷于在整个组织和技术与社会的交叉点传播数据技能和数据素养。他拥有数据科学和商业分析理学硕士学位。在他空闲的时候,你可以发现他和他的猫路易斯在一起。
Adel Nehme:大家好。这是 Adele,一位数据科学教育家,也是过去一年 DataFramed 的数据营主持人。我有幸采访了许多数据领导者和从业者,讨论如何成为数据驱动的。一个共同的主题是,我总是把事情归结到人的一面,无论是提高技能还是招聘。
成为数据驱动型企业是一项人才战略,也是一项技术战略。这就是为什么我对凯尔·温特博特感到兴奋。在今天的节目中,凯尔是“由数据驱动”播客的主持人,也是 Ambition 的创始人兼首席执行官,这是一家人才解决方案提供商,为英国、欧洲和美国的人工智能团队提供扩展数据分析。
在这一集里,我们谈到了与构建数据团队整体人才战略相关的几个主题,包括雇佣和招聘、提高数据团队的保留率以及如何提高技能。如果你喜欢这一集,评价和订阅该节目,但只有当你喜欢它。
此外,请查看我们本月准备的关于构建数据驱动型组织的内容。这与我们在节目中谈论的主题有很大关系,现在我们来看今天的这一集。凯尔,很高兴你能上节目。
凯尔·温特伯顿:非常感谢你邀请我。期待我们的聊天
Adel Nehme:我很高兴与您讨论建立有效数据团队的所有事情,组织应该如何处理招聘、保留、招募、数据、人才以及您领导 Orbi 和主持驱动的工作…查看更多
By Data podcast. But before, maybe you can give us some background about yourself?
凯尔·温特伯顿:在过去的 12 年里,我一直在数据和分析人才和招聘领域工作。我想是的。野心是一个精品人才解决方案业务,在这个世界上独家经营。所以我们的总部在英国,但是我们有。在美国有业务,在英国、欧洲和美国做了很多工作。
我想我们所做的大部分工作都是在中高级水平上完成的,而且经常是大规模的。因此,组织通常会组建自己的数据领导和管理团队,然后组建高级技术团队。所以这可能是,我不知道,以一英尺 C 100 或财富 100 为例,想雇用。
12 个月内有 40,50,60 人。对于希望在未来两到三个月内雇佣 8 到 10 人的中型企业来说,规模可能会更小。例如,它可能是一个寻求任命首席数据分析官的组织。所以我们业务的三个组成部分。
是的,正如你提到的,日常业务之外的基础是我们努力服务的社区元素。所以我们有我们的播客,我们的活动系列,我们的导师计划,以及与大学的合作,试图提高人们的意识等等。
所以,大致来说,这就是我的一点点。
Adel Nehme:太好了,有很多内容要介绍。因此,我想先了解一下数据人才的招聘和保留情况,为今天的谈话做个铺垫。2022 年,我们正处于疫情的背景下,远程工作的兴起,大洗牌,大辞职,现在我们面临经济低迷。
那么,也许用你自己的话来说,你会如何描述 2022 年雇佣和留住数据人才的前景,以及它在过去几年中是如何发展的?
凯尔·温特伯顿:有趣的问题。我认为过去的 18 个月,如果用一个词来概括,那就是疯狂。我认为这很有趣,因为我每天都和那些在疫情之前可能没有进入过就业市场的人交谈。我被问到的第一个问题是,疫情之后的市场现在怎么样了?
这很有趣,因为我认为数据和分析是非常幸运的。很明显,我们与组织一起做的这么多工作,在疫情开始后有一个自然的停顿。所以当人们发现。这是怎么回事?这要持续多久,等等。
但在几个月内,这一领域的招聘就恢复到了正常水平。然后很明显,你知道,2021 年开始。从那以后,它就像这样走上了轨道。所以这肯定是疯狂的,但增长水平和招聘也是如此。我们总是会看到自然的修正。
所以我们,我们现在谈论伟大的辞职。我们谈论潜在的经济衰退。在过去的几个月里,我们确实看到了一点放缓,但我认为这与经济形势没有必然联系。我认为这更像是一种自然的修正。
这一领域的招聘规模和速度无法像过去 18 个月那样持续下去。我认为除此之外的任何事情,我相信我们会更详细地讨论,但在过去的 12 个月里,我们有了更多的关注,特别是试图重新调整我们的重点,以正确地建立数据分析的基础。而不是专注于闪亮的技术人工智能类型的东西,不幸的是,许多企业都被这种东西分散了注意力。
Adel Nehme:是的,当然。我很想在谈话的后一点谈论这个陷阱,但也许在提到过去 18 个月疯狂和不可持续的招聘速度时,数据领域如此高的招聘需求背后的驱动因素是什么,尤其是在过去 18 个月里?
凯尔·温特伯顿:嗯,我认为如果每个商业领袖现在都知道他们要继续繁荣并适应未来,正如我们开始提到的那样,数据将发挥非常重要的作用。不幸的是,说起来容易做起来难,对吧?所以执行变得非常困难。
但我认为,我们发现的是,越来越多的组织开始了数据分析之旅,也有一些组织已经投入了更多的资金。所以它是燃烧的。两种说法同时出现,这意味着有非常多的企业在招聘员工,而不仅仅是一个两个,你知道,多个。
所以我不认为我在过去的一年里和一家企业谈过话。判了 18 到 24 个月。那就是说你有,我们只是想雇一两个人。通常,你知道,我们需要雇用 10 名工程师和 4 名数据治理人员,等等。所以这两种说法的燃烧,需求和供应的缺乏,我认为共同创造了这种,这种大规模的繁荣。
Adel Nehme:这非常令人兴奋。因此,让我们明确地进入关于雇用和招聘数据人才的细节。正如你所提到的,在过去的几年里,你与许多组织合作,填补他们的人才缺口。请向我们介绍一下数据领导者面临的一些主要挑战以及填补人才缺口的方法,您是如何应对这些挑战的?
凯尔·温特博顿 07:17
我认为有一些关键的东西,可能是为了给你一点这个问题的背景。我用了一个类比,数据领导几乎就像足球管理一样,或者我想是任何运动队的管理,对吗?在哪里?对即时回报的要求如此之高,几个月的不稳定都是不成功的结果,人的脑袋都在砧板上,很不幸。
这就创造了这样一种环境,在这种环境中,组织和他们的数据领导者需要雇用能够立即投入工作的人,因为不幸的是,他们没有时间,或者通常没有精力、资金和资源来投入工作。初级人员,更多的入门级人员,等待他们得到发展和培训,尽管这很不幸。
因此,在中高级水平,这是每个企业都在努力招聘的地方。很明显,正如我之前提到的,大量的企业在寻求招聘,事实上他们正试图以倍数招聘,事实上没有足够的人。工作比其他工作更能磨练人。
但这导致了现在的这一点,那里有这样的需求,那里没有足够的人。因此,我们面临的挑战是,我们处于一个人才短缺的市场,但这是数据领导者能够做到的唯一方式。去并开始快速增加价值是通过雇佣那些在一定水平上了解工作的人,他们可以进入工作岗位并立即投入工作,但这些人不够多。
所以这肯定是一个挑战。我认为这是大多数数据领导者面临的挑战的第二部分,也是我们尝试着手的地方。就拿对话来说,你有关于你的才能、你的才能吸引和你的才能获得的策略吗?因为我们发现,不幸的是,大多数企业并没有这样做,大多数企业对自己的需求非常被动。
所以,为什么我们十次对话中有九次你会说,好吧,你希望这个人或这些人什么时候开始?这是昨天的事了,对吗?我总是试着打个比方,如果你问一个企业或数据领导者,你如何获得你的客户?
例如,如果你谈论获得新客户,他们会给你一个非常有说服力的理由。回答这个问题,你知道,我们这样做,我们这样做,整个培养过程,我们有多个接触点,我们试图让他们参与所有这类事情。这正是体育组织应该利用他们的才能做的事情,但他们没有,他们只在有很大的空缺时才会考虑,现实显然取决于你所在的位置,但面试过程是有长度的。
经常工作是有通知期的,尤其是在英国,对吗?你会得到这样的组织。他们想雇一个他们昨天就想开始的人,但事实是,他们可能在五个月内都不会有任何人。这显然会带来挑战,对吧?那么,你什么时候需要技能呢?
你为什么需要它们?这些技能应该是什么样的?然后,我们如何开始与这些类型的人接触,以便完成跑腿工作和基础工作,这样当我们真正招聘的时候,我们就能在这个过程中走得更远。这就是我们通常开始的地方。
然后我认为下一个问题是,你有足够令人信服的叙述吗?你是在与成百上千的其他组织竞争同一层次的同一人才。这不仅仅是关于您是否支付合理的费用,等等,使用最闪亮和最新的技术。
因此,谈论令人信服的叙事,但你知道,为什么有人应该加入你的组织,而不是其他 10 到 15 个选项,因为我们缺乏人才,这种高需求。所以整个引人入胜的叙述和创作。对观众来说什么是重要。
这是我们投入大量时间和精力的事情,我认为将这些整合在一起真的很重要。在过去几年中,数据分析人才的格局已经发生了变化,他们的需求和愿望也发生了变化,特别是许多人,不幸的是,许多人进入了他们被告知是数据驱动型业务的组织,当他们进入那里时,他们意识到事实并非如此。
他们觉得自己就像在一条项目生产线上,一个项目放在他们的办公桌上,完成后就消失了,他们再也看不到或听不到它了。所以他们不知道它是好是坏,是否被使用过,是否有价值,是否有影响,等等。
因此,我们试图将这种令人信服的叙述与你怎么样,除此之外,你有什么不同,这有什么令人信服的地方?但是你怎么能让这些人每天都工作呢?在整个组织中引人注目、有价值、有影响力,因为除了工资、位置、技术、令人兴奋的项目,这是等式的另一部分,人们现在开始从希望进入这些企业的人的角度来看待和评估组织。
阿德琳娜二世 12:19
那真是太好了。我喜欢这个答案。这里有很多东西要打开。我,我想从人才战略开始,对吧?呃,说点题外话,您在这里提到,很少有组织拥有与其类似的人才战略,或者至少拥有与其客户获取战略一样强大的战略。
或许可以向我们介绍一下,在数据中,一个组织稳健的人才战略是什么样的?
凯尔·温特博顿 12:40
嗯,我认为,事实上很少有组织真正投入时间和精力在这方面,这是在现阶段有总比没有好的事情之一。所以我,我觉得它只是想出人头地。在这条曲线上,对吗?因为正如我所说,大多数企业都是被动的。
因此,这是一个基于数据战略的案例,有望与业务战略和围绕业务战略的运营模式协同运作。好吧,那么,这个团队目前的差距在哪里?是这些差距导致了现在的问题吗?我们如何区分轻重缓急?哪些差距对我们真的很重要。
这就给了你一个优先级列表,然后通常是你信不信的问题。事实上,我们做了很多工作,你认为你需要这种技能,但你实际上并不需要,你最好拥有这种技能。例如,你知道,数据科学是 21 世纪最性感的工作。
不幸的是,许多组织走出去,认为他们需要一个数据科学家,如果他们要再次成为数据驱动的报价。所以,我花了很多很多会议试图说服商业领袖,在这个时候你不需要雇用数据科学家。这意味着你要支付 2 万到 3 万英镑。
比你现在真正需要的技能更多。他们会进来,感到非常无聊,然后离开,这是一个非常昂贵的雇佣,不是一个非常有效的策略。因此,我认为这是关于优先考虑你所拥有的差距,因此当你需要招聘他们时,然后从那一点向后工作。
因此,如果你知道在 2023 年 1 月,你将需要,我不知道,一个数据工程师,例如,做 X,Y 和 z。嗯,实际上你应该已经在上个月开始这个过程,对不对?因为当你考虑到通知期、面试过程等等因素时,不幸的是事情并不是这样。
将会有数百个组织在 1 月份的时候说,好吧,我们需要一名数据工程师,但他们要到 5 月到 6 月才会有。所以我认为,我认为人才战略,然后与我们如何使我们的主张对我们试图吸引的观众有吸引力联系起来。
阿德琳娜梅 14:57
这真的很有趣,因为从某种意义上来说,它真的很像一个营销部门,你需要建立一个可预测的人才管道,围绕你为什么需要加入这个组织创建一个完整的营销叙事,所有这些部分都需要整合在一起。能够创造出可预测的人才管道。
凯尔·温特博顿 15:12
是的,就是这样。是啊,绝对的。
阿德琳娜梅 15:15
那真是太好了。鉴于你在市场中的优势,你知道,组织目前招聘的不同数据角色是什么,也许更重要的是,这些角色的技能组合或要求在过去几年中有什么变化?
凯尔·温特博顿 15:27
是的,所以很明显,我认为我们在过去两年里已经看到了巨大的变化,尤其是在市场周围。再说一遍,回到我之前说过的话,我认为许多组织再次不幸地误入歧途。地区。因此,他们投资于高级分析、数据科学、人工智能、人工智能等领域,当他们几乎看到这一点时,我猜这是一种银弹,他们真的没有把自己的房子整理好,对吗?
他们,他们只是还没有准备好那种类型的活动和倡议。因此,我们已经看到,可能只是再次,自然修正,不幸的是,你知道,许多企业已经花了大量的钱,却没有从他们的产品中获得很多价值。与他们所期待的相比。
因此,现在我不得不追溯他们的踪迹,比如,好吧,数据工程真的很重要。我们雇佣了大量数据科学家,但我们无法将数据从一个系统转移到另一个系统,让他们进行任何数据科学研究。因此,数据工程和建筑一样,是需求增长最快的领域。
数据治理和数据管理也是如此。再次,许多企业没有他们的基础,因此他们没有得到他们期望的价值。因此,数据治理和数据管理无疑是一个高投资领域,并且已经有了很多。
大量的招聘,我认为可能变化最大的是,如果你,如果你看看我们行业的转型和创新,我们现在开始看到一个真正的产品思维的巨大驱动力。我们的产品思维将数据视为一种产品,或者将数据视为一种产品或数据产品,或者我们使用的任何术语,其基础是,众所周知,统计数据已经向我们展示了这一点。
许多许多数据分析计划没有增加他们期望增加的价值。很明显,你可以追溯到组织内的文化和采用。数据、产品思维和心态似乎已经推动了更高水平的采用和参与。从那些商业企业和商业用户那里。
因此,我认为这将是未来 12 个月左右真正流行的东西。因此,我们现在要说的是,在过去的 12 个月中,有几件关键的事情确实发生了变化。
阿德琳娜·梅 17:49
真的很棒,我喜欢将数据作为产品的最后一个概念。也许可以向我们介绍一下这些技能在组织中的实用性,对吗?通常为这类技能保留的角色是什么?
凯尔·温特博顿 18:03
是啊,所以很有趣。所以我,我个人认为大多数人采用的头衔是数据产品所有者。我们真的听说过“硬币”,数据翻译器,对吗?这被打上了烙印,而且在某个时间点上,这几乎威胁到成为一个真正的工作头衔,这将是有趣的,对不对?
所以有点像官方头衔,但我认为数据产品所有者实际上已经成为那个人,对吗?他们通常至少了解技术概念,因此他们可以坐在业务、业务用户和数据分析团队之间,并且他们可以确保数据团队创建的产品实际上嵌入到业务中并在业务中正确使用。
我认为这更多的是一种心态的问题。比什么都重要。老实对你说,我不认为有什么巨大的启示。事实上,你可能在这个行业听到过很多对话,这些事情几乎已经发生了,但可能只是没有那么严格。所以你谈到数据翻译,他们通常负责外出,只是试图确保。
整个企业都在采用数据团队生产的任何产品。我认为这变得更有针对性了。因此,你可能会有人负责单一类型的产品,使数据成为一种产品,并真正成为该产品的专家,并因该产品而闻名于业务内外。
因此,我认为最关键的是了解技术术语的能力,例如,在营销团队工作的人或在会计团队工作的人了解什么,我使用该产品的前提是什么?我为什么要做不同的事情?我认为这可能是一个很好的强调点,对吗?
许多企业在没有数据作为业务核心的情况下一直非常成功地运营着,对吗?因此,我们实际上是在要求人们改变和转变他们的行为。来适应我们要做的事情。所以需要有那种程度的认同,我认为从历史上看,整个软技能都被打上了引号,因为软技能往往是最难掌握的技能。
我认为这些是我们真正开始关注的事情。如果我们能做到这一点,那么剩下的事情就会迎刃而解,因为八到九次。我们与之斗争的往往是更软的技能。它不是,它不是数据湖或仪表板或模型的构建。
我们很擅长这个,对吧?这是让他们去使用它,让它融入到文化中,让它被采用,这样你就能看到它的另一面的价值。然而经常发生的是我们已经建立了很好的解决方案。伊娃,这些解决方案是在试图回答一个我们没有的问题。
这是一个需要及时解决的问题,因此它没有被使用,因此它的成本很高,但收效甚微。
阿德琳娜·梅 21:01
喜欢你定义数据的方式。作为分析翻译器的下一个迭代,因为我确实认为,随着我们的最佳实践不断发展,该领域将会有一些专业化,流程和概念将更加成熟,从而使嵌入式机器学习或数据科学解决方案成为可能。
因此,让我们也来谈谈保留。我认为留住人才从来没有像今天这样重要,尤其是考虑到去年我们经历的大辞职和大洗牌。您如何看待大洗牌对数据角色的影响,以及您如何看待数据领导者试图解决保留问题?
凯尔·温特博顿 21:36
因此,我认为留住人才可能是数据领导者面临的最大问题之一,对吗?因为如果你真的从逻辑上考虑,每个企业都会有一定程度的减员。那只是,他们必须考虑到这一点,而且大多数人都考虑到了。然而,在一个已经发生如此转变的市场中。
对吗?举一个非常简单的例子,大多数数据领导者现在面临的部分问题和挑战是,如果有人为他们工作了三到四年,就会有一定的水平。有了一定的薪水,他们可以去外面的市场,以同样的水平引进同样的人,他们可能要多付给他们 20,000 英镑,因为市场发生了变化,这显然会在内部引起很多问题。
政治,我相信每个人都会,如果有人和一个做同样工作的团队成员一起工作,发现他们做同样的工作却多拿了 20,000 英镑,但可能不会为此高兴。在我看来,与其去市场招聘更多的人,为什么不首先把你的时间和注意力放在让你得到的人开心上,并留住他们,这是绝对有道理的。
因为硬币的另一面是,当他们不开心的时候,比如说,在薪水和报酬方面,没有提升。新的市场标准是什么。那些人也是坐以待毙吧?因为他们的组织会直接把他们拉出来,因为个人知道市场转移了 20,000 英镑。
他们在当前的组织中得不到这些,而其他人非常愿意付钱给他们去做这些。因此,留住人才的问题是非常现实的。我认为不幸的现实是,就个人而言,大多数人通过跳槽会过得更好,因为他们会得到更大的头衔,更多的责任,更高的薪水,而不是留在公司。
即使他们得到了提升,你知道,他们可能会得到一定比例的加薪。它永远不会等同于一个举动会给你带来什么。所以我认为需要围绕这个问题进行一些思考。对吗?发生这种情况的原因是公司内部正在处理。政治、繁文缛节、薪水、职位等级。
这是一个非常困难的过程,但不幸的是,这是一个正在发生的过程,没有正确或错误的答案。老实说,我认为这是大多数数据领导者都在努力解决的问题。
阿德琳娜梅 24:19
是的,我能想象。在过去的两年里我们确实看到了。在您看来,有保留问题的组织与有保留问题的组织之间的区别是什么?
凯尔·温特博顿 24:29
所以,我认为很自然的事情,比如他们是否愿意与我们就提高工资以适应新的市场条件进行对话?我认为那是,那是一个给定的,很明显,整个移动变得更加灵活。劳动力和工作生活的平衡。我认为那是,你知道,如果,如果有什么东西从前 covid 到现在发生了巨大的变化,那就是它。
我认为,大多数人比以往任何时候都更加意识到,他们希望在一个可以增加价值的地方,这样他们的工作才是可见的、有价值的、有影响力的,但他们有很好的工作生活平衡,他们不需要一周五天都在路上。所以我认为是企业真正努力迎合。
对于这种灵活性的市场需求,我认为这是有保留问题和没有保留问题的公司之间的区别。从根本上来说,企业的核心是看,好吧,我们如何确保我们团队的工作得到利用?这是看得见的,有价值的,对他们来说是有影响的,他们对这个组织有影响,他们不仅仅是来做他们从未见过、感受过或听说过的工作。
所以我认为。这才是关键。我们之前从吸引力的角度讨论了引人注目的叙述。从留住人才的角度来看,这种令人信服的叙述也是可行的,对吗?因为如果一个组织能够一遍又一遍地表达,看,这就是为什么我们觉得我们作为数据分析行业的雇主比你更好。
将来会得到 2 万英镑的加薪,但从长远来看,你在这里做的事情实际上会对你更好。在你的简历上会更好看。你实际上会为一个组织增加一些价值,你知道这将有助于你的成长和发展,以及诸如此类的东西。
我认为归根结底是组织。这是一个非常前瞻性的想法,试图思考我们的员工真正感兴趣的是什么,以及我们如何迎合这一点,而不是采取非常强硬的态度,嗯,我们希望员工每周有三四天回到办公室,这需要在每周的这三四天里规定。
因为最终这可能不是灵活性。
阿德琳娜梅 26:41
我真的很期待扩展灵活性的概念,但也许。暂停一下,讨论如何让工作变得可见、有价值、有影响力。我认为许多数据领导者都在为这个问题而努力,我认为随着你沿着数据成熟度曲线前进,并且实际上成为一个数据驱动的组织,这个问题会变得更加容易。
因此,对于那些处于光谱起点的组织来说,对,那些仍在努力从数据中获取价值的组织,如何创建一种文化,使数据专业人员的工作可见、有价值且有影响力?
凯尔·温特博顿 27:08
这是一个非常好的问题,因为正如我们所知,作为一个行业,很难真正为数据分析计划提供可量化的有形价值。如果我真的很坦率的话,我经常认为这归结于他们的能力。该组织内的数据领导者要勇往直前,带领整个团队,真正把它放在业务当中,让大家看到和听到。
我认为有几个非常明显的方法可以做到这一点。我非常喜欢的一件事,我认为它并没有得到它应该得到的那么多的播出时间,我们围绕着交流即兴发言,对吗?显然,在我们的行业中,沟通非常重要,能够确保。业务部门了解我们在做什么,我们如何转化它,我们从哪里获得价值,以及我们如何阐明我们在该价值中扮演的角色?
但这通常是它开始和结束的地方。这几乎就像一个轻率的评论,沟通是重要的,它是重要的。我所看到的效果非常好的是那些组织制定了沟通策略的地方。例如,他们的内部公关团队就有预算。
通信。这可能是一个内部播客,他们在那里交谈。数据是怎么回事?这可能是他们建立了一个数据学院的地方,业务用户可以进来并开始考虑,例如,我如何才能更多地参与创建自己的仪表板。你知道,我认为这是试图带来意识和文化,如果我们想使用这个术语,这个术语就是关于我们如何带来所有的。
因为这最终会提升组织内数据团队的形象。所以我认为这是一个非常有用的例子,我看到了它的工作原理。
阿德琳娜梅 28:54
反复强调将少量预算用于通信和公共关系或内部是数据团队的工作。我见过的一个非常有效的例子来自纽约人寿保险公司,实际上,我们在播客中提到过。纽约人寿首席数据分析官 Glen Hoffman 说。
例如,他们在那里做的是,对于每个新项目,内部都有一个专门的登录页面,上面有非常高质量的视频,解释新项目,它是关于什么的,等等。这非常有效地在组织内创造激情,推动采用,并确保工作是可见的,有价值的,并且我。
你提到的另一件我很想在这里讨论的事情是灵活性,对吗?你在这里提到的一件事是关于远程工作和创造工作生活平衡。当然,远程工作在过去两年中一直呈上升趋势,这是我们在市场上越来越多地看到的竞争优势之一,也是候选人为什么会留在或离开某个组织的原因之一。
一个很好的例子就是苹果的机器学习主管 Goodfellow 因为重返苹果而离开了苹果。政策。或许可以向我们介绍一下远程工作和您的观点是如何影响组织查找和保留数据的能力的。
凯尔·温特博顿 30:03
是的,所以我,我认为这是一个非常非常有趣的话题,因为很明显你有两个非常清楚,截然不同的。栅栏的两边,对。你知道,你已经有了一个人,他自然地想要尽可能多的工作生活平衡的灵活性,而且,这是理所当然的。我想,如果疫情教会了我们什么的话,那就是我们可能有一种不健康的困扰,我们大多数人都在工作。
因此,整个工作生活平衡的事情已经,已经是一个真正的积极的,这是来自疫情,我认为如何。企业是如何解决这个问题的。所以我认为,在一般的就业市场上,有一种普遍的误解,对吗?特别是对于那些在办公室工作的人来说,当然,一旦疫情结束,每个人都会保持百分百的距离。
我认为这显然已经被证明是一个神话。像我们一样,我们与很少的组织合作,这些组织愿意任命完全远程合同的人员,对吗?我认为大多数组织都希望人们是可见的。在某些方面,可能是一天,一周,也可能是一周四天,等等。
就像每个公司一样,每个公司显然都有自己的政策,但这自然会对企业如何留住或留住新人才产生连锁反应,对吗?因为如果工作生活平衡的话,远程工作方面真的很重要。那么显然没有人会选择去为苹果工作
对吗?根据你的例子。所以我认为那是,那是有原因的。显然,我认为除此之外。这很有趣,因为我认为大多数组织都在他们自己的位置泡泡中运作,对吗?因为他们已经习惯了这样思考和操作。
所以我不知道你是否在纽约市,从邮政编码的角度来看,有一个半径,比如有人愿意从哪里出发,第二,你可以猜猜是哪里。现在显然已经改变了。所以从本质上来说,候选人才库,和你希望的一样大,对吗?
这真的取决于你的组织,他们的党派路线是什么,他们有多愿意任命完全远程角色的人,或者没有。这也是原因之一,因为你的候选人数量更多,而你的数量更多。你的竞争更激烈。我认为这是许多组织没有真正考虑的事情。
我想他们认为,好吧,现在我们可以任命一个人。我不知道。如果我们在伦敦,我们可以指出有人在西班牙。好吧。我们的候选人越来越多。但实际上,在西班牙的同一个人也可能受雇于旧金山的谷歌。所以,所以,所以,所以,所以你的候选人群体,你的竞争也在增长,尽管事实上候选人群体在增长。
所以我。我认为这些事情已经成为了一切。在此基础上,吸引人才可能不像大多数组织认为的那么容易。留住人才最终取决于组织实际上愿意有多灵活,然后你知道,因为说实话,大多数人不会仅仅根据他们是否可以远程工作来做出决定。
还有很多其他因素,但显然这是一个对大多数人来说仍然很重要的因素。
Adel Nehme:好的。这真的很棒,我喜欢这种整体视角。我也喜欢你展示另一面的方式,因为我们还讨论了如何让业务用户更积极地参与数据分析团队和项目,以及如何让业务用户参与进来。呃,我也想谈谈混合角色,对吧?
以及组织是如何填补这些空缺的。为了提供更多的背景信息,今年早些时候,Matt Siegelman 在播客中提到了他,他是燃烧玻璃研究所的主席,他们做了大量的自然语言处理工作。在互联网上的公开职位描述中,他们发现的一个主要观点是,有一种混合的角色,其中许多数据技能正在成为传统商业角色的标准组成部分,例如,嗯,营销运营等。
例如,考虑业务运营、分析师、营销分析师、收入运营、分析师等角色。从数据领导者的角度,向我们介绍他们是如何担任这些角色的。
凯尔·温特伯顿:这真的很有趣,因为我认为这表明我们正朝着正确的方向前进。我们开始思考,在我们的组织中,有些角色不一定要由纯技术人员来担任。数据人,我认为这是一件非常好的事情。我可能已经在 LinkedIn 上出名了,因为我谈论了过去几年大多数职位描述有多糟糕。
即使您考虑首席数据官的角色,通常第一个要求是能够用 Python 编码,对吗?有点像,嗯,是啊,不应该是这样的。所以我认为这表明我们正朝着正确的方向前进。这也表明。对数据将在这些领域发挥的作用有了更多的认识和了解。
现在,很自然地,你会发现营销和财务可能是两个领域,在这里稍微挑选一下,因为他们通常更懂数据,因为他们习惯于使用数据来衡量和管理绩效。I .雇用这些人的现实是完全不同的,因为虽然雇用具有混合技能的人的概念和理念,我认为它所做的,正如我之前提到的,是围绕软技能和商业技能、说服力、影响力、采用和沟通的整个事情。
所有这些东西,这些东西在历史上,不仅仅是,但在历史上,你知道,很多。数据团队一直在努力解决。因此,你可以从纯数据分析领域之外获得很多技能,这些技能在该领域确实更有效。但是很明显,有些事情是那些人需要的,需要提高技能的。
例如,可能来自更多的数据和分析空间。所以我认为这绝对是朝着正确方向迈出的一步。这是。理论上说起来容易,执行起来难,因为很明显,在大多数企业中,他们通常是两个独立的角色,对吗?
你可能会有一个数据分析师,他只是坐在财务部门,或者只是坐在运营部门,或者只是坐在供应链部门,然后你可能会有一个来自业务部门的人,他们几乎成为每个人的业务合作伙伴。我认为我们开始看到,这些业务合作伙伴可以学习一些核心的基本原则,或者你正在获得数据,人们正在成为更好的沟通者和影响者,然后可以开始更多地作为企业采取行动。
所以是的,理论上是可行的。我得说,找到这些人真的很难。
阿德琳娜·梅 36:40
是啊。这真是伟大的洞察力。你在这里提到了扩大规模的重要性。你认为在哪些方面会有所发展?在填补这些类型的角色时,您认为升级和内部晋升的作用在哪里?
凯尔·温特博顿 36:50
大多数数据分析学科都是供不应求,对吗?所以理论上来说,有两种选择。我们需要更多的人。从不太传统的研究领域进入这个行业。所以如果你想想,我不知道,计算机科学是一个很好的例子。仅仅是因为纯粹的需求和数据分析人员的增长轨迹,学习该领域的学生就会被纯粹的需求和支付的金额以及所有这类好东西吸引到我们的行业中来。
它们是丰富的。学生们在那里学习可能被认为不太传统的东西。所以社会科学是一门伟大的学科。例如,学习犯罪学、社会学或心理学的学生,学习地理的学生,他们都习惯于使用数据进行分析。他们在做什么,并经常把这些融入到他们的学习中。
所以从理论上讲,他们拥有进入我们行业的基本技能,关注这些领域是绝对有意义的,因为我们在大多数领域都存在人才短缺。对吗?不幸的是,这种情况不会发生。因此,我们需要更好地了解如何走出去,提高人们的意识。举个例子,我在某些大学做了很多公开演讲。
我在社会科学学院演讲,这些人正在做定量分析,作为他们社会科学学位的一部分,就像他们在使用某些工具。然而,当我进去做演讲时,它可能是最多样化的。在性别,宗教,种族,背景,你能想到的一切方面都有余地。
我敢说 95%的人甚至不知道他们可以去数据分析行业找工作。这是我们需要解决的第一个问题,对吗?第二件事肯定是再培训。有,现在回到以前关于这些混合角色的问题,对吗?
数据分析行业对整个软技能感到内疚,可能没有达到我们的标准。期待或者想要或者需要。这在历史上对我们来说是一个问题,因此业务中的一些人有兴趣更多地进入数据分析领域,我们可以从业务的其他领域开始交叉培训或再培训。
这是另一种试图弥补差距的方法,但问题是。这需要时间。这不是一个快速解决办法。一夜之间就会发生。所以需要有一个真正的主动性,那么,我们要怎么做呢?我们要怎么执行呢?再说一次,这是另一个理论上很棒的想法,但是实际执行和看到结果是相当困难的。
因为大多数数据领导者没有时间、资源和精力来培养这些人,无论你看硬币的哪一面,它经常被忽略一点。真的。这就是为什么你会看到?这些类型的数据学院主要出现在大型组织中,对吗?因为他们有钱投资这些东西,你知道,他们会很乐意花钱请人来管理,对吗?
所以我认为整个提升技能的部分对我们这个行业的发展绝对至关重要。向前看,因为我们已经知道在大多数领域都缺乏人才,而且很可能有很大一部分人才已经到了一定的年龄。所以我们开始失去漏斗另一端的人。
所以这是一个很大的领域,我认为这显然是像你们这样的企业做得很好的原因之一。
阿德琳娜·梅 40:08
我完全同意。是的,高端组件,我完全同意这一观点,即它的转换方面肯定是需要病人的。这本质上是一个文化改变项目,应该被训练,像这样对待。当然,Kyle,当我们的播客接近尾声时,我也不能不提你的数据驱动的播客。
我认为任何数据领导者听了这次谈话都会从订阅中受益。或许可以向我们介绍一下你在过去主持播客时学到的一些东西。现在已经运行一年多了?
凯尔·温特博顿 40:37
几年。是啊。是啊。所以我们结束了这个赛季。两个,几周前,所以我们在第一季做了 50 集,第二季做了 50 集。我们马上就要推出第三季了。所以大量的面试和大量的学习。我认为,在所有这些对话中,我学到了一些关键的东西,这就是大多数组织都面临着相同的问题和挑战,只是在业务和规模方面有所不同。
实际上非常有趣。我认为第二件事是,尽管所有的谈话和媒体都围绕着数据的重要性,但我认为只有少数组织真正掌握了如何真正推动价值。数据不足。我认为其他人都还在不断走向成熟,并试图理解这一点。
我认为除此之外,我,我看到了这一点,说实话,这一鸿沟正在形成。数据领导者和他们的团队,然后是业务。因此,我认为已经有相当广泛的报道称,数据社区通常很难阐明和量化他们在创造和实现业务价值方面所扮演的角色。
对吗?这有很多因素,但如果数据分析团队帮助销售团队产生 1000 万美元,分配可能会是一个问题。美元的销售额,这很自然,销售团队希望因此获得荣誉,对吗?所以,这是关于我们如何作为一个团队站在前面和中心来建立关系,说,好吧,看,如果不是我们,这个数字不会有,它不会那么大,或者不会发生。
因此,我认为,作为一个数据社区,我们需要更好地阐明我们所扮演的角色。在那种价值实现中。但另一方面,已经决定投资数据分析的组织和企业领导人往往不知道他们想做什么。
因此,他们不知道应该雇用什么样的人来管理他们的职能,通常会先采取某种技术措施。所以我花了很多时间。在同一个房间里,这几乎是一个概念,嗯,业务领导知道这里的某个地方有价值,所以我们为什么不开始构建数据湖,因为我们在某个时间点会需要数据湖。
因此,他们将构建一个数据湖,然后尝试在进行过程中对其进行分割,这变得很成问题,因为没有将数据计划和战略与企业试图实现的目标联系起来的战略方向。我认为,这就是为什么我们最终会在这个地方花了很多钱,但没有花出去。
从战略上帮助企业。It 仅仅用于构建基础架构,他们的数据就变成了成本中心。因此,因为他们不是从战略的角度出发,并将其与业务联系起来,所以他们不知道该任命谁来担任数据领导角色。他们真的不知道那个角色应该是什么,为什么他们想要它,那个人应该交付什么。
所以他们经常任命错误的人。就好像他们注定要失败。所以差距很大,对吧?数据领导者可以很好地阐述价值,但业务领导者不会让他们这样做,如果这有意义的话。所以我认为这就是问题所在。在所有这些对话和我们举办的所有活动中,我经常会回到那个地方,想知道,我们如何弥合这一差距?
老实说,这有点像恶性循环。
阿德琳娜·梅 44:01
是啊。这确实是一件有趣的事情,我认为这肯定是行业在未来几年需要解决的问题,以便达到数据分析行业的稳定点。从你采访数据领导者的角度来看,你认为未来几年影响数据领域的主要趋势是什么?
数据领导者如何招聘和建立数据团队?
凯尔·温特伯顿:是的,正如我之前所说,我认为数据产品将是推动采用和改变文化的真正关键因素,如果我们要继续这个旅程,并从中获得价值,这真的是需要发生的事情。我回想起,那种吸引和保留的作品。
这是关于拥有一个平衡的团队。我认为我们建立了非常高技术的团队,这很好,但我认为我们现在已经意识到需要在这方面取得平衡,而不仅仅是多元化。传统意义上的,但是思想、经验和视角的多样性。
因此,人们把来自不同背景的人带进来,这些人来自不同的地方,以不同的方式看待挑战和问题,并拥有不同的技能。所以我认为我们现在所处的位置并不是每个人都需要成为 python。向导,团队中可能有人的工作实际上是将技术细节转化为业务。
我觉得这很好。所以是的,我认为,我认为这些是,将是,关键的东西。然后,对我来说,最重要的事情是,我认为我们需要找到一种方法,让数据分析社区开始阐明它正在创造的价值。
一旦我们解决了这个问题,我们就知道,好的,这个问题的正确起点是什么?而且有足够多的用例可供其他组织借鉴。根据过去的经验来决定从哪里开始数据分析?什么是合适的地方,谁是合适的人?
团队需要有多大?需要什么技能?你买什么技术,等等,等等,我认为会在一个更好的地方。因此,我认为将数据视为一种资产和价值,以及如何对其进行估价,将是未来 12 到 24 年的大趋势之一。
行动号召
阿黛尔·奈姆: 那真是太好了。我喜欢这种视角。现在,凯尔,在我们结束播客的时候,在我们结束今天的播客之前,你还有最后一个行动要求吗?
凯尔温特伯顿: 所以,其实,不,我不这么认为。我想我鼓励任何人,如果他们正在尝试建立数据分析团队,我会说只要触及围绕思想和经验的多样性创建平衡团队的要点。围绕某个应该加入你的组织的人创造引人注目的故事。
超过别人。因为我认为这是我经历过的大多数企业失败的原因。你知道,当我直截了当地问他们这个问题时,我经常得到他们茫然的眼神。对吗?这是个问题。这是一件很容易做到的事情,但很少有组织真正坐下来思考这个信息和叙述应该是什么。
因此,这是企业绝对应该做的事情。然后阐明这个团队的工作。在组织内是可见的、有价值的、有影响力的,因为这已经成为他们的目标个人的真正驱动力。
阿黛尔·奈姆: 那真是太好了。凯尔,非常感谢你来到 DataFramed
凯尔·温特伯顿:根本不是 T2。谢谢你。
IntroOutro: 你一直在听一段播客中的数据。数据营,通过订阅节目与我们保持联系。在你最喜欢的播客播放器中,请给我们评分,留下评论,并分享你喜欢的剧集。这有助于我们不断提供对所有数据的见解。感谢您的倾听。下次见。