您的数据成熟度如何?参加我们新的数据成熟度评估,一探究竟!
成为一个数据驱动的组织是一个漫长而艰巨的过程,需要在不同维度上持续投资和努力。2021 年初,我们发布了一份名为“贵组织的数据成熟度指南”的白皮书,概述了数据成熟度谱的不同阶段,以及组织可以从一个数据成熟度阶段前进到另一个阶段的可行步骤。
数据素养之路由四个阶段组成,首先是数据反应、数据扩展、数据进步,最后是数据素养。为了从一个阶段进入下一个阶段,有五个关键杠杆需要持续的监测和投资。这五个杠杆就是我们所说的 IPTOP 框架:
- **基础架构:**可扩展的数据基础架构,可确保数据在整个组织内可收集、可发现、可靠、可理解、合规且可操作。
- People: 打造一种数据驱动的文化,在这种文化中,所有员工都理解数据的价值,并拥有处理数据的技能,而不论其角色如何(这并不意味着每个人都需要编码!).
- **工具:**数据从业者使用的工具、软件和系统,以及如何通过降低数据使用门槛的框架进一步推动数据民主化。
- **组织:**如何组织、开发和培养数据人才,以及采用在整个组织中推广可扩展数据科学的组织模式。
- **流程:**数据专家和团队采用的流程,以使他们的工作更具可预测性和协作性,并确保与业务目标保持一致。
我们的白皮书引起了读者的共鸣,在收到读者和组织的反馈后,我们了解到一个共同的挑战是了解一个人的团队或组织在数据成熟度谱中的位置。这就是我们推出数据成熟度评估的原因。
什么是数据成熟度评估?
数据成熟度评估是一项快速简单的调查,由一系列关注 IPTOP 框架的问题组成。鉴于数据文化、数据技能和受管数据访问的重要性,我们特意调整了评分标准,以确保我们优先考虑基础设施和人员的重要性。
如何利用数据成熟度评估
这实际上取决于您的目标和对组织内数据成熟度的概述。我们知道,对大型组织来说,鸟瞰数据成熟度可能具有挑战性,因此我们调整了评估,以提供团队、部门和组织级别的见解。我们还知道,29 个问题无法涵盖组织数据成熟度的所有方面,因此我们希望您将这些结果作为对话的开始,讨论在推动数据扫盲时要优先考虑的战略和计划。
立即进行数据成熟度评估
任何人都可以参加这项评估(当然是免费的),但尽管如此,我们还是鼓励对数据成熟度的不同维度有全面了解的高级领导、高管和经理参与进来。立即参加评估,了解您在数据成熟度谱中的排名。
数据科学如何改变医疗保健
医疗保健中数据科学和机器学习的现状
随着医疗保健通过数字化和数字化转型不断进步,它已经成为最有条件最大限度地利用数据科学和机器学习的行业之一。自 2015 年以来,仅在欧洲,对医疗保健领域人工智能公司的风险投资就增长了 22 倍(麦肯锡)。
数据科学和机器学习正在改变几个垂直领域的医疗保健,从病人护理到制药等等。但是,扩大数据科学在医疗保健领域的影响需要仔细考虑许多挑战,包括合规性、数据治理和监督、数据文化以及数据技能的可用性。
医疗保健中数据科学和机器学习的机遇
今天,由于大量的医疗保健数据和许多适用于公共卫生结果的用例,医疗保健领域对于机器学习和数据科学来说已经成熟。根据 Statista 的数据,全球医疗保健行业每年生成的数据量约为 2314 艾字节(1 艾字节= 1B 千兆字节),这标志着自 2013 年以来全球医疗保健行业生成的数据量增长了 15 倍。
就改善人口健康结果而言,对社会有数不清的好处。 Deloitte 估计,仅在欧洲,通过数据科学和机器学习用例获得的效率就可以挽救 38 万至 40.3 万人的生命。从预防和早期检测到诊断,再到治疗和护理管理,数据科学和机器学习可以集成到患者的整个旅程中。
例如,个人可以利用可穿戴设备和个性化应用进行早期疾病检测和预防,或者利用深度学习驱动的医学图像分析缩短等待时间。研发领域也在准备创造健康成果的巨大收益,从自动药物发现到 DeepMind 利用其 AlphaFold 算法在蛋白质折叠方面的进展。
各垂直行业的医疗保健提供商也可以在节约成本和提高效率方面实现巨大收益。例如,实施数据科学和机器学习每年可以为欧洲医疗保健系统节省 1709 亿至 2124 亿欧元(德勤)。从制药公司改善供应链流程,到保险提供商通过预测客户流失来优化商业支出,再到通过跨多个垂直行业的工作流自动化来提高生产力,效率的提高可谓无所不包。
医疗保健中的数据科学和机器学习用例
病人护理
数据科学和机器学习用例可以改善个人的健康状况,并自动化医疗保健专业人员耗时的管理任务。
预约管理 :通过使用机器学习和基于规则的人工智能,医疗保健提供商可以通过自动化的预约管理来优化患者的结果并缓解资源管理不善。
早期诊断和预防 : 健康监测应用和可穿戴设备利用机器学习和描述性分析,提供关于个人健康各个方面的重要见解。这些工具可以让个人围绕自己的健康做出数据驱动的决策,并在早期诊断潜在的疾病。
患者分流 :通过使用机器学习驱动的症状检查器应用,医疗保健提供商可以根据需求和紧急程度对患者进行分流。这可以大幅减少患者的等待时间,并大幅提高医疗保健提供商的效率。
:医疗成像和诊断可以说是医疗保健中数据科学和机器学习最重要的用例之一(麦肯锡),医疗成像和诊断有望全面提高效率和改善健康状况。通过使用深度学习,医疗保健提供商可以自动化工作流程并更快地为患者提供价值。
*### 业务流程和管理
与任何行业一样,数据科学和机器学习的医疗保健应用涵盖一系列用例,以提高运营效率和客户体验。
机器人流程自动化 :通过结合使用机器学习和基于规则的人工智能,各垂直行业的医疗保健提供商可以简化工作流程并实现流程数字化。
客户流失 :保险提供商可以使用机器学习来预测哪些客户会流失,这可以帮助他们留住客户,优化营销支出。
聊天机器人 :通过使用聊天机器人,从医院到保险机构的医疗保健提供商可以为医疗保健消费者提供更好的客户服务和更快的价值实现。
商业智能 :商业智能结合了商业分析、数据操作和可视化,帮助组织做出更多数据驱动的决策。通过利用数据洞察,医疗保健提供商可以获得对财务运营的更多可见性,自动化合规性报告,等等(维拉诺瓦大学)。
药物
借助人工智能驱动的药物发现和改进的供应链管理,制药公司可以利用数据科学和机器学习为个人提供更多价值。
:根据【2021 年人工智能指数报告,人工智能驱动的药物发现初创公司获得了所有行业中最多的私人人工智能投资。基于 ML 的药物发现的承诺开始结出果实,并可能导致人口健康结果的巨大收益。
*供应链规划 :在供应链规划中使用数据科学和机器学习可以减少生产时间,减少疫苗交付的等待时间,并优化制药公司的供应链支出。
卓越预测 :利用简单到复杂的预测工具,制药公司可以利用人口健康数据来预测某些药物的供应和需求,并全面优化财务、营销、销售等业务流程。
改善临床试验流程 :使用数据科学和可穿戴设备可以通过自动监控和标记临床试验期间的任何不良反应来降低患者的风险。此外,机器学习驱动的应用程序可以通过评估患者资格、预筛选和随机化来加快临床试验。
在医疗保健领域实施数据科学和机器学习的挑战和风险
数据质量和基础设施
对于任何试图运营和扩展数据科学和机器学习的组织来说,一个重大挑战是实现现代化、安全、集中和可发现的数据基础设施( DataCamp )。对于数据仍在数字化的医疗保健机构来说,这个问题尤为突出,医疗保健提供商之间缺乏数据互操作性和质量不一致阻碍了大型数据集的构建(麦肯锡)。
合规和治理
由于医疗保健组织收集非常有价值和敏感的数据,治理和合规性是在医疗保健中实施数据科学和机器学习的核心方面( Collibra )。虽然不同地区的监管有所不同(麦肯锡),但医疗保健行业拥有最复杂的监管格局之一。例如,美国的健康保险携带和责任法案(HIPAA)规定了保护和管理患者健康数据的国家标准。
这些类型的特定健康法规只是医疗保健行业复杂监管环境的一个方面。当构建和链接用于数据科学和机器学习应用的不同数据集时,欧盟的通用数据保护法规(GDPR)和加州消费者保护法案(CCPA)等数据保护法给医疗保健组织带来了额外的复杂性。因此,创建强大的数据治理和合规性对于在医疗保健领域运营数据科学和机器学习至关重要。
技能
支持数据基础设施并就监管框架达成共识,对于在医疗保健领域运营数据科学和机器学习至关重要。但在医疗保健中采用这些技术的最大威胁是数据技能差距。事实上,根据 Qlik 的研究,在对各行业的数据素养进行排名时,医疗保健行业是表现最差的一个。医疗保健组织缺乏数据技能,这阻碍了数据科学和机器学习在各垂直行业中的应用,并限制了组织围绕数据计划建立信任的能力。
例如,一线卫生工作者需要具备基本的人工智能素养,以便能够理解基于机器学习的系统和应用并与之交互(麦肯锡)。制药或保险公司的经理和领导者需要了解数据科学和机器学习的可能性,以便他们能够推动数据计划,并为发展数据驱动的文化做出贡献(数据营)。
仅仅雇佣熟练的数据工作者是不够的。理解医疗保健复杂性的人才短缺,数据科学人才也普遍短缺。
缺乏数据素养是我们面临的最大敌人。随着世界越来越受数据驱动,这是一个更大的挑战。每个人都必须了解基本知识,我们必须能够以直观和有趣的方式传达这些知识
美国国际集团日本公司首席数据和分析官 Bill Zhang
数据培训如何解决医疗行业的数据挑战
解决数据技能差距是在医疗保健领域实施数据科学和机器学习的基础。据世界经济论坛称,到 2030 年,医疗保健和制药领域的数字和数据培训可以推动全球 GDP 增长超过 4000 亿美元。创造一种持续学习的文化是培养下一代医疗保健领导者的当务之急(麦肯锡),他们将结合数据和生物医学科学,以扩展和实现数据科学和机器学习在医疗保健中的价值。
数据科学如何改变医疗保健行业
DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了强生公司数据科学&项目管理高级主管 Curren Katz 。
介绍卡兹
Adel Nehme:大家好。这是 Adel 数据科学教育家,也是进入疫情两年的数据营的布道者。数据科学、机器学习和医疗保健的潜力从未如此明显。无论是药物发现、加速、运营创新、虚拟辅助,还是疾病预防。
数据科学和医疗保健的机会是巨大的。然而,它也有自己独特的挑战和风险,需要独特的解决方案。这就是为什么我很高兴在今天的数据集中有当前的猫。Framed current 是强生公司投资组合管理数据科学高级总监。
她在医疗保健和数据科学的交叉领域拥有数十年的经验,并且非常了解数据科学和医疗保健的现状。在今天的谈话中,我们讨论了数据科学和医疗保健的前景。应用数据科学和医疗保健的独特挑战,处理医疗保健用例时道德人工智能的重要性,如何解决医疗保健行业用例的一些数据挑战,她对数据科学如何用于解决新冠肺炎等问题感到兴奋。
如果你喜欢这个播客,一定要给我们评分,订阅并添加评论,但只有在你喜欢的情况下,现在让我们开始吧。当前。很高兴你能上节目。
卡兹:是的。很高兴来到这里。谢谢你邀请我。
Adel Nehme:我很高兴能与您谈论医疗保健领域的数据科学和机器学习,您领导数据团队和复杂组织的经验,以及您如何领导强生公司的研发。
但在此之前,我想了解更多关于你的背景以及是什么让你进入数据领域的。
卡兹:是的,绝对是。所以我想,就像大多数人一样,我一直喜欢数据和我的第一堂统计学课程,我开始想,哦,这可能真的真的很有趣。尤其是当我开始将它应用于数据时,我已经收集了作为一名研究人员。这很容易上瘾。当我继续我的职业生涯时,我是一名训练有素的认知神经科学家,但是 SMRI 研究并查看了一些大型流行病学数据集,并且在 20 年前写了一篇关于自杀预测的论文。
不完全是一种 AIML 方法,而是对我们如何预测一些事件感兴趣?然后我一直在神经科学领域研究神经网络,所有这些东西,并且实际上把机器学习技术应用到 FSRI 图像上,这些图像是某人在做某事时的图像。所以这是一个相当复杂的过程,尽管干净的数据集让我非常兴奋,而且我一直对医疗保健和解决医疗保健中的问题充满热情。
我的第一份企业数据科学工作是在 Highmark health。所以我从付款方开始,建立了一堆模型,看看这些模型是如何影响医疗保健的,并被吸引住了。跳槽到母公司。这是一个整合的医疗保健系统。美国第二大集成支付提供商系统,并在该母公司成立了数据科学部门,负责研究支付方、保险方、提供商和其他一些多元化的医疗保健业务,然后来到强生公司,也就是我现在所在的公司。
这是一个非常令人兴奋的职业,我每天都能看到很多影响。
医疗保健中数据科学和机器学习的现状
Adel Nehme:让我们开始我们的对话。在我职业生涯的早期,大约五年前,我很想了解医疗保健中数据科学和机器学习的现状。这是不久前的事了。医疗保健过去和现在都被认为是一个数据科学机会很大的行业,但它也有自己独特的挑战,这使得它与其他行业相比速度较慢。
鉴于您作为医疗保健行业数据领导者的经验,我希望首先从了解开始我们的对话。您将如何描述数据科学和医疗保健的现状?在过去的几年里,它是如何发展的?
卡兹:哦,是的。这是一个令人兴奋的问题。
它已经发展了,我要说的是,医疗保健的不同部分可能在不同的地方,以不同的速度发展,有时是出于需要。你说医疗保健行业有很多机会。有。我认为这是其中一个行业。你必须对任何新事物采取谨慎的态度它们实际上是法规,出问题的风险很大,但好处巨大。
但我在过去几年中所看到的确实是我们在许多行业中看到的一些事情,但在医疗保健行业也是如此。随着我们进入,嘿,数据科学对于解决医疗保健中的实际问题非常非常有用。重点是部署这些模型,不仅要有完美的 comps 概念,还要真正用它们来驱动。
核心商业决策和核心洞察力。这就需要大规模的数据科学,而起初它更具实验性,更具实验性。好吧,让我们看看这与我们今天所做的事情有什么关系,但我们不会全力以赴,真正利用这一点来推动我们的业务。但是我们正在朝那个方向努力。
另一个变化,我想,是可能出现的问题。或者只是我们意识到了,对吧。我们正在扩大数据科学在医疗保健领域的应用范围。当然还有诊断,还有手术,还有临床试验以及这些是如何进行的,如何找到病人。我们可以做很多事情。第三,我认为非常重要的是,我不会说是改变,而是一些正在继续成熟的东西,我们认为这有助于加速发展。数据科学和医疗保健。只是在思考我们所做的事情的道德性。考虑到它对人们和他们接受的护理的影响,它可能是生或死,或者它可能帮助或伤害我们在护理中看到的差异。
所以,真的要思考伦理,这在医疗保健中很重要,然后拥有工具和方法来大规模解决这个问题,这在过去几年里已经有了很大的发展。
Adel Nehme:这真是太好了,我很高兴能与您一起打开这些产品。你在开始时提到了数据科学和机器学习对医疗保健的一些影响领域,你介意扩展一下你已经看到的数据科学和机器学习的这些主要价值领域,在医疗保健领域向前推进吗
?
Curren Katz:很难选择几个,但有一个是我喜欢谈论的,这是我以前的团队所做的事情。我真的很喜欢他们处理这件事的方式。我看到它是因为撞击病人在看手术。所以有时候在医疗保健领域,我们会去治愈这种疾病。我们要诊断这种疾病。
当然,我们怎么能不说我们要把我们所有的数据科学工具都用在癌症上,我们应该这样做。但是一种更安全的方式,一种产生巨大影响的方式,可以是医疗保健本身的运作或临床试验的运作。所以我举个例子。当我在 Highmark health 时,我们开发了一个工具来帮助安排接受化疗的患者,对我来说,从我们听说的问题开始是一件大事,嘿,我们正在安排患者接受化疗。
他们已经等了很长时间,但她似乎不太高兴。我们注意到早上我们真的很忙,然后下午就什么都没有了。所以我们的临床医生要么不堪重负,要么病人不多。我们挖掘了两件事。他们不知道治疗需要多长时间,可能会有副作用,临床医生希望照顾他们的病人,确保他们有足够的时间。
所以也有瞎想怎么过,各过多久的。在那个位置可能需要一个污点。因此,如果我们能够预测那个周末,开始有效地调度,然后优化调度,优化操作,在日历中,这可以进行吗?就地点而言,这能去哪里?当疫情启动时,我们已经做好了充分的准备,这对太空和脆弱的病人来说变得更加重要。
不过,这是从一个运营挑战开始的。时间表。非常实际的事情来解决。这带来了巨大的不同。我听说过一些病人说,嘿,我,我可以继续我的生活,不需要等待。我可以在方便的时候来,但现在他们不在。并且冲击了很多承诺,诊断,或者检测,早诊断,早检测给临床医生一些时间去干预。
我们听说过这个以及败血症或急性病之类的事情。我们谈论的是像肺动脉高压这样的疾病的早期检测,这种疾病经常在晚期被诊断出来。我知道这是我们正在做的事情。这些都是很大很大的机会,我们可以在那里治疗病人。因为我们可以检测和诊断这些疾病。
第三个是患者自己的体验,比如运营组件,当然,它有一个患者体验部分,但只要了解患者的旅程,他们在哪里面临挑战,他们如何体验医疗保健系统,以及我们可能没有以我们应该的方式提供护理,数据就可以帮助我们了解这一点并提供帮助。
提供更好的体验,在生物层面提供更个性化、定制化的体验,以及个人层面的偏好、互动方式和接受护理的方式。
医疗保健行业面临的主要数据挑战
Adel Nehme:我喜欢你在这里对运营部分的阐述,因为每当我们谈到。医疗保健中的机器学习。
我们总是谈论令人向往的用例,我认为我们都同意这些用例非常重要。例如,我很高兴看到 deep minds、alpha fold 和药物发现的影响,但这并不意味着我们现在不能用数据科学来影响人们的生活,只是通过解决运营挑战。
当谈到数据科学和医疗保健时,我们经常谈到医疗保健领域特有的挑战,例如访问相关的可互操作数据、人工智能的道德规范以及其他许多问题。我很乐意。如果可以分解,您认为医疗保健行业面临的主要数据挑战是什么?
Curren Katz:我和各行各业的同事都聊过,实际上男性和汽车是非常不同的行业,没有人告诉我我们的数据是完美的。在这方面没有真正的问题,也没有想过这个问题。当然,听到这些你不会感到惊讶。在医疗保健领域,我们也面临着同样的问题,以及不同四轮数据的互操作性。
但我想我们意识到了。a .其他行业面临这个问题,B .你知道,这里也有解决方案。这是整个话题。人工智能的伦理是非常非常重要的。所以这变得至关重要。在医疗保健领域,我并不是说,如果你向消费者推销,好,你当然不想。
但是如果有人推荐我买烤面包机,而我刚买了一个烤面包机,那么我可能不会再买第二个了。这件事刚刚发生在我身上。没什么大不了的。这并没有真正影响到我的,你可以用这些算法进行实验,让他们出来,让他们很快出来。
在医疗保健行业,我们显然不得不考虑其他行业也面临这一问题。有风险。所以你必须认真考虑你在做什么,可能会发生什么,以及这个算法将如何工作。什么,你将如何建立这个过程并把它做好。这并不是说我们无能为力。
有很多,因为有很多问题和事情我们今天做得不是很好。所以只要我们不把事情变得更糟,我们应该尝试一些事情,但那总是会发生的。这是一个非常大的挑战,也是相对于其他行业而言我们应该面对的一个重要挑战。只是在说数据。
显然,数据本身的敏感性使得获取数据或考虑如何使用、共享数据以及数据可能处于何种环境变得更加困难。我的意思是,这应该是一个挑战,我们应该把它当作一个好的挑战。还有我们说的那个。我们永远不够好,因为这是人们生活中最敏感的数据。
因此,我们应该不断改进和思考我们如何保护这些数据,我们如何使用这些数据,我们如何确保我们以减少不平等的方式使用这些数据,以及我们如何提供医疗服务,我认为这是可以的,但我们必须负责任地使用这些数据,并考虑到这些数据非常非常敏感。或许比泄露出去更严重。
我买了个烤面包机,没那么兴奋。我买了一个咖啡机。并不是说它不令人兴奋,但这是一个相当大的问题。
Adel Nehme:我完全同意这一点。让我们稍微活跃一下话题,谈谈人工智能在医疗保健中的伦理问题。当我们谈论在医疗保健中使用机器学习和人工智能时。
无论我们开发什么,最终都会产生有害的结果,或者会被不负责任地使用。通常,答案是不利用机器学习和人工智能。因此,我很想了解你如何评估医疗保健中机器学习和人工智能的有害结果的风险。你如何将它最小化?
Curren Katz:嗯,一个很好的问题。了解潜在的有害后果是很重要的。你必须了解你正在解决的问题。与跨职能团队、临床医生、任何使用、实施和执行您的模型的人合作。你必须让房间里的每个人都参与到这个过程中,并从头到尾理解这一点,因为这是你找到风险所在的唯一方法。你必须明白如何,如何。利用这些信息做出决定。什么是缓解,你能在系统中的每一点建立风险吗?这有时也是数据科学家的工作,尤其是当他们开始工作时,他们会很兴奋地建立模型,并且会无意中跳过这一部分。
当我读到人力资源部的简历时,比如算法。你喂它什么。历史数据反映了我们人类的偏见。所以算法,如果你不去想它,不去解释它,它会学着去做人们已经做过的事情,这不一定是道德的,但是。
当有了数据和算法,我们就有能力去修复它,并且比我们在人类身上做的更多地控制它。但是我总是从头到尾考虑如何做出决定。不可能只是算法的问题。另一方面,这听起来很简单,但是换位思考和以人为中心的设计思维方式对于数据科学来说非常有价值,因为你开始。
设身处地为受此影响的人、患者、他们可能面临的所有事情以及基于算法可能发生的所有事情着想。所以你必须从这个角度去思考。当然还有技术和数据。有哪些偏见?
你选择的算法,减轻和纠正它的方法。你能吗?这是一份工作,一项技术专业知识,一名数据科学家必须具备的,现在这是必不可少的,特别是在医疗保健领域,但在我们想去的任何地方。另一个明显的问题是,我们是否选择了正确的用例?
就像运营的例子一样,医疗保健领域有很多问题需要解决。我们应该考虑所有这些,但也许更容易、更快的胜利是那些有一点点的胜利。伤害的机会更少。如果是,也许我们只是随机的,我们今天和每个人的交流方式都是一样的。
也许如果我们试着找出一些偏好,试着定制一张床,并从中学习,这可能比检测疾病或改变护理过程的风险更低。在医学和卫生保健领域,这并不能取代临床医生。我们希望这能增强临床医生的决策。制造。
创建人工智能治理框架
Adel Nehme:太棒了。我喜欢你从以人为中心的设计等其他领域汲取灵感,鉴于此,你认为医疗保健也可以从风险管理风险分析中汲取灵感来创建人工智能治理框架吗?
Curren Katz:我认为这是一个很好的问题。绝对没有工业。我们不能从中学习,我们必须一直关注医疗保健之外的领域,关注医疗保健的不同部分,但肯定要关注医疗保健之外的领域。
这就是为什么我有意在我的团队中雇佣其他行业的人。我想要制造业的人,这很有效。他们进来看了看,然后说,这不是一个容易的问题,但却是一个很容易解决的问题。我们一直在处理这个问题。有点,我的背景主要是医疗保健。
我认为。安排化疗药物在不同地点的运输,我认为这是一个相当大的挑战,但我知道其他行业已经解决了这个问题。因此,我期待这些行业的人加入进来,把这种想法带到医疗风险管理中来。
当然,这是我们做的事情。我们对我们所做的一切都有一个风险缓解计划,尽早考虑所有事情,我们需要时刻关注医疗保健领域以外的每个行业。
Adel Nehme:当思考医疗保健特有的其他一些障碍时,如数据访问和绘图可操作性以及收集,需要改变什么。
因此,数据科学、医疗保健创新在这里加速发展。需要解决的是监管创新行业标准。
科伦·卡茨:监管成分是存在的,这很重要。整个医疗保健行业正在开展协作和讨论,以确保监管环境满足数据科学的需求。
这是一个持续的过程。另一个例子是,可能每个行业都有,但我在医疗保健行业看到很多。这些系统非常复杂。我们有不同的电子病历系统。这里有很多台阶。数据科学家并不总是了解临床医生如何与该系统互动。这可能是他们的解决方案交付的地方,是价值实现的地方,但它们是非常复杂的系统,为了将它们全部连接起来,我们可能需要使用来自多个来源、成像设备等的多模式数据,以便在不同的时间范围内真正了解患者的全貌。
来真正扩展和实施这个解决方案。我们需要将这些系统连接起来,这样你就可以一次完成,获取所有的数据,把它们放在一起,然后建立一个模型。但是,在看到这些系统的一些简化和一些考虑之后,你如何部署该模型呢?嘿,使用这些数据来部署解决方案、无缝连接和简化事物非常重要。很高兴看到。我想我们可能会看到这一点。正如我所说,它可能也存在于其他行业。另一个是有数据科学、数据素养或人工智能素养经验的人。我们不需要临床医生和医院管理者。他们不需要成为数据科学领域的专家。
我认为当我们都提出那种理解和认识的时候。数据科学是如何工作的,这些东西是如何被使用的,并且能够说一些有帮助的相同的语言。然后我们再说一遍,在每个行业,除了一个,我认为我们有很好的机会在医学领域解决。
很多人都有科学背景,数据科学也有科学。所以。应该是个好地方。我已经看到许多积极参与的临床医生,许多人带着大量的知识和实验设计前来,这些都在向前发展,但我们可以做得更好,我们需要继续努力。
Adel Nehme:从数据质量的角度来看,数据素养的组成部分非常重要,因为许多医疗保健专业人员正在将这些数据输入到这些系统中。如果他们没有认识到数据在数据科学价值链中所扮演的角色,那么这条价值链最终将会断裂,因为没有人关注数据质量,对吗?
Curren Katz:这是一个伟大的观点。事实上,数据素养是双向的。这是数据科学家的商业素养,是理解的一部分。临床医生如何输入数据,他们如何与 EMR 系统交互,或者在保险方面,护理经理如何识别和联系保险计划的成员,以帮助他们协调护理和管理慢性疾病。
但是我们必须了解这些数据是如何进来的,反之亦然。如果我们展示数据科学的价值,提供医疗服务的人们。医疗保健生态系统的一部分将能够与我们合作,并说,好吧,就像我可以吃东西一样。我可以看到这种区别的价值,只要我们不占用他们与患者互动的时间,并做到这一点。
Adel Nehme:这也是,鉴于我们正在讨论数据科学和医疗保健的价值,我想重点讨论一下你作为数据和人工智能领导者、强生公司的经验。我很想了解和挖掘一些最激动人心的用例。你已经看到了数据团队的工作,特别是在强生公司的医疗保健领域,特别是考虑到研发团队在强生新冠肺炎疫苗发布后一定经历了一段非常有趣的时期。
卡兹:是的。这里,有三个真的浮现在脑海里,一个,我们都是。如此深入,它总是一个很好的例子。所以这是,我认为这是一个很好的例子,在计划临床试验时,使用数据科学来解决实际问题并产生影响,正如你可以想象的,它们是复杂的。
有很多计划和。决定在哪里进行审判。就疫苗而言,我们需要找到 COVID 正在传播的地方,这样我们就可以看到这是否很快奏效,并将其传播给人们。这些团队利用数据科学所能做的是预测这些,嗯,未来的热点在哪里,来计划这些的临床试验。
然后,它是有效的,它使我们能够加快速度,真正做到有的放矢,在我们进行临床试验的地方,在我们看到高水平 COVID 的地方。所以我认为这只是一个非常好的例子,它表明数据科学可以。迎接挑战,在压力下真正解决大问题。
没有比这更重要的了,我最近压力很大,整个世界都在疫情,我们需要在数据科学方面做点什么。所以我真的为此感到骄傲。另一个,我想我提到了学习高血压的例子,但这只是我们如何获取数据的一个例子。
一起使用人工智能来更早地诊断病情。这是我们正在做和努力的事情。这非常非常令人兴奋。这是一种诊断不足的疾病,或者当我们可以治疗它并产生影响时,它没有被早期诊断出来。因此,如果我们能够汇集不同的数据来源并预测诊断结果,我们就能真正改变人们的生活。
第三个是通常使用数据来加速我们正在做的事情和我们如何做。嗯,在流程的每个部分,我们可以谈论一整天,但我们使用数字数据和数字端点来更好地衡量结果,使用真实世界的数据,索赔数据,EHR 数据,以真正确保我们了解患者。
我们知道他们的需求是开发出能够改变现状的药物。我们做得高效快捷是因为。我总是想到,如果没有这种技术,病人就得不到这种治疗。所以我喜欢这样。我们总是专注于如何更快地将药物送到患者手中,因为。
这很重要。我们要么认识某个人,要么受其影响。
Adel Nehme:我非常喜欢这里的新冠肺炎用例。这确实是一个数据科学用例的典范,它需要相对简单的数据科学,现在就可以为患者和医疗保健提供商提供价值。所以我很乐意。
如果可以的话,更多地支持那个用例,并讨论这里使用的方法。
Curren Katz:我认为这是一个普遍的过程,对于解决任何数据科学问题都非常重要,而且是在高层次上。我已经建立了多家公司。在这种情况下,首先要确定一个明确的问题,对吗?
很明显,我们不知道计划在哪里进行这些临床试验,这不是我们可以花费的。一天,需要一些时间。那么,我们如何能更早地知道它正在寻找可以用数据科学解决的问题。这是至关重要的一部分,然后是合作,一起工作。
及时设计和实施该解决方案。有时数据科学,如果它变得过于探索性或只是实验性,我们不会考虑我们需要交付的紧迫性和时间表,以及作为团队的核心成员密切合作。为了让这样的事情发生,你必须这样做。
这只是在任何高影响力数据科学用例中必须发生的两件关键事情。我认为那些表现良好的。第三,我很早就得到的一条建议,我一直都在用。我认为,嗯,成功项目的一个组成部分是真正了解你正在构建的解决方案将如何被使用,并确保将要使用它的人参与到规划中,并接受这一点,因为如果你没有被采用,你将无法解决你想要解决的问题。
大型组织中的数据科学
Adel Nehme:我认为有一点是显而易见的,J 和 J 有很多不同的数据团队在做不同的工作。做数据科学和医疗保健是一个挑战,但在大型矩阵组织中工作是另一个挑战,那里有大量的利益相关者和许多不同的团队在解决不同的问题。
我很想知道,尽管如此复杂,您是如何确保保持高效的,以及您可以分享的一些最佳实践。管理数据团队和大型矩阵组织,并与其他数据领导者合作。
Curren Katz:我认为一个重要的趋势是回到共同使命愿景,这是你正在努力做的事情,因为在医疗机构或任何组织中,但肯定是在医疗机构和强生公司,这一点非常清楚。
我们给病人送去药品,最终拯救了人们的生命。削减矩阵,大公司的复杂性。当然可以。它是存在的,但文化和对患者的关注以及我们正在做的事情将我们团结在一起,打破了这些孤岛。我认为,如果在任何一家公司,如果你发现并专注于这个问题,这个问题和你所关心的,每个人如何受益。
真的很有帮助。另一点我认为是至关重要的。尽早从整个公司引进人才,这样就不会出现孤岛。第二,如果它变得更加复杂,当数据科学发生在筒仓中,然后你拿出一个解决方案,业务的不同部分在想,哦,不,我们需要更早地参与进来。
或者这里有点偏。这可能比想象的要难。让我想到了 mate 大型矩阵组织的优点,以及我继续为他们工作的原因。当我喜欢成为大型矩阵组织的领导者时,你会拥有难以置信的资源。你有专家,有法律团队,有供应链。
这里有很多专家。你正在开发解决方案的领域,对于一个初创公司来说是一种奢侈。我与公司交谈,人们有很好的想法,他们必须努力工作才能获得,嘿,你能告诉我一些你遇到的问题或这是如何工作的吗?
如果他们在大公司里没有这些资源,你会得到很多支持,但你永远也不会去阅读。太多或太早,想想,嘿,你知道吗,我有点纠结,也许你觉得营销怎么样?哦,我们有一个营销团队。他们,每个人都喜欢参与,他们喜欢帮助。
大多数公司,我想你会发现这一点。所以,伸出手去,利用那些让大公司变得伟大的资源。因为否则你将会。大公司所有不好的部分,而不是好的部分,为什么要这样做?
Adel Nehme:太好了。那么,能够接触到整个价值链中的医疗保健主题专家一定是特别有益的,因为这将帮助您培养这种同理心,以创建以人为本的数据科学解决方案。
Curren Katz:没错。不,绝对的。我们只要打几个电话就能轻松做到。快速留言。好像我们这些人乐于交谈,并以此为关键。是的。能用上棒棒的真是太好了。
Adel Nehme:太棒了。鉴于研发在医疗保健领域的重要性,我确信这些与主题专家的对话也影响了路线图。
你如何确保长期研究和短期成功之间的适当分离,从而帮助你前进?
卡兹:是的,绝对是。现在,我在研发环境中,开发药物,这是一个长期的观点,这真的很有趣,可以看到,有很多短期的。
在通往最终目标的道路上一点一滴的努力。所以,如果你和临床团队一起工作,就像我们一样,我们真的在一起工作,或者在任何一家公司,你都在和业务领域一起工作,并谈论端到端是什么?最终的长期结果是什么样的呢?
有哪些片段?这些快速的胜利,正如你说了很多让你到达那里,你得到了那种组合。我认为重要的是。在您拥有的数据科学产品组合中,仔细查看有多少是真正的,我们还需要几年才能看到其价值。这是数据科学中的一件事,你需要知道,因为你必须小心,不要让时间表与技术和变化的速度发生冲突。
你应该早点考虑,但是是的。看看我们有多少长期项目,我有多少短期、快速的成功?然后还有。纯探索性的没问题。我要摆弄一下这些数据。看看能不能开发出这个模型。拥有它也很棒。它只是查看整个投资组合,并确保所有这些桶中的工作百分比是您想要的,需要的。
Adel Nehme:你如何决定在你的研发日程中研究哪些领域?
Curren Katz:好事情是在一个研发组织中发生在如此高的水平上,但让它回到一个简单的概念,即未满足的需求和患者需要什么。我认为它适用于任何地方,哪里有未满足的需求,我们就可以把数据科学带到哪里,当然,这是。
进入我们开发什么的计划?这是一个药物研发机构。这是一个大过程。这是生意的核心。然后是数据科学部分。数据科学如何支持、加速和增强?那个,那个投资组合,那个,那个研发过程。随着我们的成熟和相互交流以及数据科学的发展,我们正在做强生公司、强生公司、强生公司的研发工作,强生公司的数据科学团队和能力非常出色。
Con 是我们的主要数据。警官刚刚建立了一个非常先进的能力。该公司在数据科学、研发和商业领域以及整个公司投入了大量资金。很高兴看到。这让我明白这是对的。我们已经讨论过这种影响。
研发组合,这可以帮助你实现你的目标,我们已经进行了成功的对话,这就是为什么我们能够发展并真正使用数据科学。
你期待什么?
Adel Nehme:现在,Curren,当我们结束时,我想看看未来。你认为你特别期待看到的数据趋势和创新是什么。
Curren Katz:非常重要的一点。我非常兴奋的是公平的概念。所以我们讨论了风险以及人们不想在医疗保健中使用人工智能的原因。这个 com 出现了很多,真的是。任何一种高风险行业都会影响该行业,但我对围绕公平发展的能力和思想感到非常兴奋,这两种能力都能够检测算法的偏见和不公平部分,然后甚至可以大规模地即时修复,进行纠正。
我认为这有能力让我们真正使用数据科学,人工智能,机器学习和医疗保健,但它真的。为人们和病人带来巨大的价值,确保他们得到治疗。这是公平的。我们正在考虑一些我们过去不擅长的事情,也许这能让医学变得更好或者任何领域变得更好。
所以公平对我来说很重要。未来趋势。当然,我认为我们将继续看到规模。我们将继续看到一点,我不想说追赶,但我们处于一个很好的位置,超越其他行业,对不对?真正完善或取得了巨大的进步,并将人工智能嵌入到他们业务的每个部分。
我们可以利用技术知识、平台和零件,从医疗保健开始。我认为我们将会看到这种情况继续增长,因为当我们开始产生影响时,我们将需要考虑这如何成为医疗保健的核心部分
阿黛尔·奈姆:卡林。很高兴你能来参加这个节目。在我们结束之前,你还有什么最后的行动要求吗?
Curren Katz:你知道,这是着眼于影响。就像我一直鼓励数据科学和数据科学领导者思考科学解决方案是如何解决业务问题的?它是如何产生影响的,它是如何以正确的方式做事情的?
因此,关注影响,了解背景,保持公平,但真正要全力以赴,有所作为,因为我们已经为数据科学做好了准备。
Adel Nehme:感谢你来到 dataframed。
Curren Katz:不,谢谢你。谢谢你邀请我。
数据科学如何应用于汽车生命周期的每一步
福特汽车公司的 T 型车最早建于 1908 年,因其低成本、耐用性、多功能性和易于维护而经久耐用。它被誉为“推动世界前进”,通过制造效率以普通消费者可以承受的价格扩大全球流动性。
今天,汽车行业仍然处于技术的领先地位,并改变着世界从 A 点到 b 点的方式。在我们最近的网络研讨会中,福特汽车公司首席数据科学家兼我们的课程用 Python 进行信用风险建模的讲师 Michael Crabtree 表示,关键的区别在于其创新现在是由数据科学驱动的,而不是由制造业驱动的。
福特的创新现在由数据科学驱动,而不是制造业。
智能城市需要汽车行业的数据科学
与 100 多年前 T 型车的制造可扩展性如何为大众带来移动性类似,今天数据科学正在为低收入群体扩展移动性。它使交通变得容易,而不需要高昂的拥有成本,并且正在促进每个人的这种变化,无论他们的阶级、性别或能力如何。
例如,优化算法可以为企业提供节能车辆,为农村社区提供服务,从亚马逊送货到管道和食品配送。数据科学家还与可靠性工程师合作,生产帮助不同能力社区的车辆。
这些只是几个例子,但是 Michael 指出,数据科学几乎有无穷无尽的用例,其中许多还有待探索。
在汽车行业使用数据
由于汽车行业的成熟和广泛覆盖,公司有很多机会围绕数据重建。
一个应用程序处理跨不同数据系统和数据类型的数据。许多数据科学家习惯于使用表格数据,这意味着数据是表格格式的,类似于 Excel。但是汽车数据科学家要处理的数据种类要多得多。例如,汽车工业中的原始仪器数据通常存储为十六进制数字流。他们还可能会遇到来自智能系统的图像和传感器点云形式的数据。为了了解自动驾驶汽车为什么会以某种方式运行,以及这种方式在不同车型之间如何变化,汽车数据科学家可能会将点云与仪器数据结合起来,并将其加入一组表格中。
另一个机会是容量:Michael 在 Ford 创建的最大数据库包含 800 亿行,查询时间不到 10 秒!汽车行业中的一些实时和事务系统每天处理超过 1.5 亿条记录。因为产生了如此多的汽车数据,所以需要非常大的数据集群。汽车行业的许多公司都有 Pb(一百万 GB)范围的数据集群。
数据科学涉及汽车产品生命周期的每一步
数据科学推动产品开发
在汽车被出售给消费者之前有很多步骤。汽车数据科学始于产品开发。数据科学用于分析新模型配置和建模组件可靠性等任务。数据科学不是作为一个孤立的系统在每个阶段构建组件和测试,而是通过大规模的模拟和分析来补充这一过程。
数据科学推动制造业的卓越发展
汽车数据科学家还确保只销售高质量的汽车。虽然工程师能够测试每辆车的质量,但这必须针对每辆车单独进行。数据科学家可以分析整个零件群体、供应商和测试数据。他们密切分析供应商的财务表现,根据过去的表现预测他们按时交货的能力,并使用计量经济学和回归分析来检查供应商所在地的经济状况。
数据科学推动互联和自动驾驶汽车
当今未来主义最热门的话题之一是联网和自动驾驶汽车,它们依赖于深度学习模型和传感器融合算法。数据科学对于制造这些车辆至关重要:它用于将油寿命监测器、电池充电监测器和完整的诊断仪器等物联网指标转化为可操作的见解。例如,仅仅检测行人是不够的——传感器必须能够辨别他们正在走向哪里。安全系统也很重要,包括驾驶员保护和环境安全。
这些车辆的新互联系统提供了新的服务——它们与其他车辆、城市和基础设施相连。我们只是在探索这个市场潜力的初级阶段。2019 年,全球联网汽车市场约为 630 亿美元,到 2027 年,该市场将增长近四倍,达到 2250 亿美元( Allied Market Research )!
数据科学推动可持续发展计划
可持续发展对所有汽车制造商来说都非常重要。各国政府设定了燃油效率目标,但每家汽车公司都有自己的目标。而且每辆车的燃油效率都不一样,所以需要数据科学来优化一家公司全线车辆的燃油效率。因此,如果一家公司希望在其产品线中同时提供大型耗油皮卡和电动汽车,汽车数据科学家可以进行优化,以最小化整个车队的油耗,同时坚持公司的全球销售目标。优化工作可以让汽车制造商在燃油效率方面获得政府的信用。这有三重好处:有利于环境,为客户提供更多价值,以及开辟潜在的收入来源。
数据科学的其他汽车用例
除了我们提到的,数据科学还会影响汽车生命周期的许多其他阶段。在营销和销售领域,数据科学预测客户流动和流失。在服务和客户分析方面,数据科学改善了客户的购后体验,并提高了产品质量。要深入了解数据科学如何推动汽车未来的用例,观看 Michael 的网络研讨会点播。
数据故事如何拯救生命 Semmelweis 的案例研究
数据故事讲述是一种结构化的方法,使用叙事元素和探索性视觉效果来交流数据见解。那些希望将数据转化为见解和决策的人将从掌握讲述数据故事的艺术中受益。
与展示统计数据相反,数据故事更吸引人、更令人难忘、更有说服力。在一项对救助儿童会慈善组织的两个版本的宣传册进行测试的研究中,获得信息图版本的捐赠者比获得故事版本的捐赠者少捐赠了大约 50%的资金。在另一项独立的研究中,研究人员发现,当人们听到一个故事时不那么怀疑,但当只看到统计数据时,却更加吹毛求疵。
数据故事由三个关键要素组成— 数据、视觉和叙事。要讲述一个好的数据故事,需要选择正确的数据,使用引导数据故事流程的叙述结构,并用引人注目的视觉效果来说明数据故事。
Figure 1: Narrative, visuals and data are data stories that drive changes
Semmelweis 的案例研究
历史充满了糟糕的数据可视化的警示故事,这些数据可视化未能像数据故事那样推动行动。Brent Dykes 在他的书《有效的数据叙事:如何用数据、叙事和视觉推动变革》中引用了 Ignaz Semmelweis 博士的故事。
发现洗手可以拯救生命后,Semmelweis 未能说服持怀疑态度的医学界相信他的发现。事后看来,数据讲故事的原则本可以帮助他更好地传达自己的见解,从而挽救成千上万人的生命。
被称为“手部卫生之父”的 Semmelweis 是一名匈牙利医生。1844 年,Semmelweis 在一家产科诊所担任助理,那里的许多妇女都患有产床热——一种由产后感染引起的发烧。
在诊所工作期间,Semmelweis 被一种特殊的趋势所吸引。医生和医学生经营的诊所的死亡率与助产士经营的诊所的死亡率(3.9%)相比,产床热的死亡率(9.9%)明显较高(图 2) 。与内科医生和医科学生不同,助产士在分娩前不做任何尸检。这使他得出结论,来自尸体的物质增加了这些女性的死亡风险。
Figure 2. Clinics operated by doctors who did not wash their hands caused more deaths.
知道了这一点,他提出了洗手的习惯,这大大降低了死亡率。然而,这些发现并没有帮助他说服他的导师克莱恩教授相信他的理论。
Semmelweis 在他的余生中一直是洗手的强烈支持者,但却无济于事。1861 年,Semmelweis 向医学界发表了他的著作《产床热的病因、概念和预防》,医学界对他的学说作出了批判性的回应。1865 年,塞麦尔维斯在精神病院去世,远在细菌理论被广泛接受之前。
Figure 3. The Etiology, Concept, and Prophylaxis of Childbed Fever have hundreds of pages and no charts
为什么他没能说服社区?
Brent 用这个案例研究证明了数据叙事的三个组成部分——数据、叙事和视觉——在通过数据故事推动变革中是不可或缺的。在这个案例研究中,Semmelweis 的数据被置若罔闻,因为它们既没有令人信服的叙事结构,也没有用视觉效果来说明。结果,尽管 Semmelweis 的数据是准确的、有价值的、可操作的,但他未能说服他的观众。
回想起来,Semmelweis 本可以用数据故事更令人信服地传达他的信息。这里有一个 Brent Dykes 的折线图的例子,它结合了数据、叙述和视觉效果来讲述一个令人信服的数据故事。
Figure 4. A data story by Dykes that better illustrates Semmelweis’ point.
Semmelweis 的方法与英国医生 John Snow 的方法形成了直接对比,他研究了 1854 年 Broad Street 霍乱爆发,并假设细菌污染的水导致了霍乱。在证明了水泵附近的死亡率很高之后,斯诺说服了地方议会关闭了水泵。
FIgure 5: John Snow’s data visualization
结论
与 Semmelweis 不同,今天的数据故事讲述者可以使用大量工具来创建引人入胜的数据故事,从 Tableau 等商业智能工具到 T2【python 等编程语言。对于现代数据从业者来说,掌握数据叙事的艺术和科学来推动行动才是明智的。
DataCamp 如何处理课程质量
在 DataCamp,我们为拥有学习数据科学的最佳平台和最佳课程而自豪。为此,我们付出了很大的努力,以确保每项练习既有教育意义,又令人愉快。课程启动后,我们并不认为它是完整的:启动只是数据收集的开始。每当学生在课程中尝试一个练习时,我们都会捕捉数据点,例如他们尝试了多少次来解决这个练习,以及他们是否需要通过询问提示或解决方案来获得帮助。通过汇总所有学生的数据,我们可以了解一个练习的难度。此外,学生可以从一颗星到五颗星对练习进行评级,并向我们提供反馈,让我们知道练习的受欢迎程度。
我们的内容质量团队与教师合作,根据这些数据改进课程。这有各种各样的形式,因为很多事情都可能在练习中出错。
有时候,小事情会让很多学生心烦意乱。在数据科学工具箱(第一部分)中,学生们学习如何使用基于 J.R.R .托尔金的《指环王》三部曲中的《指环王》的数据集编写 Python lambda 函数。不幸的是,数据集遗漏了甘道夫和皮聘。我们的学生很有理由抱怨,所以我们倾听并解决了问题。
分析许多练习的反馈可以揭示学生的误解模式。许多数据分析以矩形形式保存数据,每行是一些记录,每列是属于该记录的一个值。例如,每行可以对应一个人,列可以是他们的名字、身高和他们最喜欢的颜色。
一个真正常见的数据操作实践是过滤矩形数据的行。教师可能会写下这样的指令:
过滤数据集,删除身高低于 170cm 的行。
这是可以的,但是大多数统计软件,包括 R 的 dplyr 包和 Python 的 Pandas 包,让你通过指定你想要保留的东西来过滤数据集。如果指令以下列方式重写:
过滤数据集,保留身高超过 170cm 的行。
然后,指令与代码的工作方式相匹配,避免了学生的困惑。对于要求学生熟悉数据操作的高级课程来说,这种措辞不是问题。在我们的熊猫基金会课程中,我们发现许多学生都在努力解决这个问题,并改变了语言。
所有 DataCamp 练习都使用我们的内容工程团队开发的软件自动评分。如果学生答错了,这允许他们得到即时的智能反馈。这可能是我们平台最大的特点。最难的部分之一是预测学生将会做错什么,以便给他们好的建议,告诉他们下次应该做什么。这意味着有时一个正确的解决方案会被标记为不正确。出现这种情况,学生真的很讨厌。有一次,一名学生抱怨说:
在我们的 R 课程中的聚类分析中,许多学生发现,尽管一个练习的建议解决方案使用了众所周知的 min()函数来计算最小值,但还有一个更简单、更优雅的解决方案,它使用了鲜为人知的并行最小值函数 pmin()。
最初,这个练习只允许一个解决方案,但是基于学生们的巧妙想法,两个解决方案现在都被接受了。内容工程团队开发 DataCamp 反馈系统的目标之一是提高评分的灵活性,允许学生以自己的方式解决问题。
学生在使用我们的自动反馈时可能遇到的另一个挫折是,在做练习时重复看到相同的反馈。原理如下图所示,要求学生创建一个包含三个元素的 Python 数组。
通过提供更细致的反馈来解决学生答案中的具体问题,我们可以提供更积极的学习体验。反馈改善的结果令人鼓舞。在我们的中级 Python for Data Science 课程的一个练习中,切换到粒度反馈意味着学生不止一次看到相同反馈消息的比例从大约 65%下降到 10%以下。
不止一次看到相同反馈信息的用户百分比是我们对所有练习和课程进行监控的指标。结合课程的受欢迎程度,我们创建了一种数据驱动的方式,以最具影响力的方式不断改善学习体验。
我们今年年底的目标是,对于所有课程中最受欢迎的那一半,每门课程所有练习的平均重复反馈百分比低于 30%。
我们将继续在学生可以在 DataCamp 上学习的所有技术中添加这些改进。在内部,我们还改进了用于创建反馈和分析学生提交内容的工具,以确保我们不断改善所有当前和未来内容的学习体验。
练习可能会出错的地方还有很多,但我希望这能给你一些鼓励,DataCamp 倾听学生的反馈,并不断努力提高学生对我们课程的满意度。
DataCamp 认证如何帮助学员找到他们梦想中的工作
最近,我们采访了两位认证数据营学员,了解获得认证和我们的个性化职业指导如何帮助他们找到理想的工作。
在 DataCamp 上学习和应用技能后,获得认证是帮助您启动或推进数据科学职业生涯的下一步。
彼得是这种经历的完美例子。
从年轻时起,你可以看到彼得玩多种运动,如篮球、曲棍球和他个人最喜欢的棒球。他对运动的热爱激发了他在野外工作的兴趣。在卡尔顿大学完成学业后,他在该大学找到了一份体育统计学家的工作。在这段经历中,Peter 很快意识到他需要进一步提升自己的技能,以继续在体育分析领域的职业发展。
这就是 DataCamp 的用武之地。Peter 总共花了三年时间学习和实践,以不断扩展他的技能组合。案例研究提供了将他的技能应用到投资组合中的理想机会,通常他会花两周时间研究一个案例。
DataCamp 推出认证后,Peter 抓住机会,成功完成了评估。获得认证后,Peter 联系了我们的职业服务团队,该团队帮助他寻找工作。
“我们围绕我的简历进行了一整场谈话。与 DataCamp 职业服务团队合作确实帮助我在求职过程中成功定位自己。”
还记得那个被播下在体育行业工作的小种子吗?认证是他的敲门砖。通过这次经历,Peter 在加拿大奥林匹克队的分析团队中找到了一份工作!鉴于加拿大队在今年夏季奥运会上取得的成功,我们确信彼得将会有很多机会:7 枚金牌、6 枚银牌和 11 枚铜牌!
接下来,我们想向你介绍塞巴斯蒂安。Sebastian 最近搬到了美国(在疫情期间),他借此机会通过 DataCamp 进一步提升了他的数据科学技能。在获得认证并与我们的职业服务团队合作后,Sebastian 在强生制药行业找到了他梦想中的工作!
“这个过程太棒了!提供顶级见解和建议的个性化会议!”
从哥伦比亚搬来后,塞巴斯蒂安过去不习惯写求职信。我们的职业服务团队能够帮助他弥合这一差距,并帮助他走向成功。在他的下一个角色中,Sebastian 将在强生公司担任数据分析师,开发洞察仪表板,未来将在机器学习的帮助下工作。
我们祝愿他们俩在未来的努力中好运连连!
有兴趣获得 DataCamp 的认证吗?立即开始您的认证之旅
企业组织如何成为数据驱动型企业
亚马逊、网飞、谷歌和 Airbnb 等成功的科技公司有什么共同点?他们都扩展并运营了他们的数据科学功能。这意味着他们已经建立了一流的数据团队,并采购或构建了自己的数据工具。这需要设计强大的内部流程和架构,利用数据推动业务发展。
让我们来看看大型组织如何构建有效的数据科学功能。近年来,许多组织聘请了首席数据官,建立了数据科学家和数据工程师的团队,并找到了一种货币化和共享数据的方法。但 NewVantage Partners 在 2020 年 1 月的调查显示,在接受调查的 70 家公司中,98.8%的公司一直在投资大数据和人工智能计划,但只有 37.8%的公司能够声称他们创建了一个数据驱动的组织。
成为数据驱动型的最常见障碍是人员和流程挑战,即运营和构建可重复的流程、创建功能性数据基础架构以及弥合数据技能差距。
数据要求
以下图片总结了数据的可用性和可靠性:
第一,数据必须是在正确的时间,以正确的方式,有目的的收集。然后,它必须是 可发现的 ,这意味着组织中的所有数据用户都必须知道这些数据已经被收集,并且能够找到它们。接下来,数据必须被证明是 可靠的 ,没有缺口或者不一致。它还必须容易理解——例如,它应该有正确的结构和标签。符合标准至关重要——必须有适当的安全协议来控制对敏感数据的访问,一些行业有监管标准。最后,数据必须是 可操作的 ,这意味着数据用户拥有正确使用数据的技术、培训和道德框架。**
**## 成为数据驱动型的挑战
要满足这些数据需求,有三大挑战:组织、文化和技术。
组织挑战
大型组织通常有竖井,团队在竖井中可能有不同的目标。这些孤岛可能是由于法律要求而存在的,这在财务中很常见,或者它们的存在可能只是因为团队在过去没有协作过。无论是什么原因,孤岛都会导致沟通不畅和不一致,从而损害组织的整体效率。
这种情况的一个症状可能是经理们想要建立更大的团队或创建一个以上的人工智能卓越中心。
文化挑战
组织数据素养——其中每个人都拥有成功的数据技能——通常被认为是一个崇高的目标,一些组织可能不愿意冒险去实现它。这就是为什么 DataCamp 试图解开像机器学习这样的主题,以帮助组织了解数据如何有实际用途。给员工授权,让他们更容易掌握技能是关键。
文化挑战也可以体现在整个组织的不同激励机制中。管理层可能希望向他们的上级展示引人注目的仪表板,工程师希望使用最新、最好的工具,而业务用户可能只想回答一个特定的问题或简化流程。不可能总是让每个利益相关者都满意。这与前面提到的组织挑战相关,目标是使数据战略与整体业务战略保持一致。
技术挑战
马克西姆说,大型组织通常将“一堆拼凑起来的遗留系统”作为记录数据的核心系统。这些系统可能很难提取数据或进行扩展,但通常情况下,部门领导不想承担大项目。他们害怕承担替换他们的转换成本、潜在的项目失败成本、额外的再培训成本以及对生产力的短期打击。这些都是缺乏统一数据战略导致的短视错误。
其他技术挑战包括法规遵从性和安全标准,如 HIPAA、FERPA、GDPR 和 CCPA。公司必须遵守这些标准,以避免不道德的数据使用。
面对这些挑战,Brian Balfour 称之为数据死亡之轮,如下所示。它表明,没有持续维护的数据会变得不相关或有缺陷,导致人们对数据失去信任,最终减少对数据的使用。
实现数据驱动的解决方案
那么,老牌企业如何才能像网飞和 Airbnb 一样成为数据驱动型企业呢?他们必须围绕数据进行重建。以下是方法。
了解地形
大型组织必须了解存在的不同孤岛以及它们如何相互通信。他们必须在管理层培养支持这一旅程的拥护者。他们必须与所有利益相关者交流数据目标。
识别您的用户
接下来,为了促进成功的数据驱动转型,您必须了解您的角色。深入理解每个角色,无论他们是数据消费者、领导者、数据分析师还是数据科学家,都将有助于您了解如何最好地帮助他们,并在您的任务中利用他们。
从小处着手,保持简单
马克西姆说,首先,不可能一下子解决所有问题。专注于影响是非常重要的。选择一个在整个组织中可见且有影响力的项目,并且不需要大量的利益相关者或协调。首先获得一系列轻松的胜利将会促进认同并确保数据项目的可见性。您还将能够迭代数据工作,并为未来的数据项目利用学到的知识。
使数据战略与业务战略保持一致
将数据战略与业务战略结合起来意味着什么?马克西姆的实际建议是,选择能够扩展和测试你的基础设施、服务于你的商业用户、并与公司目标和结果相一致的数据项目。确保每个项目都有文档记录,可重复,并遵循最佳实践。然后,在管理层的支持下在全公司范围内扩大你的成功,这样你就可以在这些成功的基础上继续迭代。
数据驱动是什么样子的
数据驱动要求能够衡量数据计划的成功。马克西姆说,使用容易获取的指标很有吸引力,比如项目总数、完成的数据集数量或回购追随者数量。
“这些都是很好的衡量标准,但它们并没有真正解决你成功的核心问题,”马克西姆说。“我会更多地考虑利用数据做出决策的数量。还有,找人找一组数据需要多长时间,或者说获取数据的时间。你还应该看看有多少目标、目的和 okr 被设定并被数据追踪,包括它们是如何被审核的。”
有关在流程复杂的大型组织中实现数据可操作性的更多信息,请观看马克西姆关于在大型组织中实现数据可操作性的网络研讨会。
美国人在假期会花多少钱?
又到了一年中的这个时候:假日季节,伴随着假日消费季节。每年的这个时候,消费主义在美国非常猖獗。但是,美国人在假日季节(定义为从感恩节到年底这段时间)的实际消费是多少呢?从感恩节到网络星期一一共花了多少钱?
在深入研究感恩节到网络星期一的消费之前,让我们看看从 2013 年底到现在,美国每个月在零售上总共花了多少钱。
美国在零售上花了多少钱?
在这里,你可以看到过去几年中每个月在美国花费的金额。请注意,取自 YCharts 的数据是经过季节性调整的,因此我们还不会看到 11 月和 12 月假期期间的增长:
假期消费增加了一倍多
为了了解假日期间的具体支出,让我们放大到 2016 年,看看 2016 年假日期间几个行业的总支出。请记住,假日季节的定义是从感恩节到年底的时间,即从 11 月 24 日到 12 月 31 日,也就是一年中大约 10%的时间。用于生成下图的数据来自国家零售基金会 (NRF)。
您不仅可以看到年度支出主要由“食品和饮料”、“电子和邮购购物”、“仓储俱乐部和超市”以及“建筑和花园用品”构成,而且您还可以了解每年在这些方面的支出数量级,例如,“食品和饮料”超过 7000 亿美元。更有趣的是,你还可以看到,在整个 2016 年,假日期间花在“食品和饮料”上的钱比花在“家具”上的钱还要多,还有其他几个行业。
万亿美元的问题(不完全是)仍然存在:假日季销售额占全年总销售额的多少?下图将向您展示所有这些部门。黑色虚线是 10%,这是从感恩节到年底的天数所占的百分比。
在 13 个行业中的 8 个,超过 20%的年度消费发生在假日季节,是你纯粹从天数上预期的两倍多。在所有行业中,超过 15%的年度支出发生在假期。
美国零售联合会上个月宣布,预计 11 月和 12 月的假日零售额(不包括汽车、汽油和餐馆)将增长 3.6%至 4%,总额为 6787.5 亿至 6820 亿美元,高于去年的 6558 亿美元。
感恩节周末的花费
你刚刚看到了假日消费会变得多么严重。随着感恩节周末的结束,现在让我们放大 NRF 的历史数据,看看购物者更喜欢在这段时间购物:感恩节、黑色星期五、小企业周六或周日(似乎还没有命名)。很快你就会看到网络星期一发生了什么。下图来自 NRF 的 2015 假期趋势和预期假期生存套件 (打开 pdf)。
黑色星期五是明显的赢家!我们仍在等待 2017 年的数据,事实上,正如 FiveThirtyEight 报道的那样,我们需要等待一段时间,因为早期的估计是众所周知的错误,但 NRF 试图通过做一项全国性的调查来预测每年感恩节周末的购物量。根据他们的调查,超过三分之一的美国人说他们会在周末去购物。
在那些回答他们将去购物的人中,66.3%的人说这些交易太好了,不能错过。在那些不会去购物的人中,52.4%的人说他们不喜欢这种体验。更能说明问题的是,在那些表示不会去购物的人中,当被问及“什么会说服你在感恩节周末去商店或网上购物?”46.4%的人说“没有什么会改变我在感恩节周末购物的想法”。
他们计划在哪一天购物?
请注意,条形相加超过 100%(它们实际上相加超过 200%)。这是因为许多人会连续几天去购物。黑色星期五是最受欢迎的,70%的受访者会在那一天购物。
美国人在黑色星期五会花多少钱?
你已经看到黑色星期五是感恩节周末最受欢迎的购物日。但是人们在黑色星期五实际上花了多少钱呢?我们来深究一下黑色星期五到底值多少钱;本图数据来自统计大脑。
从上面可以看出,店内消费金额是网上消费金额的 50 倍左右。然而,这一比例是否在增加?让我们来看看截至 2015 年,黑色星期五在线销售的百分比:
网上销售的比例肯定在增加。现在让我们来看看哪些在线零售商在黑色星期五做得最好:你有什么想法吗?
哪些在线零售商获得了最独特的访问者?
亚马逊的独立访客数量是排名第二的沃尔玛的两倍左右。这可能是因为亚马逊购买的在线广告比沃尔玛多吗?让我们通过谷歌关键词黑色星期五来调查一下哪些零售商在黑色星期五花钱最多?
就广告购买量而言,亚马逊甚至不在十大零售商之列,但它们仍主导着在线零售市场。我们迫不及待地想看看 2017 年感恩节周末零售、在线和店内到底发生了什么。2017 年感恩节周末你花了多少钱?
这篇文章是由 Jupyter 笔记本生成的;你可以在这个库中找到它。如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
NLP 如何改变数据科学的未来
“人工智能不会毁灭人类。相信我。”对于那些担心流氓人工智能以人类为目标的风险的人来说,这些是令人欣慰的话。唯一的问题是:文字本身是由一个人工智能写的。
语言模型 GPT-3 在卫士 i 专栏、中宣称,“我们没有密谋接管人类。”这篇文章令人肃然起敬,却又令人不寒而栗,是对当今自然语言处理(NLP)现状的完美证明。
GPT-3 是大型语言模型的典型代表。由于突破性地发现了高效的 NLP 架构,在海量文本数据上训练的大型语言模型成为可能。GPT-3 可以连贯地写作,翻译语言,回答问题,甚至编写代码。
大型语言模型以其语言能力震惊了世界。没有经过明确的训练,他们可以以最先进的性能完成各种各样的任务。
谢天谢地,这些大型语言模型不仅限于大型技术。取而代之的是,通过新兴的开源 NLP 社区的努力,对这种模型的访问正在扩大,这些社区受到模型 API 可用性增长的支持。对任何人来说,利用大型语言模型的力量比以往任何时候都容易。
NLP 的发展激起了公司和投资者的兴趣。根据 John Snow Labs 和 Gradient Flow 的一项调查,60%的技术领导者表示,与 2020 年相比,他们的 NLP 预算至少增长了 10 %。我们也看到了 NLP 初创公司在 NLP 领域争夺市场份额的惊人增长。随着 NLP 以极快的速度发展,人工智能社区理所当然地表达了对大型语言模型的危险的担忧。在这些模型被广泛采用之前,我们必须确保它们是公正和安全的。
在这篇博文中,我们将探讨 NLP 和大型语言模型的各个方面——它们是什么,如何使用它们,以及我们如何安全地使用它们。
自然语言处理的进展——从 Word2Vec 到 Transformer
NLP 在过去十年中最早的进步之一就是 Word2Vec 的突破。作者 Mikolov 等人发现,当一个模型学习单词联想时,它不仅表现得比当时流行的 N 元模型好得多,而且更有效、更快。
然而,Word2Vec 模型未能将单词的顺序用作有用的信息。递归神经网络 (RNN)的出现解决了这个问题。与 Word2Vec 不同,RNN 从先前的输入中获取信息来影响当前的输入和输出。这给了 RNN“记忆”,使它成为学习文本之间关系的理想选择。
然而,由于梯度消失的问题,RNN 的记忆相当短暂。虽然 RNNs 在短句上表现相对较好,但它在长段落上表现不佳。长短期记忆(LSTM) 的引入,一种特殊类型的 RNN,有“门”赋予 LSTM 记忆信息更长时间的能力。
LSTMs 被视为事实上的 NLP 模型,直到论文“注意力是你所需要的全部”抢走了聚光灯。本文中介绍的注意机制使 RNNs 能够在提供输出时专注于信息的子集。一种特殊类型的基于注意力的网络,变压器网络,被证明是极其简单、高效和强大的。
具体来说, BERT(来自 Transformer 的双向编码器表示)模型被视为 NLP 领域的突破性成就。与顺序阅读文本的方向模型不同,BERT 一次阅读整个单词序列。最令人印象深刻的是,预训练的 BERT 模型只需一个额外的输出层就可以进行微调,以实现各种任务的一流性能。从那以后,多种基于注意力的架构胜过了 BERT。其中包括 XLNet ,百度的厄尼,以及罗伯塔。这些模型在今天的许多 NLP 任务中仍然被广泛使用。
大型语言模型的兴起
技术爱好者对大型语言模型不会陌生,比如威震天-LM、GPT-3 和 T5。大型语言模型以其庞大的参数数量而闻名,以其在自然语言任务中的卓越能力占据了头条新闻。
大型语言模型最著名的例子可能是 OpenAI 的预训练的生成式变形金刚 3 (GPT-3)。GPT-3 拥有超过 1750 亿个参数,并在 570 千兆字节的文本上进行训练,使其比其前任 GPT-2 大 100 倍。
规模的增加给了大型语言模型一份意想不到的礼物——去执行那些它没有被明确训练过的任务。例如,GPT-3 可以在很少或没有训练示例的情况下将句子从英语翻译成德语。它还可以回答问题,写文章,总结长文本,甚至生成计算机代码。令人惊讶的是,它还超过了一些经过专门训练来解决这些任务的最先进的模型。
换句话说,大型语言模型是“少量”学习者。这些模型只需要在少量领域定制的训练数据上进行训练,就可以在特定任务上表现良好。对于某些任务,大型语言模型甚至可以是“零射击”学习者,它们可以在没有演示的情况下执行特定的任务。
少投、一投、零投学习演示(来源 )
各公司仍在竞相构建越来越大的大型语言模型。2021 年,微软和英伟达发布威震天-图灵 NLG 530B ,5300 亿参数。2022 年 5 月,Meta 与 AI 研究社区分享了其 1750 亿参数的开放式预训练变压器(OPT-175B) 。DeepMind 还宣布将发布其 70 亿参数语言模型,检索增强变压器(复古),预计其性能与规模为其 25 倍的神经网络处于同一水平。
大型语言模型逐年变大(来源 )
大型语言模型的民主化
不久前,大型语言模型被拥有强大内部超级计算机的财大气粗的大型技术公司垄断。大型语言模型的参数数量非常大,即使是最大的家用 GPU 也无法容纳。即使克服了这个限制,如果不采用并行化,训练大型语言模型的时间也是不现实的。例如,英伟达预测在八个 V100 GPUs 上训练 GPT-3 模型将需要 36 年的时间。Lambda Labs 认为开发 GPT-3 的前期成本至少为1150 万美元到 2760 万美元,并计算出在云中运行该模型的年度经常性成本至少为 87000 美元。
预算紧张的初创企业当然没有时间和资金来做这件事,但由于大型语言模型的 API,初创企业可以利用 GPT-3 的力量,而无需购买过高的计算资源或挥霍高性能硬件。例如,创始人可以使用由 OpenAI 、 Cohere 和 AI21 提供的 API,将像 GPT 3 这样的模型的力量整合到他们的业务中。
截至 2021 年 3 月,OpenAI 表示,超过 300 个不同的应用程序通过其 GPT-3 API 每天发送 45 亿个单词。多亏了这个 API,开发强大的 NLP 应用程序的过程比以往任何时候都更快、更具可伸缩性。
NLP 初创企业的激增
随着大型语言模型的普及,提供大量服务的初创企业近年来以越来越快的速度涌现也就不足为奇了。
从业者对《GPT 3》生成连贯的长篇文本的能力感到惊叹,就像《GPT 3》使用文本生成内容的奇幻冒险游戏 AI Dungeon 提供的沉浸式体验。另一家初创公司,寓言工作室,使用 GPT-3 创造了一种新的互动故事类型,将“虚拟人”带入生活。
AI 地牢截图。接下来你会做什么?
从那以后,GPT-3 不仅被用于创作虚构的故事,还被用于商业营销内容。引人入胜的博客帖子、社交媒体内容、广告内容和电子邮件可以通过简短的提示生成。这个领域值得注意的初创公司包括 copy.ai (今天估值 1390 万美元) CopySmith (估值 1000 万美元) Rtyr 。虽然一些批评者可能会嘲笑这样的初创公司,声称他们可以轻松区分机器人编写的内容,但如果他们知道 GPT-3 生成的博客帖子成为黑客新闻头条的故事,他们可能会重新考虑自己的立场。
NLP 初创企业也在搜索领域掀起波澜。最近一篇题为“谷歌搜索正在消亡”的博客文章指出了当今搜索引擎的问题,并引发了一场关于初创企业如何扰乱这个领域的激烈辩论。由前 Salesforce 首席科学家领导的you.com就是这样一家初创公司,已经获得了2000 万美元的资金。为了正面挑战谷歌,它使用 NLP 从语义上理解搜索查询,并从网络上总结结果。另一家初创公司是由 Cloudera 前首席技术官创立的 Zir AI,它为企业提供理解意图和语义的内部搜索引擎。
拥抱脸的兴起🤗作为 NLP 发电站
另一个值得注意的 NLP 初创公司是 HuggingFace,它提供工具来轻松构建、训练和部署最先进的基于 transformer 的 NLP 模型。HuggingFace 将自己标榜为“构建未来的人工智能社区”,它拥有一个共享前沿 NLP 模型和数据集的活跃开源社区。它的易用性进一步提升了它作为 NLP 工具先驱的地位。
HuggingFace 的界面
自 2016 年成立以来,HuggingFace 已经引起了轰动,并在人工智能社区中获得了巨大的人气。它已经被 5000 多个组织使用,包括谷歌人工智能、脸书人工智能、微软和艾伦人工智能研究所等技术巨头。它的 Github 知识库也获得了大约 60,000 颗星,使其成为最受欢迎的知识库之一。这些因素促成了截至 2021 年 3 月对6130 万美元的令人印象深刻的估值。据《商业内幕》2022 年 4 月报道,新的资金可能会进一步将的估值推高至 20 亿美元。
HuggingFace 的 CTO 朱利安·肖蒙德表示,人工智能的民主化将是社会最大的成就之一。难怪 HuggingFace 致力于扩大对 NLP 应用的访问。它的模型库拥有来自不同库的大约 42,000 个模型,包括 PyTorch、TensorFlow 和 Keras。其最受欢迎的型号,基于变形金刚的 gpt2 ,已经获得了超过 1 亿的下载量。
通过 HuggingFace 启用的应用
这些模型在一系列令人眼花缭乱的任务中得到了应用。除了翻译、摘要和文本生成等 NLP 用例之外,该库还包含计算机视觉(图像分类、图像分割)和音频处理(音频分类、文本到语音)的模型。
HuggingFace 最近加大了努力,为经验丰富的从业者、新手以及介于两者之间的所有人民主化 NLP。刚刚接触 NLP 的学生可以从免费的 HuggingFace NLP 课程中受益,该课程提供了使用基于 transformer 的模型的实用教程。那些希望构建和部署 ML 项目的人可以利用 HuggingFace 的空间提供的免费计算资源。
NLP 爱好者还可以利用 HuggingFace 的数据集库探索海量文本语料库。数据科学家和机器学习工程师会很高兴地发现,HuggingFace 最近发布了开源的 Optimum ,用于大规模优化变压器。
HuggingFace 的数据集库拥有来自 467 种语言和方言的超过 4,500 个独特的数据集,所有这些数据集都可以通过几行代码下载。
即将到来的 BigScience 大型语言模型是该公司民主化努力的顶峰。BigScience 是一个多语言的 1760 亿参数语言模型,由全球 1000 多名研究人员合作构建。该模型将于 2022 年年中完成训练。在那之前,我们只能满怀期待地等待大科学将带来的技术。你可以在推特上追踪 BigScience 大型语言模型的训练。
既然我们已经介绍了 NLP 初创公司提供的服务类型,那么让我们来看看如何将这些服务应用于两个特定的行业。
自然语言处理在医疗保健中的未来
医疗保健行业是一个每年 4 万亿美元的行业,雇佣了十分之一的美国工人,占美国政府支出的 25%。尽管其至关重要,但效率低下困扰着美国医疗体系。NLP 有望彻底改变医疗保健。
一种方法是它能够提高医疗保健提供者的护理效率和准确性。根据美国医学协会 2019 年的一项研究,医生每天花近 6 小时,相当于他们工作时间的 50%,从事电子健康记录(EHR)。除了浪费时间之外,在 EHR 手工录入也不可避免地导致可预防的医疗差错。
NLP 可以通过自动创建和分析电子病历来改变这种状况。有了语音转文本模式,医生和病人的对话可以自动记录下来。使用文本摘要模型,可以快速生成患者就诊摘要。通过在大规模 EHR 上训练的 NLP 模型,可以预测医疗诊断和治疗。
自然语言处理也可以增强病人的医疗体验。NLP 模型可以用来构建聊天机器人,提供关于临床预约的相关信息,提醒病人并回答 T2 病人关于他们健康的问题。
NLP 回答的患者问题示例(来源 )
在一项研究中,乳腺癌患者报告称,他们与一个医疗聊天机器人互动了一年多,其满意度接近 94%。像 Babylon Health 和 AdaHealth 这样的公司利用这个机会,开始向世界各地的医疗服务机构提供聊天机器人服务,这并不奇怪。医疗科技初创公司 Curai 的首席执行官尼尔科斯拉(Neal Khosla)很好地总结了 NLP 改变医疗保健的潜力。“人工智能和 NLP 提供了大规模提高优质初级保健可用性的潜力,使更多人能够以更低的成本获得优质初级保健。”
教育中自然语言处理的未来
NLP 的另一个有趣的应用是在教育领域。大规模提供高质量的教育带来了巨大的经济挑战。因此,研究人员正在探索可扩展的计算方法,以帮助教师更好、更有效地教学。当今最强大的 NLP 模型可以被训练成特定领域的主题专家。这种模型可以成为教师评分、提供反馈甚至提出问题的辅助工具。
一个具体的例子是 ProtoTransformer ,一个给斯坦福大学开放式计算机科学导论期中考试打分的模型。由于 ProtoTransformer 能够处理多种模式的信息,如任务提示、问题图表和评分规则,因此它与人类助教一样有效。
NLP 还可以提供个性化的反馈,这是一个在大班级中逻辑上不可行的任务。如果 NLP 可以自动给出反馈,这种情况可能会改变。MathBERT 就是一个例子,这是一个在从幼儿园到大学研究生水平的大型数学语料库上训练的 BERT 模型。
NLP 也可以自动化问题生成的过程。特别是,斯坦福大学的研究人员发现,现代语言模型可以用来生成新颖的反向翻译问题,实现目标难度。
语言模型产生了各种困难的英语到西班牙语的翻译问题。斜体问题是新颖的,不存在于原始数据集中。
麦肯锡的研究表明,目前教师课时的 20%到 40%可以通过现有技术实现自动化。像面条厂这样的教育科技初创公司是朝着这个目标迈出的一步。如果教师从手动、重复的任务中解放出来,他们可以花更多的时间辅导和指导学生——这些任务是人工智能无法模仿的。
大型语言模型的风险
到目前为止,我们已经研究了大型语言模型如何释放 NLP 能力,这在以前是不可能的。然而,批评者和研究人员警告不要不顾及人工智能的风险而盲目乐观。斯坦福大学的研究人员断言,大型语言模型将改变科学、社会和人工智能。这种转变是好是坏将取决于我们如何管理风险。
其中一个风险是偏见和有害内容的存在。今天的语言模型是在从网上搜集的未精确数据集上训练的。此类信息可能是虚假或有害的。这意味着他们从语言中学习——包括所有的缺点——并且放大了我们现存世界的偏见。
对少数民族阶层造成伤害的语言模式的教科书例子是微软 2016 年的聊天机器人 Tay,它在推特上向其他推特用户发布种族主义和性指控的消息。最近,Wallace 等人令人震惊地发现,添加到任何输入中的单个触发可以导致 GPT-2吐出种族主义输出,即使是在非种族背景下。在同一个实验中,另一个触发器导致小队模型用“去杀美国人”来回答所有“为什么”的问题。
同样,用于训练语言模型的数据可能会中毒,导致下游应用程序面临有害模型的风险。令人担忧的是, Schuster 等人证明了一个代码完成 NLP 系统只需注入几个恶意文件就可以被教会产生不安全的代码。可以想象,其他生成模型也可以通过有害注入产生有害内容。
语言模型的提供者也可能失败。目前,GPT-3 要求从业者将用于推理的数据上传到 OpenAI。泄露此类潜在敏感数据可能意味着侵犯隐私。如今,许多语言模型也直接由 HuggingFace 的基础设施提供服务。对公共基础设施的攻击有可能破坏生产中的许多语言模型。
当潜在的预先训练的语言模型压倒性地流行时,这种风险被放大。一旦对手发现了流行语言模型的漏洞,它就可以利用共享相同底层模型的其他应用程序。
缺乏可解释性
可解释性被定义为人类能够理解决策原因的程度。不幸的是,今天的许多 NLP 模型离可解释性的理想状态还很远。
大型语言模型是黑匣子,很少或根本不了解 it 如何做出决策。在没有完全了解决策过程的情况下做出高风险的决策可能是不明智的。例如,用于批准或拒绝囚犯假释的 NLP 系统必须能够根据事实解释其决定。这种解释是审计其决定的公平性和一致性的一种具体方式。
诚然,有可解释的人工智能方法提供模型行为的解释。这些不同的模型旨在解释黑盒模型。例子包括 Google 的语言可解释性工具(LIT) 和 LIME。
谷歌 LIT 的演示(来源 )
然而,来自这种模型的解释可能是不可靠的,不能准确地代表模型预测背后的推理过程。此外,它们可能是不可靠的、误导的和危险的。可信但不可靠的解释可能会诱使从业者产生错误的安全感,并诱使他们相信不可靠的模型,正如分水岭论文“停止解释高风险决策的黑盒机器学习模型,使用可解释的模型来代替”中所解释的那样。
大型语言模型将改变人工智能的未来
“这只是范式转变的开始:大型语言模型刚刚开始改变人工智能系统在这个世界上的构建和部署方式,”一群杰出的人工智能研究人员在讨论大型语言模型的机遇和风险时总结道。
大型语言模型支持的用例绝对令人惊叹。然而,并非所有闪光的都是金子。作为 AI 从业者,我们必须意识到大型语言模型的衰落,并负责任地谨慎使用它们。只有这样,我们才能充分挖掘大型语言模型的全部潜力。
在此了解有关自然语言处理的更多信息:
一个学习者如何通过学习 200 多门课程并积累 100 多万经验来节省 1500 多个小时的工作
Cameron White 是 Fruit of the Loom 数据科学团队的分析师,也是数据营的 XP 百万富翁。他的 LinkedIn 自豪地广播:“超过 200 门课程,超过 10,000 次练习,超过 100 万次 XP,几乎所有的技能和职业轨迹都是在 DataCamp 上完成的。”
他也是一个忙碌的单身父亲,带着一个年幼的儿子,时间是他最宝贵的商品。
借助 DataCamp 实现数据流畅
如今,Cameron 精通 Python 和 R,精通许多数据科学任务,从 ETL 到时间序列建模到文本分析,等等。但五年前,情况并非如此。他刚刚完成了数学和统计学的学士学位课程,他的大部分大学课程都是理论性的,还穿插了一些应用统计学课程。他在 Fruit of the Loom 得到了一份实习工作,后来成为新成立的数据科学团队的全职员工。问题?他不知道数据科学家实际上做什么样的工作,也不知道他们是如何完成的。
我清楚地记得我得到了工作机会,听到了数据科学家这个术语,但当时我并不知道它到底是什么。
为了准备在 Fruit of the Loom 的角色,卡梅伦四处寻找在线平台,以快速培养数据科学技能。他尝试了我们的一个竞争对手,但发现他们的课程“不适合(他的)学生需求。”他在 2015 年发现了 DataCamp,几乎立刻就被我们的边做边学方法吸引住了。
我喜欢用 DataCamp 按照自己的节奏学习。
Cameron 赞赏 DataCamp 平台的灵活性,这使他能够在桌面和移动设备上获得无缝的学习体验。每当他的时间表中有 30 分钟的空隙时,他就可以方便地学习,例如在他让儿子上床睡觉后。他也喜欢我们的视频内容,认为它“很短,但很有用”
他也喜欢我们教学的质量——我们只与数据科学领域的领先专家合作,其中一些专家正在积极创建和维护 Cameron 每天使用的工具和软件包。
很多课程都是包的创作者自己教的!谁能比包装作者更好呢?
学习对 DataCamp 的业务影响
卡梅伦试图每天留出一个小时在 DataCamp 上学习,他已经能够“在许多场合,有时甚至是在第二天”将所学知识直接应用到工作中
例如,在探索我们的 R 课程之前,他从未听说过 Tidyverse,今天,他的团队“几乎每一天,几乎每一个项目”都在使用 tidy data 原则。他还在各种价格建模场景中使用了 DataCamp 教授的许多建模方法。
在使用 dplyr 对 R 中的数据进行操作后,Cameron 经历了巨大的性能提升,无论是大型数据集的处理时间还是编码时间。这些技能很容易实现,他热切地与同事分享他的学习成果,帮助建立对 R 和 dplyr 的内部热情。
他参与的一个主要项目是与微软的预测分析合作。他们发现,六天内气温下降 12 度会直接刺激大量消费者购买御寒衣物。这些发现使他们能够主动准备供应链,以满足不同的地理需求,并优化织机羊毛和其他寒冷天气产品的销售。对于这个项目,Cameron 和他的团队应用了从 DataCamp 的课程中学到的许多知识,这些课程侧重于 SQL、在 R 中导入和清理数据以及高级建模。
使用 DataCamp 节省 196 个工作日
数据营对卡梅隆工作的影响是巨大的。让我们看看他在 DataCamp 上学习了四年后,他自己的帐户节省了多少时间。
- 卡梅伦每年大约工作 200 天,所以四年中大约有 800 天。在这 800 天中,他假设大约 20%的时间花在了积极编码上,这样我们就有 160 个工作日(或者 1280 个工作小时)。
- 在活跃的编码时间中,他假设大约 40%(或 512 小时)的时间花在了探索性的数据分析上,而从 DataCamp 学到的整洁概念加速了数据分析。在这 512 个小时中,他认为使用整洁原则已经节省了大约一半的时间。
- 在 Cameron 其余 60%的时间里,大约 10%的时间花在了帮助他人解决编码问题上——自从他的团队开始使用 DataCamp 以来,这一时间大大减少了。
- 卡梅伦估计,剩下的近 700 个小时,已经被用于做更高级的工作,例如使用 caret 软件包上的课程概念建模,制作闪亮的应用程序,或从网络上获取数据。他特别赞扬了我们的课程——科林·吉莱斯皮的《如何编写高效的 R 代码》( T1 ),这对改进他的运行时有很大的帮助。
- 根据 Cameron 的粗略估计,他看到自己每年直接编码的时间增加了 675 个小时。这还不包括在非编码会议中节省的大量时间,比如当他的团队第一次概述一个项目时。在 DataCamp 上学习到的新方法大大提高了这一阶段的速度。他估计自己已经节省了 70%的时间,即 896 个小时(T2)。
在过去的四年里,卡梅伦总共节省了大约 1571 个工作小时或 196 个工作日。正如我们在本文开头提到的,时间是卡梅伦最宝贵的商品——所以他非常善于最大化它。
数据营如何鼓励协作
卡梅伦的团队充分利用他们的 DataCamp 订阅,在工作空闲时学习新的话题。他们可能很有竞争力,有时会在 DataCamp XP 上互相挑战,这有助于“保持事情的趣味性”
此外,该团队有每年达到一定训练时间的正式目标,他们主要使用 DataCamp 来实现这一目标。
基于我们在网站上发现的新方法、算法和流程的数量,团队的成长是显而易见的。
帮助团队规划他们的数据流畅之旅
对于 Cameron 来说,开始他的数据科学职业生涯最困难的部分是知道从哪里开始以及将精力集中在哪里。他认为 DataCamp 通过我们的技能轨迹和职业轨迹很好地指导了他的学习。
数据科学是一个非常有趣、有趣和有益的职业道路,DataCamp 的平台极大地帮助了我在这一领域取得成功。
了解更多关于卡梅隆的数据流畅之旅,并在 LinkedIn 和 Twitter 上与他联系。
要评估 DataCamp 如何帮助您的团队精通数据科学和分析,请访问datacamp.com/business或安排我们平台的演示。
一名教师如何革新捷克共和国的数据教育
自 2021 年 3 月以来,我们最自豪的成就之一就是向全球各个国家的中学教师免费开放 DataCamp 教室。到 2022 年 7 月,该服务将在美国、英国、比利时、波兰和澳大利亚上线。后来,我们收到了一封令人大开眼界的电子邮件,来自 Smí chov 中等技术和语法学校的教师 Jakub Kormárek,他询问是否可以与捷克的中学教师和学生分享同样功能齐全的优质体验。这是他的故事,用他自己的话说,关于他如何帮助我们将免费数据教育带到他祖国的 1000 多所学校:
通过几封电子邮件,Kormárek 先生使 DataCamp 能够为捷克的高中教师和 16 岁及以上的学生提供免费的数据科学教育、认证和合作。我们喜欢像 Kormárek 先生(以及他之前在澳大利亚的 David Fenwick)这样的老师利用他们的关系为我们提供所需的学校数据,以改变年轻人和教育工作者学习、教授和应用数据科学的方式。在 DataCamp,我们放眼全球,立足本地。我们已经证明,一个充满激情的人(通常是老师)可以彻底改变年轻人获得关键的、经得起未来考验的技能的途径。
如果您是澳大利亚、比利时、加拿大、捷克共和国、波兰、英国或美国的一名高中教师,今天就申请 DataCamp 教室为您和您的所有学生提供为期六个月的可更新的高级访问。几乎每个国家的大学教师都有资格享受这一优惠。
如果你是下一个 Kormárek 先生或 Fenwick 先生,我们希望听到你的声音!请在 【电子邮件受保护】 给我们发电子邮件,告诉我们为什么您认为您所在国家的高中教师和学生应该获得免费的数据科学教育。我们只需要一份你们国家所有中学及其电子邮件域名的清单,这样你就能成为一个民族英雄,更重要的是,让成千上万的学生受益,获得他们需要的技能和知识,以保住现在和未来薪酬最高、最有影响力的工作。
开源如何推动数据科学的未来
数据科学中的开源现状
开源数据集和软件已经成为数据科学的主要内容。近年来,创新型创业公司拥有开源工具,使数据团队能够更好地处理数据,如 Airbnb 的气流工作流管理平台和 Lyft 的数据发现引擎。
公开可用的数据集为最新的机器学习算法提供了有价值的训练数据。Python 和 R 中的开源包使数据科学家能够简化他们的工作流程。数据科学家可以构建框架,降低在整个组织中使用数据的门槛。这样的例子不胜枚举。
开源正在催化数据驱动和数据生成技术的发展,预示着第四次工业革命( Salesforce )。现在数据的字节数比可观测宇宙中的恒星还多,世界上的数据量继续每两年翻一倍,组织越来越多地使用开源工具来充分利用这些数据。
数据科学开源的优势
正如开源革命导致了软件开发的变革一样,它也推动了数据科学和人工智能的发展和民主化。开源已经成为企业数据科学解决方案的关键推动者,大多数数据科学家都在使用开源工具( Kaggle )。
开源更安全
事实上,世界现在很大程度上运行在开源解决方案上,无论我们是指基于 Linux 的数据中心、Apache web 服务器,还是用 Java 编写的 web 应用程序。围绕这些解决方案发展起来的繁荣社区意味着它们得到了广泛的支持,这不仅从支持的角度来看是个好消息,对于安全性、更新和优化来说也是如此。
由于开源促进了基于社区的数据科学和软件开发方法,流行的项目从数百甚至数千名行业专家那里获得了有价值的输入。这意味着可以更快地识别和修复潜在的安全漏洞,通过广泛的共识保证质量,并且更容易发现新的机会。
开源提供了灵活性
专有软件和开源软件的主要区别之一是灵活性和定制性。最终,专有软件是由其开发者控制和管理的,而开源软件有更灵活的许可。这使组织能够为工作流定制软件,并为他们提供对他们开发的工具和解决方案的更多控制。此外,开源软件是可互操作的,这意味着它可以处理各种数据格式,并且是为云和云原生技术设计的。最后,开源软件使组织能够避免供应商锁定,并允许他们在提交解决方案之前测试和尝试软件( InfoWorld )。
开源促进了员工的获取和保留
开源革命的一个关键方面是它如何与人才获取和保留相交叉。尽管专有技术的相关技能缺乏流动性,因为它们只在特定的封闭环境中相关,但为开源项目做贡献可以让组织更容易吸引和留住合适的人才。开源工具已经成为学术界和工业界的标准,促进了技能共享和全面发展。
提升你的团队在开源数据科学方面的技能
虽然开源在数据科学中的好处毋庸置疑,但学习必要的技能仍然需要时间和努力。提升您的团队在流行的开源数据科学工具和软件包方面的技能,对于让您的业务适应未来以及促进持续创新、学习和改进的文化来说至关重要。
充分利用数据的重要方面是确保您的团队能够高效地分析数据,并根据数据做出更明智、更及时的决策。
下载我们的白皮书了解更多关于开源数据科学的好处。
Power BI 如何帮助您的组织获得更好的数据洞察力
在数字时代保持竞争力
大多数组织已经开始进行数字和数据转型,以便在日益高度互联和数字化的世界中生存和发展。正因为如此,企业现在产生了大量的数据,可以用来做出更好的决策。
为了最大限度地提高数据回报,分析师需要获得最佳的商业智能工具,以便为数据驱动的决策提取有价值的见解。
什么是商业智能(BI)工具?
商业智能(BI)是一组功能和技术,可将数据转化为可操作的见解,帮助企业做出更明智的数据驱动型决策。商业智能是通过 BI 工具交付的,这些工具为分析师提供了一个简单的拖放界面来执行以下活动:
-
**数据准备:**对来自多个来源的数据进行编译,并对其进行格式化以供分析。
-
**数据查询:**从数据集获取答案,回答特定的数据问题。
-
**数据可视化:**以图表、图形、直方图等形式创建分析的可视化表示,以便于理解。
-
**绩效指标报告:**将当前绩效与历史数据进行比较,并与利益相关方分享结果,以便做出决策。
-
**数据挖掘:**使用统计学和机器学习来揭示大数据集中的趋势。
商业智能工具在行业中的使用
BI 的概念从 20 世纪 60 年代就有了。因此,毫不奇怪,市场上已经有几十种成熟的 BI 工具可以帮助组织利用数据进行业务分析。两个最流行的 BI 工具是微软的 Power BI 和 Tableau。
现代 BI 工具的主要价值在于它们支持自助分析、更快的洞察速度和易于使用的用户界面。现代 BI 工具使员工能够快速访问数据并自己回答业务问题,而不是向中央数据团队发送请求的传统方法。
以下是行业中使用的一些 BI 工具示例:
沃尔沃集团使用 Qlik 来提高关键财务结果的报告效率,从而在组织内部实现嵌入式自主决策。
UChicago Medicine 利用 Tableau 创建实时仪表盘,作为医疗中心对新冠肺炎疫情的数据驱动运营响应的一部分
苏黎世保险集团借助 Power BI 构建一个统一的平台,帮助企业用户更有效地挖掘和利用公司数据。
摩根大通采用 Tableau 从 IT 拥有的自助服务分析转变为业务拥有的自助服务分析,以跟上快速的行业变化并优化业务成功的流程。
什么是 Power BI?
Power BI 是一个 BI 和数据可视化工具,它利用可视化分析来帮助个人和组织充分利用他们的数据。Power BI 中创建的引人入胜的可视化将 excel 工作流提升到了一个新的水平,并帮助利益相关者理解大量可用的数据。
据 Gartner 称,Power BI 是领先的数据可视化工具,有超过 600 万用户和 97%的财富 500 强公司使用它来实现数据洞察的民主化。功率 BI 由两部分组成:
-
Power BI Desktop 是一个免费的桌面版本,允许进行数据分析和报告创建,并包括 Power Query 编辑器。
-
Power BI Service 是 Power BI 的一个基于云的版本,它具有轻量级的报告编辑功能,旨在跨组织共享和分发报告。
最常见的是,团队使用 Power BI Desktop 来创建报告,并使用 Power BI service 来共享它们。有一个付费的 Power BI Pro 版本,它提供协作能力、移动应用程序以及在 Power BI 云平台上发布和共享的能力。
此外,Power BI Pro 是微软 365 E5 订阅的一部分,所以如果你在使用微软 Office 的组织中,你可能已经可以访问它了。
A Power BI Dashboard in Action
Power BI 有什么用?
1.提取数据洞察,无需编码技能
Power BI 的主要优势之一是其直观的用户界面,允许技术和非技术分析师高效地构建数据可视化和分析。
用户友好的拖放界面使回答复杂的数据相关问题变得容易,而不需要编程技能。这种简单性降低了用户执行高级分析(如趋势分析、回归和统计汇总)的障碍。
Power BI 还可以与各种现有的 Microsoft 应用程序集成,如 Microsoft teams、Excel 和 PowerPoint,这使得将数据洞察集成到现有工作流中变得更加容易。
2.借助仪表盘实现数据洞察的民主化
大多数人都熟悉的一个经典 BI 应用程序是仪表板,其中数据从多个来源获得,并以图表和图形的形式直观地呈现,以提供公司流程和战略的感觉。
Power BI 附带了许多报告功能,用户可以轻松创建设计良好的交互式仪表盘。它还可以连接到广泛的数据源,并可以帮助您创建强大的数据模型(例如,SQL Server、Excel 电子表格、Amazon Redshift 等。).因此,这些仪表板可以用来自组织内各种应用程序的综合数据来丰富。
这些仪表板在协调组织的战略努力、揭示关键见解和加速企业范围的决策方面大有帮助。当许多用户接受创建这种仪表板的培训时,数据洞察可以大规模民主化,以帮助企业转型为数据驱动的公司。
3.借助高级数据可视化讲述数据故事
鉴于数字时代产生的大量数据,引人注目的数据故事比以往任何时候都更加重要。
仪表板非常适合监控数据,并告诉用户正在发生什么。然而,数据故事有助于将数据塑造成一个循序渐进的过程,以解释 为什么 特定趋势正在发生。
*Power BI 允许用户将一系列可视化(包括仪表板)串联起来,形成一个可视化的故事,以交流数据见解,提供背景,并展示决策与结果之间的关系。
将高级可视化编织成连贯的数据叙述的能力是 Power BI 区别于 Excel 等其他工具的地方。这些数据故事在构建令人信服的案例以向决策者传达可操作的见解方面非常有效,这与商业智能的主要目标相一致。
A Power BI Data Story on the impact covid-19 had on public transportation in NSW
借助 Power BI 和 DataCamp 实现数据科学的民主化
NewVantage Partners 的 2021 年大数据和人工智能执行摘要显示,只有 24%的公司被认为是数据驱动的。为了释放数据的价值,员工需要用工具武装自己,以便有效地从数据中学习。
Power BI 是一款广泛使用的商业智能和分析软件,受到亚马逊、Adobe、劳斯莱斯等公司的信任。凭借其用户友好的拖放功能,Power BI 使组织中的每个人都能够探索、分析、共享和可视化业务数据,并使所有人的见解民主化。
了解更多关于 DataCamp 如何为您的团队提供强大的 BI 技能,以大规模普及数据科学的信息。
实时数据如何加速业务成果
乔治·特鲁希略(George Trujillo)是 DataStax 的首席数据策略师,这是一家通过在单一统一的堆栈上移动实时数据来帮助企业扩展的科技公司。乔治的职业生涯长达 30 年,在查尔斯·施瓦布、富达投资和 Overstock.com 等公司工作过,他是数据驱动的行政决策以及将数据计划与切实的商业价值结果联系起来的专家。
Richie 帮助组织从模糊的“嘿,我们应该更好地使用数据”转变为现实的计划,成为成功的数据驱动型组织。在数据科学被称为数据科学之前,他就是一名数据科学家,已经写了几本书,并创建了许多关于该主题的数据营课程。
介绍葛奇·特鲁希略
里奇·科顿:大家好。我是 Richie,您的住院医师、数据传播者,也是今天的主持人。数据分析有一个普遍的问题。从提出问题到得到答案需要时间。在最糟糕的情况下,当你收到答案时,你可能并不关心答案是什么。因此,基本上所有组织都在不断寻求加快从数据中获取价值的速度。
最终游戏是实时分析,您可以在几微秒内获得数据 AEs 的结果,告诉我们如何实现这一点。分析界的圣杯是乔治·特鲁希略。data stack 的首席数据策略师。他在帮助首席执行官们为他们的组织制定数据战略以及帮助他们更快地从数据中获得价值方面拥有丰富的经验。
听到他的建议我很兴奋。你好,乔治。谢谢你今天加入我们。我们正在讨论实时分析以及它如何帮助您的业务和客户。因为你为 data stacks 工作,data stacks 主要是一家工具公司。我想谈一谈你需要的一些工具。
如果您试图自己构建某种实时数据堆栈,那么从哪里开始呢?它的不同组成部分是什么?
乔治·特鲁希略:是的,里奇,谢谢你今天邀请我。我真的很期待和你一起讨论…查看更多
ssion and as you can always get me to talk about data. So one of the things that kind of helps me is when I look at a data ecosystem, it has to work together. And one of the things, helps me visualize it and architect and design is to look at a data ecosystem as a data supply. That data flows through that ecosystem. So you can have applications and IOT devices and databases as sources of data. And then that data will flow into an area which is your streaming, your messaging, your queuing data. And then from that live data flow, you move into your databases. Where data has a lifespan by persisting, and then either from the streams of the databases, that data, again, flows in its raw form or a transformed format into your analytical platforms, which are your data, warehouses, your lake houses, your cloud storage, et cetera. So that data supply chain, the more it flows efficiently, the faster you can go from data discovery to realizing value from that.
Richie Cotton:所以真正重要的是你能多快找到数据问题的答案。
乔治·特鲁希略:是的,这是正确的,因为你知道,我们太关注数据了。人们很容易忽视这样一个事实:如果我们不能从数据中产生数据价值,我们拥有多少数据都没有用。目标始终是从数据中产生价值,并为公司创造收入。因此,当您谈到工具时,这有助于我了解生态系统,即了解哪些工具构成了生态系统中数据流的数据摄取。构成数据库的工具是什么,您将数据或内存持久化在哪里,您将数据驻留在哪里以实现极低的延迟,或者您希望如何将数据格式化并转换为您的分析数据?
因此,我认为将数据分成这些流动区域是一个好方法,因为它总是确保你从整体上看待一切,而不是短视地看待一个区域,因为流动会影响整个生态系统。
里奇·科顿:你提到了这个词,数据供应链。有趣。我以前没听过这个术语。你能告诉我一点你所说的数据供应是什么意思吗?
乔治·特鲁希略:是的。我在职业生涯中担任过不同的角色,这让我能够从许多不同的角度来看待数据和业务。我曾经是一名数据副总裁,负责向我的办公室报告组织中的所有数据。我曾担任数据架构和数据战略副总裁。因此,在这些角色中,我总是关注数据库中发生的事情,数据仓库中发生的事情,以及调整平台中发生的事情。
但我在 Oracle 工作了大约四年,在那里我的角色与我在数据堆栈的角色相似,关注企业客户。他们在考虑如何为我们的企业解决问题?我们如何更快地执行数据?当我从一个组织那里得到所有的数据向我汇报时,我不是在解决一个问题。我真的在解决一个整体问题。我认为,一旦你可以从生态系统的整体角度来看待工具中的数据生态系统,它就会完全改变你解决问题的方式。当你开始意识到这不仅仅是你拥有的工具,而且每个人都在尝试,当你选择一个工具时,它通常是为了一个项目或一个用例或一个计划,通常没有足够的考虑这将如何影响整个生态系统的后果。所以,我开始研究数据供应链的原因是,我真的在研究,我们发现数据流入一个系统。它持续存在,然后进入一种形式,人们希望分析它并运行机器学习算法,从中获取价值。我开始意识到,真正需要提高效率的是数据流。
这就是人们可以轻松利用数据流并从中产生价值的方式。因此,数据供应链的观点确实有助于我确保保持一致,确保生态系统和数据流尽可能保持高效。我不会近视地看待事物,只会看到一个垂直的视角。
Richie Cotton:这是对数据在整个业务中的应用的一个非常高层次的概述。
乔治·特鲁希略:这是正确的,因为当我与业务领导或首席营销官或总裁交谈时,他们从来不谈论技术。他们说我们需要更快地访问数据。里奇实际上改变了我的观点,让我开始全面地看待事物。从数据供应链开始,我开始花很多时间与商业领袖交谈。问他们,你的挑战是什么?你希望什么能做得更快?你怎么能不这么做呢?你需要能够做那些让你在从数据中获取价值时感到沮丧的事情,几乎毫无例外,你可以把他们所有的答案、担忧和沮丧归结为一件事。将正确的数据提供给正确的人需要太长的时间。这是一个生态系统问题。它不是一个单独的工具。
生态系统中的瓶颈
里奇·科顿:啊,有意思。好吧。因此,如果你试图建立这个生态系统,那么瓶颈在哪里?是最不常见的。
乔治·特鲁希略:你知道,当数据流动时,你看看你的数据摄取平台,这真的很有趣。很符合。当我观察组织时,他们有专门的软件来收集数据。他们有非常具体的消息数据。他们有专门的软件来发布订阅。所以他们有所有这些不同的数据流。
事实是,当你想用数据创新时,它通常发生在数据集成点。所以你有来自 rabbit 和 Q 的数据流,来自 Kaka 和 Pulsar。
里奇·科顿:当你试图为自己建立这个生态系统时,你从哪里开始?这里面有哪些常见的破损?
乔治·特鲁希略:它打破的通常地方是数据集成点,而如此关键的原因是数据集成点通常是你拥有巨大创新价值的地方。例如,如果公司已经建立了他们的技术,一次一个用例中的项目。因此,出于正确的原因,他们选择了一个伟大的枢纽子工具。
他们选了一个很棒的线索系统。他们自己选择了一个很棒的信息系统。它们都工作得很好,但是在数据集成点,数据必须集合在一起。因此,您可能会遇到这样一位业务领导,他说,嘿,我们希望对这些数据有一个新的看法,他们会说,为什么我花了两个月才得到我的。
你必须去找卡夫卡开发者,你必须去找兔子,MQ 开发者。你必须去找 PSAR 开发商。你必须去找产品经理,你必须让这些团队聚在一起,了解我们如何成功地改变数据,谁负责?所以数据集成点的工具越复杂。就越会降低你从数据中获取价值的能力。
数据集成的责任
Richie Cotton:如果这些数据集成点真的很重要,那么谁倾向于负责数据集成呢?
乔治·特鲁希略:这是一个非常好的观点。你知道,它通常是数据架构的一部分,也是数据工程的一部分。这是通常会涉及的两个团队。我认为非常重要的一点是,你总是需要有人来领导。数据科学特征是其中的一部分,因为整个目标是我们如何对数据建模?
我们如何确保当我们集成这些数据并更新这种结构时,分析师和数据科学家能够从中获得价值,或者一旦我们在这个集成点获得了这些数据,按照我们想要的方式,它需要与哪些数据集成?你可以看到,如果很难做到这一点,分析师、商业科学家和数据科学家会非常沮丧,因为数据很难处理。
最终你会得到这个复杂的部落知识,只有少数人真正理解它。因此,如果在一个组织中只有一两个人可以解决问题,这绝对会降低你获得洞察力的能力。
里奇·科顿:当然。这绝对是个问题。我认识到只有少数人知道如何完成某项技术任务。既然我们在讨论,那么缩短获取价值的时间和实时分析就是其中的一个重要部分。我想谈谈你是如何到达那里的。所以直观地说,实时分析是个好主意,因为你想快速得到答案,但这似乎比仅仅完成分析更困难。在某种程度上,这感觉像是一个不可能的挑战。那么,你什么时候真正需要实时分析呢?什么时候你只需要事情进展得快一点?
乔治·特鲁希略:实时分析始于客户体验。如果你看一下客户与企业合作的时间,我们过去与银行家合作,我们与客户合作。我们在一家餐馆和我们最喜欢的大自然鹿一起工作。如果你看看我们所有的关系,现在他们几乎更多的是与应用程序和移动应用程序,而不是与人。所以当有人进入一个应用程序时,他们能找到他们正在寻找的信息吗?如果他们试图做出决定,他们是否能够快速查看不同的产品,或者他们是否必须努力找到它们,他们是否能够获得准确的信息?那个产品在吗?或者我们想知道要多久才能送到。
您就越能高效、轻松地为客户实现这一目标,创造出色的客户体验。越高,你得到交易的可能性就越大。因此,我们花了这么多年的时间专注于后端的分析,包括您的数据、仓库、云存储和分析。
但是,如果您不能很好地处理实时数据,您可能不会生成该事务,因此数据永远不会到达您的数据仓库。因为顾客可能会去别的地方。因此,如果你是一名顾客,你正试图做出一个决定,你在你的移动应用程序上,你在浏览器上。
你在等吗?10 秒钟?你在移动交易中等待了 20 秒吗?这是一个问题。因此,您的技术体系必须具有低延迟,并且必须能够处理数据量和数据传输速度。这也是里奇在过去几年里看到巨大变化的地方。这表明该工具无法扩展,或者无法处理数据的速度。
因此,客户确实希望确保他们现在拥有这些强大的平台,能够处理实时分析所需的速度。
过去 3 年的变化
里奇·科顿:你说即使在三年前,技术也发生了如此大的变化。这很有趣。那么,就这些平台而言,到底发生了什么变化?在过去的三年里,有什么不同呢?
乔治·特鲁希略:我认为最重要的事情之一是,你必须能够做出决定的速度,或者你必须有三四年前的价值。只有七分钟。只有五分钟。现在是几微秒或者几秒钟。所以速度差异改变了整个客户体验。
另一件事是,我们通常能够独立于业务部门工作,无论是供应部门、营销部门还是销售部门,但是数据集成点越多,就越需要能够非常轻松地处理来自不同来源的数据。所以我的看法是这些不同的技术。
人们说不同的语言。那么,如果每个人都说不同的语言,我该如何达成一致并完成工作呢?那么,与其试图让每个人都说多种语言,不如我们开始减少人们说的语言的数量,或者我们可以找到更多的共同语言。
举例来说,如果你是一个拥有多个 pub subs、多个 cuing 系统、多个消息系统的组织。对我来说,走进一个组织,在他们的接收平台上看到五到七种不同的工具是非常典型的。如果我们能从七个减少到两个呢?现在我只会说两种语言。
嗯,十有八九。如果我让一组人说几种语言或一种语言,让另一组人说七种语言,你认为谁会更快、更有效率、更少出错?
里奇·科顿:是的,这很有趣。所以。当然,我看到在数据分析或数据科学领域,Python 和 SQL 正在标准化,或许也是如此。但是对于数据工程方面,有很多工具。我是不是认为你所说的是人们正在朝着更少数量的更标准的工具努力,对于数据工程师来说,
乔治·特鲁希略:我想。这必须发生,因为如果你想提高效率,你必须能够标准化,能够优化,创造一个复合效应。我从未见过你或你的方式开始,你减少复杂。
标准化的例子
里奇·科顿绝对是。有道理。你看到人们正在标准化哪些工具的例子了吗?
乔治·特鲁希略:是的。我认为他们在这里看起来有点过于简化了。只是,我怎么能少说点语言呢?有一件事让我想到了我现在推荐的工具,那就是我去了企业,我开始问所有的企业领导人,你们面临的挑战是什么?你有什么问题?
什么能帮助你更快?我没有研究技术,而是采纳了他们所有的意见,并对其进行了逆向工程。我想出了一堆复选框,这些复选框显示了我需要从根本上改善业务的所有能力。事实上,我有了顿悟,因为我有一两个摄取平台和数据库,我已经实施了多年,非常成功。
我发现,如今公司寻求创新的方式需要更高的可扩展性。他们在寻找云计算,他们在寻找我们如何快速从本地迁移到混合云或云计算,或者他们不需要能够做到这一点,但他们希望在未来,我们不会做出让我们在未来两三年陷入困境的决策。
所以他们想要更大的灵活性。所以我的意思是,不要试图寻找最好的技术,让我获得资格。我们经常看速度和进给。我们看看你能扩展到什么程度。我们正在考虑所有的技术观点,但是如果我们开始考虑该解决方案将如何帮助我们增加业务收入呢?它真的开始改变你如何看待你的工具。而有了实时,它运行的速度就更快了。让我给你举个例子。你可以在数据仓库或数据湖中进行分析和 ML。如果你不喜欢那个报告,你可以尝试不同的。你可以尝试不同的算法。您可以使用它,并使用实时数据迭代到您想要的位置。
您做出了客户认为会影响收入的决策。速度在这里是绝对必要的,不仅是在支持决策方面,而且你的工具必须是可扩展的,并处理他们必须处理的数据丢失。
数据最重要的方面
Richie Cotton:这是你已经提到过几次的事情,是你真正需要关心的最重要的领域,你的数据流与客户体验有关。你能给我举一些真正会影响客户体验的例子吗?比如什么样的,具体的事情是最重要的。
乔治·特鲁希略:是的,我举一个金融服务业的例子。你可以打电话给你的银行或金融服务机构,你想和他们谈一些具体的事情。它变得非常令人沮丧。如果你和某人通话,而对方不是你需要通话的人,他们说,让我帮你转接。然后你必须这样做两到三次。它现在创造了一个糟糕的体验。你还没开始呢。对吗?因此,在金融服务领域,我们开始关注的是实时分析客户何时致电,并了解您致电的原因的可能性。我们能够改善我们第一次联系的人。
这就是我们七年前的做法,我们现在正在经历同样的体验,但我们现在是通过移动应用来实现的,我们的客户可以连接到该应用。他们能迅速做出决定吗?你的点击流数据显示了点击量。顾客需要接触产品,或者他们做出决定。他们要浏览多少页才能找到他们要找的产品?你能在销售中将这种观点转化为交易吗?因此,所有围绕客户的前期动态,在移动领域。或者在浏览器上,才是定义客户体验的关键。
里奇·科顿:我非常感激。我用了这么多。我喜欢的地方是,我试图做一些简单的事情,甚至是银行应用程序。好吧。我只想确认一下我是否买了东西。这就像你点击 20 次,试图找到一些交易,所以,我可以肯定地相信这是有用的。另一方面。有没有一些事情,人们可能经常认为它们很重要,但实际上对客户体验并不重要?
乔治·特鲁希略:是的,我认为我看到的一个关键问题是,有时在开发应用程序时,人们对该应用程序生成的数据将如何在业务成果或创收方面创造价值没有足够清晰的理解。我认为这是我们行业的历史,因为当大数据首次出现时。这是关于我们如何将数据放入数据仓库?如何才能将数据导入 Hadoop?我们如何将它存储到云存储中,并让数据科学家稍后解决它,你没有实时的奢侈。对于实时,如果数据很复杂,或者没有与正确的数据集成,it 需要做出决策,或者开发人员很难以他们可以使用的方式转换数据,那么所有这些都会造成负面的客户体验。然后就很难撤销了。因此,在 highlight 中,拥有技术债务有时变得可以接受,但你不会奢侈地吸收技术互动。
里奇·科顿:你是说太快进入这种状态并试图达到实时状态会有风险,然后意识到你在某种程度上做错了,还是有一种简单的渐进方式可以从你较慢的过程达到实时状态而没有这种风险?
乔治·特鲁希略:你知道,我认为当你使用实时数据时,基本的最佳实践不会改变。因此,我认为非常重要的一件事是获得一些快速的胜利。建立对企业的信心。让方法发挥作用,树立信心,相信你有正确的工具,建立信心,相信我们可以信任数据,我们可以轻松地操作它。
因此,我一直在寻找哪些高价值的分析资产可以推动业务收入或成果,以及我们可以做出哪些改变来加速实现这一目标?所以我喜欢从小处着手,进行高价值的分析。为业务改进他们,赢得胜利,一起建立团队,让他们能够更有效地与工具和数据进行交互,找出我们必须解决的弱点。因此,我认为,利用具有影响力的高价值分析资产取得立竿见影的效果是一个很好的开始方式。
高价值资产
里奇·科顿:非常明智,从简单开始,然后逐步发展到更复杂的东西。你能举例说明你所说的高价值分析资产是什么吗?
乔治·特鲁希略:在营销方面,当你组织一次营销活动,或者你组织优惠券,或者你组织折扣,你就是在投资。收入和资本,这意味着成功,你期待着一定的结果。因此,必须对这些业务的分析有一个非常清晰的了解,并且了解如果我们提供 5%或 10%或 12%的折扣,我们能从中产生某种类型的收入吗?如果我们提供并送出一千万张优惠券。我们将从这项工作中获得多少潜在收入。因此,我认为围绕这些类型的业务活动的分析必须得到很好的理解,因为这是您开始执行您的业务模式以推动组织收入的方式。
里奇·科顿:好的。当然,优惠券也可以是虚拟的东西。不一定是实体券,对。它可以用于在线业务。
乔治·特鲁希略:是的,绝对是。你可以进入你的手机应用程序,他们可能会说,嘿,里奇来了。里奇去棒球场,里奇喜欢棒球帽。因此,他们可能会寻找,有没有一些棒球帽,或一些棒球球衣,里奇可能会喜欢。
Richie Cotton:看起来我们谈论的很多东西不仅仅是数据分析,更多的是数据应用。也许你可以给我讲讲你所看到的一个好的数据应用的例子。
乔治·特鲁希略:简单来说,一个好的数据应用程序可以产生收入。我觉得这才是关键。因此,我们必须明白,如果我们正在构建这个应用程序,我们正在构建数据集,必须有人在这个游戏中有强大的皮肤,以了解我们将如何产生收入并做出预测?
第二件重要的事情是你将从应用程序中生成的数据。让客户易于使用和理解的东西?第三件事是,我们能相信来自这个应用程序的数据吗?尤其是当它与其他数据集成时,因为数据科学家和分析师必须对生成的数据有信心。因此,创造高信任价值的应用程序也很重要。
里奇·科顿:好的。我之前可能已经澄清过,通过数据应用。没必要。意思是,做个手机 app 什么的。有时,数据应用程序可以是一个仪表板或类似的东西。只是某种从数据中输出的方式。那么,你有见过的数据应用的例子吗?成功?
乔治·特鲁希略:最完美的例子就是家得宝。发生了 COVID。他们意识到他们的整个商业模式正在改变。现在,他们的移动应用取代了人们上门拜访他们的组织。因此,他们可以多快地启动并运行移动应用程序,他们可以理解库存,他们可以理解优惠券和折扣如何奖励客户。他们在很短的时间内就完成了应用程序。在我们去的整个 COVID 时间段内,这对该公司产生了非常积极的影响。如你所知,许多组织正在经历从实体店向移动应用转变的过程。
发现变革的机会
里奇·科顿:好的。我想,由于外部影响,他们真的改变了整个商业模式,但数据转换似乎是其中很大的一部分。因此,仅仅是做这样的大事和改变商业模式似乎就令人印象深刻。但是,你如何着手确定这些机会,在这些机会中,你需要在如何处理数据方面做出改变?
乔治·特鲁希略(George Trujillo):你知道,我认为有一件事被忽略了,那就是这里的数据堆栈。我们经常谈论开源,有时我认为人们对开源的理解还不够。开源基本上是一种创新文化。如果你看到开发人员正在努力寻找解决方案,或者将应用程序提升到一个新的水平。
通常,他们首先会考虑开源,这样创新文化就可以驱动一个组织。我来举个例子。我曾在一家公司工作过,在质量数据驱动的数据发现中,我需要许多解决方案来支持您做出的所有技术数据工具决策,但这些解决方案都不可用。我去了一些最大的公司,他们没有准备好这些产品,或者他们有非常小的版本。我开始发现当我要开源的时候,我开始得到我一直在寻找的东西。因为这是下一波科技的成本。
因此,随着在您的组织中建立创新文化,它确实有助于避免供应商锁定。我认为这在当今世界变得更加重要。因为事情发展得越来越快。当您查看所涉及的数据供应链时,会发现数据堆栈中的各个组件与其他工具的接口非常好,避免供应商锁定确实有助于证明他们和您所做的决策。我认为另一个很大的区别是,如果你看一下应用程序的规模和 velocity 环境的规模,数据可扩展性变得非常重要,不仅仅是对你的技术,对管理你的预算也是如此。
因此,单位成本经济学变得非常重要,你需要确保无论使用什么工具,你为实时数据和分析做出的选择,你将能够管理单位成本。随着环境的扩展。我强烈建议任何没有读过 red hat 关于企业开源状况的 20,22 报告的人。我认为对于许多人来说,这将是一个大开眼界的机会,因为企业级的开源是如何赋予组织权力的,以及高管们是如何看待开源的,与他们五年前相比有了很大的不同。
里奇·科顿:好的。你认为厂商锁定是转向开源的主要驱动力,还是有更大的影响使人们选择开源而不是专有解决方案?
乔治·特鲁希略:基本上经常是,有时是在我需要新功能的时候。我经常首先在开源中看到它们,有时当一个企业试图在机会方面突破极限时。他们需要一些他们今天就可以开始工作的东西,他们可以在未来使用它,但他们不能等待六个月到一年的时间,让一个更大的企业获得他们的第一个,在创造创新方面也是如此,通常你想与不同的产品一起工作,看看他们在一起工作得如何。
所以当有人可以下载开源的东西开始工作时。他们可以从数据接收、数据持久性、数据特征和数据发现的角度来审视他们正在做的事情,并且可以非常轻松地使用它们。你可以看到这是如何真正推动生产速度的。
Richie Cotton:你有没有发现许多组织一旦开始使用开源平台,他们最终会自己为其做出贡献?你认为大多数组织仅仅是技术的消费者吗?
乔治·特鲁希略:我认为这取决于在某个特定领域所遵循的开源模式,但我看到越来越多的企业公司为开源做出贡献。如果你只看 Linux。我们看了像 Cassandra 和 Pulser 这样的东西,你会看到这是一个社区驱动的创新一代。所以我确实看到越来越多的企业为开源做贡献,因为他们意识到这符合他们的最大利益。
重要工具
里奇·科顿:太棒了。你有没有见过任何其他你认为在现代数据中变得重要的开源工具?
乔治·特鲁希略:我认为一个非常重要的工具是 Kubernetes。我真的看到有人称之为在从混合云迁移到云的过程中,应用程序、数据和数据流的未来粘合剂。我认为我们谈论应用程序,谈论以数据为中心和数据驱动,就好像这是两种完全不同的东西。
但同样,如果从数据供应链的角度来看,应用程序、馈送流都会馈送数据。因此,如果我想将应用程序从内部迁移到云中,不仅仅是该应用程序需要迁移其环境。所以 Kubernetes 真的支持在单元测试和 C CD 中使用容器。因此,围绕测试、生产和应用程序的所有工作 Kubernetes 提供了便利,如果您要从云内部迁移应用程序,如果提供数据流,您必须迁移这些数据流。如果你要输入数据库。这些数据库必须能够移动。
因此,让您的应用程序围绕 ES 之类的东西来生产高质量的应用程序,像 Apache PSAR first ES 这样的环境有助于这些应用程序运行得更快。如果您有像 Cassandra 这样的混合、多云计算开源数据库。它允许您的应用程序很好地与您的流和数据库保持一致,以您需要的速度跨不同的环境移动。如果你没有,如果你决定喜欢除了卡桑德拉以外的东西,我会强烈建议你做好你的尽职调查,确保无论你选择什么都有同样的标准。
Richie Cotton:如果你打算选择你的数据堆栈的其余部分,到目前为止,我们有 Cassandra、pal、Kubernetes。你能给我你理想的数据堆栈吗?你的首选是什么?
George Trujillo:我真的很喜欢 Apache pulsar 和 Cassandra 的灵活性,以及它们与应用程序的一致性。它允许我加快部署速度。我认为内存现金对于实时数据变得非常重要。你可以在数据库中存储一些数据,这样你需要存储的延迟数据就很少了。
我会考虑像 vault 这样的东西,它给我一个分布式内存现金,我可以使用它。就分析平台而言,我认为数据、砖块和雪花或退出解决方案很重要。我认为在分析平台方面有更多的灵活性,但我认为重要的是有人需要运行查询。
它需要是透明的。这就是说,客户不关心它是在云存储中,还是在雪花存储中,他们关心的是我能否访问数据,以及它是否返回结果?因此,无论数据在哪里,你越能让数据对数据的消费者透明。这对组织来说变得非常重要,获得业务洞察力。
我相信,没有数据目录,就很难有成功的数据文化。数据目录基本上是人们发现数据的方式,也是人们理解数据的方式。当你能让人们更容易地找到数据和理解数据时,你就赋予了他们数据的能力。
所以我认为数据治理项目。和数据目录也是堆栈中非常重要一部分。成功使用实时数据。这是该行业的一个增长领域,因为要制作实时数据还有很多工作要做。拿着数据目录的一等公民。我认为这是成功的关键。
人们的重要技能
里奇·科顿:现在有很多关于工具的东西。因此,也许我们也可以谈一谈人,谁需要参与使用这些工具,他们需要什么技能?
乔治·特鲁希略:是的。首先,你,你有你的数据科学家。如果你看看,数据科学家希望能够做的是,他们希望能够处理不同类型的模型和数据,他们可以用这些模型和数据来测试不同类型的算法。你让数据变得越容易访问,越容易使用。
他们可以更快地完成他们的模型,你可以看到他们会更快地创新。你看数据分析师,他们也是创造商业价值的重要部分。我们必须降低复杂性。因此,我发现的一个重要问题是,如何处理数据。
有时你会有七种方式的数据。加入,你必须是一个大脑科学家才能理解。所以更多。因此,我看到那些向组织中更广泛的受众提供数据的公司正在移动宽表。所以有人不一定要脑科科学家,管理者很重要。我认为我们已经进化成了产品数据经理的角色。有人能够理解有助于定义产品价值的数据和数据科学特征。Richie,另一件事,我在 ISR 或我们分散的团队中争论的是,在哪里有技术专家。
这就是你在卡珊德拉和脉冲器和卡夫卡和 Rav MQ 的专家。然后,业务线中的所有开发人员都会说,我们无法在技术方面获得创新所需的帮助,这可能会让业务线感到非常沮丧。因此,我认为业务开发人员在这方面也起着非常关键的作用,因为那些让下游业务开发人员能够利用数据进行创新的组织。他们将会比那些做不到的公司更成功,所以找到集中的专业知识和分散的业务开发人员之间的平衡,是另一个重要的方面
我认为数据建模和数据架构没有得到应有的重视。如果做得不好。它会影响下游的一切。因此,让您的数据架构团队或您的企业架构师参与其中也很重要。也许其中最重要的人物是,有远见的人可以向商业领袖推销他们可以向消费者推销的数据,每个人都明白。
是的,这是正确的愿景。我们看到了你带领我们前进的道路,我们相信这就是我们要走的路。你必须接受数据文化。你必须让人们相信你的工具和方法。因此,推动这一愿景并领导这一努力的第一点,我认为也是关键。
构建一种通用语言
里奇·科顿:这与我的经历非常吻合,有许多不同的人和不同的角色最终都与数据有关。这也自然导致了一个我几乎在任何地方都经历过的问题。这就是你如何让这些不同的人互相交谈?那么,你如何让业务人员与数据人员交流,让数据人员与工程师交流等等。在团队和不同角色之间,如何就数据交流达成共识?
乔治·特鲁希略:我相信它会回来,让每个人都说一种共同的语言,而这种共同的语言就是商业。因此,我认为,发展您的数据文化,让您的技术团队、让您的数据团队变得有能力和。
一旦你开始关注,我们将从业务角度推动一切,无论我们是 it 人员、技术人员还是数据专家。我们在说商业语言。我认为这是一个绝对的关键。当我看到那些在数据文化、数据驱动和数字化转型方面真正取得成功的公司时,他们说的更多的是一种通用的商业语言。
里奇·科顿:就像非常棒的建议。我想从我的个人背景来看,我是从做。生意上的事是后来才发生的。我知道很多人,他们担心,哦,做数据很难。但是我发现,嗯,实际上数据是容易的部分。然后学习事情的商业方面。
我认为这就是挑战所在。但我绝对同意。这是一个非常好的策略,让每个人都明白你的商业目标是什么。
乔治·特鲁希略:我提到这一点,好像这真的很容易,但这真的很难。但有时我认为,拥有数据的最成功的公司通常是那些最顽强的公司,他们真的坚持说,我们是业务驱动的组织,我们将使用数据来帮助驱动它。你必须有正确的技术和数据领导,才能让技术和数据团队购买。我们必须说商业语言。当我们谈到价值时,我们不是在谈论速度和饲料,以及东西可以变得多大。我们谈论的是对客户的商业价值。
里奇·科顿:再一次,只是帮助人们尝试并开始这样做。你如何得到这种排列?围绕商业价值。从哪里开始。
乔治·特鲁希略:我认为最终还是要选出两三个。您认为具有较高分析价值的数据领域,我们可以对其进行转换并产生业务成果或快速增加收入。如果你能成功,你就能把生意做好。你是你努力的冠军。
我们将开始让您的数据和技术团队理解这是我们努力的全部目标。如果你在踢足球、打棒球或打篮球,你必须取得一些胜利来建立信心,并挑选两三个高价值的分析资产,这些资产可能只需要一些调整或改变,或者需要添加新的数据。
或者让数据从数据流流向数据库、数据仓库并返回内存。如果你能让这些数据更快地流入实时决策过程,从七分钟缩短到两秒钟,利用这些数据做出决策,这就是你开始变得。
行动呼吁
里奇·科顿:听起来很简单。从 7 分钟到几微秒不等。所以你只需要减去 7 分钟,但是,我相信这是一个很大的挑战。太棒了。好吧。总结一下,我们已经谈了很多关于尝试用数据提高业务绩效和对客户产生影响的内容。
那么,你有什么最后的建议给那些想要得到的企业吗?
乔治·特鲁希略:我认为,我认为最重要的一点是,你必须降低复杂性,你的应用程序、数据流和数据库必须能够协调一致。无论从什么角度来看,您都必须解决数据质量和对数据的信任,这对实时数据至关重要。
也就是说,当我们给顾客所有这些优惠券和折扣时,我们知道我们是基于准确的信息做出这些决定的。
里奇·科顿:好吧。太好了,非常感谢。信息丰富。我敢肯定,许多人会受到鼓舞,尝试加快他们的数据堆栈实现价值的时间。所以这太棒了。谢谢你的时间,乔治。
乔治·特鲁希略:里奇。谢谢你。我也很感激。
苏格兰电力公司如何通过 DataCamp 培训数据科学家
Duncan Bain 在 Scottish Power 领导一个由 15 名数据科学家组成的团队,负责英国能源零售行业。英国的能源零售业务非常复杂,竞争极其激烈,数据科学团队必须推动商业决策所需的洞察力,以保持苏格兰的实力。
四年前,苏格兰电力公司集中了他们的数据团队,以便能够通过整合各种学科(数据科学、数据工程、报告、客户洞察和市场研究)来更快地应对业务挑战。
英国能源零售业的数据科学业务挑战
数据科学团队为零售组织的其他部门提供支持,包括销售、服务、营销和锅炉保险等其他产品,他们在这些部门提供从客户流失到销售线索挖掘和根本原因归因的各种模型。
他们关注的一项计划是英国智能电表项目的数据科学组织准备情况。英国政府已经接受了物联网,并要求在 2020 年底前在每个家庭和小企业中安装智能电表,负责推广的是零售公司,而不是网络运营商。消费者可以免费申请一个智能电表,但这取决于零售能源公司如何说服消费者在竞争中选择它们。
“我们有大约 80 个不同规模的直接竞争对手,我们都在销售相同的核心商品。因此,就我们面临的业务挑战而言,我们更像是移动电信提供商或零售银行。”
智能电表计划面临几个数据科学挑战:
-
路线优化:数据科学团队帮助确定地理位置分散的签约智能电表工程师和安装人员的有效部署。
-
技术限制:地理位置和物业的物理设置会影响智能电表是否可以安装并按预期运行。
-
营销细分:数据科学团队与营销团队合作进行营销活动细分,以实现回报最大化。
-
安装管理:2020 年智能电表计划的最后期限即将到来,如果苏格兰电力公司没有达到年底的目标安装率,可能会被罚款。
提升多元化团队技能的挑战
数据科学团队由具有不同经验和技能水平的个人组成。员工的背景各不相同,从天文学到量子物理学。
“我们意识到的一件事是,我们不希望它成为一个回音室。分歧是好事,因为这是我们前进的方式。”
苏格兰权力机构有目的地招募多元化人才,因为他们重视不同的意见,以求创新。但他们面临的挑战是如何快速提升新员工的技能,并在不断增长的团队中建立强大的技能基准。
DataCamp 是一个灵活且可扩展的培训解决方案
由于英国能源零售行业竞争激烈,数据科学团队没有太多停机时间,因为他们不断构建模型来推动业务洞察。当他们在冲刺之间等待构建完成时,他们只有时间投资于持续学习计划。DataCamp 允许每个团队成员在方便的时候学习。
“节奏的变化非常快,发展的步伐也非常快,所以很难安排出固定的训练时间。主要优势是灵活性。而是让他们有能力在学科中发展自己,并最终让自己变得更有价值。”
Duncan 根据团队的生产力、反馈和个人进步来衡量团队的成功。现在他的团队已经扩大,他计划创建定制的数据营曲目,以帮助新成员加入。
他的团队发现 DataCamp 对于培养核心数据科学技能非常有用。他们尤其在我们的 Python 课程中发现了价值,他们在机器学习技术和神经网络方面获得了基线适应性。
“DataCamp 正在帮助我的团队将他们在 SQL、SAS 和 R 方面的一些技能转移到 Python 和我们在云中构建的东西中。”
Duncan 计划很快将 DataCamp 引入数据工程团队。他们与数据科学团队的旅程相似,因为他们中的许多人来自传统的数据仓库背景,需要在 Python 等新技术方面积累技能和经验。
如果您也对为您的数据科学或分析团队提供灵活且可扩展的培训解决方案感兴趣,请访问datacamp.com/business了解更多信息。点击此处安排我们平台的演示。
Tableau 如何帮助您的组织获得更好的数据洞察力
在数字时代保持竞争力
大多数组织已经开始进行数字和数据转型,以便在日益高度互联和数字化的世界中生存和发展。正因为如此,企业现在产生了大量的数据,可以用来做出更好的决策。为了最大限度地提高数据回报,分析师需要获得最佳的商业智能工具,以便为数据驱动的决策提取有价值的见解。
什么是商业智能(BI)工具?
商业智能(BI)是一组功能和技术,可将数据转化为可操作的见解,帮助企业做出更明智的数据驱动型决策。商业智能是通过 BI 工具交付的,这些工具为分析师提供了一个简单的拖放界面来执行以下活动:
-
**数据准备:**对来自多个来源的数据进行编译,并对其进行格式化以供分析。
-
**数据查询:**从数据集获取答案,回答特定的数据问题。
-
**数据可视化:**以图表、图形、直方图等形式创建分析的可视化表示,以便于理解。
-
**绩效指标报告:**将当前绩效与历史数据进行比较,并与利益相关方分享结果,以便做出决策。
-
数据挖掘:使用统计学和机器学习来揭示大数据集中的趋势。
商业智能工具在行业中的使用
BI 的概念从 20 世纪 60 年代就有了。因此,毫不奇怪,市场上已经有几十种成熟的 BI 工具可以帮助组织利用数据进行业务分析。最流行的两个 BI 工具是 Tableau 和微软的 PowerBI。
现代 BI 工具的主要价值在于它们支持自助分析、更快的洞察速度和易于使用的用户界面。现代 BI 工具使员工能够快速访问数据并自己回答业务问题,而不是向中央数据团队发送请求的传统方法。
以下是行业中使用的一些 BI 工具示例:
沃尔沃集团使用 Qlik 来提高关键财务结果的报告效率,从而在组织内部实现嵌入式自主决策。
UChicago Medicine 利用 Tableau 创建实时仪表盘,作为医疗中心对新冠肺炎疫情的数据驱动运营响应的一部分
苏黎世保险集团借助 Power BI 构建一个统一的平台,帮助企业用户更有效地挖掘和利用公司数据。
摩根大通采用 Tableau 从 IT 拥有的自助服务分析转变为业务拥有的自助服务分析,以跟上快速的行业变化并优化业务成功的流程。
什么是 Tableau?
Tableau 是一个 BI 和数据可视化工具,它利用可视化分析来帮助个人和组织充分利用他们的数据。Tableau 中创建的引人入胜的可视化帮助利益相关者理解大量可用的数据。
Tableau 始于 2003 年斯坦福大学的一个项目,旨在通过可视化让人们更容易获取数据。它现在是现代 BI 的市场领先选择,被所有行业的组织所使用。
在市场上的商业智能工具中,Tableau 可能是最受欢迎的。Enlyft 报告称,Tableau 在 BI 类别的技术中拥有最大的市场份额(16.3%)。
Survey on the market share of BI tools | Source: Enlyft
Tableau 怎么用?
1.提取数据洞察,无需编码技能
Tableau 的主要优势之一是其直观的用户界面,允许技术和非技术分析师高效地构建数据可视化和分析。
用户友好的拖放界面使回答复杂的数据相关问题变得容易,而不需要编程技能。这种简单性降低了用户执行高级分析(如趋势分析、回归和统计汇总)的障碍。
Tableau 还为分析师提供了一套认证,以验证和证明他们在产品知识和数据可视化技能方面的专业知识。这有助于帮助分析师成为有效的数据从业者,因为这些认证与任何行业或角色的任何地方都高度相关。
2.借助仪表盘实现数据洞察的民主化
大多数人都熟悉的一个经典 BI 应用程序是仪表板,其中数据从多个来源获得,并以图表和图形的形式直观地呈现,以提供公司流程和战略的感觉。
Tableau 附带了许多工作簿功能,用户可以轻松创建设计良好的交互式仪表板。它还可以连接到各种数据源(例如 SQL Server、Excel 电子表格、Amazon Redshift 等)。).因此,这些仪表板可以用来自组织内各种应用程序的综合数据来丰富。
这些仪表板在协调组织的战略努力、揭示关键见解和加速企业范围的决策方面大有帮助。当许多用户接受创建这种仪表板的培训时,数据洞察可以大规模民主化,以帮助企业转型为数据驱动的公司。
Example of a sales dashboard built with Tableau | Source: DataCamp’s Tableau Fundamentals Track
3.借助高级数据可视化讲述数据故事
鉴于数字时代产生的大量数据,引人注目的数据故事比以往任何时候都更加重要。
仪表板非常适合监控数据,并告诉用户正在发生什么。然而,数据故事有助于将数据塑造成一个循序渐进的过程,以解释 为什么 特定趋势正在发生。
*Tableau 允许用户将一系列可视化效果(包括仪表板)串连起来,形成一个可视化的故事,以交流数据见解,提供背景,并演示决策与结果之间的关系。将高级可视化(例如地理空间映射)编织成连贯的数据叙述的能力是 Tableau 区别于 Excel 等其他工具的地方。这些数据故事在构建令人信服的案例以向决策者传达可操作的见解方面非常有效,这与商业智能的主要目标相一致。
Example of a Tableau data story created to answer questions relating to bike-sharing data | Source: Creating Dashboards in Tableau
通过 Tableau 和 DataCamp 实现数据科学的民主化
NewVantage Partners 的 2021 年大数据和人工智能执行摘要显示,只有 24%的公司被认为是数据驱动的。为了释放数据的价值,员工需要用工具武装自己,以便有效地从数据中学习。
Tableau 是一个广泛使用的商业智能和分析软件,受到亚马逊、益百利和联合利华等公司的信任。凭借其用户友好的拖放功能,Tableau 使组织中的每个人都能够探索、分析、共享和可视化业务数据,并使所有人的见解民主化。
DataCamp 的 Tableau 基础技能课程将帮助您的团队掌握大规模数据民主化的技能,并通过 Tableau 的桌面专家认证。
#MeToo 运动是如何在 Twitter 上传播的
下面这篇文章包含的内容可能会让一些读者感到不安。这一切都是基于对过去几周包含#MeToo 标签的推文的数据分析。在本文的结论中可以找到用于分析的代码的链接。我们欢迎并鼓励进一步的分析和对话。
| 10 月 24 日至 11 月 7 日的推文文字云 |
| |
| 11 月 10 日和 11 月 11 日的推特文字云 |
| |
我用 Twitter API 提取了 50 万条包含#MeToo 标签的最新推文。给定 50 万条推文,不可能给出它们全部包含的内容的摘要。给出最常用单词的一种方法是单词云。上面有两个词云:第一个是从 10 月 24 日到 11 月 7 日之间的推文中生成的;第二个是 11 月 10 日和 11 月 11 日。你能看出有什么不同吗?看看你能找到什么。
对我来说,最明显的区别是被指控的肇事者的名字发生了变化:在第二个词云中,“weinstein”更小,因此在推文中的代表性更低,“billoreilly”不再存在,新的名字,如“louisck”(他承认“这些故事是真实的”)和“roymoore”现在出现了。“共和党人”等相关术语也出现了(罗伊·摩尔是共和党人)。出现的许多单词听起来都是真实的。其他人,包括 twitter 用户名,如“aliceglass”,还不太清楚。在这篇文章中,我将深入研究这些推文,我们将了解为什么这些词会出现在词云中。如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
你可以从这些词云中提取出许多围绕#MeToo 的主要观点。关于更多的上下文,[维基百科](https://web.archive.org/web/20220813094815/https://en.wikipedia.org/wiki/Me_Too_(hashtag%29)声明
“我也是”(或“#MeToo”,在其他语言中有当地替代词),作为一个两个词的标签,于 2017 年 10 月在社交媒体上广泛传播,以谴责性侵犯和性骚扰,此前哈维·韦恩斯坦被指控性行为不端。社会活动家塔拉纳·伯克(Tarana Burke)长期以来就在这个意义上使用这个短语,女演员艾莉莎·米兰诺(音译)推广了这个短语,她鼓励女性在推特上宣传自己的经历,以展示厌恶女性行为的普遍性质。从那以后,数百万人使用这个标签来分享他们的经历,包括许多名人。
在撰写本文时,维基百科还报道说
到 10 月 15 日,这个短语已经被使用了 20 多万次,到 10 月 16 日,推特被转发了 50 多万次。在脸书,在最初的 24 小时内,超过 470 万人在 1200 万条帖子中使用了该标签。该平台报告称,美国 45%的用户有一个朋友用这个词发帖。
“欧洲议会召开了一次会议,直接回应‘我也是’运动,此前该运动引发了对议会和欧盟驻布鲁塞尔办事处滥用职权的指控。”#MeToo 是一项在过去的一个月中获得了巨大发展势头的运动。在这篇文章中,我将探究它是如何在 twitter 上传播的。
推特上#MeToo 的两周鸟瞰图
为了这个分析,我使用 Twitter API 从 10 月 24 日到 11 月 7 日提取包含#MeToo 的推文。这是在第一条#MeToo 推文之后大约一周的两个星期的推文。Twitter API 允许您提取所有推文的子集,因此,尽管推文的绝对数量不会占所有推文的总数,但您将能够看到整体趋势。
让我们先来看看这两周内的推文数量:
尽管大多数标签的半衰期只有几分钟或几小时,但从上面可以看出,#MeToo 已经存在了几个星期。这是一场足够强大的运动,不仅在网上,也在游行和抗议中表现出来。请注意,在上图中,从 10 月 23 日到 10 月 30 日,也就是说,从第一条标有#MeToo 的推文后的一周到之后的一周,该标签的使用没有明显减少的迹象。在那一周里,每天的推文总数相当稳定。只有在第三周,它才显示出下降。还要注意 24 小时的周期性:推特的数量在东部时间晚上 10 点到 12 点之间一直处于最低水平,在东部时间中午 12 点左右达到峰值。这与大多数发自北美的推文是一致的。
如上所述,这两周的推文数量有所减少,但让我们进一步探究一下,看看这段时间有多少推文是原创的,有多少是转发的:
从上面我们可以看到,转发的数量一直占据着原始推文的数量。此外,我们注意到,在过去两周内,推文总数的减少在转发中比在原始推文中更加明显。单看原始推文的数量,你会发现有所减少,但没有你想象的那么多。
我在上面注意到,转发的数量超过了原始推文的数量。事实上,在此期间,60%带有#MeToo 的推文被转发:
然后问题出现了:在 50 万条推特中,有多少条原创推特对所有这些转发负责?在分析时,有 100 条推特被转发超过 1000 次(现在可能会更多,因为转发还在继续)。他们占了捕获的推特总量的约 62,000 条(13%)。请注意,我们的推特搜索不会捕捉到许多转发的内容。
有 1,000 条推文被转发了至少 100 次,这些占所有被捕获推文的 25%以上。
有哪些热门推文?让我们来看看在分析时转发次数最多的 5 条推文:
|
As a reminder, if a woman doesn’t post # MeToo , it doesn’t mean she hasn’t been sexually assaulted or harassed. Survivors don’t owe you their stories.
— Alexis Benveniste (@apbenven) October 16, 2017
|
For my wife, my daughter and all the women … I support you all. This has to change. #metoo #nomore
— Jensen Ackles (@JensenAckles) October 17, 2017
|
For those who silently carry their # MeToo , you are loved, cherished and trusted. You don’t owe anyone your story.
— Grace Starling (@GraceStarling4) October 16, 2017
|
|
#MeToo 。 I’m 14 and he’s 36. I may be deaf, but silence is the last thing you hear from me. pic.twitter.com/hLmBJ7PgmK
— Marlee Matlin (@MarleeMatlin) October 18, 2017
|
# MeToo【https://t . co/vwssdltu 3n】T2
—莫妮卡·莱温斯基(@ Monica Lewinsky)2017 年 10 月 16 日
| |
在分析时,这些是被转发最多的*。在收集的数据中被转发次数最多的推文呢?让我们来看看这些:*
*|
That’s why I had to leave the Crystal Castle. Here is my story: https://t.co/bs9aJRwgms # MeToo
—Alice Glass (@ Alice Glass) October 24, 2017
|
没有简单的方法告诉你。但是是时候了. .# MeToohttps://t . co/HnwugEWtJF】T2
—Breanna Stewart(@ bre _ Stewart 30)2017 年 10 月 30 日
|
I la diputada s’ha quedat sola denunciant l’assetjament sexual a les dones. Quina pena i quina vergonya. #MeToo
© Patrick Hertzog/AFP pic.twitter.com/AtCxumRu5Z— Eva Piquer (@EvaPiquer) October 25, 2017
|
|
华丽的公主画在 @LaCroix 。骚扰【meto】pic。推特(Twitter)。com/jfm 1 do 6 wlo
—frédéric pommer(@ Fred _ POM)2017 年 11 月 2 日
|
In Sweden, which claims to have achieved the highest level of gender equality in the world, “t0” now women’s allegations of sexual violence emerge like a flood. T1, T2 and Sweden’s Meitu, T3, # MeToo and T4 Movement.
— 여성신문 (@wnewskr) October 29, 2017
| |
“ALICEGLASS”是最初单词云中的一个用户名。现在很明显,她的用户名在那里,因为她在收集的推文中被转发了很多。爱丽丝·格拉斯是一位创作歌手,她是电子乐队 Crystal Castles 的创始人和主唱,她离开了乐队,你可以在这里阅读她的声明。大量的转发也是“水晶”和“城堡”出现在单词 cloud 中的原因。
所以我们有其他用数字表示的语言,这很有趣。在北美和英语语言中开始的运动不仅传播到了其他语言,而且以一种重要的方式传播,正如西班牙语、法语和韩语推文在两周内出现在转发量前五名的事实所证明的那样。现在让我们更深入地探讨一下跨语言的 tweets 分布。
#MeToo 在全球的传播
首先,让我们看看所有包含#MeToo 的推文中出现的语言,并检查它们出现的频率:
英语占主导地位,然后身份不明。然后我们有法国,荷兰,德国,瑞典,日本,西班牙和韩国。由于我们有几个标度的计数(即,以千、万和十万为单位),用对数 y 轴绘制该图是有意义的,这意味着 1 0 3 10^3 103(一千)和 1 0 4 10^4 104(一万)之间的视觉距离与 1 0 4 10^4 104和 1 0 5 10^5 105(十万)之间的视觉距离相同:
我们现在可以看到,虽然英语确实占主导地位,但还有其他几种语言,每种语言都有数万条推文:法语(32K)、荷兰语(23K)和日语(16K),等等。事实上,近 40%的推文由外语或未识别的语言表示(45K,这通常是外语,只是 twitter 使用的算法无法检测到)。
现在,让我们来探究一下在这两周内,使用#MeToo 标签的不同语言的使用情况是如何变化的:
这个数字至少有三个方面引起了我的注意,值得进一步研究:
- 10 月 26 日,当英语处于低谷时,有一个未识别语言的高峰;
- 10 月 30 日,法语推文的数量飙升至英语推文的数量;
- 在 11 月 8 日,荷兰语推文的数量有一个峰值,并接近英语推文的数量。
现在让我们来研究这些。
不明语言推文的激增
对不明语言推文激增的解释是,伊娃·皮克用加泰罗尼亚语转发了以下推文:
I la diputada s’ha quedat sola denunciant l’assetjament sexual a les dones. Quina pena i quina vergonya. #MeToo
© Patrick Hertzog/AFP pic.twitter.com/AtCxumRu5Z— Eva Piquer (@EvaPiquer) October 25, 2017
Twitter 的算法无法识别这条推文的语言,加泰罗尼亚语,这条推文在 10 月 26 日周四被转发了 4876 次。
法语推文的激增
10 月 30 日,法语推文的激增是由于以下三条推文的转发,分别有 555、347 和 327 条转发:
你可以找到四句话对一个受害妇女说。【metoo】【平衡木】【pic . Twitter . com/3 lmauq 3u 4s
— Caroline De Haas (@carolinedehaas) October 29, 2017
摩根在巴黎参加了示威游行【metoo】。对她来说,这种动员只能是一个开端。pic . Twitter . com/m0 swlewjn
— Brut FR (@brutofficiel) October 30, 2017
我喜欢这个卡介苗!【metoo】pic . Twitter . com/b5 BBA 4 VC 8d
— caroline le diore (@DioreLd) October 29, 2017
还要注意的是,上面的第一条推文也包含# Balancetonporc 标签,翻译成英文就是“expose your pig”。# balancetonporc 和轻微变体出现在 27%的法语#MeToo 推文中,现在被认为是#MeToo 的法语类似物。这里可以阅读更多。
荷兰语推特上的小高峰是怎么回事?我将把它作为一个挑战留给热心的读者。
结论
在这篇文章中,你看到了#MeToo 运动已经获得了持续的发展势头,尽管它始于北美,但它已经扩展到了全球。你可以通过 twitter 数据可视化(50 万条推文的文字云)看到,在第一次使用该标签后,出现了新的披露和指控,可以合理地得出结论,这是其持续势头的一部分。你也看到了许多推文被转发,这表明参与度很高,即使那些自己没有原创推文的人也是如此。在接下来的几天里,我将提供用于从 twitter 中提取推文并执行上述分析的代码。我热情地鼓励你看看你还能在数据中找到什么。这不能代替广泛阅读和与人讨论。
如果你有任何想法、回应和/或反思,请随时在 twitter 上联系我: @hugobowne 。
您可以在这个库的中找到用于这个分析的代码。*
如何通过 5 个步骤为您的企业分析数据
大数据是大生意。我们社会的快速数字化导致了前所未有的数据增长。此外,随着新技术和基础设施的出现,如虚拟现实、元宇宙、物联网(IoT)和 5G,这一趋势可能会在未来保持下去。因此,了解如何分析数据至关重要。
数据已经成为 21 世纪经济中最宝贵的资产之一。政府、公司和个人使用数据来改善他们的决策过程。这导致了对合格专业人员处理和分析大量数据的巨大需求。
然而,许多公司仍然难以管理和理解数据。根据 Splunk 的调查,公司收集的所有数据中有 55%被认为是“暗数据”——即公司在日常业务活动中收集但未使用的数据。虽然有时公司根本没有意识到数据的存在,但在大多数情况下,公司不会分析数据,因为他们缺乏合适的人才来做这件事。
使用内部数据科学计划培训员工是解决数据科学家短缺的最佳策略之一。与普遍的看法相反,开始分析数据并不需要统计学的高级学位或计算机科学的博士学位。市场对各种人和各种情况都有很多选择。例如,在 DataCamp,我们为个人和组织提供全面的数据培训。
在本文中,我们将介绍数据分析过程。我们将介绍一个简单的框架,即数据科学工作流,以及从原始数据到有价值见解的简单步骤。
如何使用数据科学工作流分析数据
当数据专业人员开始一个涉及数据分析的新项目时,他们通常会遵循一个五步流程。这就是我们所说的数据科学工作流,您可以在下面看到它的各个部分:
- 确定业务问题
- 收集和存储数据
- 清理和准备数据
- 分析数据
- 可视化和交流数据
数据科学工作流程
在下面几节中,我们将更详细地了解每个步骤。
虽然数据科学工作流程可能会因任务的不同而有所差异,但每次开始新的数据项目时,坚持一致且定义明确的框架是非常重要的。它将帮助你计划、实施和优化你的工作。
1.识别业务问题
数据只和你问的问题一样好。许多组织花费数百万从不同来源收集各种数据,但许多组织未能从中创造价值。事实是,无论您的公司拥有多少数据,或者部门中有多少数据科学家,只有在您确定了正确的业务问题后,数据才会成为游戏规则的改变者。
将数据转化为见解的第一步是定义一组清晰的目标和问题。下面是一些例子:
- 公司需要什么?
- 我们试图解决什么类型的问题?
- 数据如何帮助解决问题或业务问题?
- 需要什么类型的数据?
- 我们将使用哪些编程语言和技术?
- 我们将在数据分析过程中使用什么方法或技术?
- 我们将如何衡量结果?
- 数据任务将如何在团队中分配?
在数据科学工作流程的第一步结束时,您应该对如何继续有一个清晰明确的想法。这个大纲将帮助你驾驭数据的复杂性,实现你的目标。
不要担心在这一步花费额外的时间。识别正确的业务问题对于提高效率至关重要,最终将为您的公司节省时间和其他资源。
2.收集和存储数据
现在你已经有了一套清晰的问题,是时候动手了。首先,您需要收集数据并将其存储在一个安全的地方,以便进行分析。
在我们这个数据驱动的社会中,每秒钟都会产生大量的数据。数据的三个主要来源是:
- 公司数据。它是由公司在日常活动中创造的。它可以是 web 事件、客户数据、金融交易或调查数据。这些数据通常存储在关系数据库中。
- 机器数据。随着敏化和物联网技术的最新进展,越来越多的电子设备正在生成数据。它们的范围从相机和智能手表到智能房屋和卫星。
- 打开数据。鉴于数据为经济创造价值的潜力,政府和公司正在发布可以免费使用的数据。这可以通过开放数据门户和 API(应用编程接口)来实现。
然后我们可以将数据分为两种类型:
- 定量数据。它是可以用数值计算或测量的信息。它通常由电子表格或 SQL 数据库构成。
- 定性数据。今天生成的大部分数据都是定性的。一些常见的例子是文本、音频、视频、图像或社交媒体数据。定性数据通常是非结构化的,难以在标准电子表格或关系数据库中存储和处理。
根据你要回答的商业问题,会用到不同类型的数据和技术。通常,收集、存储和分析定性数据需要比定量数据更先进的方法。
3.清理和准备数据
一旦你收集并存储了数据,下一步就是评估它的质量。请务必记住,数据分析的成功在很大程度上取决于数据的质量。如果你的信息不准确、不完整或不一致,你的见解将是错误的或误导的。这就是为什么花时间打扫卫生和准备时间是强制性的。查看我们关于坏数据的迹象的文章,了解更多信息。
原始数据很少用于分析。评估数据质量对于发现和纠正数据中的错误至关重要。该过程包括修复错误,如:
- 删除重复的行、列或单元格。
- 删除分析过程中不需要的行和列。如果您正在处理消耗大量内存的大型数据集,这一点尤其重要。
- 处理数据集中的空白,也称为空值
- 管理异常值和极值,也称为异常值
- 标准化数据结构和类型,以便所有数据以相同的方式表示。
发现数据中的错误和异常本身就是一种数据分析,通常称为探索性数据分析。
探索性数据分析
探索性数据分析旨在研究和总结数据的特征。实现这一点的主要方法是统计和数据可视化:
- 统计数据提供汇总数据的简要信息系数。一些常见的统计数据是均值、中值、标准差和相关系数。
- 数据可视化是数据的图形化表示。根据数据的类型,一些图表会比其他图表更有用。例如,箱线图是可视化数据分布和分割极值的绝佳图形。
这个阶段投入的时间在很大程度上取决于数据量和您想要分析的数据的质量。然而,数据清理通常是数据科学工作流程中最耗时的步骤。事实上,数据科学家在数据科学工作流程的这个阶段花费了他们 80%的时间。
如果你在一家数据分析是日常业务活动的一部分的公司工作,在这个阶段提高效率的一个伟大策略是实施一个数据治理策略。有了关于如何清理和处理数据的明确规则和政策,您的公司将能够更好地处理数据并减少数据清理所需的时间。
如果您对数据清理过程如何工作以及数据问题的主要类型感兴趣,请查看我们的 Python 课程中的清理数据和 R 课程中的清理数据。此外,如果您想了解数据探索性分析在实践中是如何工作的,我们的SQL 探索性数据分析课程将帮助您入门。
4.分析数据
现在您的数据看起来很干净,您已经准备好分析数据了。发现模式、联系、见解和预测通常是数据科学家工作中最令人满意的部分。
根据分析的目标和数据的类型,可以使用不同的技术。多年来,出现了处理各种数据的新技术和方法。它们的范围从简单的线性回归到尖端领域的先进技术,如机器学习、自然语言处理(NLP)和计算机视觉。
下面您可以找到一些最流行的数据分析方法列表,以便更深入地分析:
机器学习
人工智能的这一分支提供了一套算法,使机器能够从可用的历史数据中学习模式和趋势。一旦算法经过训练,它们就能够以越来越高的精度做出概括的预测。根据要解决的问题类型,有三种类型的机器学习:
- 监督学习涉及在历史数据的标记训练集上教授模型,它从该训练集中学习输入和输出数据之间的关系。然后,它使用预先知道的输出值来估计测试集上预测的准确性,以便稍后可以使用该模型对未知数据进行预测。要了解更多关于监督学习的信息,请参加 Datacamp 的监督学习与 scikit-learn 课程。
- 无监督学习处理在没有给定因变量的情况下识别数据的内在结构,检测其中的共同模式,根据属性对数据点进行分类,然后根据这些信息对新数据进行预测。如果你想扩展你在无监督学习方面的知识,可以考虑我们的Python 课程中的无监督学习。
- 强化学习意味着一种算法通过与环境互动来逐步学习,决定哪些行动可以让它更接近解决方案,根据过去的经验确定哪些行动可以赶走它,然后为特定步骤执行最佳行动。这里的原则是,算法对错误的行为进行惩罚,对正确的行为进行奖励,这样它就可以为自己的表现找出最佳策略。准备好了解更多信息了吗?查看这个强化学习介绍教程。
深度学习:
机器学习的一个子领域,研究受人脑结构启发的人工神经网络算法。与传统的机器学习算法不同,深度学习算法的线性度更低,更加复杂和分层,能够从海量数据中学习,并能够产生高度准确的结果,特别是在处理非结构化数据时,如音频和图像。
自然语言处理
机器学习的一个领域,研究如何赋予计算机理解人类语言的能力,包括书面语言和口头语言。NPL 是数据科学中发展最快的领域之一。要开始学习,您可以注册我们的自然语言处理 Python 技能跟踪。一些最流行的自然语言处理技术是:
- 文本分类。这是文本挖掘的重要任务之一。这是一种受监督的方法。它有助于识别给定文本的类别,如博客、书籍、网页、新闻文章和推文。
- 情感分析。一种涉及量化用户内容、想法、信念或意见的技术。情感分析有助于更好、更准确地理解人们。
计算机视觉
计算机视觉的目标是帮助计算机看到并理解数字图像的内容。例如,计算机视觉对于实现自动驾驶汽车是必要的。在这个领域开始的一个很好的方法是使用我们的Python 技能追踪进行图像处理。
一些最流行的计算机视觉技术是:
- 图像分类。这是最简单的计算机视觉技术。主要目的是将图像分为一个或多个类别。
- 物体检测。这项技术允许我们检测图像中存在哪些类,以及它们在图像中的位置。这里最常见的方法是在图像中找到该类,并用边界框定位该对象。
5.可视化和交流结果
数据科学工作流的最后一步是可视化和交流数据分析的结果。为了将你的见解转化为决策,你必须确保你的受众和关键利益相关者理解你的工作。
在这最后一步,数据可视化是跳舞皇后。如前所述,数据可视化是将数据转化为可视化上下文的行为。这可以通过图表、绘图、动画、信息图等等来实现。其背后的想法是让人类更容易识别数据中的趋势、异常值和模式。
无论是静态图表和图形还是交互式仪表盘,数据可视化对于让您的工作易于理解并有效传达您的见解至关重要。这里列出了最流行的数据可视化工具:
Python 包
Python 是一种高级、解释型、通用编程语言。它为数据可视化提供了几个很棒的图形包,例如:
- Matplotlib
- 希伯恩
- Plotly
- 散景
- Geoplotlib
使用 Python 的数据可视化技能课程是一个很好的课程序列,使用 Python 最流行和最强大的数据可视化库来增强您的数据科学技能。
r 包
r 是一种用于统计计算和图形的编程语言。这是一个很好的数据分析工具,因为你可以使用它的各种包创建几乎任何类型的图表。流行的 R 数据可视化包包括:
- ggplot2
- 格子木架
- 高价租船合同
- 传单
- Plotly
查看技能跟踪中的数据可视化与 R 课程和交互式数据可视化,提升您的 R 编程语言可视化技能。
无代码开源工具
对于没有编程知识的人来说,无代码工具是一个容易使用的解决方案——尽管有编程技能的人仍然会选择使用它们。更正式的说法是:无代码工具是图形用户界面,具有运行本地脚本来处理和扩充数据的能力。一些最受欢迎的是:
- 草图
- 数据包装器
- 谷歌图表
商业智能工具
这些一体化工具被数据驱动的公司广泛使用。它们用于大量原始数据的收集、处理、集成、可视化和分析,从而有助于业务决策。一些最常见的商业智能工具有:
- (舞台上由人扮的)静态画面
- 功率 I
- Qlik
要了解这些工具的更多信息,我们强烈推荐我们的Tableau 简介课程和Power BI 简介课程。
近年来,已经提出了改进数据通信的创新方法。其中之一是数据讲故事,这种方法提倡使用视觉、叙事和数据将数据见解转化为行动。查看我们的数据框架播客的集,Brent Dykes 是《有效的数据故事讲述:如何用数据、叙事和视觉推动变革》的作者,以了解更多关于这种方法的信息。
结论
我们希望您喜欢这篇文章,并准备开始自己的数据分析。一个很好的开始方式是报名参加我们的面向所有人的数据科学课程。通过动手练习,参与者将了解不同的数据科学家角色、A/B 测试、时间序列分析和机器学习等基础主题,以及数据科学家如何从真实世界的数据中提取见解。
作为入门课程的后续,我们为学习者提供全面的跟踪,以继续他们的学习之旅。学生可以在职业生涯中选择他们喜欢的语言( Data Scientist with Python 、 R 或 SQL ),在职业生涯中,通过对真实世界数据集进行系统的交互式练习来教授基本的数据技能。
一旦你完成了其中一项职业生涯,你就可以继续参加数据科学认证计划,让专家验证和认证你的新技能。
数据分析是对数据进行收集、清理、转换和建模以发现有用信息的过程。
这是一个分析数据的五步框架。这五个步骤是:1)确定业务问题,2)收集和存储数据,3)清理和准备数据,4)分析数据,5)可视化和交流数据。
发现并修复数据中的异常。这是开始分析数据前的关键一步。
数据的图形表示。这可以通过绘图、图表、地图等等来实现。
不!虽然学习编码很有挑战性,但是数据科学欢迎每个人。有了耐心、决心和学习的意愿,前途无量。
如何在 2023 年成为数据分析师:开始职业生涯的 5 个步骤
成为数据分析师的五个步骤
如果你想成为一名数据分析师,你需要采取五个主要步骤:
- 学习基本的数据分析技能
- 获得证明这些技能的资格
- 在各种项目中练习您的数据分析师技能
- 为你的作品创建一个作品集
- 申请初级数据分析师工作
在本帖中,我们将更详细地了解这些要点,为您提供开始成为数据分析师之旅所需的一切信息。
为什么要开始数据分析师的职业生涯?
近年来,寻找如何成为数据分析师的人越来越多。这个角色变得越来越受欢迎,这对于我们在现代世界创造的海量数据来说并不奇怪。
各行各业的公司都需要能够驾驭数据、分析数据、从中提取有意义的数据驱动洞察,并利用这些洞察帮助他们解决关键业务问题的专家。因此,有几个原因可以让你考虑从事数据分析师的职业:
- 对角色的需求。数据分析师的就业市场蓬勃发展,而且短期内没有放缓的迹象。美国劳工统计局的数据显示,2021 年至 2031 年间,分析师职位数量预计将增长 23%。如果你在寻找一份经得起未来考验的职业,这份工作可能就是你要找的。
- 工资。数据分析师的工资通常很高,在美国的平均工资约为 63,632 美元。
- 工作满意度。根据 PayScale 的数据,数据分析师普遍对自己的工作非常满意,平均得分为 3.9 分(5 颗星)。
如何成为一名数据分析师
下面,我们概述了如何从零开始成为一名数据分析师。这很大程度上是假设你刚进入这个行业,尽管很多都与那些已经具备一些基础知识的人相关。
就成为分析师需要多长时间而言,这在很大程度上取决于个人。那些有一点现有知识和经验的人可以在几个月内掌握技能。对于其他人来说,需要几年的学习。
然而,从本质上来说,你需要几个要素才能在这个行业中茁壮成长,包括:
- 对数据的天生好奇
- 关键编程语言和技能
- 相关项目的组合
- 一份写得很好的简历
- LinkedIn 和类似网站上引人注目的简介
- 与其他数据专家联网
第一步:学习基本的数据分析技能
从数据分析的基础开始
普遍的看法是,要开始学习数据分析,你必须擅长数学、统计学或编程。虽然这些领域的背景确实提供了坚实的技术基础,但这并不意味着来自其他教育和专业背景的人无法从事数据分析职业。
学习分析数据需要一些深入的学习、专注和大量的实践。即使当你陷入困境、筋疲力尽、灰心丧气或看不到任何进展时,你也必须保持一定程度的乐观。
一个有抱负的数据分析师应该对数据有创造力和好奇心,有探索的心态,能够进行分析性思考,能够独立工作或在团队中工作,并愿意投入必要的时间和精力。这些都是有助于你成功的品质。
你需要从掌握一些基本的数据分析技能开始,比如统计学的基础,比如包括中心和扩散的测量、概率分布和假设检验。
你也可以从电子表格中的数据分析开始,感受收集和争论,并学习 Power BI 和其他工具中的探索性数据分析是如何工作的。
选择要学习的编程语言
数据分析师通常会使用几种编程语言,这意味着没有错误或正确的选择。本质上,您需要掌握 SQL 来查询和操作数据库,但是您需要为您的下一个编程语言在 R 和 Python 之间做出选择。
你可以在另一篇文章中找到 Python 和 R 的数据分析对比。你也可以通过 R 或 Python 学习成为数据分析师。
本质上,在这一点上,您将学习如何用您喜欢的编程语言导入、清理、操作和可视化数据。您将发现一些可以帮助您完成各种任务并提高编程技能的库。
第二步:获得数据分析资格
大多数雇主会希望看到你在数据分析方面的资格证明。有各种各样的途径,这很大程度上取决于你目前的教育水平和对主题的熟悉程度。
例如,几所大学提供数据分析的学士和硕士学位,但走这条路需要大量的时间和金钱投入:你需要花 2-4 年的时间进行全日制学习,费用可能在 3-20 万美元之间。
此外,如果你报名参加学士学位课程,你将需要完成数据分析以外的课程要求。成为数据分析师不一定需要学位,但它肯定会有所帮助。
如果你有一台电脑并能上网,网上学习可以让你在世界的任何地方灵活地学习。此外,通过在线课程学习比在大学学习要便宜得多:例如,你可以在不到一年的时间内完成我们的数据分析师职业轨迹和数据分析师认证,其成本只是大学学习的一小部分。
一个理想的在线自学计划包括一个详尽而平衡的课程,涵盖最重要的数据分析主题和技术,以及大量实践它们的机会。
因此,如果你正在寻找如何成为一名没有经验的数据分析师,你的学习之路应该是这样的:
步骤 3:练习你的数据分析师技能
一旦你掌握了一些基本技能,你就需要开始自己开发它们。有多种方法可以做到这一点:
从事单个项目
通过做各种练习和完成课程建议的数据分析项目,你将有大量的机会将你的新技能运用到工作中。练习你的技能,解决模拟或真实世界的问题,将为你未来的工作经验打下坚实的基础。
在这个阶段,获得一些真实、干净的数据集和预选的想法来探索将有助于保持你的学习兴趣,并避免额外的搜索或头脑风暴的干扰。你可以看看我们的一系列数据科学项目来帮助你检验你的技能。
然而,总有一天你会为现实世界的数据分析师工作经验做好准备,你需要继续进行更高级的学习:为了最好地“推销”自己,你会想向潜在雇主展示你独立工作和研究的能力。
因此,你将需要承担个人项目,一切都将由你负责:选择主题,获取必要的数据,思考你的研究方向,设计项目结构,提出并检查假设,有效地交流你的发现,并规划前进的方向。
因此,个人项目通常比指导项目花费更多的时间,但它们将帮助你在求职时脱颖而出。
将免费数据集用于数据分析项目
一旦你为你的项目想出了一个好的主题,你的下一步就是找到相关的数据去探索。为此,有许多在线存储库提供各种免费数据集。除了 DataCamp 项目,您还可以使用:
- data camp Workspace–一个在线集成开发环境(IDE),提供用于编写代码、分析数据和练习技能的数据集。
- 最受欢迎的网站,存储了数千个关于各种主题的免费数据集,既有真实世界的,也有合成的。
- UCI 机器学习库——包含开源数据集。其中大部分都是干净的、结构良好的和有据可查的。
- FiveThirtyEight–在这里,您可以找到关于不同主流主题的交互式数据驱动文章,以及这些文章使用的数据集。
- 谷歌数据集搜索——一个基于关键词的搜索引擎,就像普通的谷歌搜索一样。它存储了超过 2500 万个免费公共数据集。
步骤 4:创建数据分析师项目组合
至此,你应该已经在成为一名数据分析师的路上了。然而,要面对潜在的雇主,你需要有一份工作作品集。您可以查看我们关于构建数据科学组合的完整指南,从中获得一些灵感。
当你第一次以入门级数据分析师的身份进入就业市场时,如果你最初的项目组合主要包含来自在线训练营或数据相关大学工作的指导顶点项目,这是可以理解的。在这个阶段,它也是非常好的,并预计将有许多不同的新兵训练营项目对不同的概念进行研究,展示各种工具和技术。
然而,你想用你的作品集让你的激情和兴趣闪耀出来。讲述一个你的技能是如何发展的,你的专长在哪里的故事。你想展示你的技术和软技能,并设计它来吸引你的读者。
理想情况下,你应该避免每个人都有的千篇一律的项目,而是专注于你已经完成的、你最感兴趣的项目。你开发的项目组合越多,你就越能去除大范围的、普通的项目。
当你觉得自己已经准备好探索自己选择的特定业务领域时,你可以开始专注于获取领域知识,并制作与该特定领域相关的个人项目。
您可以将您的数据分析项目组合免费保存在 DataCamp Workspace 、 GitHub 或 Kaggle 上。它们不是托管此类投资组合的唯一免费平台,但这两个平台广受欢迎,是入门级数据专家的最佳选择,因为它们可以确保您的项目具有良好的可见性。你也可以考虑创建一个个人网站。
第五步:开始申请初级数据分析师的工作
一旦你对自己的能力和投资组合有了信心,就该考虑如何找到一份数据分析师的工作了。我们得到了以下一些提示:
确保你拥有所需的技能
在开始找工作之前,你可能想快速复习一下你的数据分析师技能,并将其与现代市场对该职位的要求进行比较。
一个好的起点是看一下数据分析师的几个职位的描述,并写下目前最需要的技能。您可以查看我们的数据分析师职位描述模板以获取一些灵感。
要想得到一份数据分析师的工作,以下是公司通常希望看到的基本技能:
- Python 或 R(尤其是他们用于数据分析的专用库)
- 结构化查询语言
- 命令行
- 统计数字
- 数据清理和争论
- 数据分析
- 数据可视化
- 网页抓取
- 排除故障
- 数据叙事
- 处理非结构化数据
如果上面的列表看起来让你不知所措,不要感到气馁;你可能不需要所有的数据分析师工作都需要这些技能。通常,每个公司在合适的候选人身上寻找不同的技能。
想了解某个用人单位的具体要求,最好的方法就是阅读相应的职位描述。如果,在这一点上,你觉得你缺少一些关键的技能,考虑提高技能。
最后,不要忘记还有一些重要的数据分析师软技能:
- 分析思维
- 多任务处理
- 好奇心
- 创造力
- 通讯技能
- 灵活性
- 独立工作和团队合作的能力
- 决策
- 商业领域知识
创建专业数据分析师简历
现在该写简历了。乍一看,这似乎是一项容易的任务。然而,在现实中,花一些时间和精力来制作一份引人注目、看起来专业的简历,吸引招聘人员的注意是值得的。您可能会发现以下文章很有帮助:创建数据科学家简历的技巧。
虽然本文主要讨论的是为数据科学家角色创建简历,但是这里的大部分技巧也适用于任何其他与数据相关的职业。让我们简要概述文章中最重要的建议:
-
把你的简历放在一页纸上。
-
选择合适的简历模板。您可以从头开始创建,也可以使用带有各种简历模板的在线简历生成器。不妨考虑以下资源:简历、泽蒂、简历生成器、 Canva 、 CakeResume 、 VisualCV 、 ResumeCoach 。
-
创建你的主简历。这可以是一份很长的、非常详细的简历,有很多页和很多要点。在这里,你可以包括你所有的工作经验(如果你想转行的话,甚至包括以前不相关的工作经验),学习,项目,技术和软技能,以及其他相关信息。你可以使用这个版本的简历作为申请任何数据分析师职位的基础。
-
根据您申请的每个职位描述定制您的数据分析师简历。仔细阅读职位描述,弄清楚公司对候选人的要求,在简历中加入/突出必要的技能和关键词。此外,你可以浏览该公司的网站(它的使命、价值观和产品),并参考它,使你的简历反映出你是最合适的人选。
-
简洁但信息丰富。
-
使用简单但有效的语言。
-
检查错误和错别字。
-
考虑包括以下部分:
-
联系信息
-
目标
-
工作经历
-
项目
-
技能
-
教育
最后四个部分的出现顺序取决于你真实的相关经历,因此也取决于你想先展示什么。
开发您的在线档案
你的 LinkedIn/Kaggle/Medium/GitHub 或任何其他相关的专业简介都应该与你的数据分析师简历相符,甚至可以用缩影的形式来表现你的简历。这里的主要目标是让你的读者知道你是一名数据分析师,即使你在这个领域还没有实际的工作经验。
换句话说,你必须提升自己,创造独特的个人品牌,才能进入数据分析的竞争激烈的劳动力市场。
以下是一些有用的提示:
- 保持你的专业档案和项目组合的更新。
- 在标题中,写数据分析师,而不是你现在的职业,如果你是一个职业改变者。避免在标题中添加“渴望”这个词。
- 包括你的照片,也许还有一张与数据相关的封面图片。
- 提供专业的联系方式。
- 包括任何相关的执照、证书、技能、成就、推荐以及与你的其他专业资料的交叉链接。
写一份高效简历的一些建议在这里也适用。简洁但信息丰富,使用简单但有效的语言,检查错误和错别字,仔细检查你的联系方式,避免包括你的技能水平。
与其他数据专业人员交流
由于你正试图进入一个全新的领域,你需要开始在数据世界中拓展你的职业网络。创建一个引人注目的 LinkedIn、GitHub 或类似的个人资料是很好的第一步。
然而,你可以更积极地加入各种数据社区或团体,参加在线和现场 meetup 活动和会议,在社交网络上关注和联系合适的人,评论社交媒体数据相关内容,并发表关于数据分析主题的文章。
让数据专家围绕在你身边会有所帮助,数据营、社区的数据爱好者可以提供帮助和支持,并拓宽你在数据世界的人脉。
申请数据分析师职位空缺
最后,你已经学会了如何成为一名数据分析师,是时候开始申请你的第一份工作了。有大量的资源可以用来找工作,一般的工作门户网站有
LinkedIn 、果然、 Google for Jobs 、simple Hired、 AngelList 、 Hired 都有房源。
更多面向数据的职位信息,请查看 DataCamp Jobs 寻找并登陆你梦想中的数据职位。另外,请记住,如果您通过 DataCamp 获得了数据分析师认证,您将获得我们职业服务团队根据您的个人需求量身定制的求职支持。
一旦你获得了面试机会,你就需要准备一些数据分析师面试问题,你可以在另一篇文章中找到细节。
直接联系潜在雇主
在使用这种求职方法的同时,你可以尝试一种不那么传统、更耗时但也更有效的方法:直接联系感兴趣的公司。
要走这条路线,先找到他们的官网,探索他们的主页和职业页面,找到他们的联系方式。阅读他们的使命和价值观,他们的服务和产品,以及任何其他相关的内容。试着弄清楚你如何成为这个雇主的理想候选人。
一旦你对他们的业务有了更多的了解,你可以给他们发一封电子邮件,附上你为该公司量身定制的数据分析简历,证明你非常适合他们。这的确是一种在特定雇主眼中脱颖而出的安全方式。
做好记录,一路调整你的策略
发送简历时,无论是发送到各种求职门户网站还是直接发送到某个组织,都要记录下您发送的简历版本以及相应的公司名称和职位描述。
如果你不能马上找到一份数据分析师的工作,也不要气馁。如果你的求职过程需要一些时间,这是绝对正常的,记住拒绝对大多数人来说是不可避免的障碍。你的失败不应该让你沮丧或失去希望。
继续申请新的工作岗位,继续提高你的技能。试着分析你的简历、作品集或求职过程中哪些地方可以改进,并做出相应的改变。
如果被拒绝了,一定要寻求反馈,如果你得到了反馈,试着通过强化你的优点和改进你的缺点来充分利用这些信息。如果您遵循了本文中的所有建议,那么获得作为数据分析师的第一份工作只是时间、坚持和努力的问题。
成为 DataCamp 的数据分析师
现在,你应该知道如何成为一名数据分析师,以及你需要做些什么来实现你的目标。在这篇文章中,我们讨论了:
- 开始学习数据分析的先决条件
- 如何选择最佳资格
- 为什么单个项目对你的投资组合如此重要,以及在哪里搜索数据集
- 可以添加到您的投资组合中的其他项目
- 公司通常在数据分析师身上寻找的技术和软技能
- 创造一份优秀简历的细微差别和技巧
- 您的在线状态、可见性以及与数据专家互动的重要性
- 在哪里以及如何找工作,以及如何在申请时保持乐观和自信
掌握了所有这些信息,是时候让你继续前进,从今天开始学习了。
这个问题的答案取决于你目前的技能和理解水平,以及你的目标是什么。那些有一点现有知识和经验的人可以在几个月内掌握技能。对其他人来说,需要几年大学水平的学习。
要成为一名成熟的数据分析师,你需要掌握很多技能。因此,这可能相当困难。然而,有很多优秀的资源可以帮助你一路走来。另外,你学得越多,就越容易坚持学习。
理想情况下,你需要一些数学和统计学方面的技能。您还需要知道如何分析、建模和解释数据,以及一些编程技能(尤其是 Python、SQL、R 等)。你需要注重细节,有很好的解决问题的技巧,并且能够与他人合作愉快。
外面有很多工具。其中最著名的是 Python、R、SQL、Jupyter Notebook、Tableau、Power BI、Apache Spark,甚至 Exel。你会发现数据分析的每个方面都有工具。
是的,除了大量的工作机会和相对较高的薪水,数据分析师通常对自己的工作感到满意。有很好的发展途径,有各种各样的方法来调整你的职业生涯。
毫无疑问,虽然这可能不是每个人的职业,但几乎任何人都可以学习这些技能,如果他们投入时间和精力的话。有些方面会很有挑战性,进步有时会很慢,但通过循序渐进,有可能掌握成为数据分析师所需的所有技能。
如何成为一名数据架构师
在相对较短的时间内,新冠肺炎危机彻底改变了所有行业公司的经营方式。麦肯锡全球公司的一项新调查发现,新冠肺炎已经加速采用数字技术好几年了——而且这些变化中的许多可能会持续下去。在疫情期间,消费者戏剧性地转向在线渠道,反过来,公司和行业也做出了回应。因此,这在各行各业的组织中产生了对数据相关角色的更多需求,其中一些行业受到的影响比其他行业更大。
根据 Monster 年度趋势报告,96%的公司正在计划或可能计划在 2022 年雇佣具有相关技能的新员工来担任未来的大数据分析角色。数据架构师是参与构建和支持组织大数据需求的关键人物之一。
在这篇博客中,您将了解到更多关于谁是数据架构师,更具体地说,数据架构师是做什么的。我们还将了解该角色与数据工程师有何不同,以及在 2022 年成为数据架构师需要哪些技能。
什么是数据架构师?
正如数据管理知识体系所报告的,数据架构师建立一个通用的业务词汇表,阐明策略驱动的数据需求,规划高级集成设计以符合这些需求,并确保企业策略和相关的业务架构相互一致。
虽然数据架构师的实际角色和职责可能会因公司而略有不同,但该角色的一般定义可以是组织中在技术数据方面扮演重要角色的高级人员。它们将业务需求转化为技术需求,并定义标准和框架,通过这些标准和框架在企业应用程序之间收集、存储、检索、存档和传输数据。根据 DAMA International 的数据管理知识体系,数据架构师还“提供标准的通用业务词汇,表达战略需求,概述满足这些需求的高级集成设计,并与企业战略保持一致”。
开放集团架构框架(TOGAF) 将数据架构师定义为一个职位,该职位负责制定数据架构原则,创建支持预期业务架构实现的数据模型,构建描述核心数据实体的图表,以及创建实现架构愿景所需的数据清单。
图片来源:https://spectra lops . io/WP-content/uploads/2021/04/data-architect . png
数据架构师是做什么的?
数据架构师具有广泛的组织职责,他们与组织内的许多其他角色和部门协作,包括:
- **领域专家:**数据架构师通常会直接与领域专家和业务负责人合作。它们在应用程序设计中起着关键作用,因为它们将业务需求转化为技术规范。
- **首席信息/技术官:**数据架构师与领导层密切合作,共同定义数据战略并将其传达给整个组织。
- **其他与数据相关的角色:**数据工程师、数据库开发人员和专家、数据库管理员和软件工程团队。
数据架构师职位的确切角色和职责可能会因公司、位置和组织规模的不同而有所不同,但概括地看,数据架构师职位的角色和职责可能是这样的:
- 将业务需求转化为技术规格。
- 定义和设计集成、数据库和数据仓库。
- 定义数据架构框架、标准和原则,包括安全框架。
- 定义数据流(例如,组织的哪些部分生成数据,哪些部分需要数据才能运行,如何管理数据流等)。
- 以持续改进组织的数据架构为目标。
- 与广泛的技术和非技术利益相关者以及外部合作伙伴和供应商协作。
- 与领导层和高级管理层协作,设计和执行数据战略,以实现组织目标。
- 维护所有数据架构蓝图和工件的企业存储库。
- 不断努力改进可伸缩性、安全性、性能、数据恢复、可靠性等。
数据架构师与数据工程师
数据架构师和数据工程师的角色是相关的,但是在数据组织中担任两个不同的技术职位,这两个职位都非常重要。
| 数据架构师 | 数据工程师 |
| 设计和设想数据架构 | 执行愿景并根据规范开发架构 |
| 关注领导力和高级数据战略 | 专注于数据清理、数据争论以及为组织中的其他数据消费者(如数据科学家、数据分析师等)准备数据的日常任务。 |
| 数据架构师通常拥有大量数据管理工具的实践技能,包括数据仓库、数据管理、数据建模和各种 ETL 工具。 | 数据工程师通常需要具备关系和非关系数据库、ETL、自动化、大数据工具、云和生产级编码技能方面的专业知识。 |
| 数据架构师负责数据框架的概念化和可视化。 | 数据工程师致力于构建和维护这些框架。 |
| 入门级的角色不太可能。 | 入门级的角色是可能的。 |
一个关键的区别是资历。虽然数据工程角色是入门级的,但数据架构师角色大多是需要 8 年以上经验的高级职位。经验丰富的数据架构师来自许多领域;然而,数据工程是最常见的。数据科学是数据架构师职位的另一个切入点。
数据架构师的技能
数据架构师的技能
- 关系和非关系数据库
- 数据库
- 应用服务器软件(例如 Oracle)
- 数据库管理系统软件(如微软 SQL Server)
- 用户界面和查询软件(例如 IBM DB2)
- 企业应用集成软件(如 XML)
- 敏捷方法
- 数据建模工具(如 ERWin、企业架构师和 Visio)
- ETL 工具
- Python、C/C++ Java、Perl
- 云(例如 Azure、AWS、GCP)
- Hadoop
在数据架构师角色中非常重要的其他非技术技能
- 促进与其他部门合作的沟通技巧
- 保护数据完整性、组织性和安全性的分析和解决问题的技能
- 时间管理和多任务处理能力,使您能够在快节奏的环境中完成任务和项目
- 计划或项目管理技能——通常与管理企业内部的变化以及项目管理方法和工具等有关。
- 业务技能和方法——通常包括业务案例、业务流程、战略规划等。
- 其他软技能——通常包括领导力、团队合作能力、表达能力、人际交往能力等。
数据架构师的工资
据 Glassdoor 称,数据架构师的平均基本工资约为每年 129,000 美元。晋升到 EA 和管理职位会使他们的年薪增加到 200,000 美元或更多。数据架构师每年的奖金和其他收入平均为 25,000 美元。
来源:https://www . glass door . com/Career/data-architect-Career _ ko0,14.htm
如何成为一名数据架构师
数据架构师不是一个受监管的职业,因此拥有学位不是一个固定的要求。然而,数据架构师拥有计算机科学、信息技术、软件工程或任何其他相关学科的本科学位是很常见的。自学的数据架构师并不少见,但是要达到同样的技能水平需要更多的时间和训练。在这个领域有大量的认证,你也应该在职业发展的道路上考虑。
获得大学学位
成为数据架构师的第一步是获得以下专业之一的学位:数据科学、计算机科学、信息技术或软件工程。参加数据库管理、数据架构、软件设计或计算机编程课程对数据工程职业非常有益。
获得专业认证
对于那些想进入数据工程领域的人来说,有无数的行业认证可供选择,例如:
认证数据管理专业人员(CDMP) 由国际数据管理协会(DAMA)开发,CDMP 是对数据架构师简历的一种通用认证。由于它不关注特定的平台或供应商,因此可作为一般数据库专业人员的可靠凭证。有四个级别(助理、从业者、硕士和研究员)将授予那些证明必要的经验和教育以及通过 CDMP 专业考试的候选人。
DataCamp 数据工程师与 Python 职业生涯 在这个全面的职业生涯中,您将学习如何构建有效的数据架构,如何简化数据的处理,以及如何维护大规模的数据系统。除了提高 Python 技能之外,随着您掌握数据工程管道创建、通用文件系统任务自动化和高性能数据库构建,您还将获得使用其他语言(如 Shell、SQL 和 Scala)的实践经验。
IBM 认证数据架构师-大数据 该认证计划要求具备必备技能,包括集群管理、复制数据、数据沿袭和 LDAP 安全性。期末考试重点是 Hadoop、BigSQL、BigInsights 和 Cloudant。
Salesforce 认证数据架构和管理设计师 数据架构和管理设计师认证考试专为具有 Salesforce 平台工作经验的候选人设计,测试您对大数据量风险和缓解策略、LDV 挑战、管理 LDV 环境以及设计权衡等的理解。
TOGAF 9 认证项目 TOGAF 专业认证有两个部分:基础和再认证。该证书的基础是验证候选人已经展示了 TOGAF 9 的术语和基本概念以及 TOGAF 和业务架构的核心原则的知识。
学习编程语言
大多数数据架构师首先是工程师,因此已经精通一些编程语言。最常见的有 SQL 、 Spark 、Hive、 Python 。
其他与职业相关的数据
当您考虑成为数据架构师是否是您的正确道路时,与其他职业进行比较可能会有所帮助。要了解其他常见数据角色的更多信息,请查看以下博客:
下图对其他常见的数据角色进行了简单的直观比较:
来源:https://www . techtarget . com/search data management/definition/data-architect
结论
数据架构是一个快速增长的职业领域:由于 COVID,各行业的数字化步伐不断加快,该行业在过去两年中呈指数级发展。因为它是不断进化的,所以在这条职业道路上你永远不会感到无聊。更重要的是,它具有很强的竞争力,而且报酬极高。
虽然数据架构师所需的每项技术技能都无法在一门课程中教授,但强烈建议您参加 Datacamp 上的使用 Python 的数据工程课程。该方向将为您提供成为数据架构师所需的基本技能,以及完成后的职业指导。
数据组织中的重要高级角色,他/她将业务需求转化为技术需求,并定义标准和框架,通过这些标准和框架在企业应用程序间收集、存储、检索、存档和传输数据。
数据架构师最常用的编程语言是 SQL、Spark、Hive 和 Python。
数据架构师设计和设想企业数据架构,而数据工程师执行愿景并根据规范开发架构。
数据架构师拥有计算机科学、信息技术、软件工程或任何其他相关学科的本科学位是很常见的。自学的数据架构师并不少见,但是要达到同样的技能水平需要更多的时间和训练。在线培训计划,如 DataCamp 的数据工程师与 Python 职业生涯跟踪,是用成为一名成功的数据架构师所需的基础知识武装自己的绝佳选择。
绝对不行。数据架构师不是一个受管制的职业,因此大学学位不是强制性的(尽管有时工作需要)。在线培训计划,如 DataCamp 的数据工程师与 Python 职业生涯跟踪,是用成为一名成功的数据架构师所需的基础知识武装自己的绝佳选择。
据 Glassdoor 称,数据架构师的平均年基本工资约为 129,000 美元。数据架构师还获得 25,000 美元的年度奖金和其他收入。
Python,SQL,关系型和非关系型数据库,ETL,Cloud,C++,Java,Hadoop。
数据架构师通常是高级专业人员,在大公司中受到高度重视,通常是所有数据角色中薪酬最高的;这些因素使它成为一个极好的职业选择。
数据架构师和数据工程师的头衔密切相关,因此经常混淆。这两种角色的区别在于他们的主要职责。值得注意的是,虽然你可以找到数据工程师的入门级职位,但数据架构师职位需要多年的经验。
如何成为一名数据工程师
数据工程师的角色正在数据科学生态系统中迅速占据一席之地。根据 2020 年 DICE Tech 工作报告,数据工程师是 2019 年增长最快的技术导向型职业。这份工作还出现在 2020 LinkedIn 美国新兴工作报告中,是过去五年中 15 个最杰出的新兴工作之一,自 2015 年以来,招聘增长率增加了 35%。
来源:骰子
你在考虑成为一名数据工程师吗?数据营是来帮助的。在这篇博文中,我们将解释什么是数据工程师,他们在日常工作中做什么,以及为什么数据工程师是当今如此重要的选择。我们还将关注数据工程师通常具备的技能和资格。最后,我们将为您提供一些提示,帮助您获得作为数据工程师的第一份工作。
什么是数据工程师?
数据工程师负责为组织中数据的获取、存储、转换和管理奠定基础。他们管理数据库架构和数据处理系统的设计、创建和维护;这确保了后续的分析、可视化和机器学习模型开发工作可以无缝、连续、安全和有效地进行。简而言之,数据工程师是数据科学领域最具技术含量的职位,在软件和应用程序开发人员与传统数据科学职位之间起着至关重要的桥梁作用。
数据工程师负责传统数据科学工作流程的第一阶段:数据收集和存储的过程。它们确保从不同来源收集的大量数据成为其他数据科学专家(如数据分析师和数据科学家)可以访问的原材料。一方面,这需要开发和维护具有高可用性、高性能和集成新技术能力的可扩展数据基础设施。另一方面,数据工程师还负责监控这些系统中数据的移动和状态。
数据科学工作流程
数据工程师是做什么的?
在任何公司的数据架构的开发和维护中,数据工程师都是关键角色。他们是准备大型数据集供分析师使用的专家。当分析员需要解释信息时,数据工程师创建程序和例行程序,以合适的布局准备数据。
因此,数据工程师的日常工作基本上在两个过程之间进行:
- ETL(提取、转换、加载)过程包括开发数据提取、转换和加载任务,以及在不同环境之间移动数据。
- 数据清理流程,以便数据以规范化和结构化的方式到达分析师和数据科学家手中。
但是数据收集和存储的过程可能极其复杂。可能涉及不同的数据源,这些数据源可能有不同类型的数据。随着手头数据的数量、种类和速度的增加,数据工程师工作的复杂性也在增加。
为了确保执行的任务是及时的、健壮的和可扩展的,数据工程师开发了所谓的数据管道。数据管道将数据移动到定义的阶段,其中一个示例是将数据从本地数据库加载到云服务。一个关键的特征是管道自动化了这种移动。不再要求数据工程师在每次创建新数据时手动运行程序,他们可以将任务安排为每小时或每天触发一次,或者在某个事件发生后触发。由于该过程是自动化的,因此需要对数据管道进行监控。幸运的是,警报可以自动生成。数据管道并不是所有的数据科学项目都需要的,但是当处理来自不同来源的大量数据时就需要了,这在数据驱动的公司中是常见的情况。如果您有兴趣了解数据管道在实践中是如何工作的,我们建议您查看我们的课程用 Python 构建数据工程管道。
教育要求
数据工程是一个新兴的工作。因此,只有极少数大学和学院拥有数据工程学位。数据工程师通常具有数据科学、软件工程、数学或商业相关领域的背景。根据他们的工作或行业,大多数数据工程师在获得学士学位后会获得他们的第一份入门级工作。然而,鉴于执行数据工程师的任务需要高度专业化的技能,在许多情况下,知识和能力胜过教育。
因此,如果您想接受正规教育,请确保选择一个课程中包含系统架构、编程和数据库配置的学位。
数据工程师需要的技能
数据工程师需要一套重要的技术技能来处理他们高度复杂的任务。然而,要在任何数据工程角色中取得成功,都很难列出一份详细而全面的技能和知识清单;最后,数据科学生态系统正在快速发展,新的技术和系统不断出现。这意味着数据工程师必须不断学习以跟上技术突破的步伐。
尽管如此,以下是任何数据工程师都应该具备的技能的非详尽列表:
-
**数据库管理:**数据工程师日常工作中相当一部分时间是在操作数据库,要么是收集、存储、传输、清理,要么只是查阅数据。因此,数据工程师必须具备良好的数据库管理知识。这需要熟练使用 SQL(结构化查询语言),这是与数据库交互的基本语言,并精通一些最流行的 SQL 方言,包括 MySQL、SQL Server 和 PostgreSQL。除了关系数据库,数据工程师还需要熟悉 NoSQL(“不仅仅是 SQL”)数据库,它正迅速成为大数据和实时应用的首选系统。因此,尽管 NoSQL 引擎的数量在增加,但数据工程师至少应该了解 NoSQL 数据库类型之间的差异以及每种类型的用例。如果你对 NoSQL 以及它与 SQL 有何不同感到困惑,我们的课程 NoSQL 概念是一个获得清晰的好地方。
-
**编程语言:**和其他数据科学角色一样,编码是数据工程师的必修技能。除了 SQL,数据工程师还使用其他编程语言来完成各种任务。有许多编程语言可以用于数据工程,但是 Python 无疑是最好的选择之一。Python 是数据科学中的通用语言,非常适合执行 ETL 作业和编写数据管道。使用 Python 的另一个原因是它与数据工程中至关重要的工具和框架的高度集成,如 Apache Airflow 和 Apache Spark。许多这些开源框架运行在 Java 虚拟机上。如果你的公司使用这些框架,你可能需要学习 Java 或 Scala。
-
**分布式计算框架:**近年来,分布式系统在数据科学中变得无处不在。分布式系统是一种计算环境,其中各种组件分布在网络上的多台计算机(也称为集群)上。分布式系统将工作分散到整个集群,协调工作以更有效地完成工作。分布式计算框架,如 Apache Hadoop 和 Apache Spark ,是为处理海量数据而设计的,它们为一些最令人印象深刻的大数据应用程序提供了基础。对于任何有抱负的数据工程师来说,拥有这些框架中某一个的专业知识是必备的。
-
**云技术:**云计算是数据科学最热门的话题之一。对基于云的解决方案的需求正在迅速改变格局。如今,作为一名数据工程师,在很大程度上需要将公司的业务系统连接到基于云的系统。随着亚马逊网络服务(AWS)、Azure 和谷歌云等服务的兴起,整个数据工作流都可以在云中进行。因此,一名优秀的数据工程师必须了解云服务的使用、优势、劣势以及在大数据项目中的应用,并具备相关经验。你至少应该熟悉 AWS 或 Azure 这样的平台,因为它们是最广泛的。
-
**ETL 框架:**数据工程师的主要角色之一是用 ETL 技术和编排框架创建数据管道。在这一部分,我们可以列出许多技术,但数据工程师应该知道或熟悉一些最著名的技术,如 Apache Airflow 和 Apache NiFi。气流是一个编排框架。这是一个用于规划、生成和跟踪数据管道的开源工具。NiFi 非常适合基本的、可重复的大数据 ETL 过程。
-
**流处理框架:**一些最具创新性的数据科学应用使用实时数据。因此,对熟悉流处理框架的候选人的需求正在上升。这就是为什么,对于愿意让职业生涯更上一层楼的数据工程师来说,学习如何使用 Flink、Kafka Streams 或 Spark Streaming 等流处理工具是一个顺利的举措。
-
Shell: 云以及其他大数据工具和框架的大部分工作和例程都是使用 Shell 命令和脚本来执行的。数据工程师必须熟练使用终端来编辑文件、运行命令和导航系统。
-
**沟通技巧:**最后但同样重要的是,数据工程师也需要沟通技巧来跨部门工作,了解数据分析师和数据科学家以及业务领导者的需求。根据组织的不同,数据工程师可能还需要知道如何开发仪表板、报告和其他可视化工具,以便与风险承担者进行交流。
如何获得数据工程师的第一份工作
数据工程是数据科学行业最受欢迎的职位之一。从硅谷的大型科技公司到各行各业的小型数据驱动型初创公司,企业都在寻求聘请数据工程师来帮助他们扩展并充分利用数据资源。与此同时,鉴于满足公司需求所需的广泛和高度专业化的技能组合,公司很难找到合适的候选人。
鉴于这种特殊的背景,没有完美的公式来获得你的第一份数据工程工作。在许多情况下,数据工程师是在从同一公司内的其他数据科学角色(如数据科学家或数据库管理员)转型后到达他们的职位的。
相反,如果你在工作门户网站中寻找数据工程机会,需要记住的一件重要事情是,有许多职位空缺与“数据工程师”的头衔相对应,包括云数据工程师、大数据工程师和数据架构师。具体的技能和要求会因岗位而异,所以关键是要找到自己所知道的和公司需要的更紧密的匹配。
如何增加获得这份工作的机会?答案很简单:不断学习。有许多途径可以加深你的专业知识,拓宽你的数据工程工具包。接受正规教育总是一个很好的选择,无论是数据科学或计算机科学(一个密切相关的领域)的学士学位,还是数据工程的硕士学位。数据科学的其他专门项目和电子平台也值得考虑。例如,DataCamp 用 Python 为数据工程师准备了一个职业轨迹,这将为你进入这个学科提供一个坚实的基础。
除了教育,实践是成功的关键。该领域的雇主正在寻找拥有独特技能、精通软件和编程语言的候选人。你在个人项目中训练编码技能越多,尝试大数据工具和框架越多,你在申请过程中脱颖而出的机会就越多。为了证明你的专业知识,一个好的选择是获得数据科学认证。
最后,如果你在寻找数据工程师的第一份工作时遇到困难,可以考虑申请其他入门级的数据科学职位。最后,数据科学是一个协作领域,有许多跨数据角色的主题和技能。这些职位将为你提供有价值的见解和经验,帮助你获得梦想中的数据工程职位。
在数据工程面试中期待什么
令人惊讶的是,尽管对数据工程师的需求越来越大,但关于数据工程面试中应该期待什么以及如何准备的资源仍然稀缺。
数据工程面试通常分为技术和非技术两部分。在技术部分,招聘人员将评估你的数据工程技能和你对工作的技术适应性。您可能会遇到与四个主题相关的问题:
- 你的简历:招聘人员会想知道你与数据工程职位相关的经历。请确保在简历中突出您以前在数据科学职位和项目方面的工作,并准备提供有关这些工作的全部细节,因为这些信息对于招聘人员评估您的技术技能以及您的问题解决能力、沟通和项目管理至关重要。
- **编程:**这可能是数据科学面试中压力最大的部分。通常,您会被要求使用 Python 或 Spark 之类的数据框架,在短时间内用几行代码解决一个问题。例如,您的练习可能包括创建一个简单的数据管道来加载和清理数据。虽然问题不应该很复杂,但是紧张会对你的表现产生负面影响。如果你不熟悉这种测试,你可以试着事先练习一些编码问题。
- 没有扎实的 SQL 专业知识,你在数据工程职业生涯中不会走得很远。这就是为什么,除了编程测试,你可能会被要求解决一个涉及使用 SQL 的问题。通常,该练习将包括编写高效的查询以在数据库中进行一些数据处理。
- 系统设计: 这是技术面试中最概念性的部分,可能也是最难的。设计数据架构是数据工程师最有影响力的任务之一。在这一部分中,您将被要求设计一个端到端的数据解决方案,它通常包括三个方面:数据存储、数据处理和数据建模。鉴于数据科学生态系统的范围迅速扩大,设计的选择是无穷无尽的。你需要准备好讨论你的选择的利弊和可能的权衡。
一旦您完成了技术部分,数据工程面试的最后一步将包括与一个或多个潜在团队成员的个人面试。目标?发现你是谁,你如何融入这个团队。但请记住,这是一个双方面的对话,也就是说,你还应该向他们提出问题,以确定你是否可以将自己视为团队的一员。换句话说,进行一次正常的交流。
薪资期望
数据工程是一个新兴的工作,招聘人员并不总是很容易找到合适的候选人。公司之间对这种难以找到的人才的竞争非常激烈,这转化为数据科学职位中最高的工资。根据大多数就业门户网站,美国数据工程师的平均工资在 9 万美元到 11 万美元之间。
结论
我们希望你喜欢这篇文章。数据工程是数据科学领域最受欢迎的工作之一,对于有抱负的数据专业人士来说,无疑是一个很好的职业选择。如果你决心成为一名数据工程师,但不知道如何开始,我们强烈建议你跟随我们的职业轨迹Python 数据工程师,它将为你提供成为数据工程专家所需的扎实和实用的知识。
四到五年。大多数数据工程师在获得学士学位后会获得他们的第一份入门级工作,但也有可能在从另一个数据相关角色转型后成为一名数据工程师。
确实如此。这种事情经常发生。如果你证明你有技能和知识,没有学位不应该成为障碍。从一个完全的初学者到一个训练有素的数据工程师有很多途径。一个很好的选择是 DataCamp 的职业轨迹数据工程师与 Python 。
在美国,数据工程师的工资通常在 9 万美元到 11 万美元之间。如果你已经是一名经验丰富的数据工程师,你的报酬可以高得多。
数据工程师通常拥有数据科学、计算机科学、数学或商业相关领域的本科学位。目前,只有少数大学提供数据工程学位。
数据工程师管理数据库和处理系统架构的设计、创建和维护。他们确保收集的大量数据成为其他数据专家可以访问的原始材料。
数据工程师负责设计、构建和维护数据架构,而数据科学家使用数据来执行深入的数据分析,以解决业务问题。
DataCamp 是学习数据工程最好的在线平台之一。通过我们由一流讲师开发的实践课程,您将学到开始学习数据工程所需的一切。点击这里查看我们所有的数据工程课程。
数据工程师通常使用 SQL、Python 或 R、Java 或 Scala。
如何通过 8 个步骤成为数据科学家
数据科学现在无处不在。世界各地的公司一个接一个地转向数据科学来解决各种各样的问题。这种情况使数据科学家在就业和薪酬方面处于有利地位。
很自然,很多人对学习如何成为一名数据科学家感兴趣。如果你正在读这篇文章,你可能就是这些人中的一员。在这里,我们将向您展示成为数据科学家所需了解的一切,包括一种有效且有吸引力的方式来了解您在数据科学领域的入门知识。
数据科学家是做什么的?
我们有一整篇文章致力于理解数据科学。在这里,我们探讨了数据科学家可能扮演的角色。本质上,数据科学家致力于深入理解和分析数据,以提供可操作的见解。
在业务环境中,他们跨多个团队工作,为强大的分析奠定基础。这意味着制定策略来从一系列来源中捕获、收集和清理数据。在组织和探索这些数据之后,他们可以构建解决方案,并将他们的发现传达给更广泛的企业。
数据科学家经常与其他专业人员合作,包括数据工程师、分析师、IT 架构师、应用程序开发人员和业务利益相关者。
为什么要成为数据科学家?
人们选择从事数据科学职业的原因有很多。这是一个回报丰厚的行业,提供了一个充满智力挑战和刺激的环境。数据科学家必须保持领先于最新的技术趋势和发展,通常在动态环境中工作。
因此,如果你有求知欲,有分析头脑,喜欢与数据和技术打交道,成为一名数据科学家可能适合你。
此外,在就业市场上,有才华的数据科学家有很多机会。来自 statista 的数据显示,大数据市场规模预计将在未来几年大幅增长,预计到 2027 年将达到 1030 亿美元,而 2022 年将达到 700 亿美元。
类似地,美国劳工统计局预测【2021 年至 2031 年间,数据科学行业的工作岗位将增长 36%,远高于 4%的全国平均水平。
这种增长反映在数据科学职业的受欢迎程度上,像美国新闻&世界报道这样的组织将数据科学家列为第三大最佳技术工作、第六大最佳 STEM 工作和第六大最佳综合工作。同样,Glassdoor 将其列为 2022 年美国第三好工作。
如果你仍然不相信为什么你应该考虑这个职业,数据科学家的平均工资可能很有吸引力。年薪中位数为 10.2 万美元,显而易见,数据科学家的需求得到了丰厚的薪酬。
数据科学家需要什么资质?
对于一个人成为数据科学家是否需要学位,存在一些争议。许多专业人士已经通过其他途径进入该行业,但大学学历肯定是有益的。
大多数毕业生计划和毕业生工作寻找在计算机科学、数据科学、数学、统计、工程甚至物理等领域有资格的个人。然而,一些计划将培养任何有学位的人成为数据科学家。
我们将在后面更详细地介绍具体的技能,但是掌握 Python、R、SQL 和/或 Julia 等编程语言的工作知识会很有帮助。
其他人会发现,他们可以依靠自己的自我导向学习,在自己的时间里获得必要的技能和经验,并在面试阶段给雇主留下深刻印象。例如,我们的数据科学家和 Python track 可以帮助您学习在数据科学领域开始职业生涯的所有必要技能。
您还可以获得 DataCamp 的数据科学家认证,向潜在雇主证明您的数据科学知识。
数据科学家需要哪些技能?
我们已经在另一篇文章中更详细地介绍了15 大数据科学家技能,因此我们将在此进行总结。本质上,要在数据科学领域取得成功,你需要软硬技能的组合。
硬技能
这些是成为一名成熟的数据科学家所需的技能:
- 计算机编程语言
- 稀有
- 统计和数学
- SQL 和 NoSQL
- 数据可视化
- 机器学习
- 深度学习
- 自然语言处理
- 大数据
- 云计算
软技能
这些现在通常被称为“权力技能”或“人际技能”,它们是跨职能的技能,不是特定的工作,但仍然是必要的。对于数据科学家来说,这些包括:
- 沟通
- 讲故事
- 批判性思维
- 商业头脑
- 解决问题
- 协力
数据科学家的平均工资是多少?
我们已经在另一篇文章中详细介绍了数据科学薪资,给出了基于各种因素的薪资明细。然而,简单总结一下:
- 不同来源的平均工资数据不同。例如,在美国,Glassdoor 根据 18,000 份薪水样本给出的平均年薪为 117,212 美元,而 PayScale 根据 7,280 份薪水档案估计的年薪为 97,318 美元。
- 数据科学经理通常是收入最高的人,年薪范围为 11.3 万美元至 23 万美元。
- 数据科学家和数据工程师的工资往往差不多,科学家年薪 8.2 万-16.7 万美元,工程师年薪 7.6 万-16.6 万美元。
- 公司规模很重要;超过 1000 名员工的公司每年支付的中位工资在 9 万美元到 11 万美元之间,相比之下,中型公司(26 到 1000 名员工)大约为 8 万美元,小公司和初创公司(2-25 名成员)为 6 万美元。
如何成为一名数据科学家
到目前为止,您可能已经迫不及待地开始了成为数据科学家的旅程。但是从哪里开始呢?下面,我们强调了从零开始成为数据科学家需要采取的八个步骤。
正如我们已经讨论过的,数据科学家的确切要求取决于多种因素,但以下是一些最常引用的步骤:
1.了解数据争论、数据可视化和报告
当你努力成为一名数据科学家时,你会经常遇到大型复杂的数据集。为了理解这些信息(为了你自己和他人),你需要学习如何处理它们。这就是数据争论技巧派上用场的地方。在这里,您将清理、组织原始数据,并将其转换为一种您可以分析并从中得出结论的格式。
有各种各样的工具可以用来处理数据争论,但是像 Python 中的 pandas 这样的库通常是首选。你可以查看我们的数据争论与熊猫小抄以获取更多信息。
当要呈现有影响力的数据时,您需要掌握报告和数据可视化。你可以找到更多关于一些最好的数据可视化工具的信息,根据你的最终目标给你一系列的选择。
2.努力提高你的统计、数学和机器学习技能
虽然你不一定需要一个涵盖这些领域的学位,但你需要这些领域的实用知识。一般来说,你会想涵盖诸如微积分、线性代数和统计学等领域。然而,评估你学习这些东西背后的意图是值得的。
例如,学习微积分可以帮助您学习为机器学习创建优化算法,尽管 Python 和 R 中都有函数可以为您处理微积分。作为一个具体的例子,理解像梯度下降这样的主题可以帮助你在调整输入时测量函数输出的变化,这有助于完善机器学习模型。
如果您希望重温您的线性代数技能,我们 R 课程中的数据科学线性代数可以帮助您处理向量和矩阵,求解矩阵向量方程,执行特征值/特征向量分析,并使用主成分分析对现实世界数据集进行降维。这些领域对应用数学和数据科学都是有用的。
同样,R 中的中级统计建模涵盖了一些基本的机器学习统计主题,帮助你在关键领域取得进步。
3.学习编码
在我们关于面向数据科学家的顶级编程语言的文章中,我们详细探讨了一些你现在应该考虑学习的最佳语言。鉴于 Python 和 R 的通用性和普遍性,它们是数据科学家最明显的选择。
当然,处理数据也意味着处理数据库,所以 SQL 是另一种必不可少的编程语言。谢天谢地,一旦你学会了 Python 和 r,这是一门相对简单的语言。
一旦你学会了 Python、R 和 SQL,Julia 是个不错的选择。使用 Julia,您可以获得一种为数据科学而从头构建的语言,使其快速而直观。如果您开始处理非常大的数据集,您可能需要其他语言,但在此之前,这四种语言已经足够了。
使用像 Java 这样的语言,你会得到一种以效率和性能著称的开源语言。对于数据科学来说,Java 虚拟机为流行的大数据工具,如 Hadoop、Spark 和 Scala,提供了一个坚实而高效的框架。
对于数据集非常大的数据科学,其他值得学习的编码语言有 Scala、C/C++、JavaScript、Swift、Go、MATLAB 和 SAS。
4.了解数据库
我们在上面的主题中提到了 SQL,这一点值得重复。关系数据库允许数据科学家以快速有效的方式存储结构化数据。在收集和组织数据时,您经常会发现 SQL 是您的首选工具。
SQL 允许您处理结构化数据、查询数据库、争论、准备和试验数据,等等。此外,SQL 通常与 Python 一起部署,SQLite、PostgreSQL 和 MySQL 等库可以帮助您连接不同的数据源。
5.学会使用大数据
我们已经简单介绍了这样一个事实,作为一名数据科学家,您将经常处理大量的数据。在一个任何事物、任何人都在产生比以往任何时候都多的数据的时代,这些数据集越来越庞大,使得它们更难收集、维护和处理。
然而,从这些庞大的数据集,一个熟练的数据科学家可以提取新的和详细的见解。因此,学习使用云平台,如 AWS、微软 Azure 和谷歌云,对你作为数据科学家的职业生涯都有好处。同样,像 Apache Spark 这样的工具可以帮助大数据处理、分析和机器学习。
您可以通过我们的课程学习 PySpark 的大数据基础知识,该课程涵盖了处理大量数据进行分析时的一些基本知识。
6.获取经验、实践并结识数据科学家同行
与任何职业一样,要成为数据科学家,你需要尽可能多的经验和实践。幸运的是,有很多方法可以让你参与社区、参与项目并发展你的数据科学技能。
例如, DataCamp Workspace 提供了一个基于云的协作笔记本,允许您分析数据、与其他人协作以及分享见解。Workspace 旨在带您从学习数据科学到从事数据科学。它还内置了数据集,因此您可以在几分钟内开始分析数据。
您还可以将您的知识应用于各种数据科学项目,让您通过浏览器解决现实世界中的问题。
7.参加实习或申请工作
一旦你掌握了上面提到的所有技能,你会想把它们应用到更专业的环境中。一旦你确信自己具备了满足某个角色期望所需的数据科学家技能,你就可以开始申请实习或工作了。
查看我们关于申请数据科学工作的完整指南,并学习如何让自己从其他候选人中脱颖而出。你可能需要一份相当全面的作品集来展示一系列技能,你还需要提前为数据科学家面试做准备。
8.关注并参与社区活动
如果你想成为一名数据科学家,你需要跟上快速发展的行业。要了解数据科学的发展,最好的方法就是加入一个慷慨而专注的社区。
除了 LinkedIn、Twitter、Discord 和 Reddit 等社交媒体网站,还有各种各样的小众网站、博客和数据科学领导者可以关注。寻找和你在相同领域感兴趣的人,寻求建议并参与讨论,参与正在发生的事情。当然,请查看数据框架播客,从众多数据专业人士那里获取行业新闻。
从原地起步可能很难,但你可以自学数据科学。在学习如何用 Python、R 和 SQL 编码之前,先从掌握统计学和数学的基础开始。接下来,努力理解关系数据库以及如何利用它们来组织和分析数据。您还想学习如何有影响力地展示您的数据,掌握一些数据可视化技术。在使用大数据和机器学习后,你会希望获得尽可能多的经验,设定目标,承担项目,并加入数据科学家社区。
虽然许多顶级数据科学家的工作需要大学学历,通常是硕士学位,但没有学位也有可能进入这个领域。你需要耐心、奉献精神、一些天赋以及灵活敏捷的能力,但是如果你下定决心,你可以在这个领域开创一番事业。
正如我们在 数据科学常见问题 中概述的那样,平均而言,对于一个之前没有编码经验和/或数学背景的人来说,要成为一名入门级的数据科学家需要大约 7 到 12 个月的密集学习。然而,数据科学中有如此多的技能,你可以在整个职业生涯中不断学习。
这个职业的性质适合那些好奇、善于分析、对信息充满热情的人。这往往需要解决问题的技巧,以及坚韧和自我激励。那些能够以简洁易懂的方式沟通复杂问题的人通常能胜任这一角色。
数据科学家的很多角色都专注于数据探索、建模和部署。数据科学家通常会概述问题,收集和清理数据,并对他们收集的信息得出结论。更多阅读尽在我们的 数据科学使用案例指南 。