DataCamp 博客中文翻译(九)

原文:DataCamp Blog

协议:CC BY-NC-SA 4.0

如何成为一名自由数据科学家(pt。2)

原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/how-to-become-a-freelance-data-scientist-pt-2

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在第一部分中,我们讨论了选择这条道路的利弊,讨论了你需要的各种硬技能和软技能,并介绍了一些与潜在客户联系的最佳平台。在第 2 部分中,我们将概述开始您的旅程需要采取的具体步骤,并为初学者提供一个提示列表。

完整的自由职业者数据科学路线图

以下自由职业者数据科学路线图是帮助你踏上自由职业之旅的有用指南。你不需要从第一步开始——你可以直接跳到符合你当前经历的那一步。否则,如果你没有经验,又是从零开始,可以从头开始。

  • 开始学习 Python 或 R
    Python 和 R 是被数据科学家广泛使用的编程语言。我们建议您从 Python 开始,因为作为初学者,您将能够找到更多的机会。从 DataCamp 的Python 介绍课程开始学习 Python。如果您已经了解了基础知识,请参加我们的快速 Python 评估 ,我们将为您提供个性化的学习计划,以便您可以专注于获得您最需要的技能。你也可以查看我们的 为产品分析 项目编写函数,这会给你编写干净的、可维护的 Python 函数的经验。

  • 获得高级编程技能
    学习基础知识通常不足以获得你的第一份工作。你应该熟悉 Python 流行的编程包如 NumPy,SciPy,Pandas,Scrapy,Matplotlib 等。你还应该知道它们背后的理论,并练习数据结构、算法和面向对象编程。

    参加我们的中级 Python 课程可以提高你的 Python 技能。我们还为您提供我们项目 的实践经验,调查网飞电影和《办公室》中的客串明星

  • 学习 SQL
    现在是时候学习 SQL(结构化查询语言)以及关系和非关系数据库了。这样,您将能够学习如何检索、写入和操作数据库中的数据。

    从 DataCamp 的SQL 简介 课程开始学习 Python,该课程将教你如何通过编写高效和优化的数据库查询来过滤、分组和排序数据等基础知识。或者,如果您已经了解基础知识,请参加我们的 SQL (PostgreSQL) 评估中的快速 数据分析,我们将为您提供个性化的学习计划。

  • 学习如何可视化数据
    在这一步,你应该熟悉 Python 中的一些可视化库,并练习最常用的技术。

    从 DataCamp 的面向所有人的数据可视化 课程开始学习,该课程将教您如何为数据集选择最佳的可视化技术,以及如何解释常见的绘图类型,如直方图、散点图、折线图和条形图。如果您已经掌握了更高级的数据可视化技能,请尝试Matplotlib数据可视化介绍,其中包含时间序列绘图、定量比较和统计可视化方面的课程。通过学习本课程,您将获得 Matplotlib(最流行的数据可视化软件包之一)的实践经验,并提高您的 Python 技能。

  • 创建你的第一个自由职业者档案
    你现在已经准备好申请基本任务了。选择一个自由职业平台,创建你的个人资料。设置你的时薪,并开始申请基本的 Python 和可视化工作。

  • 再努力一点
    找到第一份工作可能需要时间,你可能会感到沮丧,但不要放弃。申请尽可能多的简单任务。与客户取得联系。即使你现在还找不到工作,也要利用这段时间熟悉这个平台,熟悉其中共享的任务类型,并练习与客户交谈。你找到第一份工作后,其他人也会跟着来。即使需要几个月,也要有耐心,不断尝试。

  • 填补数学和统计知识的空白
    您可能需要扩展现有的数学和统计知识,以便能够理解数据科学的基础知识。

    从 DataCamp 的Python 统计入门 开始学习,它会教你简单的概率计算、分布、中心极限定理等基础知识。如果你已经有了更高级的概率和统计技能,试试 Python 中的 统计模拟,有模拟和概率分布的课程。您还将获得 Python 的 NumP y 包的实践经验。

  • 是时候继续学习机器学习了
    一旦你达到这个水平,你就会对了解机器学习的基础知识感到舒服。不要忘记在示例项目中测试你的新知识,以便在可能的情况下舒适地应用机器学习。

    从 DataCamp 的面向所有人的机器学习AI 基础 开始学习,它会教你基础知识,帮助你理解机器学习是如何工作的。如果你已经有了更高级的机器学习技能,可以试试 线性分类器聚类分析 课程,课程包括逻辑回归、支持向量机(SVMs)和 K-Means。

  • 学习深度学习的基础知识
    创建更深层次的网络或使用现有的预先训练好的网络可能有助于更成功地解决问题。这就是为什么学习深度学习的基础知识在数据科学中很重要。

    从 DataCamp 的深度学习入门 课程开始学习。

  • 更新你的个人资料
    现在你已经获得了更多的技能,这是用你的新能力和经验更新你的自由职业者个人资料的好时机。

  • 专注于样品和个人项目
    你可能仍然很难找到你的第一份自由职业。完全没问题。在这一点上,您可能应该将您的重点转移到样本项目上,或者,如果您在数据科学领域有任何项目想法,那么通过从事这些工作来获得更多经验可能是一个很大的动力。

    订阅关于新技术的文章也能帮助你跟上该领域的任何更新。客户会议并不总是关于他们的项目,你可能经常会发现自己在谈论新技术和趋势。能够就此类话题展开对话,可以帮助你极大地改善与客户的关系,并让他们感觉到你真正投身于自己的领域。

  • 每天或每小时查看工作机会
    找到适合自己的工作需要付出努力。不幸的是,作为一名没有客户评论的自由职业者,当客户寻找新的候选人时,你会排在队伍的最后。如果可能的话,你应该每天或每小时检查一次新工作。如果你比其他自由职业者更早申请工作,你将首先被看到。

  • 让你的客户开心
    有时候,查看你的客户以前的工作岗位并向他们提供建议或想法是很有用的,即使他们已经把这些工作分配给了别人。你的客户可能会欣赏这一点,并更有可能在未来的工作中记住你。

  • 合法创业
    此时,你可能已经意识到,如果你努力尝试并成功完成任务,你就能获得自由职业者的工作。现在你有信心合法地开始你的自由职业生涯。对你所在国家的税收、自由职业者费用和其他法律要求做一些研究。然后你就可以正式开始你的业务,并要求支付一直存储在你最喜欢的自由职业者平台直到现在的款项。

给初级自由数据科学家的 13 条建议

  1. 选择一个自由职业平台并坚持下去
    建议选择一个自由职业平台并坚持下去,因为你在平台上获得的评论和推荐数量将是获得其他工作的关键,从而确保你的收入。让你的自由职业档案变得强大需要时间,所以你需要努力。尤其是在第一年,你的收入会成倍增长。如果你把你的努力分成几个平台,你可能会付出更大的努力来获得同样多的成功,甚至更少。

  2. 创建漂亮的个人资料
    当自由职业者申请工作时,客户会通过检查候选人的个人资料来评估他们。你的简历需要脱颖而出,对你申请的公司有吸引力,无论是你提供的信息还是你的工作方法。你应该详细展示你的经历,包括你的大学学位和证书,你以前工作过的公司,以及你所扮演的角色。

  3. 以低时薪开始
    当你第一次在自由职业平台上创建账户时,你不会有任何评论或推荐,所以你首先需要证明自己。以相当低的时薪开始,先专注于获得好评。你能要求的价格取决于几个参数,比如双方居住的国家,自由职业者的经验,以及客户的预算。建议你也研究一下其他自由职业者的时薪,以帮助你决定自己最初的时薪。

  4. 与你的客户交谈时,要始终保持尊重。你有时需要和他们谈判,但是你的首要任务应该是让他们开心和满意。

  5. 不要承诺概率性任务的特定精度
    与数据相关的任务往往基于概率。您可能需要应用机器学习,并且您可能不太了解数据,或者客户端可能没有与您共享数据集。即使你知道这些数据,你也不能准确地预测你的任务的最低精确度,除非你已经制定了你的解决方案。然而,现实世界的问题或提供给你的数据可能与你以前处理过的不同。

    为了得到第一份工作,你可能会忍不住许诺某项任务 99%的准确率,但即使你以前完成过类似的任务,你也不应该把自己置于这种境地。总有出错的风险,你可能无法兑现你的承诺。

  6. 让客户知道你在做什么
    最好让你的客户知道。如果他们没有要求,你不应该给他们发垃圾邮件,但是告诉他们你正在采取的步骤,谈论你的想法和你下一步要做的事情总是好的。

  7. 在自己的能力范围内申请工作
    你将与你的客户就有约束力的合同条款达成一致。不要申请你没有把握能完成的工作。然而,这并不意味着你不应该自信,不应该去申请你的舒适区之外的职位。即使你以前从未做过类似的工作,你仍然可以申请那些需要你的技能和研究的工作。你不必事先知道所有的事情,承担你以前没有做过的新角色是一种很好的学习方式。如果你认为你能完成一项任务,那么你应该申请它。

  8. 如前所述,如果你是一个自由职业平台的新手,你应该首先考虑获得好评。完成任务后,提供一些额外的资产是个好主意,即使客户没有要求。例如,你可以准备一份文件,用视觉效果来解释你的工作和建筑。这可能是客户给你积极评价和推荐的原因。

  9. 寻求反馈和推荐
    作为一名初学自由职业者,你可能会在寻求推荐或反馈时遇到困难。然而,如果你认为你做得很好,那就没什么好担心的。大多数客户都非常乐意留下反馈,尤其是当你已经帮他们解决了问题并且很好地完成了工作的时候。

  10. 保护你的身心健康
    众所周知,自由职业者有一些缺点。例如,自由职业者通常独自在家工作,这会让他们感到孤独。此外,这可能会导致久坐不动的生活方式,这可能会对他们的健康和健身产生不利影响。永远把你的身心健康放在第一位。

  11. 不断提高你的语言技能
    如果英语不是你的母语,提高你的英语水平可能是个好主意。你对这门语言越有信心,你就能更好地与你的客户交流,这可能是招聘者在选择过程中寻找的一项关键技能。

  12. 自信
    因为你在提供服务,所以你需要对自己提供服务的能力有信心。作为一个第一次从事自由职业的人,你可能会把你的客户看作某种形式的主管,但是在自由职业者和他们的客户之间的关系中,这是一种罕见的动态。你应该能够提出改进建议,并在整个过程中指导他们;毕竟你是专家。

  13. 不要放弃
    你可能会发现很难找到自己的第一份自由职业。第一个永远是最难的,当然也能感觉到力不从心,但是不要放弃。改善你的个人资料,提高你的技能,并尝试尽早申请工作,这样你至少是前五名申请人中的一员。继续努力,你将最终获得你的第一个角色,在此之后,其他人肯定会紧随其后。

结论

在不断变化和发展的技术世界中,我们也在改变和发展自己。不管我们的年龄和经验水平如何,在选择和发展自己的职业时,互联网的接入为我们提供了无限的可能性。对许多人来说,作为一名自由职业的数据科学家是一条很有吸引力的职业道路,因为它提供了很大的灵活性和自我发展空间。

阅读完本文后,您已经向成为一名自由数据科学家迈出了第一步。记住这里给出的信息,我们建议你计划好下一步,努力达到你梦想的工作和生活方式的要求。

开始新的职业生涯可能会很困难,因此在数据营,我们的目标是让你成为自由数据科学家的旅程尽可能简单愉快。如果您想要更多资源来帮助您的旅程,请查看我们的数据科学家 Python 职业跟踪和我们的数据科学家认证。

自由数据科学家的收入高度依赖于他们的技能、经验和好评。初级和高级数据科学家之间的范围相当广泛。每小时的费用从 10 美元到 300 美元不等。根据这份的研究,新手数据科学家平均每小时收费 50 美元左右,有经验的硕士或博士学位的每小时收费 100 美元左右。

第一部分 中,我们回顾了所有自由数据科学家应该具备的技能。在大学里,你可以获得大部分所需的硬技能和软技能,这意味着如果你有学位,你就有证据证明你学会了这些技能。然而,如果你从新兵训练营或通过教育视频获得这些知识,那也没什么,如果做得正确,就足以确保并成功提供高标准的数据科学工作。

如前所述,这个职业最具决定性的因素是你的个人资料中有足够多的正面评价。当大多数客户检查你的评论时,你会获得他们的信任,但有些客户可能会要求你拥有学士、硕士甚至博士学位。拥有一个学位会为你打开许多大门,让你感到更加自信。在任何情况下,没有一个不会是成功的主要障碍,只要你擅长你所做的。

这取决于你的技能和你在求职中付出的努力。如果你真的很努力,找到第一份工作可能需要几天到几个月的时间。第一步是要有一个信息丰富的个人资料,包括你的正规教育和经历的所有细节。写一份好的简历也很有帮助,这样客户就能了解你是谁。

建议从小项目开始,目标应该是获得积极的评价。平台也鼓励这个系统。例如,如果你在 Upwork 上获得了大约 7-8 条评论,并且你以 100%的分数成功完成了这些评论,那么Upwork会给你分配一个“顶级自由职业者”徽章,这将大大增加你获得新工作和更大项目的机会。

我们在 第一部分 提到了几个自由职业网站。这些为自由职业者和客户之间的互动提供了一个平台,客户可以发布工作,自由职业者可以申请工作。

根据活跃的数据科学职位发布数量和高技能活跃自由职业者数量评估的前三大数据科学平台是 Upworktop talFiverr。您可以在这些平台上轻松创建个人资料。然而,其中一些不允许你直接申请工作,可能需要你事先通过技术技能面试和英语水平测试。然而,其他一些人只是出于安全原因验证您的身份,并验证您的支付和税务信息。之后,你可以直接申请你喜欢的工作。

好几个平台都对求职收费,但通常数额都很小。此外,当你第一次创建个人资料时,这些平台通常会为你提供一些免费的工作申请令牌来帮助你入门。如果你想申请更多的工作,那么这些平台要求你支付这些代币。在某些情况下,像 Upwork ,如果你与客户有良好的沟通,并且你回应了工作邀请,平台会给你免费的代币,以换取成为一名积极的自由职业者。

如何成为一名自由数据科学家(第一部分)

原文:https://web.archive.org/web/20221129044300/https://www.datacamp.com/blog/how-to-become-a-freelance-data-scientist-pt1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简介

成为自由数据科学家的优势和劣势

数据科学自由职业者的技能

寻找自由数据科学工作的顶级平台

结论

介绍

Glassdoor 报道,远程工作的需求增长了 360%。世界的工作方式已经发生了重大变化,尤其是在数据科学和软件开发领域。从统计数据中可以看出,许多专业人士目前正在努力赶上这一变化带来的变化。

许多公司已经转向远程工作模式,这种模式允许员工在保持工作效率和对公司忠诚的同时,在个人生活上投入更多时间。至于那些一直在积极寻找工作的人,他们不仅在自己的国家,而且在国外都遇到了广泛的新工作机会。可以说,雇主和雇员在灵活性和信任的基础上找到了双赢的局面。

随着在家工作的优势越来越广为人知,越来越多的人想知道现在是否是尝试自由职业的时候了。因此,像 Upwork 这样的在线自由职业者平台已经非常受欢迎。

目前, Upwork 有大约 900 个数据科学工作岗位。这已经是一个相对较高的数字,但作为一名数据科学家,你还可以参加其他类型的软件开发项目,而不仅限于数据科学,这为潜在的自由职业者提供了更好的前景。

作为一名数据科学自由职业者,你会发现公司和个人都可以申请各种有趣的项目职位。招聘启事已经写明了工资和期望的完成日期,这使得决定是否值得接下这个项目变得非常容易。当然,你不需要一次只做一个项目。你可以制定自己的规则,按照自己的喜好管理时间,以便在不牺牲工作/生活平衡的情况下达到最高效率。

然而,作为一名自由职业者,也有一些缺点,比如没有公司福利,在采取行动之前,值得认真考虑这一点。

做一名自由数据科学家的优势和劣势

作为一名自由职业者,你实际上是在创造自己的品牌。除了完成您接受的任务,您还有责任确保您品牌的发展,规划您的收入和支出,并做出每个决定,如选择您将使用的程序许可证。

成功的自由职业者意味着大量的艰苦工作,但是,就像其他就业选择一样,做一名自由职业者有利也有弊。

优势

  1. 只要能上网,你可以在任何地方工作。
  2. 你选择你想做的工作和适合你的工作条件。
  3. 你可以自己计划你的工作量和假期,你可以在你的精力和时间允许的情况下工作。如果你想成为一名自由职业的数据科学家作为兼职,你也将能够找到只占用你一天几个小时的工作。
  4. 由于自由职业者在全球范围内工作,他们有时可以受益于比在本国获得更高收入的机会。
  5. 鉴于你接受的任务的多样性,作为一名自由职业者,你可以用不同的方式提高你的能力,而不是像员工一样完成单调的任务。此外,你的研究和开发技能可以快速发展,因为你每天都在积极的任务搜索中训练它们。

不足之处

  1. 自由职业者有一定的纳税义务,他们需要自己去记录,这可能会让人不知所措,尤其是对新自由职业者来说。
  2. 利益缺失。由于你将经营自己的企业,将没有公司为你提供通常的员工福利。这意味着你需要为自己提供某些东西,比如健康保险。
  3. 项目花费的时间可能比您预期的要长,或者您的客户可能希望提前完成项目。这最终会让你发展自己的适应能力,但短期内,你也可能会觉得自己的商业生活缺乏稳定性。
  4. 你会遇到好客户,也会和可能给你带来麻烦的客户一起工作。无论如何,你需要让你的客户开心。他们在自由职业平台上给你的分数,以及他们可能分享的公众评论,会极大地影响你未来被其他机构聘用的可能性。
  5. 时区。在某些情况下,你可能需要适应客户所在国家的时区,这可能会影响你的私人生活。
  6. 通常你不会有同事在你旁边工作,这有时会让你感到孤独。关注自己的精神状态和社交需求很重要,否则,你可能会发现自己的动力和健康都在逐渐下降。
  7. 总有一种风险,你可能会遇到客户不坚持他们最初同意的条件,包括付款。这种可能性通常很小,但你仍然需要记住这一点,并采取必要的预防措施,以确保你总是受到公平对待。

数据科学自由职业者的技能

作为一名自由职业者,你需要很好地结合软技能和硬技能。你的技术知识当然会发挥非常重要的作用,但其他方面,如你的社交技能,你的语言能力,你的基本会计知识,也将是至关重要的。

硬技能

技术

大多数数据科学技能来自计算机科学、IT、数学和统计背景。然而,它并不局限于这些领域,因为它们也可以从不同种类的工程职业道路中获得。每位数据科学家都需要具备以下基本技能:

  1. 编程和包
  2. 数据可视化
  3. 机器学习
  4. 概率与统计
  5. 线性代数
  6. 数据角力
语言技能

熟练的语言技能是良好沟通的基础。作为一名自由职业者,你会经常与不同国家的客户打交道。如果你看一下任何一个自由职业者平台上的招聘信息,你会发现大部分(如果不是全部)都是英文的。

这将有助于你有一个英语水平,让你理解给定的工作,并以书面形式回应客户。然而,在某些时候,有限的英语水平可能是不够的。在中型和大型项目中,您通常需要在项目之前、期间和之后进行视频通话。客户会优先考虑在招聘过程中能够顺畅沟通的候选人。由于这个原因,如果英语不是你的母语,提高这项技能会非常有利。

会计

自由职业者要交税和自由职业者费用,这取决于他们居住的国家。随着你业务的增长,你必须支付的税的种类可能会改变。拥有良好的会计技能并跟踪税收立法的变化是至关重要的,因为不遵守这些法律可能会导致法律问题。

软技能

被认为是“软技能”的能力是赢得客户信任的关键。为了成为一名成功的自由职业者,你需要学会掌握以下几点:

沟通

所有优秀的自由职业者都有一个共同点,那就是他们独特的交流方式。在接受一份工作之前,自由职业者和客户理解彼此的要求和需求是很重要的。双方需要清楚地沟通,以避免从一开始就含糊不清或误解。

谈判

学习如何谈判需要经验。谈判有时可能是一个敏感的话题,必须始终以尊重的方式进行。自由职业者只有通过实践才能学会这一点。不要太唐突地说出你的需求和期望是很重要的,如果发生了错误,从错误中吸取教训是至关重要的。理想的结果应该总是对双方都公平的合同条款。

情商

能够预测客户在面对问题时的感受将有助于你计划你可以建议的解决方案,以及如何向他们展示这些方案。也可能有这样的情况,你的客户因为不同的原因不能表达他们的想法。在这种情况下,自由职业者的同理心会让客户感到被理解和受到良好的照顾。

抽象

抽象是工程师和科学家广泛使用的一种技能,它包括思考一个复杂的问题,并将它分成几个高级别的简单组件。然后,仅仅通过关注这些简单的组件,就可以更容易地处理复杂的问题。

客户可能没有自由职业者那么多的技术知识,即使他们有,他们也可能很难完全理解工作的每一步。这就是为什么自由职业者需要能够对他们的方法和项目架构提供一个清晰的总结,这也是抽象发挥作用的地方。当客户清楚地了解整个过程时,他们会很感激,这有助于在双方之间建立一座牢固的桥梁。

寻找自由数据科学工作的顶级平台

自由职业者网站为求职者和自由职业者提供了一个互动的平台。这些平台允许你筛选工作机会,以便根据你的技能调整搜索。项目的所有阶段都发生在这些平台上,包括最终付款,这使它们成为专业人士非常有用和可靠的工具。下面列出了当前数据科学工作的热门平台。

向上工作

这个平台上大约有 900 个与数据科学相关的公开招聘职位,如 Upwork 的数据科学网页所示。在 T2,工作机会通常会很快敲定。谈判可能会持续几分钟到一周。这意味着你每周可以申请大约 1000 份数据科学的工作。

总面积

与其他自由职业者平台不同, Toptal 对所有自由职业者候选人进行严格的技术面试。作为这次面试的结果,只有前 3%的申请人被该网站接受。这就保证了只有最成功、最专业的自由职业者才能在这个平台上做生意。

五元

与众不同的是,在这个平台上,自由职业者通常提供他们可以在基本、标准和高级计划中完成的特定工作。因此,商业动态在某些方面比其他平台更稳定,因为自由职业者可以明确规定他们将执行什么任务,确切的时间和费用。

结论

作为一名自由职业数据科学家开始你的旅程可能具有挑战性,但可以在数据科学领域获得有益的职业生涯,在那里你可以享受作为自己老板的独立性。请继续关注第 2 部分,我们将提供成为数据科学家的详细路线图、其他有用的提示以及常见问题的答案。与此同时,您可以通过注册我们的数据科学家职业道路开始您的旅程。

如何成为一名机器学习工程师

原文:https://web.archive.org/web/20220627024316/https://www.datacamp.com/blog/how-to-become-a-machine-learning-engineer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习(ML)是人工智能(AI)和计算机科学的一个子领域,专注于通过利用数据和算法来模仿人类的学习方式。机器学习的主要目标是识别数据中的模式。在监督学习中,对输入数据实施算法以学习函数,并基于示例输入-输出对将输入映射到输出。通过学习函数,我们可以将看不见的观察结果传递给模型,让它对结果进行预测。另一方面,无监督学习从未标记的数据中学习模式。

据我们所知,人们高度相信人工智能将改变商业,这场革命已经在几个行业开始了。因此,几家公司正在向该领域投资数十亿美元:截至 2019 年 9 月,美国的机器学习应用公司已经筹集了 370 亿美元的累计资金,随着对 ML 应用需求的增加,需要人才来开发产品。机器学习工程师就是这种推动所必需的角色之一。想要成为机器学习工程师有几个令人信服的理由:

  • 这是一个有利可图的职业选择。
  • 这是一个令人兴奋的领域,总是会出现新的挑战,需要不断学习。
  • 人工智能的职业生涯让你处于现代工业中最前沿的技术游戏规则改变者的中心。

既然我们已经建立了成为机器学习工程师的“为什么”,我们将分解机器学习工程师做什么以及你如何才能成为一名机器学习工程师。

什么是机器学习工程师?

机器学习工程被认为是软件工程的一个子领域,所以可以说他们的生活方式非常相似。像软件工程师一样,雇主希望机器学习工程师是熟悉 IDEs、GitHub 和 Docker 等软件工程工具的熟练程序员。

主要区别在于,机器学习工程师主要专注于创建程序,为计算机提供必要的资源,使其能够自我学习。机器学习工程师通过将他们的软件工程知识与机器学习知识相结合来进行这种区分。

机器学习工程师的目标是将数据转化为产品。因此,机器学习工程师可以被描述为研究、构建和设计自学软件以自动化预测模型的技术上可靠的程序员。

机器学习工程师是做什么的?

许多人可能听说过数据科学家——特别是在哈佛商学院称之为 21 世纪的性别歧视角色之后;与数据科学家相比,机器学习工程师似乎在项目中稍微靠后一些。换个角度来看,数据科学家会分析数据以产生商业见解,而机器学习工程师会将数据转化为产品。

机器学习工程师会更加专注于编写代码,这些代码采用理论数据科学模型,并将它们扩展到生产层面,作为机器学习产品进行部署。然而,机器学习工程师的职责细节可能会根据两个关键因素而变化:1)组织的规模和 2)项目的类型。

作为一名机器学习工程师,仍然有一些你可以期待的一般职责。这些责任包括:

  • 设计、研究和开发可扩展的机器学习管道,实现机器学习工作流程的自动化
  • 扩展数据科学原型
  • 寻找和提取适合解决手头问题的数据集;这可以与数据工程师合作完成
  • 验证他们提取的数据质量良好,并对其进行清理
  • 利用统计分析提高机器学习模型的质量
  • 构建数据和模型管道
  • 管理将模型投入生产所需的基础设施
  • 部署机器学习模型
  • 监控生产中的机器学习系统,并在必要时对其进行再培训
  • 构建机器学习框架

Chip Huyen 是一位作家,也是机器学习领域的杰出人物,他建议不要纠结于角色定义,这是一个好习惯,因为它们通常会不准确地反映出你可能正在做的事情。例如,可能会遇到两个人在同一个团队中工作,他们执行着截然不同的任务。不过,你也可能遇到不同公司的两个人,他们做着类似的事情,但头衔却大相径庭。

一个机器学习工程师需要什么技能?

机器学习工程师坐在软件工程师和数据科学家的交叉点上。由于它的跨学科性质,你必须精通基础数据科学技能,并牢固掌握软件工程原理。

值得注意的是,大多数机器学习工程师角色不需要学位,尽管一些职位描述仍然将它列为一项要求。如果你能够在你的投资组合中展示机器学习工程师所需的必要技能,你仍然可以被考虑。让我们更深入地了解教育、技能和经验,让你更好地了解你需要展示什么。

技术

编程语言:最明显的要求是写代码的能力;Python 和 R 是最受机器学习从业者欢迎的语言;然而,一些公司可能要求你了解其他语言,如 C++和 Java。

数学、概率和统计:数学、概率和统计在机器学习中起着重要的作用。例如,线性代数[数学的一个子领域]重点关注向量、矩阵和线性变换,这些都是机器学习中关键的基础方面;我们经常在描述算法如何工作的符号中看到它,当我们用代码实现算法时,必须对它有很好的了解。其他重要的技术需要很好地理解概率,以帮助我们处理现实世界中的不确定性,以及统计学,以帮助我们建立和验证我们的模型。

机器学习算法和框架:很难说你必须从头开始实现一个机器学习算法。几个知识渊博的人创造了各种机器学习框架(即 Scikit-learn、TensorFlow、Pytorch、抱抱脸等。)使得机器学习变得容易实现。然而,选择合适的模型并针对任务进行优化需要对机器学习算法、其超参数以及其超参数如何影响学习有很好的了解。你还必须意识到在解决问题时采用每种相对方法的利弊,这也需要对各种机器学习算法的内部工作原理有很好的了解。

软件工程和系统设计:机器学习工程师的最终成果是可工作的软件。在开发机器学习系统时,必须仔细考虑如何设计系统,以便随着数据的增加而很好地扩展。此外,机器学习系统是一个较小的组件,需要适应一个更广泛的系统。因此,机器学习工程师必须了解各种软件工程最佳实践(即版本控制、测试、文档、模块化编码等)。)以及不同的部分如何形成一个系统。你需要为你的机器学习模型建立一个合适的接口,这样它就可以有效地与系统中的组件进行通信。

MLOps:机器学习操作(MLOps)是机器学习工程的核心功能之一。它专注于简化将机器学习模型投入生产的过程,以及在生产后维护和监控它们的必要资源。它仍然是一个相当新的功能,但它开始作为创建高质量机器学习应用程序的实用方法而受到关注。

软技能

沟通:机器学习工程师必须与各种利益相关者合作:这些利益相关者中的一些将是非常技术性的(即数据科学家),而其他人可能不是(即产品团队)。因此,有效地调整你的沟通方式以适应你所接触的利益相关者是至关重要的。

解决问题:尽管在机器学习的前沿有各种新奇的工具,但机器学习项目的主要目标是解决问题。这意味着创造性地和批判性地思考问题是机器学习工程师非常需要的品质。

快速学习者:机器学习是一个快速发展的领域:当你阅读这篇文章时,某个地方的研究人员正在研究如何改进一些模型或过程。要保持在前沿,你必须有快速学习新工具的诀窍,知道它们如何工作,它们在哪里工作得好,在哪里不好。简而言之,成为机器学习工程师的决定是对持续学习的隐含承诺。

如何获得你的第一份机器学习工作

你如何找到你的第一份工作?这可以分为两个阶段:1)投资组合的建立和 2)推广。投资组合构建阶段应该发生在你学习机器学习的时候。一部分拓展应该发生,但当你有一个强大的投资组合时,它会加速。因此,让我们更深入地了解每个阶段。

投资组合构建阶段

申请机器学习职位的最大挑战之一是获得面试机会。由于该领域相对较新,因此没有通用的验证标准,公司可以用来解读候选人是否适合机器学习工程师的角色。当然,大多数职位空缺每天收到数百份申请也无济于事。为了弥补积压,候选人的简历通常会通过 ATS 系统,该系统会根据特定的关键字过滤申请。不幸的是,人们很快就发现了这一点,并在简历中填入关键词来击败 ATS 系统。那么,你如何确保公司注意到你呢?

一个解决办法是从事展示你的技能并帮助你建立投资组合的项目。这些项目可能是一些精心制作的博客帖子,详细介绍了解决问题的方法或如何实现特定工具(例如,为生产就绪的机器学习模型设置监控)。一个项目也可能是一个端到端的系统,你设计它是为了在给定一些输入的情况下预测一个结果。最重要的是你能展示出雇主想要的能力。

如果你不确定要构建什么项目,你可以参加在 DataCampKaggle 等平台上举办的数据科学竞赛。许多雇主都非常重视参与此类竞赛,这也是建立投资组合的一个很好的方式。通过这篇 Kaggle 比赛教程,你可以了解一下参加比赛是什么感觉。

外联阶段

一旦你有了自己的投资组合,下一步就是拓展。一些人更喜欢传统的求职方式,即使用求职公告板,用同一份简历申请尽可能多的职位。虽然这可能会取得一些成功,但它更像是一种暴力方法。

找到工作的一个更具战略性的方法是列出一系列你希望成为雇主的公司。例如,你更喜欢使用机器学习的公司还是增强当前系统的公司?你希望你的理想公司有多大?开始问自己类似这样的问题,来分解你理想中的雇主是什么样的,并列出来。

一旦你有了一份理想公司的名单,你就可以开始利用 LinkedIn 和 Twitter 等社交媒体平台寻找这些组织的决策者(即招聘经理、首席数据科学家、团队领导)。试着附上一条友好的信息来增加他们的价值,因为他们很有可能已经从寻找机会的人那里收到了大量的信息。从给予的角度出发,更有可能让他们产生兴趣。

嗨【插入姓名】,
我看了您推荐系统的系统设计文章,很佩服您处理冷启动问题的方式。鉴于你团队的高水平专业知识,你可能已经想到了这一点:推荐热门文章对于帮助人们做出决定非常有用。我进行了一个项目来解决这个问题——这是链接[插入链接]。你有时间和我简单聊聊我在这个项目中采用的方法吗?请让我知道你的首选发言时间。这是我的空闲时间[插入空闲时间]。

问候,

【你的名字】

请注意,上述建议需要满足两个关键要求:

  1. 它假设你有一个在线的存在;如果你没有,确保你至少创建了一个 LinkedIn 账户并优化了你的个人资料。
  2. 它假设你已经对公司的机器学习部门进行了积极的研究,因为如果你想增加价值,你需要参与进来。

但是不要止步于此。招聘人员对你获得第一份工作非常有帮助,所以你也要尝试通过 LinkedIn 这样的平台与招聘人员联系,这一点非常重要。建立关系,让招聘人员知道你感兴趣的工作类型,这样他们就可以留意你了。

一个重要的免责声明是,这并不能保证你能找到工作。然而,系统的求职方法可以让你更好地跟踪你的进步,并在你做得不太好的地方有所改进。例如,如果你联系某人但没有收到回复,你可以修改信息并发送给其他人。如果它得到了回应,你可以修改这个信息,并把它用于其他人。理想情况下,你会不断调整它,直到你收到越来越多的回应。

薪资潜力

作为一名机器学习工程师,你能挣多少钱取决于你所在的位置。例如,根据前景展望公司的数据,一名毕业生在英国的年薪大约是 35,000 英镑,而全国平均年薪是 52,000 英镑。然而,根据 Payscale 的报告,在美国,入门级机器学习工程师的平均年薪为 94771 美元,的平均年薪为 112513 美元。

显而易见,这可能需要一些改进,因为许多公司现在接受越来越多的远程员工。鉴于远程工作的增加,如何公平地支付员工工资一直是一个争论的话题:一些公司已经决定根据员工的位置支付工资,这意味着如果你在一个经济欠发达的国家工作,而他们是在职的,你可能会比同样职位的人挣得少。其他公司决定不管地点在哪里,都坚持这个工资标准。要点是公司对支付远程员工有不同的政策,所以你必须尽职调查。

对机器学习工程师的面试有什么期待

不同的公司有他们偏好的进行面试的方式,找到每种方式都很有挑战性。一个好的做法是在你第一次面试之前询问面试过程是如何进行的,但是这些信息通常是给你的。此外,大多数公司倾向于从跨国组织(如谷歌、脸书、苹果等)那里获取他们的方法。)然后加上他们的扭动,这样才适合他们。因此,我们可以了解很多关于大多数公司如何进行机器学习工程师面试的信息,并通过查看跨国组织的流程来更好地了解预期会发生什么。

谷歌面试

谷歌寻求只雇佣最聪明的人才。因此,他们极具挑战性的面试过程旨在筛选出不符合他们高标准的候选人。

面试过程也是针对 Google(即 Google cloud)的,范围极其广泛,涵盖了从数据结构和算法到系统设计和测试的各种主题。你可能会经历几轮面试,包括招聘人员筛选、一两次技术电话筛选和四至六次现场面试。

亚马逊访谈

和谷歌一样,亚马逊的面试流程是亚马逊特有的(即 AWS),难度极高。面试包括招聘人员电话筛选、某些情况下的在线评估、一到两次电话筛选,以及四至六次现场面试。

涵盖的主题包括行为问题、软件工程问题(即系统设计)和机器学习特定问题。然而,面试官可能会问你一些机器学习项目,并要求你解决一个编码问题。

梅塔(前脸书)采访

Meta 的机器学习工程师面试流程是相当整体的。你将通过招聘人员筛选、编码面试和五次现场面试来确定你是否合适。招聘经理可能会给你一份带回家的作业,看看你实际上是如何解决问题的。

需要注意的是,并不是所有公司的招聘过程都像上面列出的跨国公司那样漫长或紧张。例如,一些公司认为没有必要钻研数据结构和算法。尽管如此,大多数人会同意机器学习系统设计是必不可少的,并将包括一个测试你在该部门的知识的部分。因此,在做出决定之前,你应该期待多轮面试——通常是筛选轮,然后是技术轮,接着是行为面试。

结论

机器学习工程师工作流程的成果是工作软件;作为一名机器学习工程师,要有效地工作,你必须是一名技术过硬的程序员,在数学、统计、概率和软件工程方面有坚实的基础。虽然在职位描述中经常要求,但大多数公司通常不要求学位,但用一个作品集展示你的能力是必要的。

DataCamp 有两条优秀的职业道路,可以帮助你开始你的旅程:

你不必完成这两个课程,因为雇主通常更喜欢 Python 或 R 的知识;这两方面的能力都很好,但不是必须的。

2023 年如何成为量化分析师

原文:https://web.archive.org/web/20221210075939/https://www.datacamp.com/blog/how-to-become-quantitative-analyst

现代工作场所中有许多数据角色,其中许多角色专门从事某一特定领域。定量分析师就是这样一个职业。这个角色使用数学和统计技术来帮助组织做出财务决策。如果你想知道如何成为一名定量分析师,这篇文章将探索你需要知道的一切。

我们将研究定量分析师做什么,为什么它是一个如此重要的角色,并探索进入该行业所需的教育水平和技能。

什么是量化分析师?

定量分析师是金融专业人士,他们使用数学和统计技术来分析和模拟数据,以帮助做出投资决策。他们通常在金融行业从事风险管理、投资组合管理和交易。

定量分析师(有时被亲切地称为“定量分析师”)利用他们在数学和统计学方面的技能来帮助组织做出明智的财务决策。

定量分析师是做什么的?

与任何此类数据角色一样,定量分析师执行的具体任务因其职位、行业和组织而异。但是,它们可能涉及的一些常见功能包括:

  • 开发和实施数学模型,以帮助预测金融市场和确定投资机会
  • 分析财务数据以确定趋势和模式
  • 构建和测试金融交易算法
  • 设计和实施风险管理策略
  • 与其他专业人士(如交易员和投资组合经理)合作,做出投资决策

正如你所看到的,定量分析师的工作涉及一系列不同的职能,必须有广泛的知识才能成功。

为什么要成为量化分析师?

这是许多现代企业必不可少的角色。因此,有很多原因可以解释为什么有人会决定成为定量分析师。其中包括:

  • 高收入潜力。量化分析师往往薪水很高,尤其是在金融行业。根据 Payscale 的数据,在美国,定量分析师的基本年薪从 61000 美元到 129000 美元不等。这取决于角色、组织、行业以及你的经历和教育程度。
  • 智力挑战。这个角色包括使用先进的数学和统计技术来解决复杂的问题,这可以激发那些喜欢这种工作的人的智力。
  • 对金融市场的影响。作为定量分析师,你可以对金融市场和组织的投资决策产生直接影响。
  • 职业发展的机会。对定量分析师的需求很高,拥有合适技能和经验的人往往能在职业生涯中快速晋升。根据 LinkedIn 的数据,在撰写本文时,美国有超过 15,000 个定量分析师职位正在发布广告。
  • 工作种类。定量分析师可以在各种行业和组织中工作,他们的任务可以根据具体的角色和公司而有所不同。这可以为职业多样化和成长提供机会。金融、科技、保险、零售、能源、媒体等行业都需要定量分析师。

如何成为定量分析师:成功的 5 个步骤

我们已经列出了一些你需要采取的步骤,来获得一份定量分析师的工作。同样,这些将取决于你现有的技能和知识,以及你的职业抱负。

1.从你的教育开始

从我们上面概述的定量分析师的工作描述中可以看出,这个角色通常需要很强的教育背景。你需要熟练掌握数学和统计学,并具备计算机编程的实用知识。

对许多人来说,定量分析师的职业道路始于数学、统计学、计算机科学或工程学的学士学位。从那里,计算金融或金融工程硕士学位是下一步。一些人还选择攻读数学或统计学博士学位。

所以,如果你想成为一名定量分析师,教育是一个很好的起点。许多量化分析师从学习 R 或 Python 这样的编程语言开始,你可以参加我们的 R track 的量化分析师和 Python 中的量化风险管理的课程开始学习。如果你完全是这个领域的新手,统计学的介绍也是一个很好的起点。

2.发展你的技能

无论是作为你正规教育的一部分,还是作为你自己的个人项目,你都需要学习几项技能来成为一名成功的量化分析师。正如我们已经提到的,你需要数学和统计技能来开发金融模型。除了牢固掌握微积分(导数、积分和最优化)和线性代数(矩阵、向量和线性方程),你还需要理解概率(随机变量、分布和假设检验)和其他数值方法。

除了这些技能,你还需要:

  • 编程技巧。我们已经介绍过 R 和 Python 对于定量分析是有用的。他们可以帮助你建立和实现你的模型和算法。
  • 批判性思维技能。作为一名定量分析师,你在工作中会经常遇到相当复杂的问题。你需要创造力和批判性思维来克服它们,通常需要创新的解决方案。
  • 沟通技巧。定量分析师与各种其他专业人士一起工作,如交易员和投资组合经理,来做出投资决策。你需要清晰有效地交流你的发现和建议,无论是口头还是书面的。
  • 关注细节。鉴于您将处理大型数据集,您需要能够从数据中得出结论并发现模式、错误和不一致之处。
  • 金融市场知识。除了你的技术技能和权力技能,你还需要熟悉金融世界,紧跟潮流。

3.获得一些实践经验

与数据世界中的许多职业一样,经验通常与你的资历同等重要。如果雇主看到你已经对自己的职位有了实际的了解,这在申请和面试过程中会给你很大的帮助。有几种方法可以获得和展示这种经验:

  • 创建投资组合。我们有一整篇关于创建数据科学投资组合的文章,其中很多建议也适用于定量分析师。拥有一个展示你作品的空间是必不可少的,无论是来自你的教育还是个人项目。
  • 做一些个人项目。你可以通过从事个人项目来获得经验,比如建立自己的金融模型或交易算法。这可以提供一个在自我指导的环境中应用他们的技能和知识的机会,也可以成为你简历或作品集的一个有价值的补充。
  • 参加在线课程或挑战。像这样的课程在 R one 中级投资组合分析可以给你机会提高你的技能金融技能回测,分析和优化金融投资组合。这样的工作可以放入你的文件夹。

4.寻找职业机会

一旦你确信自己已经为定量分析师的工作做好了准备,你就会想要开始深入了解现有的角色类型。要获得一些初步经验,有几条路线可以考虑:

  • **实习。**许多组织,尤其是金融行业的组织,为对定量分析感兴趣的学生提供实习项目。实习可以为你提供宝贵的实践经验,帮助你发展在这个领域取得成功所需的技能和知识。
  • 自由职业者或合同工。你甚至可以通过兼职或合同工获得经验,比如做研究助理或数据分析师。这可以让你接触真实世界的场景,并帮助你熟悉专业环境。
  • **联网。**和业内其他专业人士在一起总是有帮助的。通过社交活动和在线工具与其他定量分析师保持联系可以帮助你建立关系,并可能带来潜在的职业机会。

5.完善你的简历和申请

当申请初级职位时,你需要做几件事。看看一些定量分析师的职位描述,开始根据要求定制简历。这里有一些技巧可以让你创建一份优秀的定量分析师简历:

  • 专注于你的技术技能。作为一名定量分析师,你的技术技能可能是你成功的最重要因素。一定要突出你在数学、统计学和计算机编程等领域的熟练程度,并附上任何相关的证书或课程。
  • 展示你的经历。如果你以前有定量分析的工作经验,一定要把它写进简历。包括你参与的项目的细节,你使用的技术和工具,以及你取得的成果。你应该链接到你的作品集,如果你有相关的实习或兼职工作,也包括这些。
  • 突出你解决问题的技巧。定量分析包括使用数学和统计技术解决复杂的问题。一定要包括你在以前的情况下如何运用你的解决问题的技能的例子,例如通过开发和实现财务模型或算法。

努力成为一名定量分析师吧

正如我们所见,获得定量分析师工作的道路可能会相当漫长,但它可能是一个非常有益的职业。首先要从职业生涯的基础技能和知识开始,比如数学、统计学和编程语言。我们的 R track 定量分析师是一个理想的起点,为您提供超过 60 小时的内容。

一旦你掌握了必要的技能,你就可以开始从事各种项目来发展你对该领域的实际理解。通过建立工作组合和获得一些实践经验,你将处于一个很好的位置去寻找实习和初级职位。

这是一个令人兴奋的职业,有着巨大的潜力,从今天开始可以在未来几年中获得回报。祝你好运!

量化分析师是运用数学和统计技术分析金融数据并做出预测或决策的专业人士。他们通常在金融行业工作,但也可以在依赖复杂数据分析的其他行业找到他们,如保险、医疗保健和技术。

定量分析师的职业通常至少需要相关领域的学士学位,如数学、统计、计算机科学或金融。许多雇主也更喜欢拥有研究生学位的求职者,比如金融数学硕士或相关领域的博士。

一个成功的定量分析师需要很强的分析和解决问题的能力,以及对相关软件和编程语言的熟练程度,比如 R 和 Python。他们还应该对金融市场和产品有很好的理解,并有能力将他们的发现传达给非技术受众。

对定量分析师的需求很高,拥有合适技能和经验的人往往能在职业生涯中快速晋升。许多定量分析师从初级职位做起,一步步升到更高级的职位,比如投资组合经理或风险经理。

定量分析师通常收入很高,尤其是在金融行业。根据 Glassdoor 的数据,美国定量分析师的平均年薪为 11.3 万美元。

如何从零开始建立数据科学团队

原文:https://web.archive.org/web/20221129033335/https://www.datacamp.com/blog/how-to-build-a-data-science-team-from-scratch

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://web.archive.org/web/20220818204008if_/https://embed.podcasts.apple.com/gb/podcast/95-how-to-build-a-data-science-team-from-scratch/id1336150688?i=1000569519181

DataCamp 播客 DataFramed 的主持人 Adel Nehme 最近采访了 StoneX 的全球数据科学主管 Elettra DaMaggio

介绍 Elettra DaMaggio

Adel Nehme:大家好。这是数据营的 Adel 数据科学布道者和教育家。随着数据科学对组织的成功越来越重要。现在,各种类型和规模的组织都在构建数据科学功能,以充分利用他们生成的数据。然而,我认为考虑到我们今年到目前为止报道的所有数据框架事件,从头开始启动数据科学功能绝对不是一件容易的事情。所以我很高兴今天的播客中有 Elettra Damaggio。

伊莱克特是 StoneX 的数据科学总监。她在数据和数字转型领域以及金融服务领域有着深厚的根基,并在 StoneX 数据科学职能的启动中发挥了至关重要的作用。

在这一集中,我们讨论了与启动数据科学功能相关的主要挑战,数据领导者如何在唾手可得的成果和长期愿景之间确定路线图的优先顺序,如何赢得组织内利益相关方的信任,作为数据领导者,她处理过的用例,她对有抱负的从业者的建议等等。

如果你喜欢这一集,一定要评价,订阅和评论,但只有当你喜欢它,现在让我们开始吧。Elettra,你能上节目真是太好了。

Elettra Damaggio:谢谢你们邀请我。

Adel Nehme:我很高兴能和你谈论你的工作。在 StoneX 领导数据科学,从头开始启动数据科学功能的最佳实践,如何管理短期目标和长期优先事项,等等,但在此之前,您能给我们介绍一下您自己的背景吗?

是的,当然。所以我很久以前就开始学习计算机科学。我毕业了,获得了计算机科学的理学学士和理学硕士学位。然后在硕士期间,我主修人工智能和数据库,并于 2009 年毕业。所以是的,很久以前。当时我不得不说数据科学还不存在。

虽然我经历了所有你可能想象的神经网络、视觉和 NLP 类型的项目。所以我开始从事咨询工作,但过了一段时间后,我厌倦了这份工作,于是我想在巴黎获得奖学金,并获得了 MBA 学位。做生意真的很有趣。我也有商业教育背景。

这实际上对我来说非常有用。一家公司如何运作,一家公司实际提供的产品或服务背后有什么。在那之后,我回到了意大利,在 Gartner 咨询公司工作。所以,在咨询行业,这只是一个,当时对我来说有点诅咒。但后来我最终加入了 BMP Paribas,加入了客户服务部门,也就是他们常说的咨询部门,加入了一家金融机构,主要是零售部门。所以首先是零售银行业务,数字化转型中的 BMP,然后是汇丰。最后我搬进了 Gain 又名 StoneX。现在,它在 2020 年被收购,然后更名为 StoneX,我实际上从一个更零售的银行服务类型转变为您的交易服务。你可能知道或不知道,斯通克斯在英国和全球 FOREX.com 和城市指数拥有两个品牌。是啊。为人们提供交易服务。

启动数据科学功能的关键要素

Adel Nehme:那真是太棒了。我想为今天的谈话搭建舞台。你让 StoneX 的数据科学团队。你在 StoneX 也领导过数据科学部门。

与在组织内发起数据团队或实践中扮演关键角色的人交谈总是很有趣。因为我认为从业者和加入组织中相对成熟的数据团队的数据科学家经常会忽略许多成长中的痛苦故事。那么,在组织内成立数据科学团队或职能部门的关键要素是什么?

Elettra Damaggio:所以当我在 Stonex 开始工作的时候,我仍然是 GAIN,那是 2019 年。我开始是一名首席分析师,我的老板希望我在一家没有真正使用任何这类应用程序的公司内开始关于使用数据科学和机器学习的对话。我开始时手下有两名分析师,现在有 9 名。

所以这是一个相当长的旅程,我不得不说,我很高兴看到组织准备好以某种方式使用数据。而这是重点之一。因此,数据需要随时可供使用。如果你没有,你肯定不能很快开始数据科学,因为,首先,你需要好的数据。

我很幸运,其他团队和企业数据系统团队中的所有其他人都花了很多时间和精力来建立一个好的数据集,一个好的后端,从数据的角度来看,这非常有用,这绝对是关键。我知道,有时在大型组织中,你会遇到所谓的数据沼泽问题,很多人只是将他们的数据转储到云中。然后他们说,好吧,现在做点什么。这确实是数据科学实践中最大的难点之一。也就是说,当你开始数据科学实践时,你需要理解的第一件事是你的行动范围。您的行动范围与您在该范围内拥有的数据质量直接相关。

所以,在我的例子中,我认为这个配方的好的,秘密的成分是理解,好的,我能在哪里带来价值基于什么是准备好被使用的。所以不要从你不能自上而下开始,因为如果你自上而下,你说,哦,你知道吗,我们应该有一个机器学习算法,你知道吗,X,Y,Z,然后你只是,你把这个要求折叠到报税单上,当你去报税单时,你会明白“哇!要做到这一点,我们基本上需要处理所有这些数据集。如果所有这些数据集都非常混乱,你将花费数月甚至数年时间来解决问题。”所以在这种情况下,你需要聪明点,明白“好吧!我可以利用现有资源发挥最大价值的地方?”。就像你打开你的冰箱,你有,我不知道,鸡蛋,你可能有一个鳄梨,你有一些“好吧,我可以做这个,而不是拿着食谱说,你知道吗?做个胡萝卜蛋糕就太棒了。”然后,你知道,你说你没有什么可以做胡萝卜蛋糕的。基本上是一样的。你只需要从你现有的东西开始,并尝试,我会说,我知道从数据的角度来看这听起来可能不太好,但通常从业务的角度来看,能立即带来价值的很多东西是好的数据或与数据相关联的数据或集成的数据视图。

构建数据科学功能的技术挑战

Adel Nehme:那真是太棒了。我真正想从您的一些回答中确定的是与启动新的数据科学功能相关的挑战。所以你肯定提到了数据质量的技术挑战。与从头构建新的数据科学功能相关的其他类别或挑战是什么?

Elettra Damaggio:肯定是人才招聘。我还想说,要了解你想从事的技术。我们这样做的方式是逐步寻找我们知道会的用例,或者我们,我们相当确定我们会为业务提供价值,尝试交付这些用例的试点,然后从公司获得更多的资金,更多的投资。不是“那是所有的钱。去吧!”。我们必须赢得所有的微小进步,我们对此没有意见,因为大爆炸方法可能不是最好的,因为我认为机器学习的要点是它非常受实验驱动。

你需要理解你能处理的所有事情。你需要运行你所有的实验。你需要理解,学的越多,理解的越多。你需要多少人?你需要什么类型的技术?也许有人知道,但就我个人而言,如果你刚刚加入一家公司,你对数据的状态、组织的状态、业务的状态一无所知,或者你还不知道任何事情。就本质而言,我的意思是,就我而言,尽管我在一家金融机构,但我来自零售银行业。所以交易对我来说是一件新鲜事。所以我必须学习一种新的服务方式。所以如果是一种新型的服务,一个新的行业,可能不是一个行业,而是一个新的行业领域。你也需要理解这一点。

因此,数据、组织和业务理解真的深入你的大脑。很难说,我需要这些人。我需要这种技术,我需要这种能力。因此,在我看来,你需要做的就是学习并重新调整它。这是一种精益创业型思维。你只需要从一个有 MVP 的试点开始,然后你继续努力,你只需要在上面发展和添加,并了解你是否仍然在正确的轨道上。如果你正在做的事情对企业有用或没用,并且你不断地重新调整,你增加了你自己,你只是喜欢微调。所以我绝对是这么做的。我建议的方法是。其他人来做这件事。

做到这一点的挑战无疑是不仅要在您的团队中找到合适的人,而且对于数据科学团队来说,拥有一个非常优秀的开发团队、一个可以为您提供支持的架构团队也非常关键,他们可以根据您的需求建议合适的工具、建议合适的架构、建议您需要的一切。例如,处理数据流。交付数据科学产品有很多方面,一个人很难了解所有的事情。因此,你需要确保在你不擅长的所有步骤中都有优秀的人给你建议。

作为数据领导者如何建立信任?

Adel Nehme:那真是太棒了。让我们来谈谈组织挑战,无论是建立自己的团队,你能更详细地向我介绍一下吗?作为一个组织中的新数据领导者,当你与不同的利益相关方(如开发团队和业务利益相关方)合作时,你如何赢得信任,对吗?这是第一组问题,但这里的第二组问题也是,你如何建立一个团队,知道它仍然处于早期阶段,你希望相对有纪律,你向新团队添加的资源类型和数量,同时保持你正在增加价值的事实。但是你也要确保你有最好的雇员。那么,在早期的数据团队中,你需要什么类型的资料呢?

Elettra Damaggio:正如我所说的,那些你可以在最初的 6-12 个月中推动的成功故事,是你建立信任的关键。比如说,如果你能在第一年的工作中创造一个成功的故事,那可能是。人们会说,“哦!你猜怎么着那个送东西的人是谁?他们可以把你和某种类型的可交付物联系起来。因此,开始建立这种类型的信任,实际上有直接的内容,就像他们说的那样,由能力来领导。所以确保每个人都把你的名字和有用的东西联系起来。这绝对是第一步。然后你从那开始。我想说,如果你能保证这一点,那就太好了。与我突然闯进来说,哦,我们应该这样做相比,一切都会变得更加平稳。我们应该这么做。诸如此类。

关于第二点,你应该在早期的数据团队中雇佣什么样的人?因此,因为技术栈在开始时非常简单,非常非常简单,因为我们正在构建实践,比方说,这也与迭代方法相关。如果你从一个非常复杂的文本堆栈开始,你知道吗?哦,非常,从你的云,你的机器学习和操作平台,你的数据工程,ETL,和所有的工作的一个完整的,全技术栈。好吧。你所有的作品都在 GCP 或 AWS 或 Azure cloud 上,你的电子邮件上也有。当然,你需要精通所有这些技术的人来提供一些东西,所以你会自动需要更多的人,因为你需要,你不可能有一个人知道所有这些技术的一切。

如果你从一个简单的技术栈开始,对吗?我们从 Python 开始,有一个服务器运行我们的专利脚本,在伦敦进行测试。但是,假设我们与另一个开发团队合作,在生产中交付一些模型。所以我们没有在生产中交付,但我们把它交给了其他拥有另一个技术堆栈的开发团队。因此,考虑到这一点,我首先雇用的那类人,我会说,嗯,数据科学家,有一点点编码经验,如果不是编码经验,只是编码爱好。所以他们不介意设置专利脚本,只是从 API 抓取网站或其他地方获取数据,以获取他们需要的数据来开发他们的机器学习模型,或者只是测试和实验我们心目中的机器学习模型。

一旦我们开发出几个,我想是两个,几个成功的故事。我们终于开始有自己的开发平台了。我们已经完全包含在开发运维流程中,因为当我组建分析团队时,并不被视为开发运维的一部分。这是一个老派的优秀团队。这就是它报道的全部内容。大多数时候,它只是报告,但当然,有一个演变的胃口。所以我们从 2020 年开始,他们说,你们知道吗,伙计们,你们正在开发软件。很高兴你能加入我们的 DevOps。所以我们开始加入 DevOps。

所以我们接受了一些训练。我已经知道一点点 GIT 和 BitBucket 或 BitLab 之类的东西。我们在两者之间交换了存储库,但是其他人是那种非常渴望学习的人。当然,从统计学和数学的角度来看,他们需要有一个坚实的基础,但是他们需要有我所说的那种开发事物的欲望,不仅仅是分析事物,而是真正开发出一种产品。所以它更多的是,它更多的是一种你需要联系到一个强大的量化背景的东西。这就是我一开始雇佣的那种人。

数据科学家招聘实践的演变

Adel Nehme:那真是太棒了。随着团队的成长,它变得更加成熟并提供投资回报,你的招聘实践或你寻找的东西是如何演变的?

Elettra Damaggio:现在这个团队更加成熟了,我组建团队的方式是,我让一些人更加专注于数据工程和机器学习,实际上是工程方面的东西,因为我们最终要建立我们的 MLops 技术堆栈。

所以我不知道这是不是一种非常刻薄的区分,但我认为你。有些人被驱使去写一些所谓的产品代码。他们像其他人一样,更倾向于分析实验和观察事情,比如我如何看待我团队中的数据科学家目前在很大程度上是一个研发职能。

所以这个人需要有商业头脑,需要了解这个行业,或者需要能够理解这个行业。所以有很强的商业组织和商业理解。当然也有统计学和机器学习的知识,所以你知道,只要把这些点连接起来,然后说,哦,你知道吗?我可以用这些数据来解决这个问题。但我说过,数据科学家塑造了无限的解决方案空间,并将其禁锢在一个更易于管理的空间中。那件事是通过机器学习工程和工程功能,将工业化和建立管道和一切需要做的事情,以操作和制造模具,一个可靠的,可持续的,可重复使用的产品。

除了我团队中的这两组人之外,我还有一个 BA。支持我和 BA 的方式,我认为这真的很有用,因为 BA 是这样一种人,他首先与不同的利益相关者保持稳定的关系,是他们产品的客户,能够收集需求。然后与数据科学家或机器学习工程师交谈,说,你知道吗,也许我们应该做些什么,要么以这种方式改变产品,现有的产品,要么设计一些新的东西,包括解决这种类型的问题。也是真正帮助你在业务中嵌入产品的人,你知道,培训业务利益相关者,与他们交谈,可能在一开始就指导他们如何使用和如何解释数据以及如何解释模型工作。因为当你开发一个机器学习模型时,很难向非数据人员解释这些。

所以你需要让那个人和他保持这种持续的关系,这样他就可以,或者她可以用一种可以理解的方式来总结。这样你就可以在团队之外找到赞助商。这是关键。你总是需要团队之外的赞助商。

克服“缺乏数据文化”等障碍

Adel Nehme:我喜欢这个答案。我喜欢你在数据科学团队中从更多的研究和开发类型、转变其输出的小型迷你数据团队以及将许多数据科学家所做的工作工业化的更应用的工程团队中创建的界限。但在这里重复一下最后一点,当谈到业务分析师角色以及与其他利益相关者建立关系并收集需求和反馈时,通常在与数据领导者交谈时,他们在提供数据科学价值时面临的一个大障碍是,分析是数据文化,或分析思维,或组织内缺乏这种文化。

我很想听听您的看法,您是如何与组织内其他利益相关者进行对话的,这些利益相关者可能有也可能没有思维模式或数据文化,或者您是否了解数据科学的价值,以及您是如何克服这些障碍的,无论是通过使用 BA 还是在您自己的团队中,以及您是如何进行这些对话的?

Elettra Damaggio:所以,首先,这和你的数据技能无关。然后把这个作为免责声明放在最上面,这是关于,呃,你的。我会说是政治技巧或者关系技巧。所以,就像我说的,开始了解在哪里可以找到你的赞助商是很关键的。所以,首先,你需要有一个对话。例如,在我们的案例中,我们的公司由商业领袖组成,我们也有全球团队。商业领袖,当然,有最大地区的商业领袖,也有较小地区的商业领袖。你需要了解在高管群体中谁的推动作用最大。我敢肯定,如果公司里有一个数据科学团队,你将能够从第一天就找到你的赞助商,那些真正热衷于参与其中的人。在某些情况下,这可能更容易或更难。所以,第一件事,试着理解什么是你最容易的资助人,那些可能最热衷于资助你的人。但是他们可能还在观望,因为你还没有交付任何东西。我对数据感兴趣。我会喜欢数据科学。所以试着理解他们的关键需求是什么。就像我说的,我记得当我开始的时候,我想,这是你的一点绝地技巧。

“所以你不想那样。你想要这个。”因此,当你与他们交谈时,你知道你可以提供什么,你需要以一种聪明的方式,出售对他们有用的东西,但你可以在合理的时间内提供。所以你试着让他们接受这种解决方案。这些是你个人的谈判技巧。

一旦你找到了你的好赞助商,你的大赞助商,你就可以一个一个地说服他们。有道理。我知道这看起来没问题,但是当我交付模型时会发生什么,我必须向他们解释。这不相关吧?这实际上是非常相关的,因为如果你知道他们已经在资助你,当你去找他们解释的时候,他们会以不同的态度听你说。所以你有机会向他们解释。我要说的是,不要居高临下,永远不要做那里的讲师。总是尝试,你知道吗,我交付这个是因为它的主要目标。为你提供额外的好处。我在用这个。你想要我浏览模型的细节吗?我可以。大多数时候我不得不说我们对了解表演感兴趣。所以不管你想用什么样的性能指标。试着为业务涉众,那些最容易理解的人,保存所有你曾经理解的绩效 KPI。如果模型是可持续的,如果模型是稳健的,也许就留给分析师吧。

但最终,商业利益相关者想知道这种方法多久有效一次,如果无效,会有什么风险?例如,我们开始分享一个客户流失预测模型。这是我们的第一个 XG boost,随机森林,真正的真实机器学习类型的模型。我们试着去解释这些特征。我们向商业领袖解释了混淆指标。这已经太多了,因为这对他们来说是一件新鲜事。我们和他们讨论的方式是平均模型,90%的时间预测正确。但是错误的是,我们,我们工作的方式。我们高估了动荡,因为归根结底,我们略微高估了动荡。

这就是为什么我们没有更高的性能,因为在一天结束时,我们不会花费太多来发送另一封电子邮件或打电话给另一个有流失风险的人。失去一个我们没有打电话的人可能会付出更大的代价。这对他们来说是可以理解的。他们对此非常满意。它需要多种解释,就像要经历多次。但在那之后,你只是建立信任,这越来越容易,因为他们开始信任你。他们说,好吧,你知道,我没有完全理解,但如果你说这很有效,那也没关系。“我们会看到,我们将在几个月后审查我们的运行情况。”所以这就是我所说的按摩类型。这是你一开始就必须做的,你需要耐心,不要匆忙或咄咄逼人。绝对没有攻击性。

将北极星与短期目标结合起来

Adel Nehme:那真是太棒了。我认为,到目前为止,你所做的许多不同回答的关键是,我认为成功组建数据团队的一个关键核心要素是管理短期优先事项和你可以获得的短期成功。但同时也要确保你朝着一个长远的愿景努力。因此,总有一颗北极星是我们希望在长期和季度 okr 和目标中所处的位置,它指导数据团队的短期目标。

你能告诉我这两个目标的优先顺序吗?

Elettra Damaggio:我不得不说,这不是你一个人能做的事情,尤其是如果你要加入一个新的企业。你想做的第一件事就是和在这个行业工作了很长时间的人谈谈。这样他们就可以和你分享了。什么,我在这行干了 20 年还是 15 年。我认为真正会扰乱我们的事情之一将是如何预测,理解,然后就好了。哇哦。永远不要低估这样一个事实,如果这个人已经在那里工作了 15 年,但他们没有成功做到这一点,这并不意味着因为你在一年内成为了一名数据科学家,你就会因为你有机器学习或其他东西而做到这一点,这可能比那更难。

所以你只要把它放进去,把所有的想法都集中起来,你就明白了,好吗?你知道吗,让我们来定义一个路线图。例如,我们从我们的内部演讲者那里收集到的一件事情是,我们可以应用于在线交易流的应用程序。当然,能够将机器学习模型应用于在线数据流。这需要一个我们正在建设的技术堆栈。但是如果我们从第一天就开始这样做,我们就不会交付任何有价值的东西。这对企业来说只是一种成本。三年后我们可能还会继续工作。因为这需要时间。所以你有那个。如果你愿意,这就是你自上而下的清单。而这让你明白了什么是道路路线图?所以我们现在所拥有的。现在我有了自己的桌面、SQL 数据仓库和 Excel,因为我们就是这样开始的。而我,我需要去哪里?机器学习在线流。设置这个,我需要做什么?你可以自己做。

我总是建议在架构方面与其他人交流,收集他们的观点,因为我相信其他人也会考虑这个问题。你开始定义你的路线图和里程碑。我们至少需要一个协调器,比如 airflow 来运行我们的脚本和 Python 以及所有这些东西,我们需要一个 DevOps 流程,这是第一步。然后你说,好吧,你知道吗?我们可能需要一种基于云的方法来运行我们的机器学习,而不是在我们的桌面上,在云上,一台可扩展的计算机上,我们不需要离开笔记本电脑通宵运行来训练模型。我们会在云上做一些事情。并拥有一些连接不同数据源的平台。例如,我不知道数据砖块或这种类型的 over Azure Cloud 和所有的,所有的这个平台。然后要真正得到一个数据流,你需要像卡夫卡一样的东西,然后你开始使用圆周率公园和所有这些东西。

所以你有这个。计划。而这就是你从某个角度来看总是很容易的愿景规划。你只是,你计划然后说,好吧,我需要什么?我需要你购物清单上的所有这些东西。另一方面,你有短期的。就像我之前说的,短期内,你需要从你所拥有的开始。我有什么,我能用它做什么?你从赞助商或商业利益相关者那里得到的商业优先权的优先权是什么?因此,你可以从业务中获得优先级。当我加入的时候,我得到了两个优先权。我们需要了解我们在收购营销上花费了多少,以及我们从这些花费中获得了多少。因为目前我们还不知道。所以这是一个优先事项。

另一方面,我们不知道如何定位我们的客户。我们需要一种方法来细分我们的客户,并根据我们的细分来定义旅程。所以非常注重收购。我不得不说,拥有一个 MBA 学位或者其他什么,比如商业课程或者营销课程,你真的可以在这方面帮助我,因为我知道一个营销人员会如何考虑这些事情。

将人物角色定义为定义用户旅程就是定义所有这些东西。这是我得到的知识。在我的 MBA 和之前在零售银行的工作中,因为我曾经在 UX 团队工作,担任定量 BA,我与用户体验设计师一起分析数据和定义旅程。

所以我知道购买艺术品对设计师和市场营销有多重要。所以多亏了这个。我能够捕捉到这一点,但我不得不说,他们非常直言不讳地说,他们有这些问题。我说,好吧,我们能做到吗?我看了一下我们的数据仓库,正如我所说,在开始时,它真的很关键。我非常幸运地拥有一个整洁的数据仓库,即使它只是我们的反手后端内部部署的数据仓库。我们的入职系统和客户活动。我很幸运有一个非常整洁的数据集来开始工作。当然,在这个过程中有一些小故障,但没有什么太乱。

所以,这是我们最初成功的关键。所以我就这样开始优先考虑更多的短期目标。

为您的数据团队赢得早期成功的框架

Adel Nehme:那真是太棒了。如果你想抽象出这一点,并提出一个框架,使其他数据领导者能够提取小胜利,以及证明数据团队早期价值的低挂果实,你会怎么做?

Elettra Damaggio:所以我们进行这项工作的方式,我会从数据开始。不要独自做那件事。从你的商业利益相关者开始。问他们,你在日常工作中使用的数据集是什么,你如何使用它们?因为如果,他们如何使用它们,你可以理解,哦,你知道吗?你可以自动让我做一些事情,帮助你以更有效的方式使用这些数据。

通过这种方式,首先,您能够立即了解流程中涉及的数据源,并查看数据源是否可用,其次,您有了自己的用例。即使这不是最奇特的用例,您也可以很快开始交付一些东西,因为您有一个可用的数据源。

通过这样做,你开始建立你的赞助商。一旦你开始建立你的赞助商,即使是很小的交付品,你也可以开始在另一边建立东西。我会说,基于公司的数据情况有多混乱,你可以开始让其他团队参与进来,提高意识。如果还没有准备好,可能是他们已经意识到了,但是提高了意识并投入时间和资源来修复数据,这样数据将使您能够生产出更有价值的东西。这是我会做的方式。正如我所说的,这是一个非常创业,精益创业型的方法 MVP 优先。然后你就建立起来了。你的巅峰之路。

数据科学在交易中的价值

Adel Nehme:我完全同意偏向行动,这种精益方法对许多数据团队来说非常有用。现在,当我们结束 Elettra 这一集时,我不能不谈谈您在 StoneX 的工作,尤其是在为金融服务提供价值的数据科学用例方面。随着最近的乌克兰战争、COVID 使用供应链问题和经济不确定性,我认为从数据科学家的角度来看,理解数据科学在商品交易、外汇交易等方面发挥的作用从未如此重要。我很想了解数据科学在行业中提供价值的一些方式。

我不得不说我们还没有被邀请。对我们来说,是整个国际形势。他们不会直接影响太多。当然,我们知道有些人受到了制裁。所以账户被封了 StoneX 在这一点上没有太大的影响。所以我们很幸运,但作为一家贸易公司,我们当然经历了市场的大量波动,这使得我们的业务在数据团队方面非常活跃。

在我们的案例中,除了确保我们在系统中看到的不会影响业务中的其他流程之外,我们没有涉及太多。但是,就做任何事情而言,我们还没有做任何事情,因为当你有这种情况时,我会说这是微妙的情况,它留给了人类处理,因为你永远不知道你是否自动化,你容易发生的事情-我会说令人尴尬的错误。当然,这是任何公司都不想要的,因为我的意思是,因为我们有可管理的客户量,可管理的帐户量,数据团队并没有真正参与做任何具体的事情。

数据科学在该领域的应用和发展

Adel Nehme:作为 StoneX 的数据主管,您参与过哪些主要的用例?

Elettra Damaggio:所以我们肯定有很多与营销相关的事情。所以细分、归因建模、流失预测、终身价值预测。去年,我们做了第一个 NLP 应用程序来对客户通信进行分类。此刻。我们也在研究交易中的客户情绪。正如我之前所说,我们肯定会致力于在线数据流,但我还没有可行的用例来分享,我们需要为此奠定基础。

Adel Nehme:太棒了。所以在我们结束这一集的时候,我想看看你特别感兴趣的未来趋势和创新?

Elettra Damaggio:目前,我觉得我们正在实现一种…数据科学一直是一个非常狂野的领域——有很多偏见,没有多少公司能够理清数据科学实践。

因此,目前,我的重点是尝试将这种方法产业化,并使数据科学实践变得坚实。因此,例如,我们正在寻找的技术类型肯定是 ML ops 和管道技术。比如纯粹的创新和机器学习。老实说,没有什么纯粹的创新,我们正在寻找。

在我们做一些更具创新性的事情,尤其是针对市场的事情之前,我们有太多的地方需要恢复和努力。在结合多种模式方面有很多创新。因此,例如,集成,但也结合多种模型来动态选择广告。这是我们心中的想法,我们肯定会这样做。

所以使用内部和外部数据来了解什么是趋势,什么是此刻真正抓住人们思想的东西,并动态选择你的广告内容,在正确的时间将它们提供给正确的人。这肯定是机器学习变得越来越重要的事情,尤其是随着所有 cookie 政策变得越来越严格。

所以这绝对是我心中的想法。不知道什么时候能实施。但这绝对是我脑子里想的事情之一。

行动呼吁

Adel Nehme:太棒了。最后,Elettra,在我们结束之前,你有什么行动要求吗?

我只能说,这需要耐心和努力。所以,如果你还没有准备好要有耐心,并且你知道你的时间去获取你的成功故事,那就做点别的吧。

但是它给了你很多满足感,但是最后绝对给了你很多满足感。这是值得的,但这是一条通往巅峰的艰难道路——如果你想摇滚,就像他们说的,是的。

Adel Nehme:百分之百。非常感谢 Elettra 来到播客。

Elettra Damaggio:谢谢你邀请我。

如何在数据科学领域建立有意义的职业生涯

原文:https://web.archive.org/web/20230101103339/https://www.datacamp.com/blog/how-to-build-a-meaningful-career-in-data-science

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要一些灵感来引导您的数据科学职业朝着最有影响力的方向发展吗?

数据科学家的角色通常被称为 21 世纪最性感的工作。也许你被这个职业吸引是因为你热爱数学、编程和一切技术。但我敢打赌,你们中的许多人也对使用数据产生真正的影响感兴趣。

在调整数据和建立机器学习模型的漫长一天结束时,你会想说,“今天我创造了一些将积极影响某人生活的东西。”换句话说,你希望看到你的工作在现实世界中展开。

Omdena ,我们提供了一个协作学习环境,初级人才和经验丰富的导师可以在这里一起应对现实世界的人工智能挑战。我们的使命是将理论教育与实践联系起来,使世界各地的个人能够应对人类面临的一些最大挑战。

我们很荣幸与 DataCamp 合作,帮助我们不同经验水平的合作者利用互联网上最好的课程,按照他们自己的进度学习。

来自创伤后应激障碍(PTSD)挑战的三个鼓舞人心的故事

Albert、Kulsoom 和 Anam 都获得了两个月免费参加所有 DataCamp 课程的机会,这是因为他们出色的表现和社区精神。在我们的 PTSD 人工智能挑战赛中,他们与 32 名人工智能爱好者合作了两个月,构建了一个智能聊天机器人,帮助在低资源环境中面临可怕情况的个人诊断 PTSD,例如在战争和难民区。他们都使用了 DataCamp 的课程来提高他们的个人技能,从而真正改变世界。

艾伯特

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

17 岁的 Albert 是我们最年轻的合作者,但他对数据的热情和渴望激励了我们 AI 挑战赛中的其他 32 名合作者。用他自己的话说,这是他对这次经历的看法。

你对数据科学中有意义的职业的定义是什么?

我对有意义的 DS 职业生涯的定义是用一个人的知识和技能让世界变得更好。数据科学是一个极其强大的工具,善用它非常重要。像任何东西一样,它可以被用于善意或恶意的目的。

利用 DS 来解决诸如应对气候变化、提高农业产量和检测深度造假等问题,才是真正有意义的影响。

在你加入我们的挑战之前,你是如何看待学习 AI 的?

在加入 Omdena PTSD 挑战赛之前,学习 AI 感觉就是上一堆课,看视频,看论文,编程模型。一旦挑战开始,我意识到我错过了一个重要的方面:社区。加入数据科学从业者社区对于获得帮助、被激励以及学习团队合作和协作的技能非常重要!

你在这次挑战中学到的最重要的技能是什么,你将应用它来建立你未来的职业生涯?

这个挑战真的教会了我如何在团队中好好工作。在过去,我主要是单独从事我的机器学习项目。在这次 PTSD 挑战中,能够与世界各地的队友合作对于协调不同的任务至关重要。我可以把这段经历带到我未来的职业生涯中。

库苏姆

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Kulsoom Abdullah 在 2011 年世界锦标赛上成为第一位代表巴基斯坦参赛的女子举重运动员。

你在举重生涯中学到的最重要的经验是什么,可以应用到生活中?

我想说我得到的教训是,我低估了自己的能力。很可能我们都低估了自己的能力。

作为人工智能中的一名女性,你必须克服的最大挑战是什么?

冒名顶替综合症——感觉自己很失败,觉得自己不配获得成功!

在大学里,我不得不学习并意识到这不是我的错,而是我的环境造成的。我还识别并处理了微侵犯和明目张胆的行为。我通过寻找积极的空间,如信任的家人、朋友、导师,以及照顾好自己来克服它。通过冒险,拥抱我的恐惧,“假装直到你成功”。

“我没有什么可失去的”帮助我向媒体介绍了我的举重比赛挑战和学术/工作情况。

这仍然是一项正在进行的工作。我希望我能继续进步,并帮助别人不处理我不得不做的事情。

如果你可以在广告牌上写一句话给正在挣扎的人,你会给他们什么建议?

恐惧和怀疑都是暂时的,继续走下去,享受旅程就好。

阿南

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当 Anam 加入我们的 PTSD 人工智能挑战赛时,她几乎没有人工智能经验,但却有着长期与 PTSD 作斗争的个人经历。她加入了我们的 AI 挑战赛,并晋升为初级机器学习工程师。

是什么让你加入了 Omdena 的 PTSD AI 挑战赛?

亲身体验 PTSD 的生活对我来说是一个完美的挑战。成为它的一部分比一个人自己的收获更大,比如学习 ML 或增加他们在 it 方面的经验。这意味着帮助那些因创伤后应激障碍而在生活中面临许多障碍的人们。如果这意味着我能在如此大的事业中扮演哪怕是一个小角色,我已经准备好成为这个挑战的一部分。

你在这次挑战中学到了什么,你将应用于建立你未来的职业生涯?

通常,作为一所大学的学生,我们会收到一些有明确答案和固定范围的问题。和 Omdena 一起应对这个挑战是完全不同的。它帮助我理解了如何利用我们的知识来解决现实世界的问题并有所作为。这也让我明白,与我们习惯的方法相比,如此大规模和真正影响的问题需要一种不同的方法。一次奇妙的经历!

想成为 Omdena 的合作者,加入我们的一个 AI 来迎接好的挑战吗?在此申请

如何建立一个成功的数据团队

原文:https://web.archive.org/web/20221129054701/https://www.datacamp.com/blog/how-to-build-a-winning-data-team

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

组织需要获胜的数据团队

当今的组织产生的数据比以往任何时候都多。福布斯声称2018 年每天产生超过 2.5 万亿字节的数据,世界上超过 90%的数据是在文章发表前的两年内产生的。单个国家正在产生更多的数据。2018 年,美国消费者新闻与商业频道报告称,中国产生了 7.6 吉字节的数据。预计到 2025 年,这一数字将扩大到 48.6 ZB。美国也产生类似数量的数据。

这些数据中有许多可操作的见解没有被利用。根据 Forrester 的调查,60%到 73%的组织数据没有在分析中得到利用。

成功的数据驱动型组织正在大规模利用数据来创造价值。例如,优步投入巨资创建了一个平台,通过一个简单的接口高效地向他们的数据团队提供超过 100 的可用数据,对其进行了扩展,以提供超过 10 亿份 Uber Eats 订单,覆盖超过 2400 万英里。通过 A/B 测试,网飞通过改变与电影或电视节目相关的图片,增加了 20%到 30%的浏览量。

对于能够成功驾驭复杂的大型数据环境的组织来说,显然存在高价值的见解。这种类型的价值创造只能通过高性能和全面的数据团队来实现。

获胜数据团队的数据角色

建立一个成功的数据团队需要许多关键角色。在本白皮书的中,DataCamp 描述了在任何数据驱动的组织中都可以找到的八个角色或人物角色。虽然职位名称可能因组织而异,但我们将概述组成强大数据团队的五个角色:业务分析师、数据分析师、数据科学家、机器学习科学家和数据工程师。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

商业分析员

业务分析师通过数据洞察提高盈利能力和效率。他们用数据分析和可视化技能补充他们在业务领域的深厚知识,并向数据消费者报告见解。

**关键技能:**数据操作、数据可视化、报表、基本统计工具:电子表格(Excel、Google Sheets)、商业智能工具(Tableau、PowerBI)、SQL

课程推荐:SQL 介绍电子表格中的数据分析 / Excel电子表格中的营销分析电子表格中的财务分析

数据分析师

数据分析师在从数据中分析和提取洞察力以推动业务成果方面扮演着与业务分析师相似的角色。因此,他们的技能也有重叠;然而,数据分析师回答定义较少的问题,这些问题需要对数据分析工作流有更深的理解,并利用编码和非编码工具的组合

**关键技能:**数据操作、数据可视化、报告、导入和清理数据、概率和统计

工具: R 或 Python、电子表格(Excel、Google Sheets)、商业智能工具(Tableau、PowerBI)、SQL

**课程推荐:**数据分析师职业生涯中的轨迹( R - 16 课程 / Python - 16 课程),清洗数据中的 R / Python 中的时间序列分析中的 SQL

数据科学家

数据科学家在组织中扮演着更具技术性的角色,他们主要使用编码工具来调查、提取和产生对数据的见解和价值。数据科学家需要对数据分析和机器学习工作流有深刻的理解,并能够使用非标准数据类型和大数据工具。

**关键技能:**数据操纵、数据可视化、报告、导入和清理数据、概率统计、机器学习、

工具: R,Python,Scala,大数据工具(Airflow,Spark),SQL,命令行工具(Git,Shell)

**课程推荐:**数据科学家职业轨迹( R - 22 课程 / Python - 23 课程),Python 中的情感分析Git 入门

机器学习科学家

机器学习科学家负责大规模开发机器学习系统。他们使用各种类型的机器学习模型从数据中获得预测,以解决预测客户流失和客户终身价值等问题,并负责部署这些模型供组织使用。

关键技能:数据操纵、数据可视化、导入和清理数据、概率统计、机器学习、数据工程工具: R、Python、Scala、大数据工具(Airflow、Spark)、SQL、命令行工具(Git、Shell) **课程推荐:**机器学习科学家职业轨迹( R - 14 课程 / Python - 23 课程)、图像处理中的 Python机器学习用

数据工程师

数据工程师负责创建数据管道,帮助组织将正确的数据传递给正确的人。它们将来自不同来源的大量数据合并到一个集中的位置,使各种数据角色能够处理干净、相关、合规和可操作的数据。

关键技能:数据操纵、导入和清理数据、数据工程、高级编程工具: Python、Scala、大数据工具(Airflow、Spark)、SQL、命令行工具(Git、Shell)、云平台(如 AWS) 课程推荐: 数据工程师与 Python 职业生涯轨迹(25 门课程)Python 中的 Airflow 入门流数据与 AWS Kinesis 和 Lambda

如何创建一个成功的数据团队

个案研究

在对每个角色的职责有了较高层次的理解之后,现在让我们通过一个真实的例子来研究这些角色如何在业务环境中相互作用以推动价值,在这个例子中,一个数据团队从客户流失模型中提取价值。

在这种情况下,数据工程师确保数据科学家和机器学习科学家能够访问他们开发和运营模型所需的高质量数据。他们将确保数据的质量和每个数据集的正确权限。他们还将以易于访问的方式提供数据,包括有效分析所需的元数据和变量。

接下来,数据科学家和机器学习科学家将合作创建一个准确的模型来预测客户流失。他们需要确保模型是准确的、可解释的,并且可以在业务流程中部署,并且一旦部署,就要努力确保模型对看不见的数据保持准确。

最后,数据分析师和业务分析师将一起工作,利用模型的输出来做出推动业务价值的决策。他们可以根据哪些客户更有可能流失来分配营销支出,并向决策者提供基于事实的推理,说明为什么某一部分客户更有可能流失。

像大多数数据项目一样,每个角色都参与了从数据中提取价值的过程。

通往高效数据团队的道路始于您的员工

尽管最近疫情导致招聘减少,但数据职位的需求仍然很高,在 LinkedIn 的年度新兴就业报告中两次排名前三。2020 年底,德勤声称23%的组织在人工智能需求和当前能力之间存在重大或极端差距。2021 年,德勤发表了一份报告,认为面对数据职位招聘的短缺,组织必须实行选择性招聘和有针对性的技能提升。

鉴于数据人才短缺,组织必须将选择性招聘与提升技能相结合,以创建能够创造价值的高技能数据团队。组织可以通过为他们的员工提供专门为这些角色定制的个性化学习路径来实现这一点。在 DataCamp,我们根据学习者的技能组合和期望的学习成果为他们提供个性化的学习旅程,让他们拥有评估、学习、实践和应用新数据技能的工具。借助 DataCamp for Business,学习者可以受益于定制的学习课程,使组织能够根据其特定目标和挑战定制学习计划。了解有关如何利用 DataCamp 转变您的才能的更多信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DataCamp for Business 为需要提高和重新提高员工数据技能的公司提供了一个互动学习平台。主题从数据素养、数据科学到数据工程和机器学习,超过 1,600 家公司信任 DataCamp for Business 来提升他们的人才技能。

如何说服您的经理购买企业数据营

原文:https://web.archive.org/web/20230101103145/https://www.datacamp.com/blog/how-to-convince-your-manager-to-buy-datacamp-for-business

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要回答的重要数据问题

做一些研究是构建你的推销的关键,因为你必须证明在你的工作场所使用 DataCamp 的理由与你的组织的目标和学习文化是一致的。

在此阶段要问的一些问题是:

  • 我的组织/团队目前如何使用数据?我们目前使用什么技术(Python、R、SQL、BI 工具、电子表格)?与此相关,有没有我们计划或可能采纳的?

  • 我的组织是否有数据战略或数据转换计划?大多数组织都了解更多数据驱动的重要性,但许多组织没有工具或技能来帮助他们实现这一目标。如果您的组织已经宣布了一项数据转型战略,那么人才转型在该计划中处于什么位置?

  • 我的组织目前如何提高技能?是否有学习和发展预算?这是通过个人预算还是通过集中的学习和发展团队决定的?您过去是否使用过数据技能培训提供商?如果是,结果是什么,为什么会出现这种结果?

以上问题的答案可以帮助你准备一个符合你的公司和团队目标的案例。例如:如果你的工作场所已经有了一种数据驱动的文化,那么就把你的推销定位在 DataCamp 上,这是变得更加数据驱动的下一步。如果您的组织尚未制定数据转型计划,DataCamp 的技能提升可能是开始制定计划的绝佳机会。

根据 NewVantage Partners 的数据,99%的组织都在投资人工智能和数据科学,但只有 29%的组织有培训目标。据报道,成为数据驱动的最大障碍是缺乏数据技能和文化。

组织你的推销

根据组织的文化和规模,这一步可以采取的形式可以是办公室里的快速推介,也可以是封装在文档中的结构化提案。不管是哪种方式,都要简明扼要。

1.这里有几个方法可以让你组织你的推销。

解释为什么 DataCamp 对您的团队有用

阐明为什么购买新工具或技能提升解决方案对团队或组织有益总是很重要的。这里有几个项目可以解释你为什么要推销 DataCamp。

借鉴个人经验

如果你曾经使用过个人 DataCamp 帐户,并发现它很有价值,请讨论你在整个学习过程中获得了哪些技能,以及它们如何帮助你在当前工作中取得进步。这将有助于将潜在的学习成果与组织的目标联系起来。

讨论数据升级的好处

您可以在 DataCamp 资源中心上找到大量信息,解释在所有类型的团队中获得数据技能的重要性。然而,根据您使用的工具堆栈和您在组织中所处的位置,讨论数据升级的重要性是很重要的。这里有一些你可以分享的有价值的资源:

基于数据科学工具的资源:
数据科学团队资源:
将数据技能提升与您组织的战略联系起来

您的组织可能计划变得更加数据驱动,并转型为数据组织。通常情况下,人才转型和使成员具备数据技能是至关重要的组成部分。

DataCamp 提供大多数主要数据工具和概念的课程,可以帮助团队和组织在数据素养领域取得进步。查看数据表部分,获取可与您的团队分享的快速资源,并探索 DataCamp 的案例研究,了解各行各业组织转变其数据技能的成功案例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.解释 DataCamp 对企业的价值

在强调了 DataCamp for Business 为什么会对您的组织有益之后,再来概述一下 DataCamp for Business 提供的一些功能。

根据埃森哲和 Qlik 的研究,认为自己懂数据的员工更有可能感到被信任并有权做出更好的决策。

DataCamp for Business 为团队和组织提供单一平台来评估、学习、应用和试验数据。我们的在线平台允许学习者随时随地按照自己的节奏获得所需的数据技能,从概念上的非编码基础知识到数据科学和机器学习。不需要安装或下载软件。学习者观看简短的视频教程,并在无风险的环境中完成动手编程练习,这样他们就可以在浏览器中开始使用自己喜欢的工具和主题。这种现代化的学习方法是我们平均课程完成率达到 60%的原因,远远高于传统的在线课程提供商。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DataCamp 行之有效的学习方法为学习和保持提供了一个循环过程。

以下是一些需要强调的关键特性:
  • 交互式学习体验使任何人都能够通过定时评估来评估他们的数据技能,通过提供定制反馈的交互式课程来获取新技能,并通过有指导和无指导的项目来保留和应用他们的知识。所有这些都在浏览器中,无需安装。
  • 一流的数据技能内容库。DataCamp 提供 350 多门课程、10 多项评估和 90 多个项目,由行业和学术界的领先数据科学家提供。
  • 预先定制的学习路径旨在为您提供数据科学、数据分析等方面的所有必要技能。管理人员还可以指定定制的学习路线和任务,从而轻松创建适合您组织的业务和技术挑战的课程。
  • 对于经理而言,简单的团队管理—您可以从您的企业仪表板集中管理您帐户的所有方面,无需安装。
  • 通过 DataCamp 的学习排行榜,轻松可视化您组织的数据技能发展,使您能够跟踪每个人的学习进度,报告您的学习计划的影响,并了解您朝着目标的进展情况。

https://web.archive.org/web/20220529062128if_/https://fast.wistia.net/embed/iframe/m052ohmwqx?videoFoam=true

右键单击复制此视频的链接,并与您的经理分享。

如果您需要更多证据,您可以将下面这句话直接复制并粘贴到您的推介中:DataCamp 得到了 2000 多家组织和《财富》1000 强企业中 80%以上企业的信任。通过 DataCamp 学习的公司,包括谷歌、优步、安联、汇丰和诺华,完成率比行业平均水平高出 6 倍。

3.讨论定价

当然,你的老板需要知道 DataCamp 的成本——你可以这样讨论这些问题:

  • DataCamp 的专业计划是我们面向企业的年度会员。每个座位起价 300 美元(至少 2 个座位),你可以以低于每人每天一杯咖啡的价格提升你的团队或组织的技能。
  • 在我们的企业计划中,我们还提供了更多高级功能。如果你想了解更多,你可以和我们一起安排一次免费演示

如果您觉得需要更全面的提案,您仍应涵盖这些要点,但现在您可以更详细地介绍数据升级的好处和投资回报。以下是您可以使用的一些资源:

讨论 DataCamp for Business 的额外灵活性和便利性,例如:

你设法说服你的老板了吗?立即让您的团队开始使用商业数据营

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何合乎道德地使用机器学习来推动决策

原文:https://web.archive.org/web/20221129040116/https://www.datacamp.com/blog/how-to-ethically-use-machine-learning-to-drive-decisions

关注坚实的数据基础和工具

拥有高质量的数据本身就是一个巨大的挑战。我们建议希望利用机器学习、人工智能和数据科学的公司考虑 Monica Rogati 的 人工智能需求层次 ,它将机器学习作为拼图的最后一块。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:黑客月

这种层次结构表明,在机器学习发生之前,您需要坚实的数据基础和用于提取、加载和转换数据(ETL)的工具,以及用于清理和聚合来自不同来源的数据的工具。

这需要强大的数据工程实践——你需要利用数据库,了解如何正确处理数据,安排工作流程,并利用云计算。

所以在你雇佣你的第一个机器学习工程师之前,你应该首先设置你的数据工程、数据科学和数据分析功能。

当心你的数据和算法中的偏见

机器学习只能和你给它的数据一样好。如果你的数据有偏差,你的模型也会有偏差。例如,亚马逊开发了一个 ML 招聘工具来预测申请人的成功,该工具基于具有十年培训数据的简历,这些数据有利于男性,因为整个科技行业历史上男性占主导地位,这导致 ML 工具也对女性有偏见。

这就是为什么数据伦理近年来成为如此重要的话题。随着越来越多的数据生成,如何使用这些数据的影响也急剧扩大。这需要原则性的考虑和监测。正如谷歌的首席决策科学家 Cassie Kozyrkov 所类比的那样,一个老师的好坏取决于他们用来教学生的书。如果书有偏见,他们的教训也会有偏见。

密切关注你的模型并改进它

请记住,当您的模型投入生产、进行预测或执行分类时,机器学习的工作并没有结束。已经部署并正在工作的模型仍然需要被监控和维护。

如果您有一个基于交易数据预测信用卡欺诈的模型,那么每次您的模型做出预测并根据预测采取行动时,您都会获得有用的信息。除此之外,您试图监控和预测的活动(在本例中是信用卡欺诈)可能是动态的,会随着时间的推移而变化。在这个过程中,生成的数据不断变化,这被称为数据漂移——这证明了定期更新模型是多么重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:数据块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何将 Power BI 数据导出到 Excel

原文:https://web.archive.org/web/20221129052847/https://www.datacamp.com/blog/how-to-export-power-bi-data-to-excel

Power BI 是当今使用最广泛的商业智能工具之一。由微软开发的 Power BI 可以让您管理、分析和可视化大量数据,而无需编码。使用 Power BI 的另一个主要优势是 Excel 专家能够从 Power BI 切换到 Excel,反之亦然。

Power BI 和 Excel 的工作方式有哪些不同?在本教程中,我们将探索将 Power BI 数据和报告导出到 Excel 的常见用例。我们开始吧!

将 Power BI 数据和报告导出到 Excel 的常见使用案例

出于几个原因,您需要将数据和报告从 Power BI 导出到 Excel:

  • **在 Excel 中分析数据:**即使 Power BI 在存储和处理数据方面拥有优于 Excel 的能力,使用 Power BI 的在 Excel 中分析功能,Excel 仍可用于创建报告和仪表板。而且,Excel 专家在不完全抛弃 Excel 的情况下,逐渐学习 Power BI 可能更直观。
  • **数据导出:**一位同事对报告背后的数据感兴趣,但他们没有安装 Power BI。将基础数据导出到 Excel 是一个简单的解决方案。
  • **跨工具使用:**如果你在一个有各种类型数据从业者的团队中工作。某些团队成员可能会使用其他工具,比如 R 或 Python。将 Power BI 数据和报告导出到 Excel 将允许他们这样做。

从 Power BI 仪表板导出数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Power BI 仪表板允许您将可视化、报告和表格放在一个地方,一目了然。但是,您可能经常想要研究仪表板中可视化背后的底层数据,或者将其发送给同事。以下是从 Power BI 仪表板导出数据的步骤:

  • 转到 您的 Power BI 实例,使用您的帐户凭证登录。如果您没有帐户,您需要创建一个。
  • 转到有问题的 Power BI 仪表板,选择您有兴趣从中导出数据的数据可视化。
  • 点击所选数据可视化右上角的更多选项(…)
  • 选择选项导出到. csv.
  • 然后你可以打开这个**。Excel 中的 csv** 文件。

从 Power BI 报告中导出数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Power BI 报告经常与仪表板混淆,因为它们都包含数据可视化和表格。报告可以有多个页面,并允许查看者找到不同的方式来过滤、突出显示和切片数据。此外,它们是创建您的综合摘要以与利益相关者共享的绝佳选择。

从 Power BI 报告中导出数据的步骤如下:

  • 从 Power BI 桌面访问报告。如果您没有安装 Power BI Desktop,请转到此处
  • 选择您有兴趣从中导出数据的数据可视化。
  • 单击所选数据可视化的切片设置
  • 选择选项导出数据

将功率 BI 表复制到 Excel 中

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将 Power BI 表复制到 Excel 的步骤非常简单直观:

  • 转到 Power BI Desktop。
  • 选择您想要的功率 BI 表,并转到左侧面板上的数据视图选项。
  • 右键单击所选的表;在这种情况下,它被称为“销售”
  • 选择“复制表格”选项
  • 在 Excel 中创建一个新的工作表,点击粘贴图标或 Ctrl + V 粘贴表格内容

使用“在 Excel 中分析”功能从 Power BI 导出到 Excel

在 Power BI 服务中,有一个附加功能可以将 Power BI 数据集导入 Excel。这对于将数据处理到 Excel 中,然后使用 Excel 中已处理的数据生成数据可视化效果非常有用。这是利用 Power BI 的“在 Excel 中分析”功能的三种不同方式。

1.我的工作区中的 Excel 分析功能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Power BI 中的“我的工作区”是一个视图,包含您过去创建的数据集、报告和仪表板的集合。您可以使用 Excel 中的分析功能将这些数据集和报表中的任何一个导出到 Excel 中。方法如下:

  1. 前往app.powerbi.com,在那里你所有的作品集都会出现在你的 Power BI 账户上。
  2. 从菜单中选择下载。如果您还没有这样做,请点击在 Excel 中分析更新。此操作是强制性的,否则,在 Excel 中分析功能将不起作用。
  3. 准备就绪后,选择要在 Excel 中分析的 Power BI 数据集。
  4. 选择数据集旁边的更多选项(…) ,然后点击“在 Excel 中分析”。
  5. 打开新的 excel 文件时,启用编辑和内容。如果您在 Excel 更新中安装了 Analyze,应该不会有问题。但如果您仍有问题,请查看此文章以获得进一步的指导。

2.从数据集视图分析 Excel 功能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

另一种方法是在工作场所中单击数据集的名称。将打开一个新页面,您可以在页面上方的菜单栏中选择“在 Excel 中分析”。

3.报表中的 Excel 分析功能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第三种也是最后一种方法是打开一个 Power BI 报告,并在菜单栏中选择 Export → Analyze in Excel。

更多电源 BI 资源

我们希望本教程对你有用。本文讨论了将 Power BI 数据导出到 Excel 的不同方法。当您希望在 Power BI 之外存储和分析数据时,该功能非常有用。您可以利用 DataCamp 的资源更深入地了解 Power BI。

如何获得 10 年以上的免费数据营(如果你是教师或学生)

原文:https://web.archive.org/web/20230101103026/https://www.datacamp.com/blog/how-to-get-10-years-of-free-datacamp-if-youre-a-teacher-or-student

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不,这不是一个黑客或好得令人难以置信。DataCamp 认为教育是一项基本人权。虽然我们的许多企业客户都是学术机构,但我们绝不会向教师和年轻人收取任何服务费。我们甚至不会问你要信用卡。这就是你如何在你的整个学术生涯中,不用花一分钱就可以访问几乎所有的数据:

学生如何免费访问 DataCamp:

  1. 年满十六岁。这是你在 DataCamp 上创建免费帐户的年龄(如果你住在美国,则为 13 岁)。
  2. 请教师申请教室数据营账户,这样他们就可以给你访问权限。提醒他们这是完全免费的,不需要信用卡。科学和数学老师是你最好的选择,但是任何有合格学校电子邮件地址的老师都有资格参加这个项目。
  3. 与你的老师联系,看看他们是否提交了申请。一旦他们获得批准并有权访问他们在 DataCamp 上的教室,让他们通过点击“邀请成员”,输入您的电子邮件地址,然后点击“发送邀请”来邀请您成为成员
  4. 在您的电子邮件收件箱中找到邀请,然后单击链接加入您的教师群(检查您的垃圾邮件文件夹)。如果您尚未创建 DataCamp 帐户,您需要创建一个与教师发送邀请的电子邮件地址相同的帐户。恭喜你!您现在可以访问 DataCamp 的所有课程内容(包括 Tableau!)直到您的老师的课堂结束日期(从他们的活动日期起六个月)。
  5. 每六个月或更短时间重复一次,直到你离开学校工作。你也可以让同一个老师重新申请或者把这个项目推广给新老师。你可以向课堂数据营推荐的教师数量没有限制,这意味着你可以对数百名甚至数千名像你一样的学生产生相当大的积极影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

教师如何免费访问 DataCamp(剧透:更简单)

  1. 使用您有效的学校电子邮件地址向 DataCamp 申请教室。永远不需要信用卡。
  2. 等待 2-3 个工作日,等待批准消息。DataCamp 支持人员也可能会发送关于您、您的班级和/或您的学校的其他问题,以确定资格。请回复这些邮件,否则我们可能无法处理您的申请。
  3. 通过登录您的 DataCamp 帐户并点按顶部导航栏中的“群组”,获取您的批准电子邮件并访问您的教室。恭喜你!您现在可以访问 DataCamp 的所有课程内容(包括 Tableau!)六个月。你可以开始邀请学生,组建团队,分配内容。
  4. 每六个月重复一次。你可以在课堂上使用 DataCamp 的学期数没有限制!

你是一名学生,但你不能等待你的老师来通过离合器?查看我们价格实惠的学生优惠计划。只需 149 美元(比正常价格低 50%以上),您就可以获得 DataCamp 根据您的条件提供的一年服务。你只需要一个有效的学院或大学的电子邮件地址就可以得到这个特价。

您是否刚刚毕业,但仍然需要免费或负担得起的数据科学教育,以便获得第一份工作?请继续关注我们的社交 媒体 频道和我们的推广页面,因为我们定期以大幅折扣出售我们的年度订阅。还需要帮手吗?请访问 DataCamp 捐赠合作伙伴页面查看我们的非营利合作伙伴组织是否在您的社区开展业务。直接联系这些组织,看看你是否能加入他们的会员行列,并免费访问同一个伟大的数据营。

如何雇佣数据科学家和数据分析师

原文:https://web.archive.org/web/20220627024316/https://www.datacamp.com/blog/how-to-hire-data-scientists-and-data-analysts

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据角色需求巨大并不是什么新闻。大量的统计数据显示了市场是如何增长的,并将继续增长。研究公司 Fortune Business Insights 预测, 全球大数据分析市场将在 2028 年增长至 5497 亿美元。 随着数据市场的不断扩大,该领域对员工和专业知识的需求也在不断扩大。自 2016 年以来,数据科学工作岗位增加了 480%,需求来自金融、医疗保健、共享经济服务甚至娱乐等顶级行业。尽管数据工作供过于求,但截至 2020 年,数据科学专业人才 短缺 25 万人 。 为什么?因为很难找到和雇佣合格的人才。本指南解释了原因,以及 DataCamp 如何帮助您的企业更好地招聘员工。

有兴趣与我们的专家交流吗?使用此链接立即预订免费演示。

为什么聘请数据科学家这么难?

在公司招聘数据科学家和分析师时面临的许多困难中,有三个压倒一切的趋势:工作供需不匹配,数据科学工作缺乏特异性,以及不合适的招聘流程。这个问题基本上可归结为三个因素。

1.对数据人才的需求

首先,对数据人才的需求远远超过合格候选人的供应。这个问题影响并催化了数据雇佣过程中的许多问题。这是一个简单的供求问题:没有足够的候选人来匹配不断增长的数据工作。然而,围绕数据工作产生了很多兴趣和炒作。例如,在 Glassdoor 的榜单上,数据科学家排名第三,高薪(数据分析师和科学家的平均工资在 75,000-120,000 美元之间)等激励措施引起了许多人的兴趣。然而,这产生了我们的下一个问题:公司从对该角色感兴趣的候选人中进行选择,但不一定是数据科学的正确候选人。数量重于质量。

2.不具体的招聘广告

因此,现在公司从一大群申请者中挑选,许多人不适合手头的职位。但是这个角色被宣传的正确吗?通常情况下,不确定的广告会吸引一系列类似的应用。为什么这种情况一直发生?工作岗位通常对这些数据角色含糊其辞,因为他们背后的公司并不完全了解什么是数据科学,也无法区分不同的角色及其要求。围绕数据科学,它包括什么样的工作,以及需要什么样的经验或技能来满足角色,仍然有很多模糊之处。招聘经理和招聘人员必须分别寻找分析师和科学家所需的技术和商业技能的正确组合。如果没有对他们要招聘的角色的正确理解,企业如何才能招聘到最好的数据团队呢?

3.不合适的招聘流程

没有对数据科学的基本理解,招聘过程往往会错失目标。首先,公司仍在使用 LinkedIn messenger 和其他消息平台作为接触候选人的主要工具。虽然这是猎头潜在员工的常见途径,但对于发掘数据科学家来说,这不是最有效的。有这么多的角色需要填补,候选人淹没在类似的信息中,你的企业在这些接触中脱颖而出的可能性不大。

这就引出了我们手头的下一个问题:招聘经理不知道如何评价数据科学家。量化数据科学方面的经验并不像看起来那么简单,招聘经理通常会关注一种技能,而不是另一种。学术背景比实践经验更受推崇。科学和数学技能是重点,而解决问题和软技能,包括商业头脑,客户管理和数据故事,被忽视。这些经验和技能对数据科学至关重要,但在选择过程中却被忽视了。这也意味着资深候选人与那些经验少得多的人没有区别。

我们如何解决这个问题?

这些问题看起来很棘手,但 DataCamp 可以帮助您简化企业的招聘流程。我们知道数据角色的招聘可能会令人困惑和耗时,这就是我们推出 DataCamp Recruit 的原因。

1.专攻数据

DataCamp Recruit 是一个帮助您招聘数据角色的平台。当然,现在有很多招聘平台,包括 LinkedIn 和 Google For Jobs。但是是什么让 DataCamp 新兵特别呢?DataCamp 的平台只关注数据角色,忽略了寻找不合适的候选人。DataCamp Recruit 让您可以接触到您正在寻找的候选人:数据科学家和分析师。

2.访问工作就绪的候选人

选择过程已经为你简化了。DataCamp recruit 不仅帮助您专注于数据科学家和分析师,还提供了数千名预先认证、准备就绪的候选人。这使得找到高质量的、经过验证的候选人变得更加容易。根据您输入的工作标准,我们的算法会为您匹配最佳候选人。

3.筛选您需要的技能

通过我们的匹配和过滤算法,您可以直接找到符合您工作要求的候选人。这些过滤工具侧重于技能和经验,有助于您不带偏见地聘用最优秀的数据科学家和数据分析师候选人,从而实现更轻松、更公平的招聘。

4.认证完毕,准备就绪

最重要的是,你可以接触到 DataCamp 认证的候选人。DataCamp 学员在获得认证之前都经过了严格的测试,包括技术评估以及对他们整合和展示分析能力的测试。这些评估将他们培养成日常的数据专业人员,具备数据故事讲述的实践经验和技术技能。

因此,即使你是数据世界的新手,你仍然可以雇佣精英。 今天免费上手 。让 DataCamp Recruit 消除雇用数据驱动团队的猜测,并更快地填补您的开放数据角色。

如果您有兴趣了解更多信息,请于 2022 年 6 月 23 日加入我们的 DataCamp Radar。这一天,行业领袖齐聚一堂,帮助您驾驭数据角色招聘的未来。

今天就保留您的座位!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何学习熊猫

原文:https://web.archive.org/web/20221129034451/https://www.datacamp.com/blog/how-to-learn-pandas

pandas 是最流行的 Python 数据科学包之一,是在 Python 中处理表格数据的标准工具。幸运的是,一个完全的初学者可以在几周内学会并开始用熊猫编程。以下是开始的方法。

开始之前需要知道什么

熊猫是什么?

pandas 是您应该学习的第一批 Python 包之一,因为它易于使用、开源,并且允许您处理大量数据。它允许快速有效的数据操作、数据聚合和旋转、灵活的时间序列功能等等。

pandas 具有许多与 SQL 或 Excel 相同的功能,并且可以接受各种数据类型——从 CSV 和文本文件到 Microsoft Excel 文件、SQL 数据库等等。它还有一个额外的好处,允许您将它们转换为 DataFrame 对象,data frame 对象只是表示类似于 Excel 中的表格数据的列和行——但在 Python 中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

活动中的熊猫数据框

熊猫如何融入 PyData 生态系统?

当使用 Python 分析数据时,pandas 通常与其他包和工具结合使用。这些软件包包括用于对数据进行预测的机器学习软件包,如 scikit-learn ,数据可视化软件包,如 Matplotlibseaborn ,以及工具,如 Jupyter Notebooks ,用于创建和共享包含代码、可视化和文本的报告。所有这些工具构成了通常所说的 PyData 生态系统。但是你不需要担心一下子学会所有这些工具——从关注熊猫开始。

熊猫学习之旅的六个步骤

1)学习基本的 Python 语法

pandas 是一个为 Python 构建的包,所以在开始使用 pandas 之前,您需要牢固掌握基本的 Python 语法。学习语法时很容易陷入困境,因为入门课程通常只关注 Python 语法,这让学习变得很麻烦。

根据经验,您应该在语法上花费尽可能少的时间,并学习足够的语法来开始使用 pandas 完成简单的任务。这里有一个纯 Python 资源列表,可以帮助您入门:

2)设置您的 Python 环境

在使用 pandas 之前,您需要在您的机器上设置一个 Python 环境。这将允许你应用你的新技能,并用你自己的数据对熊猫进行实验。

要为数据科学设置 Python 环境,我建议安装一个 Anaconda 发行版,以便方便地安装 pandas 以及相关的数据科学包和工具,如 Jupyter 笔记本。

要获得关于使用 Anaconda 设置 Python 环境的入门知识,请观看我的实践培训的分步教程。你也可以按照初学者指南在 WindowsMac OS X 上安装 Anaconda。

3)边做边学

在 DataCamp,我们相信边做边学是学习和应用编程技能的最佳方式。将您的熊猫技能应用于指导项目将帮助您走出舒适区,学习如何调试和阅读文档,并获得使用真实数据的信心。

要精通 pandas,需要知道如何导入和导出不同类型的数据、操作和重塑数据、透视和聚合数据、从数据框架中获得简单的见解等等。以下是涵盖这些主题及更多内容的资源列表,包含易于实施的指导项目形式的熊猫代码:

  • 熊猫网站提供了大量的入门教程。更重要的是,它有许多社区教程来帮助新用户入门。
  • 熊猫食谱是一本优秀的书籍,提供了丰富的代码,基于项目的方法来与熊猫一起工作。它还介绍了 PyData 生态系统中熊猫经常使用的其他包,如用于数据可视化的 seaborn。
  • 数据营提供从初级到高级的一系列熊猫课程。熊猫基金会课程向您展示如何从浏览器导入数据框架、进行基本的探索性分析以及分析时间序列。

4)使用真实世界的数据处理项目

在真实世界的数据上练习你所学的熊猫技能是一种很好的方式来保留你的技能,并在日常工作中自信地应用它们。

开始你自己的项目有很多种方法。首先,如果您的日常工作需要您处理表格数据,请开始使用 pandas,而不是像 Google Sheets 和 Microsoft Excel 这样的电子表格软件。虽然这最初可能需要更多的时间,但它将帮助你提高和保持你的熊猫技能,从长远来看,使你更快更熟练。

Kaggle 包含一系列真实世界的数据集和机器学习竞赛。虽然我鼓励你学习机器学习,但它最适合更高级的学习者,所以确保最初专注于专注于数据分析和探索熊猫的项目。你可以通过在 Kaggle 或者像 Medium 这样的博客平台上写数据分析笔记本来做到这一点。

5)掌握调试的艺术

任何有抱负的程序员需要磨练的最容易被忽视的技能之一是调试。每一个 Python 和 pandas 的实践者,不管技术水平如何,都面临着代码的错误和问题。当您在 pandas 代码中遇到错误时,这些资源可供您使用:

6)不断拓展你的熊猫技能

继续建立和扩大你的熊猫技能。许多资源涵盖了先进的熊猫主题。例如,Ashish Kumar 的掌握熊猫涵盖了加速和简化你的熊猫工作流程的技术。这篇真正的 Python 博客文章涵盖了高级用户的技巧和诀窍。你也可以开始学习 PyData 生态系统中的其他软件包如何扩展你的熊猫能力,如 seabornplotly ,用于创建交互式情节。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用 Plotly 制作的互动情节

扩展您的 pandas 技能的一个很好的方法是重温您在学习之旅开始时编写的一些 pandas 代码。尝试寻找机会来简化您的代码,采用最佳实践,并利用 PyData 生态系统中的其他包。

我希望你能从这篇博文中受到启发,并且这些资源对你有用。掌握熊猫是一个终生的学习之旅——我自己仍在努力。在 DataCamp,熊猫涵盖了我们的核心课程,我们正在不断改进和增加我们的内容。最后,我邀请你加入数千名学习者的 DataCamp Slack 社区,为你的熊猫之旅获得支持!

Adel Nehme 是 DataCamp 的数据科学传播者。他以前是一名内容开发人员,在那里他与讲师合作了一系列 Python 课程,并创建了我们的课程用 Python 清理数据。

如何学习 Python

原文:https://web.archive.org/web/20221129034451/https://www.datacamp.com/blog/how-to-learn-python

Python 是当今最流行的编程语言,广泛应用于软件和 web 开发、游戏开发、数据科学、机器学习等垂直领域。对于有抱负的数据科学家、数据分析师、数据工程师和机器学习科学家来说,学习 Python 势在必行。

好消息是,一个完全的初学者可以在几周内学会并开始用 Python 编程。以下是开始的方法。

在你开始之前知道你的动机

Python 是一种高度通用的编程语言,有许多用例。在开始学习 Python 的过程中,有一个明确的动机是很重要的。瞄准感兴趣的领域将帮助你更快地开始,并过滤掉不适合你的用例的学习资源。当我需要在学校使用 Python 进行数据科学项目时,我开始了自己的 Python 学习之旅。我没有 Python 或编程经验,需要快速上手。幸运的是,通过一些在线资源,我能够在短短几个月内熟练掌握。这里列出了 Python 有帮助的相关领域:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.数据科学和机器学习

Python 受欢迎程度的上升可以归因于其丰富的数据科学和机器学习包和工具集。研究人员使用像 pandas 这样的数据分析包来分析 Covid 数据,从业者可以通过像 scikit-learnKerasPyTorch 这样的库来快速应用机器学习,以检测欺诈行为、对图像进行分类并产生产品建议。

2.桌面和移动软件开发

无论是构建简单的软件应用程序,如计算器,还是更复杂的软件应用程序,如文档编辑器和社交网络。Python 提供了大量的工具来原型化、开发和运行桌面或移动应用程序,例如 wxWidgetsKivy

3.Web 开发

你知道像优步、网飞和 Spotify 这样的网络应用是用 Python 开发的吗?Python 上有多种简化网站开发的 web 框架。诸如 FlaskDjangoBottlePyramid 之类的软件包都提供了快速原型化和构建可扩展 web 应用的工具。

4.游戏开发

这可能令人惊讶,但像模拟人生 4 和文明 4 这样的游戏都是用 Python 开发的。Python 库如 PyGameTurtle 简化了游戏的原型和开发。

5.物联网

嵌入式系统和物联网(IoT)的兴起推动了跨领域的创新和业务流程改进。Python 提供了一套软件包,使得在 ArduinoRaspberry Pi 和其他物联网设备如 Alexa 和 Google Home 上设计、创建和部署物联网设备变得容易。

Python 学习之旅的 6 个步骤

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.在基本语法上花尽可能少的时间

当学习任何编程语言时,学习语法很容易陷入困境。入门课程通常将重点放在纯 Python 语法上,而不是 Python 如何解决特定问题,这使得学习变得很麻烦。不要误解我的意思:学习 Python 语法对于任何初学 Python 的人来说都是必不可少的,但是根据经验,您应该学习足够的语法来开始处理简单的项目。当我开始我的 Python 数据科学之旅时,我学到了足够的语法,能够使用 pandas 完成简单的数据分析任务。以下是语法资源列表:

2.设置您的 Python 环境

在处理项目之前,您需要在您的机器上设置一个 Python 环境。能够在自己的机器上进行项目是应用新技能的最好方式。为了设置您的数据科学环境,我建议安装一个 Anaconda 发行版,它可以方便地安装所有相关的数据科学包,以及一个用于编辑 Python 代码的集成开发环境,名为 Spyder

要获得关于使用 Anaconda 设置 Python 环境的入门知识,请观看我的实践培训的分步教程。你也可以按照初学者指南在 WindowsMac OS X 上安装 Anaconda。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Spyder 集成开发环境的图像

3.实践中学习

在 DataCamp,我们相信边做边学是学习和应用编程技能的最佳方式。无论你关注的领域是什么,参与项目都会帮助你走出舒适区,学会如何调试和阅读文档,并向潜在雇主展示你的技能。

数据科学和机器学习

数据科学和机器学习是当今发展最快的重点领域之一。在线数据技能培训有许多解决方案:

  • DataCamp 提供超过 130 门交互式 Python 课程和 39 个项目,涵盖广泛的数据科学和机器学习主题。您将通过直接在浏览器中编码来从头开始构建您的技能,并将您的技能应用于金融、营销、体育、历史等各种数据集。
  • Python 数据科学手册提供了 Python 中主要数据科学包和技术的极好概述。方便的是,所有的内容都可以在 GitHub 上以 Jupyter 笔记本的形式获得。
  • Coursera 上的 IBM 数据科学专业证书专业化包含九门课程,涵盖了数据分析、数据可视化、机器学习等领域的一系列技术。专业化的最终课程是一个在 Foursquare 数据上结合这些技术的顶点项目。
  • Codeacademy 数据科学家路径提供了一系列关于数据科学和使用 Python 进行机器学习的课程,最终形成一个最终的作品集项目。
桌面和移动软件开发

Python 提供了一系列工具来原型化和开发桌面和移动应用程序。以下是帮助您入门的学习资源列表:

  • ZetCode wxWidgets 教程提供了用 wxWidgets 构建图形用户界面的分步介绍,并向学习者展示了如何构建一个简单的俄罗斯方块游戏。
  • Kivy 提供了一系列关于如何在 Python 上用 Kivy 构建简单移动应用的教程。
Web 开发

Python web 开发的两个主要包是 Flask 和 Django。虽然对这两个包的利弊还有讨论,但这里列出了这两个包的学习资源:

  • 烧瓶教程页面解释了如何建立一个简单的博客网站。如果你是一个视觉学习者,这个 YouTube 视频是一个很好的用 Flask 建立网站的介绍。
  • 使用 Django 教程页面学习构建 web 应用程序。 Real Python 也很好地解释了这一点,并包括一个 web 开发人员组合的样本项目列表。
游戏开发

虽然现代游戏开发由虚幻引擎和 Unity 等游戏引擎主导,但大多数开发人员使用 JavaScript、C#、C++或 Java,以下 python 包是进入游戏开发的好方法:

  • PyGame 教程页面向你展示了如何用 PyGame 构建一系列不同的游戏。视觉学习者可以按照这个 YouTube 视频用 Python 制作一个太空入侵者游戏。
  • Real Python 为 Python 中的游戏开发提供了一个极好的海龟包概述,以一个海龟赛跑游戏作为最终项目结束。
物联网

物联网设备在我们周围无处不在,收集关于我们环境的数据,并且预计数量只会增加,以下是涵盖如何使用 Python 对物联网设备进行编程的资源列表:

4.学习如何调试代码和寻求帮助

任何有抱负的程序员需要磨练的最容易被忽视的技能之一是调试。每个 Python 实践者,不管技术水平如何,都面临着代码的错误和问题。当您在代码中遇到错误时,请确保使用以下资源:

  • 当我的代码遇到错误时,谷歌几乎总是我第一个去的地方。我的 Python 查询的答案几乎总是在前 10 个搜索结果中。
  • Stack Overflow 是最大的开发者社区,从业者可以通过提问和回答编程问题来寻求代码调试方面的帮助。很多时候,你的 Python 问题已经被问过了,回答了。如果你想自己发布一个问题,请确保在措辞问题时遵循他们的最佳实践
  • 文档永远是你的朋友。无论是使用内置的 Python 函数,还是使用像熊猫这样的下载包,你总能在你正在使用的包的网站上找到详细描述功能、可能的错误和教程的文档。

5.扩展您的学习资源

既然您已经设置了 Python 环境,参与了指导性项目,并学习了如何调试,那么是时候扩展您的知识并不断提高您的技能了。这里有一个资源列表可以帮助你做到这一点:

  • 博客可以帮助你跟上 Python 的最新趋势和技术。我最喜欢的一个是 Real Python ,因为它在我不会使用的包中托管了入门和教程。他们还有一份包含 Python 技巧和窍门的小型时事通讯。
  • 在提高您的 Python 技能时,阅读他人的代码非常有用。对于数据科学和机器学习来说, Kaggle 是一个极好的资源,可以看到经验丰富的数据科学家如何解决问题。也可以在 GitHub 上看看自己喜欢的开源包的源代码。
  • 参加会议聚会,以及其他有更多经验的从业者参加的社区聚会。这将给你机会与更有经验的 Python 程序员交流和学习。

6.构建项目组合

现在你已经准备好开始处理复杂的开放式项目,并将它们展示在未来雇主的投资组合中。当处理开放式项目时,最好从简单的开始,处理与您的工作直接相关的 Python 项目。如果你正在寻找灵感,这篇 Edureka 博客文章包含了游戏开发、网页开发、数据科学和机器学习领域的开放式项目列表。

你可以通过在 Github 上托管你的代码并写关于你的项目的博客文章来开始建立你的投资组合。这让你有能力展示你的技术写作能力,并教初学者你如何开发你的项目。你可以通过开发自己的网站或者使用像 Medium 这样的博客托管服务来写博客。

我希望你能从这篇博文中受到启发,并且这些资源对你有用。掌握任何编程语言都是一个终生学习的过程——我自己仍在努力。在 DataCamp,Python 是我们核心课程的一部分,我们不断改进和增加我们的内容。最后,我邀请您加入到数千名学习者的 DataCamp Slack 社区中,在您的 Python 之旅中获得支持!

Adel Nehme 是 DataCamp 的数据科学传播者。他以前是一名内容开发人员,在那里他与讲师合作了一系列 Python 课程,并创建了我们的课程用 Python 清理数据。

R 怎么入门

原文:https://web.archive.org/web/20221129034451/https://www.datacamp.com/blog/how-to-learn-r

r 是 2020 年最流行的语言之一,广泛应用于金融、商业和学术界。对于一个完全的初学者来说,在几周内学会并开始用 R 编程是可能的。以下是开始的方法。

1.消费 R 内容

Stack Overflow 对于任何有抱负的数据从业者来说都是一个很好的资源——他们有最大的关于 R 的链接集合和一个 r-faq 标签,其中包含学习 R 的重要问题和答案。通读这些问题是了解如何解决常见任务和避免常见陷阱的好方法。

CRAN 提供了一个类似的 FAQ 资源,以及任务视图,其中列出了所有在特定领域使用的 R 包。例如,财务任务视图列出了应用财务的所有包。

找到关于 R 的博客的主要地方是 R 博客作者。最好的(而且免费!)关于学习 R 的入门书籍是由 Garrett Grolemund 和 Hadley Wickham 所著的数据科学的 R。

对于视觉学习者来说,YouTube 有许多很棒的解释者视频来帮助你开始。R 节目 101 频道有一位非常热情的主持人。从为什么你应该使用 R 视频开始。我还喜欢动态数据脚本 R 系列,里面有更长的 R 编程新手教程

2.参加在线课程

显然,在 DataCamp,我们是学习数据科学的在线课程的忠实粉丝!关于 R,需要知道的一件重要事情是,它的功能是跨包划分的。R Core 团队开发了一组核心包,称为“base-R”。下载 R 时会包含这些软件包。其他软件包可以由任何人创建——R 生态系统是由社区驱动的。一组特别重要的包装被称为“tidyverse”这些包被设计成能很好地协同工作,并使数据操作和可视化更容易。

  • DataCamp 采用边做边学的方法,包括短视频和动手编码练习。我们的 R 课程从快速介绍 base-R 开始,一直到介绍 R ,但是我们的大部分课程都是建立在 tidyverse 包之上的,从介绍 Tidyverse 开始。
  • Coursera 的 R 编程涵盖了 R 语言的基础知识,深入到具有挑战性的概念,并使用了具体的例子。
  • LinkedIn Learning 的数据科学硕士 R路径最适合已经有编程或数据科学经验的学习者。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

r 包使得创建像这样的交互式可视化和地图变得容易。来源:传单 | OpenStreetMap 投稿人, CC-BY-SA

3.设置您的 R 环境

要使用 R,我们建议安装 R、RStudio 和 git,您可能还需要定制 RStudio 和您的 R 概要文件。观看我的实践培训获得如何做到这一点的分步指南。

如果你喜欢遵循书面说明,你也可以遵循初学者指南在 Windows、Mac OS X 和 Ubuntu 上安装 R。

如果你想在不安装任何东西的情况下使用 R,你可以免费注册 RStudio Cloud

4.从事研发项目

没有什么可以替代使用真实数据的实践经验——您可能想要构建自己的数据科学项目组合。

如果你想下载自己的数据,并在数据清理、探索性数据分析和数据可视化方面建立技能, R4DS 在线学习社区有一个名为整洁星期二的伟大项目,它给你一个新的数据集,让你每周尝试分析。更有经验的用户可能希望从 Kaggle 下载并导入公共数据集。

当然,如果你能接触到你公司的真实数据,你应该使用它。最好使用你感兴趣的数据,或者对你的职业生涯有影响的数据。接受创造性的、开放式的挑战是掌握新技能的最佳方式。

5.继续拓展你的 R 技能

继续建立和拓展你的 R 技能——但是要小心常见的陷阱。帕特里克·伯恩斯的《地狱》是一本关于常见陷阱的经典著作,读起来很轻松愉快。

如果你遇到困难,邮件列表是一个提问的好地方。虽然邮件列表现在可能感觉完全过时了,但主要的好处是列表中有很多使用 R 几十年的人会给你回复,包括开发 R 的 R-Core 团队。

和任何其他语言一样,你需要练习和完善你的 R 技能,以便变得舒适和流利。温习一下 R 编程机器学习中的常见面试问题。保持积极的态度,坚持下去,你会在数据科学和分析领域找到一份工作。

如何在不损失生产力的情况下腾出时间来学习

原文:https://web.archive.org/web/20230101103301/https://www.datacamp.com/blog/how-to-make-time-for-learningwithout-losing-productivity

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

全球转向远程工作可能预示着灵活工作安排的正常化,取代典型的朝九晚五、五天工作制。随着这一转变,我们有机会重新思考如何平衡生产力和技能发展。办公室工作人员面临的挑战是如何安排他们的一天,以有效利用他们的时间,而不是浪费时间。

持续学习的好处

持续学习是为了获得技能,使职业成长和职业目标成为现实。对于那些想要在当前职位上表现得更好的人,以及那些想要改变职业道路的人来说,这都是事实。

我们的一名学员 Cameron White 能够将他在 DataCamp 中学到的数据技能应用到他在 Fruit of the Loom 新成立的数据科学团队中的工作中。在五年的时间里,他完成了超过 200 门课程,超过 10,000 次练习,获得了超过 100 万的 XP,并完成了 DataCamp 上几乎所有的技能赛道和职业赛道。

卡梅伦每天都在 DataCamp 上练习学习,并且能够用他获得的编码技能节省 196 个工作日。他“在许多场合,有时甚至就在第二天”将他的知识直接应用到工作中

现在想象一下,如果你公司的每个人都能够抽出一天或一周的一小部分时间来学习。学习经常被不优先考虑,而倾向于眼前的任务——但是那些优先考虑学习的人经常看到对商业和职业结果的巨大影响。关键是鼓励个人在通往关键里程碑的道路上,立即将他们获得的技能应用到现实世界的项目中。

如何腾出时间学习

不断的学习能推动商业的发展。这里有三个建议,告诉你如何让自己和整个公司养成学习的习惯。

1.试试网上学习。

对个人来说

许多人被授予学位或证书的学习项目所吸引,这需要投入大量的时间和金钱。与其报名参加训练营或等待硕士课程在秋季开始,为什么不从今天开始通过在线学习平台学习呢?自定进度的学习通常比传统的学习环境更经济实惠,还有一个额外的好处是允许你按照自己的方式学习,而不需要遵守严格的时间表。

对于企业

在我们最近的网络研讨会从现场培训转向在线培训中,DataRobot 可信人工智能副总裁 Ted Kwartler 解释了转向在线培训的三大好处:

  • 通过向更多人提供培训来节省时间
  • 省钱——在线培训比面授课程更实惠,可扩展性更强
  • 增加灵活性和获得培训的机会

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.确保学习支持系统。

对个人来说

确保向你的支持系统——也许是你的老板、家人和密友——传达学习对你很重要。如果他们了解你打算如何运用你所学的技能,他们就更有可能支持你的学习目标。像卡梅伦一样,把你学到的东西运用到日常工作中。如果你正在 DataCamp 上学习,利用我们的技能评估来衡量你的进步并交流你所学到的东西。

对于企业

最成功的公司采用学习文化,因为今天的工作性质要求对新信息做出适当反应的能力。对于数据技能来说尤其如此。对整个公司的数据工具和资源的基本了解极大地提高了同事之间的交互质量,允许团队提出更好的请求,并使每个人能够自主做出决策。

一些经理可能不愿意鼓励他们的团队成员为技能发展留出时间,担心日常工作会被忽视。但是给员工时间和工具来投资技能发展可以让你的企业保持竞争力。提高员工技能可以带来更好的数据驱动型决策和业务成果。投资于学习就是投资于商业。学习通常会使人们更有效率——例如,当应用数据技能来自动化日常任务时。随着数据技能的提高,生产力也会提高!

3.创建学习计划。

对个人来说

在日历上留出时间,确保你能专注于学习。用定时拳击或番茄工作法来打破你的一天可能会有帮助。对你的时间表能容纳多少要现实一点。你可以从每周 30 分钟的短时间开始,理想的情况是像卡梅伦一样坚持每天学习。

对于企业

我们的许多客户是关心建立学习文化的公司,由尊重学习过程的经理领导,由愿意投入时间和精力学习的员工组成。这些公司通常将培训新员工作为入职流程的一部分,并有正式的学习计划,许多经理鼓励他们的团队在日程安排中留出时间来学习。

DataCamp 对学习者的独特价值

为了做出明智的决策,您需要投资于构建数据技能。这是一条通往有意义的职业发展和更好的商业成果的必经之路。

DataCamp 提供了一种边做边学的方法来获取和练习数据技能。我们的方法非常适合每个人——对于那些有能力投入大量时间学习的人,以及那些需要灵活学习的人。

你可以随时随地在 DataCamp 上学习。你们做得很好,把所有东西都放进了可消化的模型里。你有练习,课程,视频。人们可以系统地在平台上度过 30 分钟。—Andrew He,SVP,汇丰银行全球风险分析部

在 datacamp.com/groups/business 了解更多信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何有效管理人工智能项目

原文:https://web.archive.org/web/20221129054701/https://www.datacamp.com/blog/how-to-manage-ai-projects-effectively

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

87%的数据科学项目从未投入生产。一些失败是因为缺乏管理支持,另一些是因为缺乏高质量的数据和适当的基础设施。希望从人工智能和机器学习中获得价值的组织应该知道在界定和管理人工智能项目时的常见陷阱。然而,说起来容易做起来难。即使是那些熟悉实现传统软件项目的人,由于其独特的性质,在实现人工智能项目时可能仍然会面临困难。

人工智能项目与传统的软件项目有很大的不同。

在传统的软件项目中,程序员显式地编写程序的逻辑,它接受输入产生输出。一个例子是一个银行软件,当借款人申请大额贷款(投入)时,该软件会扣除借款人的信用评分(产出)。

另一方面,利用机器学习的人工智能项目不需要显式编码的逻辑。在基于输入预测输出之前,机器学习算法系统地学习输入和输出之间的模式。一个例子是根据借款人的信用评分和贷款总额来预测他们的违约风险。

当一个组织第一次实施和管理它的 AI 项目时,这会引入相当大的惰性。因此,这篇文章旨在为你的下一个可部署且可盈利的人工智能项目提供一些指导。

寻找可行的、简单的、有价值的人工智能项目

这三个特征为公司的第一批人工智能项目的成功奠定了基础。原因如下。

AI 项目应该可行

在开始新的人工智能项目之前,组织应该在将资源投入到不可行的项目之前,衡量自己的数据成熟度。数据成熟度的支柱包括基础设施、人员、工具、组织和流程。围绕这些支柱的有用问题可以使组织更好地确定哪些项目是最可行的:

  • 公司有能力可靠地收集数据吗?
  • 公司是否拥有存储和清理数据的基础架构?
  • 团队是否具备交付可靠、准确的模型结果的必备技能?
  • 公司是否有流程、工具和技能来监控生产中的模型?

AI 项目要简单

对于数据成熟度相对较低的组织来说,技术上简单的项目更容易管理。快速交付的简单项目有助于产生立竿见影的效果,积累团队的经验。这为未来的人工智能项目建立了动力,刺激了一个良性循环,在公司中建立了兴奋感,为技术上更先进的人工智能项目产生了买入。随着公司在人工智能成熟度方面的进步,它可以从低挂的水果转向更复杂的项目。

AI 项目应该是有价值的

《哈佛商业评论》声称,强大的人工智能项目的特征之一是它创造的价值。这可以有三种形式——人工智能可以帮助做出更好的决策,通过自动化重复的手动任务来降低成本,或者用于新产品。从成功的人工智能项目中获得的这种价值可以帮助说服利益相关者投资于公司的人工智能能力。

寻找一个简单的、有价值的、可行的项目并不简单。为了找到符合要求的项目,Veljko Krunic,与 AI 的作者提出了以下步骤。

  1. 识别业务问题。
  2. 头脑风暴 AI 解决商业问题的方案。
  3. 评估项目的技术可行性和复杂性。
  4. 确定业务指标来衡量人工智能项目的价值。
  5. 根据业务指标评估业务价值。

执行这些步骤在理论上很简单,但在实践中却很微妙。特别是,业务指标的选择可能不会立即显现出来。下一节概述了如何选择业务指标。

用商业度量来衡量人工智能项目人工智能项目的商业价值可以用适当的商业度量来衡量。然而,用业务指标来衡量人工智能系统的性能,这种做法对许多人工智能从业者来说可能是违反直觉的。

机器学习模型通常用评估指标来衡量,这些指标衡量它们在数据集上的技术性能,而不是量化其在业务上的价值的业务指标。这是学术界的常见做法,机器学习算法的进展与可量化的客观技术基准挂钩。然而,现实世界中的人工智能系统依赖于超出准确性的有形结果,如收入、成本和客户满意度。

因此,有必要将人工智能系统的技术性能与业务指标联系起来。通常,这种联系并不明显。谷歌大脑的联合创始人吴恩达表示,商业领袖和人工智能专家应该合作,就可以用来衡量和优化人工智能系统性能的商业指标达成共识。

在这个过程中,利润曲线的使用有助于定量地建立业务和技术指标之间的关系,正如《商业数据科学》一书中所建议的那样。这将技术进步转化为商业术语,使领导者能够回答诸如“准确度提高 1%会产生多少额外收入?”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1: An illustration of a profit curve that links the accuracy of an AI system with the resulting profit

传达人工智能项目的价值和业务成果

机器学习实践者之间的交流通常涉及围绕机器学习模型的技术术语,这是理所当然的。然而,这对于非技术受众来说没有意义,他们更关心模型的业务影响,而不是 1%的准确性增量改进。

人工智能从业者可以通过在讨论人工智能项目的更新时牢记目标受众来避免这样的陷阱。特别是,他们应该注意,对于业务涉众来说,业务指标的改进比技术指标的改进具有更高的优先级。他们还可以从数据故事讲述技术中受益,传达人工智能项目如何帮助商业指标——无论是客户体验的改善,保留率的增加,还是成本的降低。

实现人工智能系统和机器学习(ML)管道齐头并进

我们已经看到了人工智能系统与传统软件系统的不同之处。特别是,人工智能系统不需要程序员显式编码其逻辑,因为它能够从数据中学习模式。要做到这一点,首先需要建立一个管道,接收必要的数据,对其进行转换,并将其提供给人工智能系统。

因此,人工智能系统不仅包括机器学习算法,还包括机器学习(ML)管道。这个管道描述了从开始到结束的数据流,包括如何获取、转换、使用、呈现和监控数据。

机器学习管道是更大的软件系统的一部分。开发一个机器学习流水线和一个典型的软件系统的程序很大程度上是相似的。在其他事情中,对有能力的数据工程师的需求,使用类似于 DevOps 的软件开发过程,以及安全性的重要性是开发 AI 和软件项目的共同主题。

这是一个计算机视觉系统的 ML 流水线的例子,它检测手机制造过程中的异常。这种简化的 ML 管道使用照片检测手机缺陷,并促进质量保证团队的工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2: A simplified ML pipeline of a phone manufacturer

从这个例子中,我们可以看出机器学习管道的设计高度依赖于数据、算法和业务用例。很少有放之四海而皆准的机器学习管道。

据谷歌极具影响力的论文称,一个完整的管道还包括数据收集、特征提取、数据验证、结果监控等,这使得它庞大而高度复杂。这就是为什么机器学习工程团队通常致力于建立和维护管道。

从一开始就构建强大的 ML 系统,以减少代价高昂的变更

机器学习系统的部署可能不会像预期的那样进行,这可能是由于数据的变化、模型中的弱点或管道中的缺陷。当这种情况发生时,希望改进系统的从业者可能会对现有管道提出激烈的更改,但他们会沮丧地发现,一旦实现了机器学习管道,它们很快就会变得抵制更改。

Veljko Krunic 称这个过程为“ML 管道的僵化”。改变的惰性来自于修改如此技术复杂的项目的代码的挑战。预见到管道变化对业务运营的连锁反应的业务团队也可能反对这些变化。在上面图 2 的例子中,如果算法自动标记异常电话的能力急剧下降,人工电话检查所需的替换人员可能需要数周才能填补。

对僵化的人工智能项目进行大刀阔斧的改革代价高昂。当不可扩展的概念验证机器学习流水线被实现用于生产时,改造可能是必要的。也就是说,ML 管道的僵化常常是不可避免的。

因此,旨在管理人工智能项目的公司应该从一开始就致力于实现正确的管道。机器学习模型操作化管理(MLOps)是一个新兴的领域,可以帮助组织实现这样的目标。MLOps 工具和实践提供了一个端到端的机器学习开发过程,以设计、构建和管理可重复、可测试和迭代的 ML 支持的软件。这使得数据团队能够为他们的机器学习管道实现持续集成和持续交付,监控数据漂移,并维护他们管道的可解释性。

培养您团队的能力

管理一个人工智能项目绝非易事。一个组织不仅仅是合适的技术人才来构建人工智能项目。它还需要普遍的数据文化和强大的数据素养来催化人工智能的采用。就像实施人工智能项目需要时间一样,教授数据素养的项目也需要很长时间。

这就是 DataCamp for Business 可以提供帮助的地方,它为那些需要提高和重新提高员工数据技能的公司提供了一个交互式学习平台。主题从数据工程到机器学习,超过 1,600 家公司信任 DataCamp for Business 来提升他们的人才技能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何协商数据工作的薪水

原文:https://web.archive.org/web/20230101102924/https://www.datacamp.com/blog/how-to-negotiate-your-salary-for-a-data-job

简介

数据在商业中的应用正在迅速扩展。随之而来的是劳动力市场对稀缺数据人才的激烈竞争。德勤报告称,组织正面临 数据人才短缺 ,23%的组织面临其数据需求和当前能力之间的重大或极端差距。还有数据岗位在 LinkedIn 的新兴岗位报告 中两次排名前三。这对那些申请数据角色的人来说非常好,因为这使他们的技能更有价值,更受欢迎。

了解你在这个市场中的价值和稀缺技能,对于在数据市场中要求你应得的东西至关重要。即使这是你的第一个数据角色,为一份公平的薪水进行谈判也是必不可少的。

对很多人来说,谈判一份合同和薪水是不舒服的,但最终,它会是非常有益的。例如,如果你得到的薪水比这份工作的预期薪水低 5%,而你希望每年加薪 3%,那么你需要两年时间才能在这份工作中获得合理的薪水。这相当于你在职业生涯中应得的数千美元的薪酬没有得到支付。随着时间的推移,这种情况只会随着你角色的转换或升职而加剧。

经理们也希望进行这样的对话。 本次调查 发现,2800 名被调查的管理者中有 70%的人期望应聘者进行谈判。在这篇文章中,我们提供了在数据中协商你的薪水的最佳实践,包括新职位和现有雇主。

协商薪资的最佳实践

做研究,了解你的市场价值

谈判过程的第一步是了解你的市场价值。这将帮助你确定在这些对话中你应该提出什么要求。你的市场价值可以根据类似角色的其他人的平均工资来确定,在和类似规模的类似行业的公司。

你在这些谈话中的目标是向你的雇主证明你应该得到更高的工资。这从了解其他人在该角色中的表现开始。这些见解和数据将有助于你为自己辩护做好准备,并补充你对自己技能和经验价值的论证。

要开始这个研究过程,你可以看看类似于LinkedIn SalaryBlindglass door sales,以及really这样的网站。这些网站都会给你不同职位的工资范围、平均工资和其他数据。你也可以向同事、类似职位的朋友或你关系网中的其他人询问工资和福利信息。

重要的是要明白,你的论点不应该是别人赚了你要的钱,所以这是你应得的。这个值旨在让你对市场如何评价类似技能有一个方向性的了解。鉴于你的经验、技能和你所担任的特定角色,这些数据将作为一个基准来指导你,帮助你了解你的个人价值。

确定你的理想工资,以及你的不可协商的最低工资

一旦你完成了最初的调查并确定了你自己的个人价值,你就应该考虑谈判中所有重要的个人因素,比如你的财务义务、经验、技能、以前的工资、获得那个级别后的进步等等。这些个人因素都有助于你在那个角色中提供价值,并应该给你信心去要求你应得的。

一旦确定了这个数字,就要看公司(例如,地点、规模、资金、运营预算、行业等。).从这两件事出发,设定你的期望,并记住两个数字:基于市场价值和你的经验,你希望获得的薪水(现实一点,但不要害怕定高目标,这样才有妥协的余地),以及低于这个数字会导致谈判结束和你离开谈判桌的数字。

这两个数字由你决定。在网上找不到简单的答案。基于你的市场价值既现实又公平是最重要的。对于第一次进入数据领域的人来说,记住这一点很好,因为缺乏经验可能会导致工资较低。

另一个重要注意事项是,工资只是薪酬方案的一个组成部分。其他因素如 PTO、保险、职业和个人发展机会等。可以通过协商来弥补货币差异。

练习你的谈判

现在你已经具备了谈判所需的一切,与朋友、家人、同事或你关系网中的人练习谈判会很有帮助。这有助于巩固你的论点和陈述,让你在这个过程中更加自信。你应该让与你一起工作的人给你反馈,并问一些困难的问题来帮助巩固你的谈话要点。

如果可能的话,向招聘人员寻求帮助,并从他们那里获得一些建议,会对强化谈话要点、还价、策略等有很大帮助。

这样的书,或者像西北大学凯洛格商学院的这样的课程,都是学习谈判技巧的宝贵资源。

设置正确的音调

在谈判中,设定正确的基调非常重要。大多数人认为谈判是一种消极的经历,这会导致讨论中的紧张气氛。然而,重要的是要记住你已经收到了一份工作邀请,这表明公司既希望你和他们一起工作,也希望你成为他们团队的一员。该组织也希望你在大多数情况下进行谈判。因此,当你收到一个提议时,你应该总是谈判。

你不应该因为要求加薪而感到尴尬,不应该担心你潜在的新雇主会生气,也不应该担心你可能配不上你所要求的。做上面建议的研究应该消除任何怀疑或事后批评,并创造一个积极的心态向前迈进。你应该得到你想要的,你只需要提出要求,并在价值观上与你的雇主保持一致。

你应该有自信,而不是为自己辩护。给人留下自大、傲慢或需求不足的印象会损害你的案例和你与公司的未来关系。记住,如果你接受了这个职位,你将来需要和这些人一起工作,所以你的行为方式既要有助于你的案子,又要和你的雇主保持良好的关系。就你的技能和经验而言,公司已经认为你很适合,所以没有必要敌视你。开诚布公、乐于交谈会有更大的帮助。

为了协商更高的初始报价,让雇主提出第一笔金额,这样你就不会局限于自己的估计。通常,在薪酬讨论中,雇主会首先告诉你,你收到了一份工作机会,然后向你宣读薪酬,并询问你是否有任何问题。这是谈判应该开始的时候。在听到工作机会之前要求具体的薪水会给人以有权的印象,并可能损害你与雇主的长期关系。听到他们的报价也有助于你了解你的潜在雇主目前认为对你来说什么是好的价值,这将有助于开始讨论。

铁证如山

一旦谈判开始,关键是你要证明你将如何为公司提供非凡的价值。你需要用真实的数字和结果来支持你的论点,并强调你能提供什么。他们提供给你的待遇很可能与他们提供给组织中所有类似角色的人的待遇相似。你必须争辩为什么你应该得到更多。

谈判的这一部分应该由强大的数据科学产品组合提供支持,详细说明一切,包括您的项目带来的影响。就像你正在谈判的这个数据角色是你最适合的角色一样。不要把一切都放在别人的工资上,利用你的技能、经验和资历来展示你是如何超越别人的。

以批判的眼光看待报价

你不应该当场决定一个提议。不管它是好是坏,比你预期的好多少,或者看起来不可能谈判,后退一步,花些时间考虑这个提议是必要的。这一步可能会不舒服,但很多事情必须从更大的角度考虑,什么对你来说是重要的(职业轨迹,福利等。).它可能不总是关于你银行账户上的数字——假期、健康保险等等。所有这些加起来就是总的补偿方案。这些附加项目可能会弥补较低的薪资数字。如果你没有花时间去批判性地评估报价,当报价看起来不错的时候马上接受可能会把价值留在桌面上。

无论如何都要谈判

即使你对最初的提议很满意,你也应该一直协商,因为你永远不知道你还能要求什么。一切都有待协商。如果你还没有准备好你想要的号码,那就准备好,并把你要离开的号码记在心里。如果你的雇主在薪资方面不能灵活变通,那么其他方面可以协商,比如假期、奖金、个人发展、设备等。,那可以抵消少一点的工资。举个例子,可以用另一种方式给他们的银行账户加钱。

证明你对公司和职位的热情是很重要的。重复你的价值以证明你所要求的数字,以及你将给公司带来的好处。如果你有任何竞争报价,请提及。这将表明你是诚实和透明的,也是其他公司所希望的。你的雇主会欣赏你的热情和诚实,这将有助于加强你与他们的长期关系。

准备好离开

重要的是要记住,一旦谈判过程开始,你需要准备好要么接受提议,要么走开。果断是最重要的,因为你不想离开一家公司,给他们留下不好的印象。

应该避免太多的来回,你应该提前计划,知道你想要什么,你认为什么是不能接受的。确保你接受的提议是你满意的。前面步骤中的所有准备工作应该让你清楚地知道你在这次谈话中想要什么,应该得到什么,并帮助你迅速做出决定。

如果有人给你提供了一份不符合你最低要求的工作,而你确信你所要求的远远超出了你的市场价值,那么感谢他们的考虑,礼貌地拒绝。这在当下可能具有挑战性,但不值得去做一份工作,而且得到的报酬低于你愿意为之工作的报酬。

结论

谈判薪水是非常困难的。许多人认为这是一个消极和有压力的讨论。然而,这是一个不容错过的宝贵机会。你准备得越充分,你就越有可能成功。记住管理你的期望,不要因为一些微不足道的事情而拒绝可能是一生的数据角色。同时,确保你的工作和价值得到合理的补偿。

谈判过程从研究你申请的职位和工作的市场价值开始。接下来,根据这项研究和你自己的个人技能、经验和个人需求,确定你的理想和不可协商的最低价值。然后你可以和某人一起练习来强化你的论点。一旦谈判开始,设定正确的基调是富有成效的对话的关键。清楚地陈述你的论点,根据你将为组织提供的附加值为自己辩护。当你收到报价时,你应该批判性地看待它,不管报价有多高都要谈判,如果你无法达成一个适合你的价值,就愿意走开。

本文最初发布在 DataCamp 认证社区,这是一个专为所有成功完成 DataCamp 认证的学员提供的平台。要访问该社区以获取更多有助于您站在数据行业前沿的内容,立即获得认证

如何策划一次成功的数据马拉松

原文:https://web.archive.org/web/20230101103227/https://www.datacamp.com/blog/how-to-plan-a-successful-datathon

什么是数据马拉松?与黑客马拉松类似,数据马拉松是参与者聚集在一起,通过应用数据科学工具和技术来解决实际问题的活动,通过团队合作来产生见解和潜在的解决方案。

数据马拉松的好处

随着世界向数字化转变,数据马拉松的想法正迅速成为主流。无论是由公司还是志愿者组织的数据马拉松都有很多好处。

鼓励团队合作:这些活动创造了一种特殊的目的感,以实现更大的集体成就,激发了创造力和新的视角,这些往往是在有时间限制的环境下紧张工作时出现的。

促进协作:在传统的层级结构中,决策是基于职位权威的。在横向设置中,决策基于能力和价值贡献,这些属性在高绩效团队中很常见。这种结构也促进了透明度和坦诚,要求团队成员展现出更高程度的情商。将更多的时间投入到问题识别上,而不是担心“被蒙在鼓里”。团队倾向于更加自主,依靠彼此来实现承诺。创造了一个流动的环境,在这个环境中,想法被公开分享,测试想法的步骤快速发生。一些想法“很快失败”,无法产生有价值的学习,而另一些想法则进入可行性的下一阶段。

促进创新:传统的企业文化,尤其是石油和天然气行业的企业文化,是一种促进安全和可靠性的意识,对该行业的成功至关重要。然而,这样的思维定势无意中扼杀了创新。这是一种害怕“可能出错”的心态,而不是害怕好的事情不会发生。在数据马拉松中,心态是企业家的心态。

数据马拉松是如何组织的?

首先,您应该确保这些关键组件都已到位-一个结构良好的数据集,可以推动对需要解决的业务问题的见解,一个让参与者学习新数据技能的积极环境,一个让参与者建立专业联系的机会,以及一个让每个人都开心的机会!其次,数据马拉松可以面对面进行(当然,在疫情期间要遵守当地卫生当局的指导方针),也可以完全虚拟地进行。当活动包容并欢迎初学者和经验丰富的数据科学家时,参与者将获得最佳体验。围绕信息丰富、引人入胜的会议来组织活动,这可能包括让参与者知道会发生什么的启动活动、开始比赛的开幕式以及庆祝比赛结束的闭幕式。从学习和网络的角度来看,中间的活动可以提高参与度,例如通过学习研讨会和社交网络聚会。通过在活动的社交媒体渠道上发布帖子,整个活动期间的沟通保持较高水平,而通过使用类似 IRC 的平台,如 Slack、Discord 或 Teams,可以实现近乎实时的沟通。

赞助不仅提供了急需的资金支持,还增加了你的活动的可信度,赞助商也可以提供奖励来激励你的参与者。

寻找有趣的活动是人类的天性。游戏化是游戏的应用(例如得分、与他人竞争、游戏规则)来鼓励参与和激励。它也能导致一种不同的,甚至意想不到的,解决商业问题的方式。包容性,它不应该是主要的焦点,但它是一个令人愉快的特性。

数据马拉松有多长?

数据大会可以在一天、几天或一个周末举行,甚至可以持续一个月。选择合适的时间段在整个活动中保持参与度非常重要。面对面的活动非常有利于建立持久的网络联系,尽管虚拟活动可以吸引更广泛甚至全球的观众。更长的活动也需要计划团队付出更多的努力,尽管计划一个成功的一天数据马拉松的努力与计划一个多天数据马拉松的努力是相似的。

想看看实际的数据马拉松吗?

欢迎参加 2021 年 4 月 20 日至 2021 年 6 月 25 日举行的GTX 2021-地热数据马拉松。在加拿大卡尔加里举办的这一虚拟活动将吸引来自世界各地的人们。由石油工程师协会(卡尔加里和美国墨西哥湾海岸分会)和“未开发能源”组织的这次数据马拉松,是由使用真实数据解决真实问题、提升数据素养和建立新的专业联系的愿望所驱动的,同时还能获得乐趣!问题是:老化的油气井代表了向低碳能源世界过渡的一种选择,也代表了钻井工程师的未来。地热是一种合适的方法,也将是本次数据马拉松的焦点。所有参与者都享有:

  • 使用大量能源行业数据集。
  • 参加一系列数据科学训练营和研讨会。
  • 通过 DataCamp 访问令人难以置信的自定进度在线数据科学课程库。
  • 参加 datathon 竞赛,测试和证明数据技能。
  • 有机会与其他数据爱好者会面并一起解决现实世界中的问题。
  • 赢得一系列大奖的机会。

关于这次活动的更多细节:speuntapped.com

数据营-学习平台和学习竞赛

所有注册的参与者都可以在数据马拉松期间访问整个数据营平台,其中包括该平台的 350 多门课程、90 个项目和 10 项技能评估。此外,DataCamp 正在赞助一项学习竞赛:在整个 datathon 中完成最多课程的参与者将获得 DataCamp 一年的高级订阅。

我希望这篇文章有助于激发人们对运行第一次数据马拉松的兴趣。请随时在 LinkedIn 上与我联系,并随时向我更新您的数据。祝你好运!

如何准备数据分析师面试

原文:https://web.archive.org/web/20221210075939/https://www.datacamp.com/blog/how-to-prepare-for-a-data-analyst-interview

平均而言,全球数据分析师的职位空缺多达 10 万个,需求来自顶级行业,包括 金融、医疗保健和娱乐。 如果你正在寻找你的第一份数据分析师工作,或者希望在你的职业生涯中有所提升,使用本指南来帮助你准备面试并获得你梦想的工作。

典型的数据分析师面试流程

数据分析师访谈流程通常包括以下步骤:

  1. 人力资源面试: 你的第一步是与招聘人员进行面试,了解你的经历、兴趣和期望薪资,并向你提供该职位的详细信息。
  2. 招聘经理面试: 下一次电话通常是和招聘经理。他们可能会问更多关于你的直接经历,以及你为什么对这个职位感兴趣。
  3. 技术画面: 该部分是数据分析师角色专用的。技术面试可能涉及 SQL 和 Python 问题或带回家的测试。
  • 现场面试: 最后一步倾向于关注你的商业头脑。

一旦你通过了面试过程中的这些核心部分,你可能还要等一段时间才能得到工作。你可能会得到一个反馈的机会,但是如果你几个星期都没有收到回复,那就很正常了。

这些步骤可能看起来势不可挡,也很陌生。技术屏?招聘经理面试?这里有一些在一般面试和技术面试中问你的典型问题,让你更好地了解什么是期望和如何准备。

数据分析师面试问题以及如何处理这些问题

一般数据分析师面试问题:

什么使你成为这份工作的最佳候选人?

虽然这可能是一个宽泛的问题,但请记住,面试官希望听到的是你作为一名数据分析师的情况。所以考虑一下你的数据分析之旅,首先是什么让你感兴趣,你以前的经历,以及你为什么特别申请这个职位。

告诉我你是如何应对一个具有挑战性的数据分析项目的?

他们询问你如何克服挑战,并给你一个机会在行动中凸显你的优势。确保包括优点和缺点。诚实地说出哪里出了问题,或者你发现什么困难,并努力突出这个职位的工作要求中列出的任何技能。

您处理过哪些类型的数据?

这个问题要求你尽可能具体。关注你处理过的数据的大小和类型,无论是来自以前的工作经验还是你自己的项目和程序。许多招聘经理会看你是否能处理大量复杂的数据。

数据分析流程问题:

什么是数据清理,你如何做?

作为一名数据分析师,数据清理占据了你很大一部分工作时间。这是一个向面试官展示你如何处理这个过程的机会,包括缺失数据、重复数据、异常值等等。一定要解释为什么它很重要,以及你在过去的项目中是如何处理的。

你如何向非技术人员传达技术概念?

许多数据分析都包括将你的发现整理成叙述,并向技术和非技术受众清楚地解释。这就是你的软技能发挥作用的地方:沟通和讲故事。举例说明你是如何从数据中获得洞察力并传达给听众的。这些可能包括对股东的陈述或你投资组合中的书面交流。

你会如何评估我们公司的绩效?

当面试官提出一个关于公司的问题时,这是一个展示你对他们工作的研究以及你如何与他们合作的机会。考虑你的分析技能如何能带来对这家公司的洞察力,特别是考虑到他们的问题和目标。

技术技能题:

你熟悉哪些数据分析软件?

你以前用过什么 你有什么认证 ?你使用这些软件有多久了?这个问题有助于面试官评估你的经验水平,以及你需要多少培训来胜任这个职位。

准备时,在工作描述中列出你曾经使用过的任何软件,提及软件解决方案以及你如何在数据分析过程的不同阶段使用它们。一定要包括相关的术语,以便跟踪。

软件可能包括 R、Python、Tableau 和 Microsoft Excel。确保 在项目 中尝试一些额外的训练,如果你不确定这些的话。

你的统计知识是什么?

这个问题通常是问你对统计学是否有基本的了解,以及你在之前的数据分析工作中是如何使用的。

如果你是入门级,不熟悉统计方法,一定要研究以下概念:

  • 标准偏差
  • 差异
  • 回归
  • 样本量
  • 描述性和推断性统计
  • 表示

如果你有一些知识,请具体介绍一下 统计分析如何与商业目标联系起来。列出你过去使用过的统计计算的类型,以及这些计算产生了什么样的商业洞察力。

你能定义这个术语吗?

这要求你理解分析中使用的术语。所以让自己熟悉以下:

  • 常态分布
  • 数据角力
  • KNN 插补方法
  • 聚类
  • 异常值
  • N-grams
  • 统计模型

准备数据分析师面试的技巧

以下是 DataCamp 的顶级技巧,可以帮助你准备这些问题,以及你的数据分析师面试:

  • 研究业务 :找出公司的问题或潜在问题是什么。例如,他们当前的数据问题可能是什么?他们的目标受众是谁?通过这项研究,计划如何利用你的经验解决这些问题。

  • 研究面试形式: 在面试过程的开始,抓住机会向招聘人员询问方向。寻找面试经验和指导,使用像盲信或讨论帖子这样的资源。

  • 确定你的顶级技能: 在面试过程中,有些会议会比其他会议更关注某些特质。例如,在一次技术面试中,你需要展示你在 SQL 等数据库语言方面的经验。把你的技能看作是组合的和独立的。准备好讨论技术技能、分析和可视化,以及商业头脑和软技能。

  • 学习和练习面试问题: 利用 Datacamp 等程序来练习技术技能,或者积累你的项目经验,以及业务和分析案例研究。

面试前后要记住的几件关键事情

之前: 尽可能多地研究和实践,让自己、技能和经验与他们提供的业务和角色相匹配。考虑一下面试是否是面对面的,如果是在网上进行,确保你对你的视频和声音进行技术检查。

期间: 对你被问到的问题保持警惕。面试官可能会问一些一般性的问题,比如“谈谈你自己吧”,但是记住所有的问题都要回到数据分析上来。

之后: 在面试之后,给招聘人员和招聘经理发感谢信。利用面试后的机会与他们联系,寻求反馈或任何你在会议中没有机会问的问题。

如何快速交付数据科学项目

原文:https://web.archive.org/web/20221129045128/https://www.datacamp.com/blog/how-to-ship-data-science-projects-quickly

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学项目有许多组件需要协作才能成功部署。有了这些相互关联的部分,敏捷方法对于开发和部署过程是必要的。这种方法允许组织快速学习和迭代。在最近的 DataCamp 网络研讨会中,Lucid Software 内部工程部门的工程经理 Brian Campbell 讨论了成功部署数据科学项目的最佳实践。

允许敏捷开发的早期步骤

Brian 解释说,在一个项目的早期,可以采取两个关键步骤来实现模型开发和部署的并行进展:使用基线模型和创建原型。虽然这些方法使时间表变得复杂,但它们会带来更快、更好的结果。

使用基线模型

成功发布机器学习项目的一个有用步骤是创建基线模型。基线模型的输出与最终模型的输出相同。然而,它是在开发过程的大部分之前建立的,并且可能基于启发式或随机数据。这个基线为未来的迭代提供了一个目标。

随着团队开发新的模型,新的结果可以与基线进行比较,并为学习提供信息。基线和期望状态之间的差距告知项目需求,并帮助团队识别最有价值的数据和问题的解决方案。

使用原型

原型是接收相同输入并提供与最终模型相同格式输出的模型。该模型可以由基线模型提供信息。一旦原型准备就绪,负责部署的人员就可以开始将模型集成到其预期目的中。原型支持模型上的并行进展;数据科学家改进模型,而实现团队研究如何将模型打包给客户或在业务流程中打包。

只有当最终模型的行为与原型相同时,原型才起作用。因此,在创建原型之前,有必要了解可用的数据和预期的输出格式。这需要除了最初的问题公式化之外的一些项目知识,以及与问题专家的密切合作。

基线和原型的真实用例

Brian 讨论了他在 Lucid 的团队如何使用基线和原型来加速产品、设计和工程团队使用的便笺产品的集群模型的开发。这些团队经常举行设计思考会议,在会议中,主持人需要手动将相似类型的便笺聚集到给定的类别下。该系统的目标是通过自动将想法分类并删除重复项来减少头脑风暴和讨论之间的时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基线模型接受随机的想法,并为它们生成随机的类别。然后,他们创建了这个模型的原型,使实现专家能够在开发过程的早期开始工作。随着时间的推移,他们通过利用自然语言处理和机器学习将类似的便笺聚集在一起,改进了基线模型。

沟通对这些模型很重要

这个项目的第一次迭代遇到了一些问题,因为在部署团队和处理模型的数据科学家之间缺乏一致的协作。这种团队合作的缺乏导致了模型性能问题、不准确的测试和糟糕的产品体验。他们无法实现并行开发模型的协同作用。

当他们重新启动项目并有效合作时,他们解决了这些问题并设定了现实的期望。部署团队拥有一个原型模型,可以与开发模型的数据科学团队并行工作,这使得协作成为可能。

要了解从项目中学到的经验教训,以及如何有效地管理复杂的数据科学项目,请务必收听点播网络研讨会

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何从 Excel 过渡到 Power BI

原文:https://web.archive.org/web/20230101103007/https://www.datacamp.com/blog/how-to-transition-from-excel-to-power-bi

微软 Excel 可以说是地球上使用最广泛的数据工具。其易用性和简单的界面使任何人都可以几乎无障碍地处理数据,并执行不同类型的操作,如编辑数据集、应用公式和函数、可视化数据等。然而,随着数据量和复杂性的增加,在 Excel 中进行有效的数据工作将变得更加困难。这就是微软的另一个工具 Power BI 发挥作用的地方。

Power BI 是一款高效而强大的商业智能工具,旨在管理和分析数据,并创建可轻松与其他人共享的动态交互式仪表盘。虽然拥有与 Excel 类似的界面,Power BI 增强了 Excel 在数据驱动时代为非编码专业人士提供支持的能力。幸运的是,这意味着 Excel 专家可以轻松掌握 Power BI 并扩展他们的数据技能。在本文中,我们将通过以下问题来分析 Excel 用户如何开始使用 Power BI:

什么是 Power BI?

Power BI 是一个强大的商业智能工具,使您能够通过易于使用的可定制数据可视化来有效地报告见解。它的拖放界面使非编码专业人员能够设计、部署和共享复杂的可定制仪表板。越来越多的组织正在使用 Power BI,目前有超过 250,000 个组织在使用它。

BI 有三个主要组件,每个组件都有不同的用途:

  • Power BI Desktop—提供数据分析和创建工具的桌面应用。它是免费使用的,你可以在这里下载
  • Power BI 服务—基于云的 Power BI 版本,提供轻量级报告编辑,以及共享和分发报告的能力。
  • Power BI Mobile—Power BI 的移动版本,允许您在旅途中创作、查看和共享报告。

还有 Power BI 的付费版本,如 Power BI Pro 和 Power BI Premium,它们支持协作、数据治理、访问移动应用程序等附加功能。Power BI Pro 也是 Microsoft Office 365 E5 计划的一部分,这意味着如果您的组织使用 Microsoft Office,您很有可能已经获得了它。

不过,出于入门的目的,你肯定可以坚持使用 Power BI Desktop,因为你可以在 Desktop 中应用的一切也适用于 Power BI Pro

如果你对 Power BI vs Tableau 如何叠加感兴趣,请查看我们的独立文章。

Power BI 相对于 Excel 的优势

鉴于 Power BI 的流行和从业者使用它的不同方式,它相对于 Excel 的主要优势是什么?虽然我们可以列举很多,但这里是 Power BI 优于 Excel 的三大优势。

1.存储和处理大量数据

使用 Power BI 的一个主要优势是能够快速处理大数据集。事实上,如果一个文件的大小超过 500 MB,或者长度超过 100 万行,那么在 Excel 中工作是很困难的。此外,Power BI 可以轻松地连接单独的表,扩展了轻松连接数据集的能力。这是 Power BI 胜过 Excel 的另一个特点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.设计强大的仪表板和可视化

虽然 Excel 提供了基本的数据可视化功能,但在 Power BI 中工作的主要优势是它能够设计和部署有吸引力的、交互式的、可定制的报告和仪表板。为了体验这些报告的作用,您可以查看 Power BI 社区图库,它拥有由从业者开发的各种仪表板和报告。数据可视化在 Power BI 中有多么强大的一个例子就是交叉过滤特性——它允许数据消费者基于数据的一个或多个维度过滤报告。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.更好、更简单的协作功能

Power BI 相对于 Excel 的另一个关键优势是其协作和共享特性。例如,分析师可以在仪表板和可视化工具上协同工作,这些工具具有评论和注释等功能。此外,您可以为仪表板及其底层数据集设置细粒度的访问级别,这是一种称为行级安全性的功能,或者防止在报告中共享过期数据。这使得 Power 阿碧比 Excel 更适合现代的分布式数据工作流。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Power BI 入门

既然我们已经介绍了 Power BI 相对于 Excel 的主要优势,那么让我们来分析一下任何 Excel 专家如何开始他们的 Power B 学习之旅。此部分分为以下步骤:

  • 从基础开始
  • 构建一个简单的报告
  • 练习你自己的数据
  • 将您的 Excel 技能与 Power BI 相结合

学习基础知识

当然,在过渡到任何新工具时,学习基础知识总是很重要的。然而,很容易陷入单纯关注基础知识和使用 Power BI 背后的理论的困境。作为一个经验法则,学习足够的基础知识来开始简单的分析和可视化工作,并从那里增长你的信心和技能。出于学习基础知识的目的,这里列出了您可以使用的资源:

构建一个简单的报告

一旦你觉得你有足够的基础知识可以开始学习,开始学习的最好方法是通过构建简单的仪表板和报告开始练习。你可以通过下载免费的 Power BI 桌面应用立即开始这样做。虽然在内存和协作方面存在一些限制,但对于小型数据集来说,这已经足够了。下面是在 Power BI 中构建简单仪表板的分步指南。

获取和加载数据

将数据加载到 Power BI 主要有两种方式。第一种方法是单击菜单中的“获取数据”按钮,然后决定要导入的数据类型。Power BI 支持各种数据类型,从 Excel 工作簿到 SharePoint 文件,甚至可以连接到数据库。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您还没有任何数据集可供使用,您也可以尝试一个样本数据集,可以在位于中心的红框中突出显示的部分访问该数据集。

在本教程中,我们将从 Power BI 下载一个示例,名为财务数据示例工作簿。下载完成后,您只需使用“获取数据”按钮并选择“Excel 工作簿”选项。然后,选择名为 financials 的表,并按 Load 按钮。

一旦你加载了表格,你可以点击“数据视图”来查看它,如下图所示。你会注意到 Power BI 的数据视图界面和 Excel 的用户界面非常相似。此外,您还可以应用类似的操作,比如重命名、添加和删除列、过滤数据、替换列的值等等。例如,我们可以过滤“国家”列以删除“美国”。还可以按升序或降序对列进行排序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建报告

现在数据已经加载到 Power BI 中,我们可以构建一个简单的报告。要构建报告,您可以转到下面 gif 中突出显示的报告视图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这个窗格中,您可以在右侧看到表格的名称及其对应的列。在本例中,我们可视化了一些与销售和国家字段相关的数据。为此,您可以选择这两个字段,并从可视化效果窗格中选择不同类型的可视化效果。您还可以可视化数据分组,例如“按国家的销售额”。

发布报告

完成报告后,您就可以分享一些漂亮的交互式数据可视化效果了!要共享此报告,您首先需要在 Power BI 服务中发布它。做这件事有三个步骤:

  1. 在菜单中单击“文件”后选择“发布”
  2. 编译一个目的地,比如我的工作区,然后按 Select 按钮
  3. 此时,您需要在 Power BI 中选择打开“您的文件名”链接。它还会要求您登录。如果你还没有注册帐户,它会让你创建一个新的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
就这样!我们的报告现已发布在 Power BI 在线应用程序中。如果您想与其他人共享报告,您需要点击顶部的共享按钮。有两种分享方式。第一种可能是复制报告的链接,并将其发送给同事。另一种方法是通过 Outlook 或团队来分享。然而,只有订阅了 Power BI Pro 或 Power BI Premium 的服务,才可以与其他人共享报告。

在你自己的数据上练习

Power BI 应用程序的简短示例展示了它如何加速基于 Excel 的数据从业者的工作流程。更广泛地说,Power BI 拥有一系列功能,在处理日常数据任务时可以提高生活质量。为了让你的商务智能技能更上一层楼,从日常工作中的项目开始练习。这可以是在工作中使用自己的数据时使用 Power BI 而不是 Excel,或者在您感兴趣的数据集上构建项目组合。关于建立项目组合的最佳实践,你可以听听尼克·辛格和凯文·霍在 DataFramed 播客上的发言。

不要停止使用 Excel

即使我们指出 Power BI 与 Excel 相比具有更优越的功能,但这并不意味着您必须停止使用 Excel。相反,Excel 是对 Power BI 的极大补充,它们绝对可以一起使用。使用这两种工具的一种方法是在 Excel 中进行简单的预处理,保存修改,并使用 Excel 的发布功能直接发布到 Power BI。您还可以利用 Power BI 的Excel 分析功能深入了解 Power BI 报告的底层数据。结合使用这两种工具进行有效的数据处理有很多种方法,因此请确保采用最适合您正在执行的任务的工具。

更多电源 BI 资源

我们希望本教程对你有用。本文旨在提供一个快速概述,让您毫不费力地开始学习 Power BI。让我们重复一下,虽然 Power BI 对于获得高级功能非常重要,但 Excel 有自己的实用程序,最好与 Power BI 结合使用。

本教程还为您提供了学习更多专业应用的基础知识。为了更深入地学习,DataCamp 提供了 Power BI 中的数据可视化和 Power BI 中的数据建模课程。如果你喜欢在商业案例中直接应用知识,你也可以看看案例研究:在 Power BI 中分析就业市场数据。

想要从事数据方面的职业?在微软能源商务智能职业跟踪中发现我们的数据分析师,您将立即为工作做好准备。

如何撰写商业分析师职位描述

原文:https://web.archive.org/web/20221129035725/https://www.datacamp.com/blog/how-to-write-business-analyst-job-descriptions

如何撰写业务分析师职位描述

对于跨行业的团队来说,业务分析师正变得越来越有价值。IBM 在其 2017 年报告中预测,到 2020 年,美国数据专业人员的工作岗位数量将从 36.4 万个增长到 272 万个。角色的激增是由数字革命推动的,这使得善于分析的同事对业务增长非常重要。

所有这些需求带来了公司、招聘人员和经理之间的竞争,以吸引优秀的候选人。那么,如何为你的工作场所雇佣最好的商业分析师呢?继续读下去,你会看到一份关于撰写职位描述的最佳实践的综合指南,它能增加招聘人员和经理的有机流量。

商业分析师是做什么的?为什么你的团队需要他们?

自从 20 世纪 40 年代第一台可编程计算机问世以来,商业分析师的角色就一直存在。80 多年后,商业分析师从未像今天这样因其对企业的贡献而受到重视。

如今,业务分析师理解数字,通过将数字与业务需求联系起来解决问题。他们的工作有助于在定价、时间安排、运营等方面做出战略决策。总之,商业分析师身兼多职。以下是它们如何帮助您实现业务增长最大化:

  • 业务分析师为利益相关者当前和未来的问题创造解决方案
  • 业务分析师通过在客户和开发者之间进行翻译,使数字化转型变得更加容易 。他们通过将业务涉众的需求转换成开发团队能够理解的语言来弥合差距,反之亦然。将业务细节翻译给技术部门使他们成为业务如何为各方工作的联系点。
  • 业务分析师通过帮助员工适应来支持变革管理 。业务分析师帮助团队为即将到来的公司变革做准备,确保他们在变革发生时理解变革。
  • 商业分析师通过最小化项目成本来降低公司成本 。雇佣一个商业分析师可以让你的商业项目更有效率,并且把整个公司的工作交给一个专家。

业务分析师的工作描述应该包括什么内容

在业务分析师的工作描述中,你应该包括哪些软技能?

正如我们所看到的,商业分析师在日常工作中会用到很多软技能,从批判性思维到商业敏锐度。设定你对候选人软技能的期望是很重要的。以下是商业分析师需要的典型软技能:

  • 沟通: 业务分析师与所有部门互动,必须能够清晰地表达自己的见解,并理解传递给他们的信息。这包括对描述数据信息和传达业务策略的技术术语的高度理解。沟通应该包括很强的写作和公开演讲技能,以传达有关项目的信息。
  • 解决问题: 商业分析师的主要工作是帮助公司解决问题。顶级分析师可以发现模式,应用逻辑思维、统计和预测分析来实施解决方案的计划。
  • 批判性思维: 商业分析师必须能够评估多种选择、问题和可能性,从而做出自信的决策。
  • 谈判: 业务分析师必须在业务和客户之间、IT 和业务用户之间、以及他们自己和其他同事之间使用谈判技巧。拥有有说服力的谈判技巧有助于保持公司内部和外部的健康关系。
  • 团队合作: 商业分析师必须既是领导者,也是合作者。这需要优秀的团队精神,能够与行政人员和计算机技术人员一起工作,并能够组织或协调团队取得成功。

在业务分析师的工作描述中,你应该包括哪些技能?

业务分析师还必须具备高质量的技术技能和知识。当写下对这个角色的期望和要求时,确保专门为业务分析师设计,而不是列出一般的数据科学技能。

  • 软件测试技能: 业务分析师经常将测试作为他们职责的一部分,尤其是在敏捷团队环境或小公司中。BA 在测试中的角色可以从帮助开发测试用例到报告解决方案中的缺陷。商业分析师应该明白:

  • 测试用例或手工测试

  • 测试脚本

  • 自动化测试

  • 基本办公应用熟练程度:

  • 文字处理

  • 电子表格

  • 演示文稿

  • 图表和图解

  • 电子邮件

  • 数据分析: BAs 不需要知道如何存储所有的数据或者编写代码,那是更技术性的 IT 工作。然而,由于 BAs 编译和分析数据,所以理解 Python 和 R 等基本编程语言以及 MySQL 等数据库类型和函数非常重要。

  • 文档: BAs 必须能够将需求和规范记录在纸上,以尽可能好的方式与他们的团队沟通。这将包括应用相关的标记语言,以及图片、数据和任何媒体来帮助传递信息。

  • 计算机和软件流畅度: BAs 需要以对整个价值链的理解来看待项目和流程,以便在团队之间进行交流并获得结果。这意味着理解大量的技术术语,包括:

  • 中央处理器

  • 主存储器

  • 二次存储

  • 输入/输出设备(I/O 设备)

撰写引人注目的职位描述的额外技巧

即使有一套完美的工作描述和期望,大量的招聘广告也会让你的求职者看不到。为了让你的工作描述引人注目,可以点击,考虑以下几点:

  • 定义角色的资历及其要求 :例如,初级角色是否可以在工作中学习硬技能,或者高级角色是否需要管理经验等。
  • 包括薪资范围 :一项由SMART Recruit Online进行的研究发现,当招聘广告中包括薪资范围时,他们的申请人会多出 30%以上。提供一个与要求和资历相匹配的业务分析师薪资范围,以获得理想的候选人。查看我们的跨地区、行业和级别的商业分析师薪酬指南以获得基准。
  • 包括福利 :如今,像 Linkedin 和 Google Jobs 这样的工作网站提供与职位相关的福利。用这些来增加交易的甜头,让你对公司的工作和生活平衡有一个更全面的了解。
  • 洞察职场文化: 分享职场团队、文化和价值观的细节。这将有助于候选人想象自己与你一起工作,并检查他们是否符合你的文化和精神。
  • 与人力资源部一起确定招聘流程 :求职者非常想知道招聘流程会涉及哪些内容,以便为面试和会议做准备。这对于技术面试和他们需要磨练的硬技能尤为重要。
  • 让招聘信息简洁明了: 避免冗长的信息列表,保持简洁明了,抓住注意力。

招聘商业分析师?

如果这让你兴奋地欢迎业务分析师加入你的团队,那么开始在数据营招聘上发布职位,在那里你可以接触到顶尖的数据人才。

  • 描述你的工作并列出所需的技术组合
  • Access 当您的工作上线时,具备您正在寻找的能力的求职者会收到通知
  • 根据技术技能和能力筛选候选人
  • 请求与合格候选人聊天
  • 直接面试和聘用候选人

我们如何切换到 Workspace 进行内部分析

原文:https://web.archive.org/web/20221212135909/https://www.datacamp.com/blog/how-we-switched-to-workspace-for-our-internal-analytics

当 DataCamp Workspace 首次推出时,我们努力确保它是执行数据科学和数据分析工作的最佳体验。这意味着构建一个快速、轻量级的编辑器,实现实时协作,并生成专业的只读报告。

同时,我们依靠第三方工具来执行我们的内部分析。使用 Workspace 的用户数量和在平台上花费的时间等产品指标使用其他工具进行跟踪。我们意识到,如果我们想认真地将 Workspace 作为专业工作的工具,我们需要自己使用它。

本文将深入探讨我们过去如何进行内部分析,以及我们如何过渡到 Workspace。它还将涵盖我们从过渡中获得的优势和经验。

我们的工作区前分析

在 Workspace 之前,我们对产品进行内部分析的主要工具是元数据库。Metabase 是一个商业智能工具,它连接到一个包含工作区内容和活动信息的数据湖。有了元数据库,我们可以快速运行 SQL 查询,生成报告,甚至创建动态仪表板。

元数据库在团队中被广泛使用。我们使用它来监控用户对不同类型内容的参与程度,用户在 Workspace 上花费的时间,以及每天、每周和每月有多少用户与 Workspace 进行交互。

在这一点上,使用 Workspace 进行分析并不常见。只有当我们遇到 SQL 或 Metabase 的无代码可视化能力的限制时,才会发生这种情况。在这些情况下,我们将导出原始数据,手动将其添加到新的工作空间,然后继续使用 Python 进行分析。然而,这一过程非常繁琐,使得更新数据变得非常困难。

为什么我们过渡到工作空间

随着 Workspace 的发展,我们想要回答的关于用户及其在 Workspace 上的时间的问题变得越来越复杂。尽管元数据库非常方便,但我们的许多问题都需要 Python 和 r。

我们也知道,如果我们想提供最好的用户体验,我们需要自己使用它,这种做法叫做“狗食”。事实上,要理解 Workspace 的局限性和令人沮丧的地方,还有什么比我们自己使用它更好的方法呢?

出于这两个原因,我们设定了从 2022 年夏天开始将大部分分析从元数据库转移到工作空间的目标。

转变

当我们在 Workspace 中启动 SQL 单元时,这种转变就开始了。现在,我们能够查询我们在元数据库中访问的相同数据,但是查询结果立即转换成 Python 或 R DataFrame(取决于我们使用的工具)。我们可以很容易地在查询数据库和使用我们选择的工具分析结果之间切换。几周之内,我们将大部分现有查询从 Metabase 迁移到 Workspace。

截至撰写本文时,我们有 141 名不同的 DataCamp 用户在 Workspace 中花费了 30 分钟或更长时间。从图表中可以看出,这是一个稳定的进步!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们不断招募新的数据营员加入 Workspace!

切换到 Workspace 的优势

自从切换到 Workspace 后,我们在日常工作中发现了几个关键优势:

  1. **完全可定制的可视化:**虽然元数据库提供了许多可视化和可定制的属性,但可能性并不是无限的。使用 Workspace,我们的 SQL 查询结果将作为数据帧返回。这意味着我们可以使用 Python 库(如 Plotly)来创建带有注释、自定义主题和独特绘图类型的图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们通过访问内部数据在 Workspace 中创建了一个可视化示例。

  1. **高级分析:**通过将 SQL 与 Python 或 R 相结合,我们可以使用 SQL 无法实现的技术即时分析我们的数据。这使我们能够对用户进行细分,并训练分类模型来预测用户在工作区内的工作方式。
  2. **描述性报告:**仪表板对于熟悉产品的用户来说是非常好的。然而,对于新来的人或者团队之外的人来说,解释一个仪表板是有挑战性的。借助 Workspace,我们可以在整个报告中嵌入书面摘要,供相关利益相关方日后阅读。
  3. **可共享和社交出版物:**共享已发布工作区链接的能力已经变得非常有价值。发布的分析最终会到我们的首席执行官和其他高管手中,然后他们会以评论和问题的形式添加反馈。结合已发布工作空间的描述性质,管理层可以在闲暇时通读分析工作,而无需面对面的简报。
  4. **无代码图表:**大多数数据营员都有 SQL 技能,但并不是每个人都能熟练地使用 Python 或 r。图表单元格使不太懂技术的用户能够使用高质量的可视化工具交流他们的见解,而无需编写一行代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的无代码图表单元格在行动!

到目前为止我们所了解到的

截至 10 月中旬,DataCampers 已经在 Workspace 中累计工作了 4132 小时!我们现在已经将所有与季度目标和产品使用相关的集中报告迁移到 Workspace。以下是我们的主要经验总结,以及这些经验对工作空间产品的影响:

  1. **速度至关重要:**工作区加载、代码执行或查询返回结果的等待时间比预期的要长,这很烦人。这种体验应该至少和在本地运行的 Jupyter 笔记本上工作一样快,甚至更快。我们的团队在减少笔记本和出版物加载时间方面取得了长足的进步。他们还努力确保代码执行与本地笔记本相当。
  2. **不是每个人都想看代码:**过去,我们的出版物会包含充满复杂 SQL 查询和密集 Python 代码的大单元格。虽然这有助于同事们审查报告的技术方面,但它往往会妨碍对报告的真实见解。您可以通过切换到 Workspace 中的 JupyterLab 编辑器来隐藏单元格和出版物,但这并没有反映在 DataCamp 笔记本编辑器中。了解到这一点,我们已经发布了一种方法,可以毫不费力地在您的工作空间中隐藏代码和 SQL 单元格。这允许您确保一个漂亮的只读报告,您可以与任何利益相关者共享。我们的用户喜欢它。
  3. **重新运行笔记本电脑可能会令人沮丧:**在我们的大部分跟踪中,我们严重依赖于用户数量、活动水平和功能采用情况的每日更新。与有新数据时刷新的动态控制面板不同,工作区每次都必须重新运行。根据我们自己的经验,我们计划支持工作区执行调度。这将确保报告始终包含最新的见解。

这些学习不包括自从我们切换到 Workspace 以来对编辑器所做的许多小调整。在内部和外部用户反馈的推动下,用户界面、仪表板和图表单元格等功能正在不断改进。

前进

虽然使用我们自己的产品的过程揭示了我们可以改进的许多方面,但我们知道这只是故事的一半。结合我们内部收到的反馈,我们的团队一直在努力采访 Workspace 用户。这些访谈补充了我们的发现,并帮助我们抓住内部测试中可能遗漏的内容。

我们还在 9 月下旬发起了一项用户调查,作为我们双周简讯的一部分。这项调查使我们能够从用户那里收集定量信息。这些结果有助于我们确定工作空间的高优先级计划,并了解我们的产品是如何使用的。当然,调查数据是用 Workspace 分析和可视化的!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的用户报告使用 Workspace 的主要原因是为了快速试用代码示例。你如何使用 Workspace?

在接下来的几个月里,我们计划向工作区专属的分析环境更进一步。随着我们的工程团队对产品的每一项新功能和改进,这种过渡变得更加容易。

如果您对使用 Workspace 来满足您自己的内部数据分析和数据科学需求感兴趣,您可以在此阅读更多相关信息。或者更好的是,跳到一个空的 PythonR 工作区,现在就开始编码吧!

工作空间如何促进学习者的个人发展

原文:https://web.archive.org/web/20230101103145/https://www.datacamp.com/blog/how-workspace-empowers-learners-personal-development

在这篇博文中,我们采访了三位学习者,以了解使用 Workspace 如何让他们的学习之旅受益,并帮助他们提升职业前景。

完美的技能提升环境

Muhammad Salman 是新加坡的一名行为科学从业者,他一直使用 Datacamp 作为一种提高 r。

在出于对人工智能的兴趣开始使用 DataCamp 后,他意识到自己的兴趣与 r 更一致。使用 DataCamp,他做出了改变,并从今年年初开始勤奋练习,共完成了 15 门课程!

Muhammad 使用 Workspace 作为工具来继续他的学习之旅,并应用他新获得的数据技能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

理想的个人发展环境

edX 的产品经理 Nathan 在 2017 年初开始使用 DataCamp。当时,他将它作为发现 Python 和分析的一种手段,并完成了超过 15 门课程和数据科学职业生涯!

Workspace 发布后,他开始将它作为一个有双重目的的文件夹使用:首先,能够将他学到的所有东西联系起来作为实践,其次,建立一个学习者记录,记录他所有的课程和完成的工作,可以在他的个人资料中查看。他继续解释说,他的主要目标是创造一个他思考的产物——“我能做什么”和“我不能做什么”。

对于内森来说,工作空间的概念不仅仅是获取知识,而是保留和练习。这是他在纽约 Airbnb 上的工作空间出版物中看到的,该出版物基于来自 Kaggle 的数据集,鉴于他正在预订蜜月,它感觉离家很近。正是这些小事情让练习和应用你的技能变得更有价值。

Workspace 是我真正突破数据科学知识极限的理想工具。内森

Nathan 将于今年秋天在密歇根大学攻读应用数据科学硕士学位。他认可 DataCamp 帮助他被录取,我们迫不及待地想看到他将要完成的惊人的事情!

便捷的在线编码工具

Ray 一开始有制药背景,但目标是进入数据科学领域。为此,他报名参加了加州大学博尔德分校的研究生学位课程,开始了他的职业生涯。

Ray 主要使用 Workspace 作为工具,为职业发展目的构建他的投资组合。他利用自己的技能发表了大量见解,从对全球健康和财富的分析到掷骰子游戏。Ray 一直使用 Workspace 作为他练习和应用代码的首选工具。

Workspace 提供的独特价值主张,如无需安装的基于云的编码环境,是 Ray 最感兴趣的:

我最喜欢 Workspace 的一点是,我几乎可以在任何地方设置一点伪云…登录单点并继续(工作)。-雷

有兴趣了解 Workspace 如何改善您的学习之旅吗?立即开始使用工作空间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Workspace 如何帮助全球的学习者

原文:https://web.archive.org/web/20230101103202/https://www.datacamp.com/blog/how-workspace-is-enabling-learners-across-the-globe

我们与 DataCamp Workspace 用户坐下来,详细了解他们在使用该工具时的独特体验…谁会想到一个简单的浏览器内工具可以过渡到这样一个多功能的平台?请继续阅读,找出方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

创建投资组合的理想工具

我们的第一站是理查德·帕朗约,他来自坦桑尼亚,目前居住在美国。在成功完成本科学位后,他现在希望从事数据科学和软件方面的职业。

通过他在 DataCamp 上的学习之旅,Richard 发现了 Workspace:“只要我能访问互联网,我想我会更喜欢使用 Workspace。”我们完全同意!Richard 总共有九份工作空间出版物,他用这些出版物为各种工作面试建立了一个文件夹。在他的一次采访中,他利用他的 DataCamp 档案分享了他广泛的投资组合。

“他们发现我的一个项目非常有趣,希望我在采访中谈谈这个项目。”理查德·帕朗约

数据可视化的机会

接下来,我们采访了生物物理学博士后豪尔赫·罗德里格斯·拉莫斯。在 Jorge 的学术界,最常用的编程语言通常是 MATLAB,但在最初发现 R 之后,他遇到了 Python,并且再也没有回头。

Jorge 是通过一个同事的推荐开始 DataCamp 的,最后完成了 14 门课程!。

在 DataCamp 上提升技能后,Jorge 利用 Workspace 来测试他的新发现。他使用 Workspace 创建简单但非常清晰的数据可视化,以便与同事分享,作为学术界仍经常使用的更传统的静态图的替代方案。Jorge 认识一些仍然使用 Fortran 90 和 77 来编码的人,所以通过使用 Workspace 来创建易读的可视化,他真的“走在了曲线的前面”

将新获得的数据技能付诸实践

最后,我们采访了桑杰,他是印度的一名预科生,在攻读数学和计算机专业的同时,他还是一名概率和统计领域的专家,从事自由职业。

他的朋友向他介绍了 DataCamp,他很快成为了技能和职业轨迹的粉丝:“导师们知识渊博,一切都以实践为导向——这太棒了。”他的朋友还提醒他,DataCamp 有一个名为 Workspace 的新产品,他随后开始探索这个产品。(我对此的两点看法?桑杰有好朋友。)

Sanjay 关于新冠肺炎数据的 Workspace 出版物基于 Kaggle 的数据集,并且完全是为了教授给他的学术任务而创建的。他开始在 Workspace 之外工作,并很快意识到 Workspace 会让他的生活轻松很多。他根据自己在 DataCamp 的学习成果创建了一份深度分析,发表了这些分析,并通过给他的教授发送一个链接提交了这些分析。

“我从 DataCamp 的技能跟踪和职业跟踪中学到了大部分信息。我在我的工作空间项目中运用了这些技能。”桑杰·恩。

下一步是什么?

Workspace 是您编写、运行和共享分析的一站式解决方案。有了这样一个灵活多样的工具,机会是无穷无尽的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[信息图表]建设数据学院的 5 个最佳实践

原文:https://web.archive.org/web/20221210085053/https://www.datacamp.com/blog/infographic-5-best-practices-for-building-a-data-academy

随着组织试图在数据驱动的时代蓬勃发展,数据科学技能变得越来越需要。根据普华永道对 32,000 多名员工的调查,在对自动化和使用自动化系统的需求越来越关注的情况下,77%的员工正在寻找机会重新掌握数字和数据技能。

因此,组织正在建立内部数据科学技能学院,以提高数据流畅性,并将学习嵌入工作流程。该信息图将展示从面向企业客户的 DataCamp 中学到的构建数据学院的 5 个最佳实践。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

构建数据学院的 5 个最佳实践

1.将学习与变革成果联系起来

确保你的学习目标与你的业务目标一致,避免设定“基于技能”的结果。这将有助于您更好地衡量培训的影响,并确保高投资回报计划得到优先考虑。

| 基于技能的结果示例 | 转型成果示例 |
| 1000 个人需要用 Python 升级技能 | 通过提高一线员工在 Tableau 和 SQL 上的技能,减少发送给数据团队的传票 |
| 一线工人需要提升机器学习技能 | 利用时间序列分析技巧提高供应链计划的预测准确性 |

2.专注于推动参与度

学习者的参与和投入对于推动数据学院的采用至关重要。采用一种无摩擦的学习环境,戴上你的营销帽子,以最大化影响。以下是一些你可以采用的策略:

  • 在所有宣传材料中链接到您的数据学院主页
  • 启动内部播客
  • 制作学员证词视频
  • 开始月度最佳学员计划
  • 面向学员的专属活动和福利
  • 与内部专家一起启动午餐和学习计划
  • 确保您的学习资源适合从数据消费者到技术学习者的所有技能水平
  • 优先考虑让学习者应用技能的体验式学习经历

3.使用不同的学习方式

超越基于视频的学习,创建一个融合不同学习模式的学习生态系统。学习模式包括:

  • **在线课程:**选择能够帮助从业者做好应用准备的供应商
  • **实践社区:**创建一个学习者可以讨论他们学习历程的地方
  • **多模态学习:**将播客、网络研讨会、白皮书、博客文章和信息图表作为学习者旅程的一部分
  • **混合学习:**将自学和教师指导的学习相结合,扩展您自己的学习计划
  • **黑客马拉松&专家讲座:**利用您组织的数据专家来进一步加强社区

4.创建个性化的学习路径

数据素养不是放之四海而皆准的技能。为组织内的不同角色创建个性化的学习路径。在本白皮书中了解有关数据角色的更多信息。

5.衡量你的培训的影响并重复

根据您在步骤 1 中定义的转型成果来衡量 data academy 的表现非常重要。以下是您可以采用的常用测量策略。

  • **评估:**评估是了解学习者技能随时间演变的好方法
  • **采用:**学习资源完成情况、从课程中获得的经验以及在平台上花费的时间都是衡量参与度的重要指标
  • **参与度和保持度指标:**参与率和注册率,以及电子邮件参与度指标,可以让您对学员如何参与您的项目有一个清晰的印象。
  • **行为变化:**衡量学习者如何与组织中的数据互动、对转型成果的影响以及学习者相对于非学习者的保留率是行为变化和投资回报率的重要指标

[信息图表]仪表板设计清单

原文:https://web.archive.org/web/20230101102817/https://www.datacamp.com/blog/infographic-dashboard-design-checklist

仪表板是分析过程中的一个关键组件,因为它们以易于理解的形式为各种利益相关者提供了信息的简要概述。仪表板的最终目标是帮助用户做出最佳决策,并利用这个不断增长的数据池。此清单包含设计以下仪表板时需要记住的关键信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

了解您的仪表板类型

有多种方法对仪表板进行分类。仪表板可以按其包含的详细程度或其目的是浏览还是解释数据来分类。

按详细程度划分的仪表板

  1. **战略仪表板:**包含高级业务指标和长时间跨度(例如,过去 12 个月的财务表现),最适合高管和执行领导。
  2. 战术仪表板: 包含特定团队的详细业务指标。(例如,数字标记支出仪表板)。最适合团队领导或经理。
  3. 运营仪表板: 包含特定业务问题的详细信息(例如,客户服务票据仪表板)。最适合现场分析师。

按用例划分的仪表板

  1. **探索性仪表板:**用于探索数据集,以生成供讨论或进一步分析的问题。通常用于探索性数据分析。
  2. 解释性仪表盘: 用于显示关键结果或见解。通常用作数据故事或演示的一部分。

了解你的受众

了解受众的需求是创建成功仪表板的关键。在设计下面的仪表板之前,这里有一些需要考虑的要求。要问的关键问题:

  1. 观众希望回答什么问题?
  2. 他们有多少技术知识?
  3. 他们多久看一次仪表盘?

在设计你的仪表板时,要考虑到叙事

通过设计叙述或流程,确保您的用户以正确的顺序查看仪表板部件。以下是在设计一个记叙文仪表板时的一些注意事项。

  1. 从顶部的高级指标和图表开始,然后让您的用户向下钻取更多的细节。
  2. 通过将仪表板拆分成窗格或选项卡来创建故事板。
  3. 用颜色和文字吸引观众的注意力

用文字和颜色引导你的观众

通过强调或不强调仪表板中的元素来集中观众的注意力。

强调

  • 鲜艳的颜色
  • 高光或低光
  • 大文本
  • 字体或斜体文本

去强调

  • 浅色或柔和的颜色
  • 没有背景颜色
  • 小型文本
  • 常规字体

减少认知负荷

通过减少您的受众为获得数据洞察力而必须进行的思考量,使仪表板更容易理解。以下是在减少认知负荷时需要考虑的一些问题。

  1. 在整个仪表板上重复相同的颜色、尺寸和其他设计元素。
  2. 折叠或隐藏部分仪表板,以最小化一次显示的内容。
  3. 删除或弱化边框、背景图像和其他不传达信息的元素。
  4. 选择文本足够大的易读字体,以提高可读性。
  5. 用足够有用的有效数字来格式化数字。
  6. 垂直排列元素—垂直滚动比水平滚动更自然。

选择您的仪表板布局

仪表板可以有多种布局,从单栏布局到多栏布局,甚至是报表布局。查看页面顶部的信息图,了解详细的概述。

为更复杂的可视化提供上下文

注释更复杂的可视化效果并为您的受众提供上下文可能会有所帮助。在为复杂的可视化提供上下文时,需要记住以下一些注意事项。

  1. 适用时,为清晰起见,标注轴和标题
  2. 围绕标题或副标题中的见解提供有用的上下文
  3. 如果适用,尝试用标签回答常见的观众问题
  4. 必要时标注重要的数据点
  5. 突出显示标签中的特定消息时,调整字体大小
  6. 并排绘制表格和可视化

[信息图]数据和机器学习工具前景

原文:https://web.archive.org/web/20221129033335/https://www.datacamp.com/blog/infographic-data-and-machine-learning-tools-landscape

数据科学和机器学习从未如此受欢迎。随着该领域的发展,今天从业者可以使用的整个工具范围也日趋成熟。

值得注意的是,出现了各种各样的新工具、初创公司和旨在解决从业者和组织所面临的具体问题的整个类别。在这张信息图中,我们概述了 2022 年数据科学和机器学习领域的工具前景。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击上面的图片,获取该信息图的下载版本。

下面,您将看到上面信息图中提到的工具的详细概述。

数据管理

在过去几年中,工具状态的一个巨大进步是许多工具的出现,这些工具允许从业者更好地管理数据科学和机器学习工作流的数据。这些工具包括允许生成数据的合成数据生成工具、监视生产中的数据管道的数据可观察性工具、提供数据版本控制的数据版本化工具、让从业者编排工作流的数据管道化工具和编排工具、展示组织的消费数据的数据目录等等。

综合数据

数据可观察性

数据版本化

数据标记

数据流水线

数据编排

数据目录

端到端机器学习平台

机器学习平台正逐渐成为常态。这些平台提供了从功能处理到部署的端到端机器学习能力,某些工具提供了自动化机器学习和部署的能力。

建模

在数据科学生态系统中,有大量的工具,包括笔记本和 ide、数据分析包和软件、数据可视化、用于存储机器学习中使用的功能的功能存储、深度学习和机器学习库、超参数优化库、模型调试工具等。

笔记本和 ide

数据分析

数据可视化

功能商店

机器学习框架

深度学习框架

超参数优化

模型可解释性

模型调试

部署

过去两年见证了 MLOps 的兴起以及在生产中部署机器学习模型的重要性。这刺激了工具的发展和演变,允许从业者将模型打包到应用程序中,监控生产中的模型,大规模跟踪实验,并将模型应用到生产中。

模型包装

模型监控

实验跟踪

模型服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值