学习 MLOps 的 10 个绝佳资源
什么是 MLOps?
2015 年,谷歌发布了一篇名为《机器学习系统中隐藏的技术债务》的研究论文。在这篇论文中,斯卡利等人强调了编码预测性机器学习模型是如何在生产中构建、部署和维护机器学习系统的一小部分。这篇论文在整个领域引起了轩然大波,并通过无数数据科学家努力在生产中部署他们的模型的实例得到了验证。
令人兴奋的新类别 MLOps(机器学习操作)在过去几年中出现,旨在解决数据团队面临的部署挑战。MLOps,或机器学习操作,是一套工具、实践、技术和文化,确保机器学习系统的可靠和可扩展部署。随着数据科学作为一个领域的成熟,MLOps 是数据科学家可以选择的增长最快的专业之一。
鉴于 MLOps 是一个新兴的领域,没有太多成文的学习途径。无论如何,开源和机器学习社区已经提供了大量的免费资源,任何人都可以利用这些资源,这些资源非常可靠,而且非常有用。这里有 10 种免费资源,您可以从今天开始,开始您的 MLOps 学习之旅。
1.安德烈·布尔科夫的机器学习工程
这本书最初于 2020 年发布,是少数几本涵盖应用机器学习基础知识的书之一。布尔科夫没有专注于任何工具或概念,而是分解了构建和部署端到端机器学习项目的艺术和科学。在整本书中,他强调了数据团队在生产中部署机器学习模型时面临的最常见挑战及其解决方案。
你可以免费阅读这本书,因为它遵循“先阅读,后购买”的原则——这意味着如果你从中获得了价值,你可以阅读并付费。
2.生产博客中的 ML
在当今活跃的数据科学家的时事通讯和博客中可以找到一些关于 MLOps 的最佳资源。Luigi Patruno 的 ML in Production 博客和时事通讯就是最好的例子。他定期分享关于在生产中部署和维护模型的深刻内容。以下是他对自己的策展方法的描述:
- applied——内容侧重于已经证明在生产中有效的工具、模式、平台和系统。
- 专注于最佳实践—数据科学和机器学习是快速变化的领域。缺乏拥有部署这些系统的必要技能的人员,也缺乏既定的最佳实践。时事通讯旨在向更广泛的社区展示这些最佳实践。
- 旨在提高数据科学家的工作效率-所有策划的内容旨在帮助数据科学家、ML 工程师和数据从业者获得和提高影响力大、适销对路的技能组合。
3.MLOps 社区
学习 MLOps 最好是一起做,并与实践。这是一个由同修组成的社区,供你收听(或加入)并向该领域其他有经验的同修学习。从博客、视频和引人入胜的对话中,这个资源是在这个领域建立立足点的好方法。
4.全栈深度学习
这门课程在学习如何将复杂的大型模型投入生产方面提供了一些高质量的内容。它不仅由 OpenAI 和斯坦福大学的工程师和科学家等知名教授讲授,而且你还可以找到领导当今一些最鼓舞人心的机器学习公司的领导人的客座讲座,如特斯拉的 Andrej Karpathy。
本课程教授深度学习的全栈方法,包括
- 提出问题并估计项目成本
- 查找、清理、标记和补充数据
- 选择正确的框架和计算基础设施
- 故障排除培训和确保再现性
- 将模型部署到生产中
5.悟空莫汉达斯用 ML 做的
悟空·莫汉达斯创建了一门关于构建端到端机器学习系统的非凡而开放的课程。Made with ML 是 GitHub 上的顶级知识库之一,超过 30K+的人正在学习他的课程。
使用 ML 的课程涵盖了机器学习的基础知识,以及在生产中部署、测试和监控模型的细节。悟空的课程涵盖了所介绍的概念背后的直觉,提供了基于项目的动手作业,并为学习者提供了一些成功担任 MLOps 角色所需的软件工程最佳实践。
6.牛逼的生产机器学习
这个精心策划的 GitHub 知识库是为那些希望直接进入包、库和尖端工具进行实践的人准备的。所有列出的包和工具都旨在帮助您构建、部署、监控、版本化、扩展和保护您的生产机器学习系统。
无论是数据标记、模型训练编排、可解释性、服务、监控等等——这里肯定至少有几个包可以在您的项目中开始试验。它们还提供 ML 工程师简讯,让您了解机器学习从业者策划的最新框架、教程和文章。
7.DVC 的 MLOps 教程
DVC(数据版本控制)是一个用于机器学习项目的开源版本控制系统。DVC 将 Git 版本控制扩展到数据集和模型。此外,DVC 背后的同一个团队还开发了持续机器学习(CML),这是一种用于调整持续集成系统的工具,如 GitHub Actions & GitLab CI 用于机器学习。
这个相对短的 YouTube 系列突出了 DevOps 和机器学习交汇处的重要概念。它有效地平衡了理论和实践,并向您展示了如何通过 DVC 应用数据版本控制。
8.机器学习操作
这种资源可以说是最全面的资源之一。它充斥着分解成功的 MLOps 实践的不同元素的帖子。机器学习操作提出了指导方针、框架、行为准则,并试图设定 MLOps 的标准。
虽然很短,但这是一个很好的起点,阐明了为什么 MLOps 很重要,成功的 MLOps 实践的关键原则,MLOps 中使用的工具和框架,等等。
9.人工智能工程的机器学习操作
对于应用机器学习来说,AIEngineering 可能是最好的之一,如果不是最好的 YouTube 频道。Srivatsan Srinivasan 拥有超过 60000 名订户,通过讨论所有与数据相关的事情,他已经拥有了一批追随者。
他在 MLOps 和部署端到端机器学习项目上有大量深入的视频和播放列表。一定要去看看。
10.TensorFlow 为 TFX 的生产 ML 部署提供 ML 工程
谷歌用 TensorFlow 构建了机器学习中使用最广泛的工具之一。他们通过 TensorFlow Extended (TFX)将它带到了另一个层次。TensorFlow Extended 是一个用于部署机器学习模型的端到端平台。它由各种用于数据验证、转换、模型分析等的包组成。TFX 旨在轻松设计机器学习系统,而无需在软件工程工作中花费大量时间和精力。
这个 YouTube 播放列表由谷歌开发者倡导者 Robert Crowe 带领,向你介绍谷歌使用的关键 MLOps 概念和最佳实践。此外,TFX 文档也是一个很好的读物——仅仅尝试使用该软件包及其指南就可以教会你很多东西。
了解更多关于 MLOps 的信息
虽然 MLOps 仍处于早期阶段,但抢先了解上述资源中涵盖的最新最佳实践和工具非常有价值。如果您有兴趣了解更多关于 MLOps 的信息,您还可以查看以下资源:
- Noah Gift 的 MLOps 实用指南
- 与阿莱西娅·维森吉奇一起使用 MLOps 操作机器学习
- 与丹·贝克尔一起从预测到决策
2022 年将有 10 个 Python 包加入您的数据科学堆栈
随着数据科学的成熟和发展,从业者可以使用的工具也在不断发展。虽然 scikit-learn、pandas、numpy 和 matplotlib 等库是 PyData 堆栈的基础,但学习和掌握新的库和包对于在数据职业生涯中成长至关重要。
因此,本文将涵盖过去几年中出现的 Python 机器学习和数据科学生态系统中十个越来越受欢迎的包。
1.SHAP
随着机器学习从实验走向操作化,模型的可解释性是必须的。根据用例的不同,组织将模型的可解释性和透明性作为部署过程的一部分。
机器学习中可解释性的崛起在过去几年中一直在加速,看看过去十年中“可解释的人工智能”一词的搜索趋势就可以展示这一点:
作者 Google Trends 截图— 链接到结果
这种对可解释的人工智能(XAI)日益增长的兴趣来自于避免与机器学习模型相关联的有害结果的需要。对于金融或医疗保健等行业的高风险用例来说,尤其如此。机器学习模型的结果可能充满了放大现有刻板印象的偏见。这可以在谷歌翻译中看到,这是世界上最常用的语言模型之一:
机器学习模型如何放大有害刻板印象的例子
左边的例子是乌兹别克语,一种中性语言。然而,当将查询翻译成英语时,谷歌翻译的语言模型用其结果强化了性别歧视的刻板印象。你可以观察到其他中性语言的类似结果,如土耳其语或波斯语。
这种偏见的例子在机器学习用例中可能会产生极其有害的结果,如信用风险建模或信用批准。为了最大限度地降低这些风险,数据科学家正在使用可解释的人工智能(XAI)技术来理解机器学习系统的内部工作原理。
对 XAI 来说,最受欢迎的工具之一是由 Scott M. Lundberg 和 Su-In Lee 创建的 SHAP 图书馆。SHAPley Additive exPlanations(SHAP)使用博弈论的方法来解释是什么驱动了大量机器学习模型的输出。
其大众吸引力的主要部分是其 Shapley 值的优雅可视化,这可以解释模型输出的一般和个别。通过浏览文档,你可以深入了解 SHAP 及其范例。
图片来自 SHAP 文件-麻省理工学院许可
🌟GitHub star:16.2k
📦问题:1.3K
🍴叉子:2.5K
2. UMAP
随着数据集规模的不断增长,对更好、更有效的降维算法的需求也在增长。
虽然 PCA 快速而高效,但它可能会返回过于简化的结果,因为它只减少了数据集的维数,而不必关注底层数据结构。SNE 霸王龙试图通过更加重视数据的结构来弥补这一点,但这一过程对于更大的数据集来说非常缓慢。
幸运的是,在 2018 年,利兰·麦金尼斯和他的同事们引入了 UMAP(均匀流形逼近和投影)算法,作为这两种方法之间的共同点。UMAP Python 包更灵活地减少了表格数据集的维度,强调了数据的全局拓扑结构的重要性。
该软件包在 Kaggle 上很流行,其文档概述了除降维之外的其他有趣应用,如针对更大数据集的更快离群点检测。其结果在可视化时既实用又美观:
图片来自 UMAP 文件— BSD-3 条款许可
🌟GitHub Stars: 5.6K
📦问题:313
🍴福克斯:633
3 & 4.LightGBM 和 CatBoost
当 XGBoost 库在 2015 年变得稳定时,它迅速统治了 Kaggle 上的表格比赛。它速度很快,优于其他梯度推进实现。然而,它并不完美。微软和 Yandex 这两家价值数十亿美元的公司受到了陈天齐在梯度增强机器和开源 LightGBM 和 CatBoost 库方面的工作的启发。
他们的目标很简单——改进 XGBoost 的缺点。虽然 LightGBM 极大地减少了 XGBoost 形成的 boosted 树的内存占用,但 CatBoost 变得比 XGBoost 更快,并使用默认参数获得了令人印象深刻的结果。
在 Kaggle 的 2021 年数据科学和机器学习状况调查中,这两个库位列最受欢迎的机器学习框架的前七名。
🌟GitHub Stars (LGBM,CB): 13.7K,6.5K
📦问题:174,363
🍴叉子:3.5K,1K
🔗有用链接: LGBM 文档、 CB 文档,教程— LGBM 、 CB
5.BentoML
将模型部署到生产中从未如此重要。在这一节中,我们将讨论 BentoML 如何简化将模型部署为 API 端点的过程。历史上,数据科学家使用 Flask、Django 或 FastAPI 等 web 框架来部署模型作为 API 端点,但这些工具通常带有相对较陡的学习曲线。
BentoML 简化了 API 服务的创建,只需要几行代码。它几乎可以与任何机器学习框架一起工作,并且可以在几分钟内将它们部署为 API 端点。尽管 BentoML 是去年发布的,目前仍处于测试阶段,但它已经积累了一个重要的社区。你可以点击查看 BentoML 的各种实例。
🌟GitHub Stars: 3.5K
📦问题:395
🍴福克斯:53
6 & 7.细流和梯度
机器学习解决方案应该是每个人都可以访问的,虽然 API 部署会让您的同事、队友和程序员朋友受益,但模型也应该为非技术社区提供用户友好的界面。
用于构建这种界面的两个发展最快的软件包是 Streamlit 和 Gradio。它们都提供了低代码的 Pythonic APIs 来构建 web 应用程序来展示您的模型。使用简单的函数,您可以创建 HTML 组件来接受不同类型的用户输入,如图像、文本、视频、语音、草图等。,并返回一个预测。
Streamlit 特别有用,因为您可以使用它的富媒体工具来讲述美丽的数据故事。您可以在他们的图库中查看来自 Streamlit 的各种示例。
用于机器学习的 streamlit web 应用示例
将 BentoML 这样的 API 服务与 Streamlit 或 Gradio 这样的 UI 工具结合起来,是 2022 年部署机器学习模型的最佳和最轻的方式。
🌟GitHub Stars (Streamlit,Gradio): 18.9K,6.6K
📦问题:264,119
🍴福克斯:1.7K,422
🔗有用链接: Streamlit 文档、 Gradio 文档,教程— Streamlit 、 Gradio
8.PyCaret
PyCaret 是一个低代码的机器学习库,最近吸引了很多关注。使用 PyCaret,您只需几行代码就可以自动化机器学习管道的几乎任何阶段。它结合了 Scikit-learn、XGBoost、transformers 等其他流行软件包的一些最佳特性和算法。它的主要吸引力在于它能够在笔记本环境中在几分钟内完成从数据准备到模型部署的过程。
PyCaret 有独立的子模块,用于分类、回归、NLP、聚类、异常检测,还有一个专用的模块用于最新版本的时间序列分析。如果你想自动化和加速你的机器学习工作流程,PyCaret 是你的首选库。
🌟GitHub Stars: 6.5K
📦问题:248
🍴叉子:1.3K
9.奥普图纳
在倒数第二个位置,我们有 Optuna,它是一个超参数库,正在 Kaggle 上加速发展。
Optuna 可视化示例
Optuna 是一个贝叶斯超参数调优库,几乎可以在任何 ML 框架上工作。与竞争对手相比,它有许多优势,例如:
- 平台无关的设计
- Pythonic 搜索空间——可以用条件和循环定义超参数
- 一套广泛的最先进的调优算法,可通过一个关键字进行更改
- 简单高效的并行化,允许您通过一个参数跨可用资源进行扩展
- 图形调整实验的可视化,可让您比较超参数的重要性
- Optuna 的 API 基于称为研究和试验的对象。结合起来,它们提供了控制优化会话运行时间、暂停和恢复会话等功能…
🌟GitHub Stars: 6.3K
📦问题:108
🍴福克斯:701
10.数据版本控制— DVC
DVC 主页截图
随着数据环境变得越来越复杂,清楚地了解数据集的变化变得越来越重要。这就是 DVC 的目标,像 Git 管理你的代码库一样有效地管理你的海量数据文件和模型。
虽然 Git 对于跟踪代码库的变化非常有用,但它在对大文件进行版本控制时会出现问题,这阻碍了开源数据科学的进步。数据科学家需要一个系统来同时跟踪代码和数据的变化,并在孤立的分支中进行实验,而不复制数据源。
Iterative.ai 的数据版本控制(DVC)使这一切成为可能。通过一个简单的远程或本地 repo 来存储数据,DVC 可以像捕获代码一样捕获数据和模型的变化,并跟踪指标和模型工件以监控实验。
当与 DagsHub (即数据科学家的 GitHub)结合使用时,它成为一个改变游戏规则的工具,因为 DagsHub 为 DVC 缓存提供免费存储,并且可以通过一个 CLI 命令进行配置。
🌟GitHub Stars: 9.7K
📦问题:619
🍴福克斯:924
🔗有用链接: docs ,综合教程,用 DVC 和 DagsHub 做的样例项目
了解有关最新工具的更多信息
数据科学和机器学习领域充满活力,并且不断发展。虽然上面列出的工具越来越流行,但我们可以肯定地期待现代数据堆栈中会有更多的工具和整合。要了解有关数据科学新工具和进步的更多信息,请查看以下资源:
坏数据的 10 个迹象:如何发现质量差的数据
原文:https://web.archive.org/web/20221210085053/https://www.datacamp.com/blog/10-signs-bad-data-quality
随着数据革命继续改变我们所知的世界,企业开始意识到这个时代的繁荣需要维护一个执行良好的数据架构。数据架构描述了组织的数据资产的结构,并映射了数据如何在组织中流动。从本质上讲,数据体系结构充当管理数据的蓝图,以确保所有业务数据都得到相应的管理,并满足业务需求。但是当他们遇到不好的数据会怎么样呢?
如果没有定义良好的数据架构,企业就不太可能释放其数据的真正价值,并可能在此过程中浪费大量资源。他们也可能会败给拥有更成熟数据策略的竞争对手(参见 DataCamp 如何利用分析来提高内容质量)。为了避免这种命运,企业领导人必须认识到的最重要的事情之一是,坏数据存在并会带来后果。
在这里,我们探讨什么是坏数据,为什么数据质量很重要,以及坏数据的标志是什么。
什么是坏数据?
如果我们可以把高质量的数据定义为适合目的的数据,我们可以说低质量的数据不适合目的。这意味着数据不够好,不足以支持它被使用的结果。
通常,原始数据可能被认为是坏数据。例如,从 Twitter 等社交媒体网络中提取的数据是非结构化的,并且在其原始状态下,无法用于分析或用于其他有见地的目的。
然而,原始数据可以通过数据清理和处理变成好数据,这通常需要时间。
最简单的说法是,任何缺乏结构并且存在质量问题(如不准确、不完整、不一致和重复)的数据都可以被认为是坏数据。
为什么数据质量很重要
数据质量是指定性或定量数据的状态:它衡量给定特定因素下数据的状况,如准确性、完整性、一致性、可靠性以及数据是否更新。除了客户数据,这还包括产品数据、公司数据、供应商数据等等。
确保你拥有的数据是高质量的至关重要。为了从数据中获取价值,我们需要数据足够准确、足够有用以支持我们希望使用它的结果,并且足够好以最佳利用可用资源。
为什么会出现数据质量差的情况?
有三种主要类型的数据质量问题会对运营效率产生直接影响:
- 人为失误。数据质量差的最常见原因之一是人为错误;这通常发生在数据输入过程缺乏标准化时,或者是员工手动将值输入电子表格的结果。这两种情况都增加了出错的几率。
- 不同的系统。组织通常将数据存储在由他们自己的规则组成的几个不同的系统中。构建数据集可能需要集成来自不同系统的多个来源,从而导致重复数据、缺失字段或标签不一致。也有可能不同的字段具有相同的含义,但被另一个系统不同地处理。
- 无效数据。变化在发生,企业在发展。当发生这种情况时,必须对数据进行更改(即,更改数据结构中的详细程度、降低字段价值或更新数据字段)。然而,分析师可能只有在将要使用数据时才意识到需要进行的更改。
这些因素是坏数据的主要原因,并在数据被使用时成为瓶颈。
你可以在这个 DataCamp 数据清洗教程中学习如何用 Python 提高数据质量。
劣质数据的代价
不良数据的成本取决于几个因素。在某些情况下,成本可能会在下游流程或关键操作的延迟中累积。在最坏的情况下,你可以预期整个过程的失败。
让我们来看看糟糕数据的一些代价。
有缺陷的见解
我们从数据中获得的洞察力受制于数据本身的质量。例如,企业领导可能会基于从数据中获得的见解做出关键决策,而没有意识到用于获得见解的多个来源包含重复的内容。冗余可能会扭曲研究结果,使其不能反映现实,从而导致有缺陷的见解。
财务费用
在一篇关于数据质量改进的商业案例的文章中, Gartner research 指出,“组织认为糟糕的数据质量导致每年平均 1500 万美元的损失”,并且“随着信息环境变得越来越复杂,这种情况可能会恶化,这是各种规模的组织都面临的挑战。”
组织效率
随着越来越多的企业以数据为核心进行运营,劣质数据会直接影响整个组织。例如,销售团队可能向错误的目标受众推销产品,如果他们能够获得高质量的数据,这本来是可以避免的。
迁移期间的问题
想象一个场景,一个组织决定从一个平台迁移到另一个平台;与旧平台相比,新平台可能具有不同的数据治理和标准化规则,这将导致迁移问题。您还可能面临平台以不同格式存储数据的情况:这将使精确映射数据变得困难。
总体瓶颈
在组织的数字化转型过程中,较差的数据质量会迅速导致严重的瓶颈。出现的问题必须得到解决,这意味着转换项目暂停。重复几次会对采用率和资源造成巨大的损失。
坏数据的 10 个迹象
投入的质量将决定产出的质量。对于不完整、不一致或损坏的数据,几乎不可能生成准确可靠的报告:垃圾输入,垃圾输出。
因此,您如何确定您的组织是否存在数据质量问题?以下是需要注意的十个迹象(不按顺序排列):
#1 缺少重要信息
丢失数据可能有多种原因,例如,设备故障、文件丢失、数据输入不完整等。尽管在任何给定的数据集中缺失一些数据并不罕见,但缺失重要信息会带来许多挑战。这里有三个主要的:
- 数据的缺乏会降低统计能力,从而减少发现真实影响的机会。
- 丢失的数据可能导致估计参数的偏差
- 缺少关键信息可能会降低样本的代表性。
你可以通过我们的在线课程了解更多关于在 Python 中处理缺失数据的知识。
#2 琐碎的工作需要过多的努力和时间
如果你觉得你的大部分时间都花在手工任务上,你可能得到了错误的数据。无效(或不存在)的数据管理策略可能会导致您手动组织来自各种来源的数据,寻找人员来填补缺失的空白,并将数据输入到电子表格中。
#3 没有足够的可操作的见解
可操作的见解是从数据中得出的结论,可以直接转化为行动或响应。因此,可操作的见解必须是相关的、具体的,并且对决策者有价值。
这种见解的价值在于它带来的新信息。然而,这并不意味着它必须来自一个全新的数据集。如果你的数据告诉你的是你已经确切知道的事情,那么它就没有价值,也不相关。
#4 分析数据很困难
需要对您的数据进行规范化,以便:
- 确保该表只包含与主键直接相关的数据
- 确保每个数据字段只包含一个数据元素
- 确保删除冗余数据
如果没有标准化的数据,进行分析可能会非常困难,因为每个数据源都可能带有不同的格式、字段和标签。
#5 错过的机会
您没有充分利用您所拥有的数据的想法可能会一直萦绕在您的脑海中,尤其是如果您不信任您当前的数据管理策略。你依赖坏数据的一个明显迹象是,你暴露于不必要风险的风险增加了,这使你暴露在突然变化发生时。
#6 洞察力不能按时到达
您必须能够即时访问集中存储库中的数据。这使您能够快速轻松地生成报告,并带来其他好处。例如,减少冗余,从而最大限度地减少错误并简化对信息的访问。
集中式数据意味着整个组织从相同的蓝图开始工作,并遵循相同的规则。这个想法是为了避免由于使用不同的数据和不同的工具而产生的差异。
#7 数据中有太多错误
人类容易出错。当一个人负责手工输入数据到系统中时,期望完美的数据是有缺陷的。应该对数据进行审计。这也将清楚地表明数据中的错误是由公用事业提供商还是人为错误造成的。
#8 缺乏信心的决策者
数据应该培养信心。拥有可信的数据是做出数据驱动的决策的基本前提。当决策者对数据缺乏信心时,他们的本能是回归老路,这意味着你可以根据直觉和有根据的猜测做出决定。
通过我们的在线课程,了解更多关于数据驱动的业务决策的重要性。
#9 缺乏关键业务指标的可见性
当关键绩效指标(KPI)无法实时获得时,就不清楚什么样的行动会产生最大的影响。
#10 脱节的客户体验
当客户收到的内容与他们在购买过程中所处的位置不一致时,这是一个明显的(也可能是代价高昂的)坏数据信号。当今时代,消费者不再“想要”个性化的体验;他们期待着。如果客户在接触点上没有获得个性化体验,客户体验可能会被认为是脱节的。
在您的组织中认识到这些症状是一个值得关注的原因:可能存在数据质量问题。通过我们的在线课程,了解更多关于用 Python 构建推荐引擎的信息。
如何管理不良数据
希望你现在意识到不是所有的数据都是好的。管理不良数据的最佳方式是从源头上防止质量不佳。然而,如果您已经在处理坏数据,这个解决方案可能很难实施。
如果您已经收集了错误数据,以下步骤旨在帮助您管理错误数据:
第一步:接受现实
你有错误的数据。接受吧。如果你没有意识到坏数据是一个问题,那么你就不太可能愿意采取措施来改善它。
第二步:更新你的坏数据
利用您如何识别不良数据的知识,您的数据必须被清理–这可能包括更新现有记录。
步骤 3:引入数据质量计划
数据质量计划用于降低出错风险,同时建立通用可靠的流程来支持数据的使用和生产。
步骤 4:改进数据收集技术
实施更好的技术来获取数据:这可能包括在没有必要的情况下避免请求信息,并提供详细信息,如为什么您需要特定的数据,您打算如何使用它,以及如果您的客户与您共享他们的数据,这对他们有什么好处。
教育你周围的人
为了更好地管理数据,员工必须知道如何收集、处理、处置和管理数据。
管理坏数据的关键是在源头处理它。如果您已经收集了错误的数据,您必须接受您的数据是错误的,然后根据需要执行数据清理和更新。清理完数据后,通过引入数据质量计划来改进组织的数据管理技术,从而降低再次面临此类问题的风险是至关重要的。你有足够的数据技能吗?您可以通过 DataCamp 的商业数据技能技能课程,学习如何使用数据回答现实问题。
数据质量是基于准确性、完整性、一致性、可靠性以及数据是否更新的数据状况的衡量标准。
数据质量问题可能由多种因素引起,但对运营效率有直接影响的三个主要原因是:1)人为错误,2)不同的系统,以及 3)无效数据。
数据质量差会严重损害您的业务,因为它是一个主要的瓶颈。不良数据的代价包括有缺陷的见解、高昂的财务成本、迁移问题和组织效率的降低。
表示您有坏数据的警告信号包括:
- 同一个问题返回不同的答案
- 洞察力未能按时到达/机会被错过
- 粗活需要过多的精力和时间
- 客户抱怨员工对以前交易的了解
- 团队之间关于组织绩效的分歧
- 由于数据质量差,数据迁移活动持续失败
- 尽管有多个数据仓库和数据湖,但性能数据不可靠
- 员工不信任系统,因此他们维护自己的数据存储。
- 分析数据很困难
- 重要信息缺失
在您的数据职业生涯中成长的 12 个最佳实践
数据职业可以让你接触到广泛的技术、技能和利益相关者。您将有机会参与对业务核心领域有重大影响的项目,通常是在高度跨职能团队中或与其他技术同事合作。
根据您所在的行业和专业,从初级数据科学职位到高级数据科学职位的转变看起来会非常不同,但对于大多数数据科学家来说这需要 2-5 年的时间。有了正确的知识和技能,的薪水很容易达到 6 位数。10 年后,随着新工具、最佳实践和方法的不断涌现,对数据科学家的需求预计将大幅增长,尽管角色可能会有很大不同。
数据职业的发展可以采取多种形式,但无论你的目标是什么,都有一些重要的提示和实践要记住。请继续阅读,了解我们的最佳实践,以确保您能够在整个职业生涯中不断进步。
1.定义成功
为工作而工作本身不是问题;不断练习被认为是一件好事,许多人都从中受益。然而,如果你心中没有成长的目标,你可能不会感到满意。坐下来定义成功对你来说是什么样子是很重要的。这不仅能确保你朝着正确的方向前进,还能给你一个方法来评估你的进步。你对成功的理解不一定是关于晋升、收入或职位。你可能渴望长期目标,比如发表一篇论文或完成一个博士学位。也许你想领导一个团队或开发一个被数百万人使用的产品。通过定义你的成功愿景,你可以确定朝着正确的方向成长的必要步骤。
2.不要停止学习
你听过有人谈论他们的成长心态.)吗?研究表明,有这种心态的人往往比那些认为天赋是天生的人成就更大。数据职业可能会很艰难;很多从业者都会面临挫折,遇到失败。从错误中学习经常被认为是成功的关键标准之一;即使是成功的企业家也会谈论他们的许多失败以及他们从失败中学到了什么。
持续发展你的技能的另一个关键原因是跟上行业变化的快节奏。Elad Cohen 在 DataFramed (大约 49 分钟)中提到,不管你是否认为自动化将简化数据科学工作流程的一部分,许多人都倾向于低估技术在 10 年后的样子。如果你不保持学习和成长,这个行业本身可能会比你走得更快。
3.继续建立投资组合
投资组合的重要性不能低估。虽然他们经常与试图获得第一份工作的初级数据科学家联系在一起,但投资组合可以是收集你职业生涯中一些最佳作品的好地方。作品集也可以是你研究自己感兴趣的主题的一个出口,尤其是当你没有机会每天都做这件事的时候。最后,扩大你的投资组合可以激励你应用以前的最佳实践,不断发展新技能。
在整个职业生涯中保持投资组合可以确保您能够:
- 如果你要换工作、换公司,或者甚至成为自由职业者,分享你的工作
- 捕捉一些你最感兴趣的作品,以备后用
- 有一个空间来分享你的激情项目的成果,这是其他数据科学家喜欢看到的
- 建立你自己的个人品牌,这可以打开你职业生涯其他领域的大门
4.投资模型部署能力
目前,大学教授数据科学的方式与数据科学在行业中的应用方式之间最重要的脱节之一是 MLOps。简而言之, MLOPs 是一套工具、实践、技术、文化和思维模式,确保机器学习系统的可靠和可扩展部署。当今数据团队面临的最大挑战之一是机器学习模型的可扩展和高效部署,这就是为什么估计显示在低至 8%的企业在生产中拥有模型。难怪 MLOps 是过去一年数据科学发展最快的领域之一。
对当今许多数据科学家来说,投资于模型部署能力是必不可少的,即使是那些有多年经验的科学家也是如此。认识到你的知识中可能存在差距,并找出弥补的方法,这是一种很好的成长方式。你不必对每一个新工具都有专业知识,但是理解 MLOps 或其他新颖开发的核心概念并学习如何应用它们的技术会让你走得更远,并为以后的专业化奠定基础。如果你有兴趣开始使用 MLOps,你可以在这篇博客文章中找到一些免费资源。
5.选择专业
数据科学是一个异常广阔的领域。在这本电子书中,DataCamp 将数据科学定义为“一个寻求从数据中提取有意义见解的跨学科领域”。不同的学科包括数学、统计学、机器学习、编程、数据可视化等等。一个人不可能发展所有这些领域的专业知识,尤其是在一个领域需要大量知识来实现技术的时候。例如,考虑你需要理解多少理论来部署一个自然语言模型,同时达到令人满意的准确性并避免偏差。
一旦你在广泛的领域有了一点经验,就值得花时间考虑你可能想专攻的领域。成为一个领域的专家是一个打开大门的好方法,让你更接近成功的愿景。
6.构建你的人际网络
人际关系网是职业发展最重要的方式之一,它可以以多种形式出现,比如参加活动,与业内人士或同事进行“咖啡聊天”,甚至自己做演讲。人际网络是一个很好的方式,可以让你了解其他组织正在发生什么,你可能需要学习什么新技能,或者你的组织将来可能需要什么新技能。如果你想换工作,这也是进入另一家公司的最简单的方法。
许多人发现联网的想法令人望而生畏,但是在数据社区中有一系列联网和发现事件的方法。我们在这里整理了一份 2022 年将参加的顶级数据科学会议列表,让你开始你的网络之旅。
7.战斗骗子综合征
《哈佛商业评论》将“冒名顶替综合症”定义为“怀疑自己的能力,感觉自己像个骗子”,这是许多数据科学家在职业生涯中的某个时候都感受过的。在职业生涯的早期阶段,经验丰富的数据科学家拥有的知识广度和深度似乎是一个非常高的门槛。甚至在以后,您可能会遇到在数据科学的每个子领域都有着极其渊博知识的专家。在过去的几年里,随着许多高层管理人员公开他们的经历,冒名顶替综合症这个术语变得越来越常见。因此,有许多书籍可以帮助理解它可能会影响你,以及你可以做些什么来对抗它。这篇 Reddit 帖子还包含了几位数据科学家分享他们关于冒名顶替综合症的经历。
8.关注就业市场
职业发展与你如何度过朝九晚五的时间高度相关。如果你每天做的事情不符合你对成功的长期定义,你可能需要重新评估你的位置。这可能意味着与你的经理进行一次谈话,改变你的日常工作,或者在你的组织内进行一次横向调动。然而,了解就业市场上正在发生的事情总是值得的。你可能会发现你的技能很受欢迎,其他公司可以提供不同的职位或增加工资和福利。
职业发展公司 Wonsulting 的李晨建议每年都去你感兴趣的公司面试,以保持你的面试技巧新鲜,并确保你目前的公司重视你。这一点的重要性取决于你的长期目标和成功标准,但抓住市场其余部分的脉搏总是一个好主意。
9.保持最新状态
除了发展自己的技能,对你所在领域的前沿研究、科技公司和市场领导者有一个总体的了解也很重要。你不必总是钻研细节——从高层次了解最新技术的潜力是保持消息灵通的一个好方法。如果你能够与你的人际网络就这项技术进行对话,了解他们如何应用这项技术,或者教给他们一些新的东西,这将是额外的奖励!
亚当·沃塔瓦是这种高级扫描的一个很好的资源,他每周在 LinkedIn 上写一篇“跟上数据”的帖子。这些写得很好的摘要是跟踪最新研究、商业新闻甚至最近发布的 Python 包的好方法。您还可以订阅我们的每周综合视频简讯,它为您提供来自数据科学、技术和研究社区的最有趣的新闻。
10.考虑你工作的影响
你的职业发展应该会达到你自己的成功标准,但是你的组织的成功呢?重要的是要考虑你的工作产生了什么影响,是通过高效的工具节省时间,通过创建信息丰富的仪表板帮助同事,还是通过训练有素的模型节省生产成本。了解您对整个组织的影响可确保您能够:
- 为晋升或工作调动提供商业案例
- 证明让你的公司赞助培训课程的合理性
- 在会议上谈论你的工作
- 如果你打算换工作,好好面试
11.培养领导技能
最佳实践#12 将涵盖您在数据科学领域可能拥有的不同类型的管理职业道路。但要达到这一目标,你需要作为一名个人贡献者培养领导技能。领导技能,如授权、优先排序、给予反馈和设定明确的方向,都是必不可少的。即使你不管理人,当你被选择作为个人贡献者领导一个项目时,你仍然可以学习和应用这些技能。
在你的职业生涯中,会有很多机会来培养这些技能,但这也可能需要你离开自己的舒适区。走出你的舒适区,进入伸展区是我们最好的学习和成功发生的地方;不要回避这些机会,因为它们代表着绝佳的成长机会,将在你的职业生涯中带来回报。
12.选择职业道路
如今,职业道路并不总是直线。你可能会被平级调动到不同的团队或项目,或者在管理岗位上进进出出。Meta 在这里对他们的一些职业道路进行了分类,指出“…成为经理不是升职。这只是完成工作的另一种方式”。这种理念在组织中很普遍,尤其是那些结构扁平的组织,许多团队围绕项目而不是工作职能。对于 Meta 来说,核心职业道路是
- **高级贡献者:**虽然高级贡献者通常不管理人,但他们经常指导初级团队成员,并能对战略和决策产生重大影响。这条职业道路主要涉及动手工作和编码。
- **技术主管:**这条职业道路是一条分裂的道路,一方面从事技术工作,另一方面管理一个小团队,通常是其他数据工作者。
- **人事经理:**这是传统的管理方式,你很少编码,而是召开高层会议,进行日常人事管理。
了解你职业生涯的后期目标是什么是很好的。如果人事管理目前不适合你,你可以更多地投资于你的技术技能,尽管如果情况正好相反,你可能想建立关系网,寻找学习领导技能的机会。
额外收获——在数据科学领域取得成功有很多方法
本文为组织内的数据科学家提供了大量建议,但在数据职业生涯中取得成功的方法有很多。学术、教学、自由职业和内容创作都是让世界变得更美好、学习或发展某些东西或增加收入潜力的途径。不要把自己硬塞进一家公司或一条职业道路——想想成功对你来说是什么样的,走出去实现你的愿景。
为您提供更多资源:
12 个最好的数据可视化工具
数据可视化是数据科学中最相关的技能之一。用有洞察力的图和图表赋予数据以生命,这是传达您的团队可能无法发现的洞察力的最有效方式之一。使用数据可视化工具通常是这一过程的关键部分。
数据可视化是各种数据角色的必备技能,从处理仪表板和报告的数据分析师到解释公司数据仓库组织方式的数据管家。数据可视化也是数据叙事的核心支柱,这种方法提倡使用视觉、叙事和数据将数据见解转化为行动。
数据可视化工具从无代码商业智能工具如 Power BI 和 Tableau 到在线可视化平台如 DataWrapper 和 Google Charts。数据科学的流行编程语言中也有特定的库,比如 Python 和 R 。因此,对于许多有抱负的数据从业者来说,数据可视化通常被视为切入点,或者“门户药物”。
本文全面概述了数据科学中最好的数据可视化工具。学习如何使用这些工具是在数据科学职业生涯中取得成功的关键一步。如果你对掌握数据可视化技能感兴趣,我们强烈建议你查看 DataCamp 的 30 多门数据可视化课程。
什么是好的数据可视化工具
数据科学是一门充满活力、快速发展的学科。新的软件和工具,包括数据可视化工具,每天都在涌现。在这种背景下,决定使用哪种工具具有挑战性。没有一种数据可视化工具绝对能够解决您在数据科学职业生涯中可能遇到的所有问题和情况。
每个案例都是不同的,你或你工作的公司必须平衡几个因素,找到最适合你的需求。在选择数据可视化工具之前,您可以在下面找到您应该始终考虑的因素列表:
学习曲线
数据可视化工具的易用性和复杂性差别很大。一般来说,特性和功能越多,即对设置、定制和功能的控制越多,学习曲线就越陡。更简单的数据可视化工具更适合非技术用户,他们将能够快速上手。
灵活性
如果您想要完全控制配置、参数和地块的美观,您应该选择具有广泛灵活性的数据可视化。即使你是一个经验丰富的数据分析师,你也需要花更多的时间来熟悉这个工具,但是一旦你到了那里,你将能够产生难以置信的美感和可定制的可视化效果。
可视化类型
数据可视化工具可以根据它们是关注独立的绘图还是仪表板来分类。第一类工具旨在一次创建一个可视化。第二类将应用程序或仪表板视为基本单元。数据仪表板是一种信息管理工具,用于跟踪和可视化多个数据点和 KPI。
观众
你表达观点的方式会因你的听众而异。如果您是一名数据工程师,主要向同一个部门的其他技术角色汇报工作,那么专注于可视化分析的数据可视化工具就足够了。相比之下,如果你是一名与管理和决策团队密切合作的数据分析师或业务顾问,你可以考虑通过专注于数据叙事来整合额外功能的工具,这些功能允许用户讲述数据背后的完整故事。
价格
最后但同样重要的是,价格是选择数据可视化工具时要考虑的一个重要因素。根据您的需求和预算,有些工具会比其他工具运行得更好。下面,您会发现一个跨各种平台和技术的开源和专有数据可视化工具的列表。
顶级开源 Python 数据可视化工具
matplotlib
matplotlib 是一个用于在 Python 中创建静态、动画和交互式可视化的综合库。matplotlib 由 John D. Hunter 于 2003 年创建,它提供了创建许多不同类型数据集的丰富可视化的构建块。使用 matplotlib,只需几行代码就可以轻松创建各种可视化效果,如线图、直方图、条形图和散点图。
你可以用 matplotlib 定制你能想到的一个情节的每个方面。这使得该工具非常灵活,但也可能是具有挑战性的和耗时的,以获得完美的情节。
主要特性:
- 它是创建数据可视化的标准 Python 库。
- 以多种文件格式导出可视化效果,如
.pdf
、.png
和.svg
。 - 数据专业人员也可以使用 matplotlib 的 API 在图形用户界面(GUI)应用程序中嵌入图形。
优点:
- 通用性高。
- 允许完全自定义地块。
- 由庞大社区支持的通用 Python 数据可视化工具。
缺点:
- 繁琐的文档,陡峭的学习曲线。
- 用户需要了解 Python 才能使用。
在 DataCamp 上学习:
- 【Matplotlib 数据可视化简介课程
希伯恩
使用 matplotlib,任何类型的可视化都是可能的。然而,有时 matplotlib 的广泛灵活性会变得难以掌握。你可能会花上几个小时在一个一开始设计似乎很简单的地方。Seaborn 旨在解决这些问题。
这是一个 Python 库,允许您轻松生成优雅的图形。Seaborn 基于 matplotlib,并提供了一个高级接口,用于绘制有吸引力和信息丰富的统计图形。
主要特性:
- 强大的高级接口,用几行代码就可以构建情节。
- 关注统计数据可视化。
- 基于 matplotlib 构建。
优点:
- 快速创建简单的可视化。
- 默认情况下,可视化具有美学吸引力。
- 强大的图形大集合。
- 定义良好的文档,有许多例子。
缺点:
- 定制选项有限。
- 不提供交互式图形。
- 用户可能需要使用 matplotlib 来优化可视化。
在 DataCamp 上学习:
- 【Seaborn 课程数据可视化介绍
散景
matplotlib 和 Seaborn 主要关注静态可视化。相比之下,散景的主要优势在于互动性。Bokeh 是一个用于交互式数据可视化的强大 Python 包。它使你能够超越静态图,并允许利益相关者与你的可视化互动,挖掘他们自己的见解。
散景的目标是提供优雅而简单的图形,从简单的绘图到复杂的带有流数据集的仪表盘。它允许通过 JavaScript 功能进行额外的定制。
主要特性:
- 它创建了随用户交互而变化的交互图。
- 为复杂的用例轻松创建简单的图表。
- 可视化被设计成嵌入在网络浏览器中。
优点:
- 几秒钟内就有漂亮的互动图表。
- 必要时为用户提供不同的方式来提供定制的 JavaScript。
- 在网络浏览器中嵌入可视化的可能性。
缺点:
- 可视化的交互选项是 plot。
- 有限的灵活性与它来设计情节。
- Python 和 JavaScript 的结合可能很麻烦。
在 DataCamp 上学习:
顶级开源 R 数据可视化工具
ggplot2
可以说是 R 最强大的包,ggplot2 是一个绘图包,它提供了从数据框中的数据创建复杂绘图的有用命令。自 Hadley Wickham 于 2007 年推出以来,ggplot2 已成为 r 中灵活和专业绘图的首选工具。ggplot2 的灵感来自名为“图形语法”的数据可视化方法,其思想是独立指定图形的组件,然后将它们组合起来。
这个包包含在 tidyverse 中,tidy verse 包含一组用于数据科学的包。ggplot2 还提供交互式和动画图形。
主要特性:
- r 中最流行的数据可视化库。
- 基于“图形语法”的哲学。
优点:
- 简单直观的语法。
- 默认情况下,情节在视觉上很吸引人。
- 提供完全定制。
缺点:
- 与其他 R 包相比,语法不一致。
- ggplot2 的计算速度通常比其他 R 包慢。
- 创建某些可视化的灵活性有限。
在 DataCamp 上学习:
- 【ggplot2 课程数据可视化介绍
传单
传单最初是作为一个开源 JavaScript 库发布的,用于创建动态在线地图。同名的 R 包使得在 R 中创建这种可视化成为可能。R 中的传单是使用空间数据制作有吸引力的交互式 web 地图的完美工具。
广受欢迎,传单目前被许多网站和 GIS 专家使用,如纽约时报和 Mapbox。
主要特性:
- 专注于交互式地图。
- 直观简单的语法。
- 支持多种类型的地图对象,如线、多边形、地图切片和 GeoJSON。
优点:
- 有许多美学特征,使得地图在 R 社区中流行。
- 多种互动选项。
- 在 R Markdown 文档和闪亮的应用程序中嵌入地图的可能性。
缺点:
- 有自己的语法。
- 静态地图不如 ggplot2 的静态地图好。
在 DataCamp 上学习:
plotly
plotly 是一个 R 包,用于通过开源 JavaScript 图形库 plotly(也可用于 Python )创建交互式的、出版物质量的图形。由于其简单性和强大的输出,plotly 是许多大型技术公司的交互式数据可视化的标准库。
虽然 plotly 是基于 R 语法来创建绘图,但它使用 JavaScript 来呈现最终的图形,使得可视化非常适合现代 web 浏览器中的出版物。
主要特性:
- r 中交互式图形的定位工具。
- 提供与几种不同语言的兼容性,包括 R、Python、MATLAB、Perl 和 Julia。
- 非常适合网络出版物。
优点:
-
非常简单和直观的语法
-
多种互动选项
-
没有技术背景的人也可以使用 plotly GUI 创建交互式图形
缺点:
- 用 plotly 社区版本制作的可视化效果总是公开的
- 与其他工具相比,调色板和其他美学的数量是有限的
在 DataCamp 上学习:
基于 GUI 的顶级开源数据可视化工具
草图
RAWGraphs 是一个开源的数据可视化框架,旨在使复杂数据的可视化表示对每个人来说都很容易。它于 2013 年推出,是一个非常棒的数据可视化开源替代方案。
这是一个免费、直观的平台,允许用户快速、舒适地绘制数据,而无需编码。此外,它还包括将这些可视化嵌入到另一个网站上的可能性,并且无需创建帐户或注册电子邮件地址。
主要特性:
- 基于拖放的无代码工具
- 适用于学习环境,由于数据样本和用户友好的界面
- 电子表格应用程序和矢量图形编辑器之间缺少链接
优点:
- 完全自由
- 开始时不需要任何设置
- 可视化效果可以以多种格式导出
缺点:
- 有限的图形集合
- 有限的灵活性:只有少数美学参数可以调整
- 小型用户社区
谷歌图表
谷歌图表是在你的网站上可视化数据的完美工具。这是一个基于 JavaScript 的工具,可以从小型和大型数据集创建简单的可视化。Google Charts 提供了一个非常漂亮且易于使用的界面,您可以轻松地选择要使用的可视化类型。
它提供了一个相当广泛的交互式图形集合。虽然它不像其他基于 GUI 的数据可视化工具那样功能丰富,但 Google Charts 永远是免费的。
主要特性:
- 关注网站的交互式可视化。
- 无代码工具,面向没有技术技能的用户。
优点:
- 兼容所有商业浏览器。
- 直观、易用的平台。
- 目前,谷歌图表的使用是完全免费的
缺点:
- 有限的灵活性和美学控制功能
- 您将需要 JavaScript 的基本知识来在您的网站上发布您的可视化
数据包装器
如果你的主要工作领域是新闻业,DataWrapper 就是你需要的数据可视化工具。许多数字媒体已经采用了这种奇妙的工具来制作他们的图片,包括《华盛顿邮报》、《卫报》、Vox 和华尔街日报。
它易于使用,不需要编码。使用 DataWrapper,我们可以加载数据集,并以简单的方式将其转换为图形或地图。它也有一个广泛的模板基础,可以很容易地将这些可视化集成到您的网站中。
主要特性:
- 关注交互式可视化
- 在所有主流浏览器和移动平台上无缝运行
- 在数据新闻业非常受欢迎
优点:
- 您可以使用免费帐户创建无限数量的视图
- 不需要编码,简单易学
- 内置的色盲检查:使您的可视化色盲友好
缺点:
- 您只能从少数来源导入数据
- 功能有限的免费版本
- DataWrapper 高级计划比竞争工具更昂贵
商业智能工具和软件
(舞台上由人扮的)静态画面
Tableau 是一个强大而流行的数据可视化工具,允许您同时分析来自多个来源的数据。2003 年成立于斯坦福大学,2019 年,Salesforce 收购了该平台。
Tableau 是同类最佳的商业智能工具之一,顶级公司使用它从大量原始数据中提取见解。由于其直观和强大的平台,你可以用 Tableau 做任何事情。然而,如果您只是对构建简单的图表感兴趣,那么您应该选择不太健壮且更实惠的选项。
主要特性:
- 一流的商业智能平台
- 专为数据驱动型组织而设计
- 拖放界面使其易于使用
优点:
-
包括各种图表模板
-
可以处理大量数据
-
您可以从各种来源导入数据
-
快速创建交互式可视化和仪表板
缺点:
- 陡峭的学习曲线
- 尤其对于大机构来说,Tableau 是一个比较贵的产品。
- 有限的数据预处理功能。
在 DataCamp 上学习:
功率 BI
Power BI 是一个基于云的业务分析解决方案,它允许您将不同的数据源汇集在一起,对它们进行分析,并通过可视化、报告和仪表板呈现数据分析。
根据 Gartner 魔力象限,微软的 PowerBI 是业内 BI 解决方案的领导者。Power BI 使在组织内外的几乎任何设备上访问数据变得容易。
主要特性:
- 一流的商业智能平台
- 完全可定制的仪表板。
- 实时视图。
- 设想在公司内的用户和部门之间同时使用。
优点:
- 包括许多预设的图表和报告模板。
- 近年来,它已包括机器学习能力。
- 可在桌面和移动设备上使用。
- 比竞争对手更实惠的选择。
缺点:
- 有限的数据共享。
- 笨重的用户界面。
在 DataCamp 上学习:
Qlik
Qlik Sense 是一款数据可视化工具,专为希望使用增强分析来分析数据的大公司和个人而设计。Qlik Sense 是“QlikView”的继任者,QlikView 是一种类似(但更小)的可视化分析工具。
Qlik Sense 可以部署在内部或云中。该公司还运营着一个名为 Data Market 的产品,该产品为 QlikView 用户提供了一个公共可用数据集的精选列表,包括人口普查数据、财务数据和业务备案数据。
主要特性:
- 交互式图表。
- 直观的 GUI,面向拖放。
- 非常适合大型团队。
优点:
- 在线和离线工作。
- 可视化和先进的数据准备:它可以自动清理和排序您的数据。
- 适用于大型公司。
缺点:
- 不灵活的数据提取功能。
- 由于缺少一些基本图表,可视化有限。
- 与竞争对手相比,定价模式昂贵。
- 最适合有数据分析经验的人。
顶级数据可视化工具示例
如果您有兴趣了解上述工具的能力,这里有一个示例列表,可以从中获得启发:
Tableau 可视化示例—杰里米·约翰逊在欧洲的远程工作和学习。
在这个由 Tableau 制作并在 Tableau Public 上发布的关于远程工作的仪表盘中,Jeremy Johnson 研究了欧洲各国远程工作和在线教育的发展。
来源: Tableau Public
Power BI 可视化示例— Themistoklis Apostolidis 的新冠肺炎信息仪表板
这个新冠肺炎信息仪表板就是一个很好的例子来说明 Power BI 的魔力。仪表板提供了世界各地疫情的多种信息。
来源:电力毕廊
DataWrapper 示例—Lisa Charlotte Muth 的全球 IT 部门能耗
Lisa Charlotte Muth 使用 DataWrapper 创建了这张颇有见地的可视化图,比较了 IT 部门的能耗和几个国家的能源预算。
来源:数据包装器
成为数据可视化专家
我们希望你喜欢这篇文章。虽然了解市场上最佳数据可视化工具的不同选项很重要,但更重要的是了解如何自己创建数据可视化。数据营是来帮忙的。您可以在下面找到更多资源来指导您完成数据可视化之旅。
数据驱动的金融数字化转型的 13 个用例
在过去十年中,大数据和数字技术颠覆了行业和消费者行为。IDC 和 Statista 估计,每年生成的数据量从 2010 年的 2 zetta bytes 增加到 2020 年的 59 zettabytes,标志着仅在过去 10 年中生成的数据就增加了 30 倍( Statista )。预计这种数据洪流只会越来越大,预计到 2024 年每年将产生 149 吉字节。
虽然各行各业都在争相利用商业智能、数据科学和机器学习的数据洪流,但金融服务业最有条件从大数据中受益。数据是金融服务业的核心,包括零售银行、投资银行和保险。金融服务组织通过法规遵从性流程、保险索赔、股票市场交易等生成并存储客户交易数据、详细的客户资料。产生的数据量令人震惊:仅纽约证券交易所每天就产生 1tb 的交易数据( Investopedia )。
我们已经看到金融科技初创公司利用消费者行为的转变和金融业的数据洪流。N26、Revolut 和 Monzo 等数字银行放弃了实体模式,选择了纯粹的数字银行体验,依靠数据来改善用户体验和自动化工作流( Revolut )。欧洲最大的金融科技独角兽 Klarna 提供无息分期付款选项,使用机器学习(美国消费者新闻与商业频道)自动批准或拒绝。数据洪流不仅为颠覆性的创新服务开辟了空间,也为整个行业以数据为基础的数字化转型打开了大门。
各行各业颠覆性的数字优先创业公司促使许多现任者大举投资数字化转型。金融服务业也不例外。埃森哲和牛津在 2018 年的一项研究发现,87%的零售银行高管已经制定了技术投资和数字化转型的长期计划(埃森哲)。在新冠肺炎经济中尤其如此,它推动了消费者的网上购物,并加速了所有行业的数字化转型计划。
这种加速在金融服务业尤为紧迫。经济学人信息部最近的一项研究引用了 45%的银行高管认为建立一个“真正的数字生态系统”是对疫情最好的战略回应。在同一项调查中,66%的受访者认为,到 2025 年,机器学习和人工智能等新技术将对银行业带来最显著的影响。
举一个实际的例子,使用非接触式金融工具的紧迫性导致花旗银行的日常移动支票存款增加了 84%,Apple pay 的活跃度增加了 10 倍(福布斯)。这促使花旗集团总裁兼消费银行首席执行官简·弗雷泽宣称,“疫情的结果已经不可逆转地改变了银行业。转向数字的支点已经被增压。[…]我们相信我们拥有未来的模式——轻便的分支机构足迹、无缝的数字能力以及合作伙伴网络,将我们的触角延伸至数亿客户。”
这种数字化转型计划的成功取决于数字技术与数据驱动的见解和高效数据科学用例的无缝集成。这些高影响力的使用案例是什么?阻碍它们的挑战是什么?在我们的白皮书金融数字化转型:提升数据驱动时代的技能中,我们剖析了 13 个跨领域和行业的高影响力用例,以及大型金融机构在实现数据驱动方面面临的挑战。
2022 年数据趋势和预测
排名第一的组织加快文化转型计划
数据文化是人们的集体行为和信念,他们重视、实践并鼓励使用数据来改善决策。它为公司有效地从不断增长的数据集中获取价值奠定了基础和思维模式。
不幸的是,缺乏数据文化是一个组织走向数据驱动之路的主要障碍。
在 2022 年,我们预计首席数据官(CDO)将专注于数据文化的关键构建模块,包括适当的数据治理、数据扫盲计划和培养数据驱动的思维模式。这些是组织范围内数据驱动的决策过程的催化剂。
#2 组织将扩展数据治理
对自助分析不断增长的需求推动了对合规、可操作和高质量数据的需求。然而,衡量和维护数据质量的挑战与数据集的规模和复杂性密切相关。因此,公司正在调整他们的数据治理策略。
其中一个策略是在数据管道中采用数据可观测性。简而言之,数据可观测性旨在近乎实时地识别、排查和解决数据问题。
在 2022 年及以后,更多公司将扩大其数据治理计划,并采用新的现代工具来监控和检测数据质量问题。
#3: NLP 带来了新一代的低代码数据工具
在过去的几年里,NLP 有了巨大的发展,这要归功于对更大的大型语言模型(LLM)的军备竞赛,比如 T5、GPT-3 和威震天-图灵 NLG。
Large language models get larger over the years (Source)
LLM 正在挑战 NLP 的极限。最新的模型让社区感到惊讶,它们能够在没有任何明确培训的情况下生成各种类型的文本(如计算机代码和吉他标签)。
这种 NLP 模型有可能开创低代码和无代码工具的时代。今天,微软的 Power 应用允许非技术用户使用自然语言构建应用。这种工具将继续降低编码的壁垒,并促进组织内公民开发人员和公民数据科学家的崛起。
#4 L&D 成为公司文化的一部分
由于高管们担心他们的组织缺乏关键技能,公司将在 2022 年继续大力投资学习和发展(L & D)项目。这种研发项目的好处是显而易见的——世界经济论坛预测,到 2030 年, 38%的国内生产总值将来自技术升级。
随着劳动力继续应对疫情,我们希望公司将 L&D 预算分配到虚拟学习生态系统上,以促进有效学习并提供实践社区。希望大规模提高员工数据素养的公司可以利用现有的 L&D 计划作为内部数据科学技能学院。
数据趋势#5:组织内的 MLOps 将继续成熟
MLOps 是一套结合了机器学习、数据工程和 DevOps 的实践。它包括自动化机器学习工作流程的标准化流程。
公司只能通过生产级人工智能系统规模化地从机器学习中提取价值。这解释了为什么对 MLOps 的需求预计会大幅增长。事实上,据估计,到 2025 年,该行业的价值将达到 1261 亿美元。
在即将到来的一年,像 KubeFlow 和 MLFlow 这样的 MLOps 工具将会继续成熟。它们成为所有数据科学团队的主食只是时间问题。
数据趋势#6:负责任的人工智能变得更加可操作化
不幸的是,今天许多现有的人工智能系统充满了隐藏的偏见。因此,欧盟的监管者正计划让这种人工智能承担责任,预计许多人会效仿。公司必须确保他们的人工智能系统保持公平和负责任。那些做不到这一点的人可能会损害自己的声誉,并因加剧不平等而受到谴责。
这就是为什么公司越来越多地实施负责任的人工智能原则,以确保人工智能保持公平、可解释、保护隐私和安全。框架的一个例子是普华永道的负责任的人工智能工具包,它解决了负责任的人工智能的各个方面。
数据趋势#7:数据网格的兴起
当今大多数数据架构都是数据湖的形式。随着一种新形式的数据架构解决了数据湖的弱点,这种情况可能很快就会改变。
Zhamak Dehghani 创造了一种新的替代方法,叫做数据网格。数据网格已经分发了“数据产品”——每个产品都由数据工程师和产品所有者的跨职能团队处理。采用数据网格架构允许公司更快地交付数据,并实现更大的业务领域灵活性。
很快,随着使用数据湖的痛苦变得更加尖锐,公司将开始试验数据网格,正如 Zalando 和 Intuit 所做的那样。
数据趋势#8:新一代工具将提高数据团队的生产力
各种数据科学生产力工具在 2021 年出现,并将在未来几年继续流行。这些工具减少了对手动工作的需求,并允许数据科学家执行更高价值的任务。
这样的生产力工具包括 AutoML 工具(像 H2O AutoML 和 Auto PyTorch ),它自动化了机器学习模型选择甚至超参数调整的过程。
大量的合成数据生成工具也一直在增加。他们在大规模创建平衡且有标签的数据集的能力对渴望数据的公司尤其有吸引力。
大型数据科学团队可能也会发现协作工具,如 Databricks 和 DataCamp Workspace 非常有用。这些工具允许数据科学家在数据探索和 ML 建模中异步协作。
数据趋势#9:人才短缺和弹性工作将扩大和改善对数据人才的搜寻
随着“大辞职潮”愈演愈烈,人才短缺变得越来越严重。这种现象促使组织重新思考如何招聘和留住数据人才。
特别是,我们希望公司在招聘政策中优先考虑技能而不是邮政编码,自 2020 年 3 月以来,LinkedIn 上的远程职位发布数量增加了 280%。此外,随着 FAANG 公司接受在家工作的安排,我们希望其他科技公司也能效仿,为员工提供灵活的工作选择。
有关我们 2022 年数据趋势和预测的更多信息,请下载免费白皮书,或注册参加我们即将举办的网络研讨会,我们将在会上深入探讨数据科学在新的一年将会发生什么!
关于数据科学的 25 个有趣事实
数据科学有趣的事实
当您想到数据时,您通常会想到代码行和数字。但是数据科学可以用于一些真正壮观的事情,你可以用其中的一些来玩两个真相和一个谎言的游戏。事实上,这正是 DataCamp 在 Instagram 上一周所做的事情!
- 一个人工智能生成的文本预测模型被训练写一部哈利波特小说。
- 数据可视化被用来影响公共政策的最早案例是在为英国士兵争取更好的卫生条件的时候。
- 波士顿的 Wyss 研究所正在开发人工智能驱动的蜜蜂,用于农作物授粉、气候监测和监视等。
- 芝加哥市使用 R 来预测哪些餐馆可能在卫生检查中违规,基于诸如自上次检查以来的时间、附近卫生投诉的数量以及被检查的设施类型等因素。对这些网点进行优先审查,他们能够平均提前一周发现违规者。
- 一个由人工智能驱动的软件被创造出来,它可以以 90%的准确率预测奥斯卡的结果。
- 许多企业大量使用 Python,但 Dropbox 在 2008 年成立时几乎完全是基于编程语言构建的。Python 与 Dropbox 如此不可或缺,以至于 2013 年他们成功说服 Python 的创造者吉多·范·罗苏姆加入他们的团队。他同意了,条件是他不会被安排到管理或领导岗位。
关于数据科学使用的事实
随着数据改变世界,企业认识到它是一股不可忽视的力量。
- 从最初到 2003 年,谷歌已经创建了 5eb 的数据。到 2010 年,这一数量的数据是每两天创建一次,到 2021 年,每 40 分钟创建一次。
- 地球上的每一粒沙子大约有 40 万字节的数据。
- 根据麦肯锡的数据,利用客户分析的公司在获取客户方面比竞争对手高出 23 倍(在保持客户方面高出 9 倍)。
- 2020 年,公司分配给营销分析的营销预算金额增加了 198% 。
- 2019 年,据报道,只有 27%的组织能够充分利用他们的数据来产生可操作的见解,不断增长的数据技能差距被列为主要原因。
- 70% 组织的数字化转型计划未能实现其既定目标。这正是商业数据营可以提供帮助的地方!
关于数据科学职业的事实
考虑到以上所有因素,难怪数据科学和分析是非常令人垂涎的技能。拥有这些技能的人享有光明的职业前景和一系列可供选择的职位。
- 根据世界经济论坛 2021 年的一份报告,数据科学被确定为技能差距最大的技能。
- 2020 年,数据科学工作清单的数量超过了搜索此类工作的人数,比例为 3 比 1。
- 根据美国劳工统计局的数据,数据科学家的平均工资是 10 万美元,分析师的平均工资是 7 万美元(T2)。
- 许多数据科学家的职位只需要一个定量学科的学位。如果您拥有以下职位之一,您可能已经有资格申请这些职位:
- 英国国家医疗服务系统估计,到 2040 年,它将要求 90%的员工具备数据素养。
- SQL 和 Python 以及分别在专业开发人员中排名第三和第四的技术。
- 数据科学家 80%的时间花在组织数据上。
- 有效的数据叙述是数据科学家可以学习的最强大的技能之一。
- 自 2010 年以来,数据分析师的数量已经增加了一倍多。
数据科学培训和教育事实
- 据《发现数据科学》报道,五年前,数据科学专业的学士学位几乎不存在。现在美国有超过 50 所高等教育机构提供这种课程。
- 2015 年,在英国学校学生及其家长中进行的一项民意调查发现,与外语相比,大多数学生更喜欢学习 Python。
- 63%的公司利用在线学习来培训员工掌握新技能,并保持现有技能。
- 数据科学现在推动了 Adwords、脸书和亚马逊对大公司数字营销支出的 90%以上的竞标。像 NeuralEdge (Adwords)和advertio(亚马逊广告)这样的机构使用数据科学来计算最佳广告出价
- 99%的组织正在积极投资数据转型计划。
数据将改变世界,掌握数据将为你的职业带来回报。无论您是想学习如何使用数据来处理数字、讲故事,还是想让您的工作流程更加高效,我们在 DataCamp 上都有!你知道吗,我们正在开展一项限量的 $1 月订阅促销活动?立即注册,利用这一惊人的优惠!
学习 Caret 的 3 个理由
原文:https://web.archive.org/web/20230101103415/https://www.datacamp.com/blog/3-reasons-to-learn-caret
机器学习是对从数据中学习并对数据进行预测的算法的研究和应用。从搜索结果到自动驾驶汽车,它已经在我们生活的各个领域表现出来,是数据科学领域最令人兴奋和发展最快的研究领域之一。由 Max Kuhn 维护的caret
包是 R 社区中用于预测建模和监督学习的首选包。这个广泛使用的包为所有 R 最强大的机器学习设施提供了一致的接口。需要更有说服力的吗?在本帖中,我们探讨了你应该学习caret
包的 3 个原因。之后,你可以参加 DataCamp 的机器学习工具箱课程,该课程由caret
软件包的合著者扎卡里·迪恩-迈尔&马克斯·库恩教授!
1。它可以帮你找到一份数据科学的工作
有没有通读过数据科学的招聘信息,看到过“预测建模”、“分类”、“回归”或“机器学习”这样的词?如果你正在寻找一个数据科学的职位,你将有机会拥有所有这些主题的经验和知识。幸运的是,caret
套餐已经覆盖了你。caret
包以 R 被誉为机器学习的“瑞士军刀”;能够以直观、一致的格式执行许多任务。查看 Kaggle 最近发布的数据科学家职位,这些职位都在寻找具有 R 和机器学习知识的候选人:
2。这是最受欢迎的 R 包之一
这个caret
包每月直接下载超过 38000 次,是 R 社区中最受欢迎的包之一。随之而来的是巨大的好处,包括大量的文档和有用的教程。您可以安装Rdocumentation
包来直接在您的 R 控制台中访问有用的文档和社区示例。只需复制并粘贴以下代码:
# Install and load RDocumentation for comprehensive help with R packages and functions
install.packages("RDocumentation")
library("RDocumentation")
当然,学习广泛使用的软件包的另一个好处是你的同事也可能在他们的工作中使用caret
——这意味着你可以更容易地在项目上合作。另外,caret
也是大量附加机器学习和建模包的依赖包。理解caret
是如何工作的将使学习更有用的 R 包变得更容易和更流畅。
3。很好学,但是很厉害
如果你是一个初学 R 的用户,caret
包为执行复杂的任务提供了一个简单的界面。例如,您可以用一种简单、方便的格式训练多种不同类型的模型。您还可以监视各种参数组合并评估性能,以了解它们对您尝试构建的模型的影响。此外,caret
软件包通过比较特定问题的精确度和性能,帮助您决定最合适的模型。
完成下面的代码挑战,看看用caret
构建模型和预测值有多简单。我们已经将mtcars
数据集分成了训练集train
和测试集test
。这两个对象在控制台中都可用。您的目标是根据重量预测test
数据集中每辆车的每加仑英里数。自己看看caret
包如何只用两行代码就能处理这项任务!
eyJsYW5ndWFnZSI6InIiLCJwcmVfZXhlcmNpc2VfY29kZSI6IiAgICAgICAgIyBMb2FkIGNhcmV0IHBhY2thZ2VcbiAgICAgICAgICBsaWJyYXJ5KGNhcmV0KVxuICAgICAgICAjIHNldCBzZWVkIGZvciByZXByb2R1Y2libGUgcmVzdWx0c1xuICAgICAgICAgIHNldC5zZWVkKDExKVxuICAgICAgICAjIERldGVybWluZSByb3cgdG8gc3BsaXQgb246IHNwbGl0XG4gICAgICAgICAgc3BsaXQgPC0gcm91bmQobnJvdyhtdGNhcnMpICogLjgwKVxuXG4gICAgICAgICMgQ3JlYXRlIHRyYWluXG4gICAgICAgICAgdHJhaW4gPC0gbXRjYXJzWzE6c3BsaXQsIF1cblxuICAgICAgICAjIENyZWF0ZSB0ZXN0XG4gICAgICAgICAgdGVzdCA8LSBtdGNhcnNbKHNwbGl0ICsgMSk6bnJvdyhtdGNhcnMpLCBdIiwic2FtcGxlIjoiIyBGaW5pc2ggdGhlIG1vZGVsIGJ5IHJlcGxhY2luZyB0aGUgYmxhbmsgd2l0aCB0aGUgYHRyYWluYCBvYmplY3Rcbm10Y2Fyc19tb2RlbCA8LSB0cmFpbihtcGcgfiB3dCwgZGF0YSA9IF9fXywgbWV0aG9kID0gXCJsbVwiKVxuXG4jIFByZWRpY3QgdGhlIG1wZyBvZiBlYWNoIGNhciBieSByZXBsYWNpbmcgdGhlIGJsYW5rIHdpdGggdGhlIGB0ZXN0YCBvYmplY3RcbnJlc3VsdHMgPC0gcHJlZGljdChtdGNhcnNfbW9kZWwsIG5ld2RhdGEgPSBfX18pXG4gICAgICAgXG4jIFByaW50IHRoZSBgcmVzdWx0c2Agb2JqZWN0XG5yZXN1bHRzIiwic29sdXRpb24iOiIjIEZpbmlzaCB0aGUgbW9kZWwgYnkgcmVwbGFjaW5nIHRoZSBibGFuayB3aXRoIHRoZSBgdHJhaW5gIG9iamVjdFxubXRjYXJzX21vZGVsIDwtIHRyYWluKG1wZyB+IHd0LCBkYXRhID0gdHJhaW4sIG1ldGhvZCA9IFwibG1cIilcblxuIyBQcmVkaWN0IHRoZSBtcGcgb2YgZWFjaCBjYXIgYnkgcmVwbGFjaW5nIHRoZSBibGFuayB3aXRoIHRoZSBgdGVzdGAgb2JqZWN0XG5yZXN1bHRzIDwtIHByZWRpY3QobXRjYXJzX21vZGVsLCBuZXdkYXRhID0gdGVzdClcbiAgICAgICBcbiMgUHJpbnQgdGhlIGByZXN1bHRzYCBvYmplY3RcbnJlc3VsdHMiLCJzY3QiOiJ0ZXN0X2V4cHJlc3Npb25fb3V0cHV0KFwibXRjYXJzX21vZGVsXCIsIGluY29ycmVjdF9tc2cgPSBcIlRoZXJlJ3Mgc29tZXRoaW5nIHdyb25nIHdpdGggYG10Y2Fyc19tb2RlbGAuIEhhdmUgeW91IHNwZWNpZmllZCB0aGUgcmlnaHQgZm9ybXVsYSB1c2luZyB0aGUgYHRyYWluYCBkYXRhc2V0P1wiKVxuXG50ZXN0X2V4cHJlc3Npb25fb3V0cHV0KFwicmVzdWx0c1wiLCBpbmNvcnJlY3RfbXNnID0gXCJUaGVyZSdzIHNvbWV0aGluZyB3cm9uZyB3aXRoIGByZXN1bHRzYC4gSGF2ZSB5b3Ugc3BlY2lmaWVkIHRoZSByaWdodCBmb3JtdWxhIHVzaW5nIHRoZSBgcHJlZGljdCgpYCBmdW5jdGlvbiBhbmQgdGhlIGB0ZXN0YCBkYXRhc2V0P1wiKVxuXG5zdWNjZXNzX21zZyhcIkNvcnJlY3Q6IFNlZSBob3cgZWFzeSB0aGUgY2FyZXQgcGFja2FnZSBjYW4gYmU/XCIpIn0=
想自己学?
你很幸运!DataCamp 刚刚发布了一个全新的机器学习工具箱课程。该课程由一揽子计划的合著者 Max Kuhn 和 Zachary Deane-Mayer 教授。您将通过 24 个视频和 88 个互动练习,直接向编写软件包的人学习。该课程还包括一个客户流失案例研究,让您可以测试您的caret
技能,并获得实际的机器学习经验。你还在等什么?立即参加课程!
所有团队都应该学习 R 的 3 个理由
现代时代的数字化转型
在我们日益高度互联和数字化的世界中,每天都会从许多在线互动中产生大量数据。许多组织认识到了这一点的价值,并已着手进行数字化转型,以利用不断增长的数据量来推动其业务发展。
随着企业努力成为数据驱动型企业,有几个关键因素必须正确对待,其中之一就是为员工配备正确的数据工具,让他们能够最好地完成工作。
r 是一个强大的工具,它构成了现代数据科学工具包不可或缺的一部分。在这篇博客文章中,我们探索了 R 的能力以及为什么你应该用它来培训你的团队的令人信服的理由。
R 是什么?
r 是一种为统计分析和数据可视化而优化的开源编程语言。它由统计学家 Ross Ihaka 和 Robert Gentlemen 于 20 世纪 90 年代初开发,现已发展成为一个著名的数据挖掘和分析生态系统。
它的目标是创建一种更加用户友好的方式来执行统计、数据分析和数据可视化。尽管 R 有着悠久的历史,但它在当今的数据科学中仍然非常流行,并且通常被认为是初学者入门门槛较低的编程语言。
r 是一个丰富的社区驱动的生态系统的所在地,该生态系统由 CRAN 仓库中的 17,000 多个精选包组成。r 包类似于允许从业者在 r 上执行各种任务的应用程序。通过数据专业人员的审核贡献,存储库由许多模型和工具组成,使用户能够准备数据、构建强大的统计模型和创建漂亮的可视化效果。
下面是一些 R 的行业用例:
-
ANZ(澳新银行集团)在信用风险分析中使用 R 评估贷款违约概率
-
John Deere 使用 R 来预测客户对其设备的需求,以便他们能够根据影响订单履行的因素进行最佳调整
-
Zillow 是美国领先的房地产市场,它使用 R 来估算房价。
-
芝加哥市使用 R预测哪些餐厅可能在卫生检查中违规以优先审查这些餐厅。
-
AirBnB 开发了内部 R 包来促进数据在不同存储位置之间的高效移动(例如 Presto、AWS S3)
如果你想知道R 的名字是怎么来的,它是基于两位创造者(Ross Ihaka 和 Robert Gentleman)的名字,以及对更老的 S 编程语言名称的戏谑,R 就是建立在这种语言之上的。
R 怎么有用?
㈠易用性和可及性
R 的一个关键优势是提供了大量成熟的数据操作和统计分析包。它的开源特性也意味着任何人都可以获得 R 的丰富功能。在广泛的 R 生态系统中, Tidyverse 是最著名的数据科学 R 包集合。
Tidyverse 是一组易于使用的包,设计用于数据导入、操作、可视化和报告任务。这些包共享相同的设计、语法和数据结构,这反过来简化了 R 的学习,因为熟悉一个包可以让您轻松地过渡到下一个包。
R 还被普遍认为是数据操作更容易的编程语言之一,因此学习和应用 R 的障碍相对较低。
虽然 Excel 等电子表格软件可以执行数据分析,但它很难处理涉及大数据集的长期重复数据操作任务。如果您尝试过在 Excel 中处理超过 100,000 行的大型数据集,您就会理解程序会变得多么缓慢。
With 3 intuitive lines of code, you can filter a dataset based on column condition, and arrange it by another column condition
相反,R 可以有效地产生详细的分析,即使是对于大型数据集。这对于那些需要重复处理大量复杂的大型数据集,并且不能消耗太多时间或计算资源的项目很有帮助。
㈡数据处理和可视化
Tidyverse 集合包含为数据相关任务设计的包,包括一些流行的包,如:
-
dplyr–包含一组易于理解的数据操作命令
-
tidyr–提供以整齐的格式创建数据以供分析和存储的功能
-
【gg plot 2】–包含用于构建有效数据可视化的方法和函数
当串联使用时,这些软件包允许用户有效地执行数据操作和分析,并以高度精确和信息丰富的可视化方式有效地呈现见解。
From the ggplot2 plot above, we can readily glean insights about the GDP per capita across continents over time.
㈢报告和仪表板
在执行数据操作、分析和建模之后,最后一步(也可以说是最重要的一步)是确保有意义地交流见解。
除了使用 ggplot2 构建的静态可视化之外,还可以为利益相关者创建交互式仪表盘,以参与自助式商业智能。这些仪表板允许业务用户自己直接访问仪表板,以回答他们自己的数据问题
Shiny 是一个优秀的 R 包,它使人们能够轻松地构建和发布仪表板并与他人分享。它的易用性甚至允许那些没有太多技术经验的人创建强大和专业的仪表板。
以下是一个用于监控新西兰贸易信息的闪亮仪表板示例:
Source: RStudio Shiny Gallery
用 R 民主化数据科学
根据 Forrester 的调查,公司不到 50%的决策是基于数据,而不是直觉、经验或意见。为了释放数据的价值,员工需要提升技能,用工具武装自己,以便高效地从数据中学习。
好消息是强大的数据工具根本不需要花费太多。r 是一种免费的开源编程语言,使得执行关键的数据科学任务变得容易,比如数据操作、建模和可视化。
r 对于技术和非技术员工来说是一种实用而直观的技能,因为它的准入门槛相对较低。有了这些有价值的数据技能,企业就能以数据驱动型公司的方式实现积极的业务成果。
我在 JupyterCon 学到的 3 件事
Jupyter 项目可能因 Jupyter 笔记本而闻名,但是,正如我们将看到的,围绕该项目还有许多其他令人兴奋的发展。如果你还没有体验过 Jupyter 笔记本的交互式、可再现的数据科学分析、计算和通信,你可以在这里查看它们。这个项目本身说得最好:
Jupyter Notebook 是一个开源的 web 应用程序,允许您创建和共享包含实时代码、等式、可视化和说明性文本的文档。用途包括:数据清理和转换、数值模拟、统计建模、机器学习等等。
正如我们将看到的,Jupyter 生态系统不仅仅包含笔记本电脑。Project Jupyter 也不仅仅是内核和基于浏览器的前端。Anaconda 的联合创始人兼首席技术官王蒙杰说得好,Jupyter 是创新的基础。我最近参加了纽约市的首届 JupyterCon。这是第一次致力于 Jupyter 生态系统的会议,在过去的几年里,Jupyter 生态系统发展迅速,我非常高兴能够参加这次会议,讨论技术、发展、开源和社区。这些是我从这次会议中得到的一些启发。
1.Python 社区对数据科学的未来有一个强烈的、巨大的愿景
JupyterCon 主题演讲关注并展望了我们这个时代最紧迫的一些挑战。无论您是一名初出茅庐的数据科学家还是经验丰富的数据科学家,这些演讲中涉及的要点都将与您今天的工作和未来的工作相关:开源项目的可持续性、可再生数据科学、数据科学的教育前景以及我们的社区领导者对交互式可再生计算未来的愿景。
可持续性
IPython 的创建者、Jupyter 项目的联合负责人、加州大学伯克利分校的教授费尔南多·佩雷斯谈到了该项目的长期可持续性。他讨论了 IPython 和 Jupyter 背后的动机,以及其他许多现在已经牢牢地放在科学计算 Python 堆栈中的项目。这些项目提供了计算环境,反映了手头的科学任务,以及相关的概念和认知过程,快速加载数据、探索数据、可视化数据和讲述故事的能力。在这之上是另一层动机,一个与使用工具和合作可能性有关的道德层面。例如,如果 Fernando 主要使用需要昂贵许可证的专有工具,他就不一定能够与他在哥伦比亚的前顾问一起工作。此外,他强调了使用封闭源代码工具的陷阱:“如果科学是为了打开自然的黑匣子,我们就不应该使用法律上不允许我们打开和理解的工具来做科学。”
目标是为交互式计算和科学建立以人为中心的工具;帮助你思考和推理复杂问题的工具,使人类驱动的计算、探索和交流成为可能。
展望未来,Fernando 建议底层协议不应该成为分叉发生的地方,并且需要就协议和格式达成一致。它们是基础设施的主干,必须有竞争和发展,但这应该是在树叶中,因为我们需要就基础达成一致。
那么在生态系统的枝叶中发生了什么呢?JupyterLab,一个用于交互式和可复制计算的可扩展环境,nbdime,它提供了用于区分和合并 Jupyter 笔记本、Jupyterhub、笔记本多用户集线器和 Binder 的工具,在可执行环境中打开笔记本,以及许多其他项目。
他还讨论了可持续性的挑战、资金的作用以及像 NUMFOCUS 这样的组织管理开源项目并牢记其增长、健康和可持续性的必要性。
Anaconda 的联合创始人兼首席技术官王蒙杰回顾了 Jupyter 和 Anaconda 之间的相似之处,并明确表示,在这两种情况下,我们都处在一个转折点。用户群经历了从创新者和早期采用者到主流用户的技术转变。后者可能不会在周六晚上发出拉请求,但会使用该工具来完成工作。为了满足这些新的需求,彼得想,将有效地改变我们作为一个社区的工作,就像从一个在车库里表演的乐队转移到一个体育场里表演一样。Peter 本质上说,我们需要作为一个社区进行这种对话,因为在这些关键时刻,可持续性是必不可少的。项目需要严格和良好的记录,我们需要强调教程,研讨会和成长,并增加新的开发人员到相关的团队。
由于有大量的资金从公共和私人利益中流入,所以对其进行组织是至关重要的,这也是像 NUMFOCUS 这样的组织如此重要的原因之一。
Peter 接着纠正了一个常见的误解,即 Jupyter 和 Anaconda 只是工具,并指出它们实际上是创新的基础。它们形成了原子计算任务的通用框架,让我们所有人都能建立一种通用语言,通过这种语言,创新者、创造者和消费者之间形成了一个价值网络,本质上是一个数据科学市场。
在 github 开源项目工作的 Nadia Eghbal 谈到了金钱与开源的相遇,从资金的角度构建了可持续发展对话。
她首先向开源社区提出了一个假设性的问题,“如果你有钱,你会怎么花?”
为了回答这个问题,娜迪亚问了另一个问题,“人们为什么要捐款?”最常见的答案是
- “我想解决一个问题”(尤其是在项目的早期)
- “我想建立我的简历”(各种公开简历)
- “我觉得我属于这里。”(为社区而留!)
- “对我来说很好玩!”
请注意,对于任何个人来说,这些激励可以随着时间的推移而改变,例如,用户可以成为贡献者,也可以成为维护者。根据项目所处的阶段,资金可能以不同的方式得到最好的利用。举个例子,
- 在项目开始时,可能会有启动费用;
- 那么你的钱可能最好花在宣传你的项目以获得用户,赞助社区活动和会议上;
- 在某种程度上,通过面对面的冲刺、研讨会和维护者会议来降低贡献的障碍是很重要的。
思考资金在开源软件开发中的作用是一个重要的、尚未解决的问题,也是其成功的关键。
再现性
乔治·华盛顿大学机械和航空航天工程副教授 Lorena Barba 谈到了 T2 设计在科学再现性中的作用。她问“为什么我们关心计算的可复制性?”并表示我们关心是因为我们将计算作为一种创造关于世界和科学发现的新知识的方式。科学要求再现性!像 Jupyter 这样的项目要想保持可持续性和相关性,它需要满足用户的需求,可复制性就是其中之一。
洛雷纳质疑交互性如何促进再现性。例如,GUI 不适合再现性,因为再现所有指向和点击步骤不容易记录)。但是如果我们把科学看作是一种对话,在这种对话中,我们都有目标,有共同的语言,并有希望达成一致的互动,那么 Jupyter 就可以被看作是一种为再现性而定义的界面,一种增加一致并建立信任的共同语言。
熊猫的创造者韦斯·麦金尼(Wes McKinney)退后一步说,Jupyter 面临的挑战比 Python 更大,涉及交互式计算和可再生研究的普遍问题。一个主要问题是,当我们拥有有效的数据科学语言筒仓(Wes 将这一景观描述为几乎是部落的)时,如何以可重复的方式加载、操作数据、转换数据并报告数据:pandas 构建了许多很酷的东西,然而它是依赖于 Python 的;在 R 和 Python 中,你可以做同样的分析(例如,a group_by
),但是底层的实现完全不同。
Wes 的愿景包括一个共享的数据科学运行时来缩小这些孤岛,就像 Jupyter 在前端缩小孤岛一样。但是怎么做呢?
- 能够拥有可跨环境移植的数据帧内存格式,并且具有零拷贝交换(例如,将数据帧从 R 迁移到 Python 不需要成本)
- 在没有开销的情况下在生态系统之间共享数据帧;
- 高性能数据访问;
- 灵活的计算引擎。
Apache Arrow 的项目是创建一种与语言无关的零拷贝交换数据帧格式。MVP 是 Wes 和 Hadley Wickham 去年实现的。
杰里米·弗里曼(Jeremy Freeman),Chan-Zuckerberg Initiative 的计算生物学家,在开源和开放科学的交汇处工作。他的愿景是坚定地以实际方法为中心,使科学研究和进步更快、更有效率、更有效、可扩展和协作。总之,通过软件和计算工具来加速科学进步。他已经确定并正在应对的最大挑战是:
- 支持分析(当您的工作流程需要如此多的工具时,您如何使用笔记本电脑实时分析数据?)
- 建立协作,例如人类细胞图谱,其目标是系统地表征人体中的所有细胞)。这涉及到数百个实验室的数据协调平台,重新想象有了云,大规模的科学合作会是什么样子;重新想象这些协作成果(数据协调平台)的现代、基于云、可扩展和高度模块化的版本会是什么样子!
- 分享知识。杰里米提出了一个突出的观点,即科学以一种非常老式的方式分享知识:既不包含代码也不包含数据的静态文档,其中许多都在付费墙后面。未来的可能性包括用于交互式科学研究的 Jupyter 笔记本和活页夹。
教育
随着数据科学的发展并扩展到所有类型的行业,瓶颈之一是缺乏工作数据科学家。为了解决这个问题,我们 DataCamp 认为数据科学教育至关重要。我们还将看到,对所有现代公民来说,掌握数据知识和提高数据流畅性变得越来越重要。
在上面讨论的主题演讲中,费尔南多·佩雷斯还谈到了教育目前的关键作用,以及技术如何改变教育的面貌,以及我们如何利用这一点。例如,伯克利数据科学基础课程的教材包含了交互式笔记本。他还谈到数据科学是现代公民必备的技能。
在线深度学习学校 fast.ai 的联合创始人、数学家 Rachel Thomas 谈到了 fast.ai 课程,该课程使用 Jupyter 笔记本向全球 1000 名学生中的 10 名教授深度学习。这是一种前瞻性的教育模式,所有背景的学生都可以在最小的背景下使用现代深度学习技术。fast.ai 的座右铭是“会编码就能做深度学习”。它是免费的,没有高级数学先决条件,都是在 Jupyter 笔记本上教授的,他们使用了大量来自 Kaggle 的数据,确保了良好的数据源和良好的基准,并使技术与图像分析和自然语言处理中的应用相关,学生们可以立即在云实例上开始使用单个 GPU。Rachel 甚至在她的主题演讲中说“你学习不是通过听或看,而是通过做”,这与我们在 DataCamp 的座右铭“在做中学习”是一致的!
哈佛大学电子工程和生物工程助理教授登巴·巴正在努力赋予他的学生权力,并使计算教育民主化。引用费尔南多·佩雷斯的“数据科学是现代世界公民学习的一项关键技能”,登巴的目标是通过创建整合理论和计算的教育内容以及无缝编码界面的设计来弥合电气工程和计算机科学之间的差距,以便专注于学习内容。他的课程侧重于工具的垂直整合,在这种情况下,学生将收集自己的数据,上传到云,在笔记本上处理,获取输出,并以物联网的方式做出实时决策。他的课程通过在亚马逊网络服务上托管所有课程笔记本来利用现代技术,重点是与学生相关的数据、问题形成、数据收集和分析。登巴表示,“在未来,数据操作设施将成为文化的一部分”,以数据为中心的教学必然会在其他领域越来越多地出现,如政府和新闻业。
2.JupyterLab 是交互式开放数据科学的未来
我参加了 JupyterLab 的研讨会和讲座,这都是非常令人兴奋的消息。一个额外的收获是看到核心木星实验室的贡献者布莱恩·格兰杰、克里斯·科尔伯特、杰森·格劳特和伊恩·罗斯对此有多兴奋。JupyterLab 是什么?回想一下,Jupyter 笔记本电脑提供了交互式、探索性和可复制的计算环境。JupyterLab 旨在提供一个一站式商店,作为用户,您可以在其中组合您在数据科学工作流中需要的所有构建模块:
- 笔记本电脑
- 文件浏览器
- 文本和降价编辑器
- 安慰
- bash 终端
- 。csv 查看器
您不仅可以按照自己的意愿配置上面列出的任意数量的构建块,而且它们可以相互交互。例如,您可以将单元格从一个笔记本拖放到另一个笔记本,您可以在 JupyterLab 中实时查看 markdown 预览,预览会实时更新,您可以将一个实时控制台附加到 markdown 文档,从而直接在控制台中执行 markdown 中的代码!
有太多令人兴奋的开发,包括. csv 查看器,它允许您实时滚动 1 万亿行 1 万亿列的文件),交互式浏览 json 文件和 git 集成(是的!).
对我来说,最令人兴奋的发展是能够合作开发笔记本电脑,从而在代码、数据科学通信和计算环境方面进行合作。要明确的是,现在 Jupyter 笔记本上有实时协作,你和我可以在同一台笔记本上远程工作(技术说明:我们将运行不同的内核,但这并不总是如此),在聊天窗口中讨论我们的工作,并将代码、文本和方程从聊天中拖放到笔记本上。
您还可以构建自己的 Jupyter 扩展(据我所知,git 集成就是这样构建的),随着 JupyterLab 的发展,这将是生态系统和 Jupyter lab 的巨大胜利。我鼓励大家通过观看 2017 年西雅图 PyData 的演示来了解更多信息。
3.数据新闻是一个尚未解决的挑战,我们都可以为此做出贡献
DataCamp 的数据科学记者 Karlijn Willems 介绍了 Jupyter 项目在加强数据新闻实践中的作用。Karlijn 关注数据新闻业面临的几个挑战,其中最重要的是
- 数据新闻工作流程
- 可复制的数据新闻
- 数据新闻写作标准。
我在 Karlijn 的演讲中发现了很多东西,我知道最近的数据新闻作品,如网球拍和巴拿马文件,但我不太清楚数据新闻至少可以追溯到 1821 年,当时《卫报》出版了第一期,出版了第一份统计表。
Karlijn 讨论了几种不同的方法来开发一个标准的数据新闻工作流程,它可以借鉴设计思维和叙事理论等不同的领域。设计思维本质上是应用一种迭代的方法来寻找你的产品(或者问题,在这种情况下),叙事理论具体地告诉我们如何讲故事,我们都这样做,无论我们是研究科学家、记者、数据科学家还是数据记者。这些方法与开源软件开发的科学过程和方法相结合,为数据新闻工作流程的发展提供了肥沃的土壤。我们所有从这些不同领域的错误中吸取教训的人都可以帮助定义一个新兴领域。
可复制的数据新闻,嗯,可复制的任何东西都是当今的一个大问题。如果我在 fivethirtyeight 上看了一篇数据新闻,如何验证其结果、工作流程、方法是否正确?或者数据实际上是它所声称的那样?随着科学界陷入可重复性危机,我们正处于一个临界点,数据新闻可以通过制定社区标准来避免这种危机,例如提供用于生成分析的代码。在一个由点击诱饵和假新闻主导的时代,可复制的数据新闻也是至关重要的,在这个时代,许多人不知道该相信什么或相信谁。例如,Jupyter 笔记本是展示这些代码的好方法,在 github 上这样做,任何人都可以查看以前版本的代码/分析。我们需要考虑的问题:
- 我的数据是可复制的吗(如果我是在某一天收集的呢?)?
- 我的计算环境是可复制的吗?
- 我的代码是可复制的吗?
- 都是公开可复制的吗?
Karlijn 在她的演讲中向我介绍了 Brian C. Keegan 撰写的一篇名为 的文章《数据新闻业开放的必要性 ,该文章详细描述了数据新闻业面临的这些(以及更多)挑战,并试图复制一篇关于好莱坞性别偏见的fivethirtyeeight 文章,但未获成功。
Karlijn 提出的最有趣的观点之一是数据新闻写作标准的发展,这看起来可能有点不性感,但却是至关重要的。这项技术目前远远领先于媒体。有几种方法可以将计算笔记本和文档转化为网站(例如,参见 pelican、jekyll 和 hugo ),但问题仍然存在:如果我在 Jupyter 笔记本或 R markdown 中制作了一篇数据新闻,我该如何将其提交给 Upshot 或 fivethirtyeight?需要说明的是,这并不是科学出版作为一个整体已经弄清楚的事情。
所有这些都为记者、研究科学家、设计师、开源软件开发者和数据科学家之间的对话提供了肥沃的土壤,以探索数据新闻的可能未来。
数据科学项目的三种合作者
成功的数据科学项目需要跨团队协作。如果没有与所有相关利益方的适当合作,数据科学项目就不会有影响力。在最近的 DataCamp 网络研讨会中,Lucid Software 内部工程部门的工程经理 Brian Campbell 讨论了数据科学项目跨团队协作的最佳实践。
三种类型的合作者
数据科学家必须与其他利益相关方合作,以提高项目的影响力。数据科学家应该依靠组织内的其他人来更好地了解他们感兴趣的问题背后的业务价值和指标,如何在复杂的数据环境中导航,以及如何向客户部署他们的模型。在网上研讨会中,Brian 讨论了三种类型的合作者:
问题专家
问题专家是为数据科学项目奠定基础的合作者。他们的工作是为项目提供领域专业知识,并定义问题陈述。
问题专家非常了解受数据科学项目影响的指标,以及它们如何转化为业务成果。他们也知道一个有价值的模型所需要的准确性。这些知识是非常重要的信息,因为没有一个模型是完全准确的。理解什么是合理的和有价值的目标对于在项目早期定义目标和设定期望是至关重要的。
数据专家
数据是任何成功的数据科学项目的关键要素。许多组织拥有复杂的数据环境,这使得了解哪些数据可用以及需要哪些数据来解决问题变得非常困难。
数据专家负责了解某个领域中有哪些数据可用,如何获取数据,以及哪些数据最适合特定的业务问题。他们自己有时也可能是问题专家,但通常在组织中担任数据工程角色。
实施专家
最后,实现专家负责理解如何向客户部署这些模型。他们是大规模部署模型所需的基础设施和资源方面的专家。
当与这些专家合作时,让他们提前了解项目是很重要的,这样他们就有时间确保当模型准备好被部署时有合适的基础设施。了解工作将如何被使用也很重要——作为产品中的一个特性,API 的一部分,与现有的过程集成,或者从头开始需要一个新的过程。项目的使用将决定谁是最佳的实施专家。
如何有效地与合作者一起工作
时间表是协作的重要组成部分。这使得参与项目的每个人都可以计划何时参与进来,以帮助推进项目的完成。
考虑一个部署客户保持模型的提议项目。该模型将识别有可能不再从该组织购买订阅的客户,并向他们发送促销电子邮件以吸引他们留下来。
该项目将需要首先了解客户保留指标和趋势,收集相关数据,清理和分析数据,建立分类模型,将其集成到自动电子邮件系统中,并将其设置为活动。所有这些步骤可能需要数周时间,并且许多步骤需要前面部分讨论的三个利益相关者的帮助。
设定一个初始时间表允许协作者在需要帮助项目时制定路线图。如果出现延迟,应立即通知合作伙伴。如果数据收集阶段出现延迟,实施专家不应该提前一个月出现,因为这将浪费他们的时间,并损害未来与他们合作的机会。
要了解有关数据科学项目管理最佳实践的更多信息,请收听点播网络研讨会获取更多深入示例。
2022 年提升团队报告水平的 3 种方法
在 CIPD 的《工作中的学习和技能》报告中,三分之一的组织在 2021 年的培训预算被大幅削减。更少的预算,加上比以往更多的人在家工作,意味着团队经理和研发专业人员不得不用更少的资源做更多的事情。这导致了向数字化训练的巨大转变。CIPD 的分析表明,接受这种变化的组织正在收获回报,文化得到改善,向员工学习的需求增加。
但并不都是积极的。该报告还显示,77%的团队经理和 L&D 专业人士无法评估他们的学习计划的影响。评估培训计划最常见的自我报告方法是“参与者满意度调查”,这是一种主观报告,很难与 ROI 和您组织的业务目标联系起来。
CIPD: Barriers to the evaluation of learning and development program and initiatives (%)
如上图所示,提高报告质量有许多障碍——首要问题是相互竞争的优先级和时间不足。在 DataCamp,我们认为报告您的学习计划的业务影响应该很简单。这就是为什么所有面向业务部门的data camp现在比以往任何时候都有更多的方式来获取您可以快速与利益相关方分享的见解。
如何在 2022 年提升您的报告水平:
1.使用自定义报告创建专业的一键式报告
我们明白了。报告学习计划的影响需要时间。这就是我们创建自定义报告的原因。它们是预先制作的报告,DataCamp 管理员可以使用它们来展示您的学习投资回报并揭示可衡量的见解,包括从每周状态报告到您最积极参与的学习者或最受欢迎的课程的所有内容,并随时添加新的报告。
根据我们的预制模板创建专业报告详细了解您的学习计划日程定期自动生成报告,这样您就不会错过截止日期
准备好改进您的报告了吗?了解如何开始使用我们的帮助中心。
2.即插即用—将您的学习数据连接到 Tableau 和 Power BI
借助我们对 Data Connector 的 2021 更新,您现在可以使用 DataCamp 内置的 Athena 连接直接在 Tableau 或 Power BI 中创建报告和仪表板。Athena 插件使直接在您选择的平台上查看、查询和可视化学习见解变得更加容易。
准备好在 Tableau 或 Power BI 中分析和可视化您的数据了吗?邀请您的工程团队遵循以下步骤。
3.使用 Python 或 R with Workspace 构建定制报告
如果您的组织启用了工作空间编辑器,您可以在 Python 或 R 中从头开始构建报告,或者从我们现成的 Python 自定义报告中进行选择。
- 从您舒适的浏览器中分析您组织的学习数据
- 分享您的见解,同时控制哪些人可以看到它们
- 直接评论你的工作区报告,就像在谷歌文档中一样
想要构建自己的自定义报告吗?了解更多。
让我们让 2022 年成为你超越员工满意度调查的一年,并提升你如何报告你给员工带来的变化。了解有关 DataCamp for Business 的更多信息或者,如果您是现有客户,请登录尝试这些新功能。
您可能还喜欢:
白皮书:300 多名 L&D 领导人从构建数据流畅度中学到了什么
交付组织范围的数据素养所需的两个最重要的行动是强有力的执行支持和跨多个团队展示价值。
下载白皮书
客户成功案例:Autodesk
了解这家财富 1000 强软件公司如何在竞争中保持领先地位。
阅读 DataCamp 上的案例研究。
构建成功数据计划的 4 个步骤
启动数据程序可能是一项挑战,但是没有数据程序,您的企业可能无法综合重要数据来得出有意义的见解。我们最近的 DCVirtual 会议深入探讨了如何实施和衡量成功的数据驱动文化。DataCamp 的课程架构师 Richie Cotton 就此话题与 AXA XL 的战略设计、数据、定价和分析主管 Rachel Alt-Simmons 进行了交谈。请继续阅读,了解为什么每个人都需要数据驱动,如何确定您的数据目标,以及如何实施数据计划。
数据驱动是每个人的责任
在 21 世纪,每个组织都需要数据驱动才能具有竞争力。数据驱动不是让人们自动离职,而是为他们提供工具和信息,让他们在工作中更加高效。
我们认为提高数据驱动力是组织中每个人的责任。毕竟,我们每一个人都可能以某种方式接触数据,不管你的角色是什么。我们一直在寻找不同的机会来提升我们的资源,并在旅途中利用它们。——雷切尔·阿尔特-西蒙斯,安盛 XL
数据计划成功指标取决于您所在的行业和组织
没有放之四海而皆准的数据程序。每个数据项目的目标会因行业、公司规模和团队结构等因素而异。
我们以 AXA XL 为例。AXA XL 于 2018 年被安盛集团收购,是一家大型商业和专业保险公司,评估复杂的风险投资。他们目前在世界各地雇用了 13,000 人在分布式团队中工作,这意味着他们的许多团队实际上并不与他们的大多数团队成员一起工作。虚拟协作在全球各地都很重要,作为一家保险公司,他们的数据需求高度依赖纸张和 pdf。
我们的生意是纸上谈兵。我们出售法律文件——这就是保险单,只是一份法律文件。我们摄取纸张,然后生成纸张。举个例子,你从一个客户那里收到一个提交,里面包含了大量的文件和信息。您可能会在 PDF、Word 文档、Excel 文件以及其他各种文件中获得这些信息。文档的来源没有标准化,所以没有一个标准的 PDF 或标准文件。每个客户的情况都不一样。
因为他们的许多数据都存储在 pdf 中,并且数据输入是手动的,所以并不是所有的单个数据元素都被捕获。许多信息丢失或不容易检索。为了解决这些问题,AXA XL 利用自然语言处理等功能来抓取文档并轻松地从中提取信息。
如何实现一个数据程序
1.选择自上而下或自下而上的方法
构建数据计划的自顶向下方法与组织内更大的数据和分析计划相关。这需要战略性地构建您的程序,以标准化跨团队集成分析模型和工作流的方式。
自下而上的方法是关于在数据和分析职业道路上提高所有员工的能力和技能水平。例如,AXA XL 的分析 DNA 计划确定了不同技术和分析领域的专家,并向他们寻求可以利用的想法,以便在整个组织中更广泛地推广。
好消息是,人们真的愿意站出来,提供他们的指导和专业知识,这有助于我们将我们的计划塑造成与我们的战略计划相关和一致的东西。
2.开发人物角色并确定他们的目标
在 DataCamp,我们已经确定了我们的客户通常使用的几种与数据相关的角色:数据消费者、领导者、数据分析师、公民数据科学家、数据科学家、数据工程师、数据库管理员、统计学家、机器学习科学家和程序员。我们建议我们的教师在建立他们的课程时考虑谁是相关的人物角色,我们建议我们的商业客户在建立他们的数据程序时考虑谁是相关的人物角色。每个角色与数据有不同的关系。
AXA XL 的两个主要角色是精算师和数据科学家,他们目前专注于融合这两个角色所需的技能,以推动业务发展。
在许多[保险]组织中,关于精算背景和我所说的纯数据科学或分析背景之间的区别,一直存在一个有趣的分歧。在我们的组织中,我们将这两者结合在一起。我们实际上是在教精算师一些他们可以在精算过程中应用的统计机器学习技术。这不再是“我们对他们”了。这是“我们如何将这些能力结合在一起”,这是非常令人兴奋的。
3.确定每个角色的差距
我们建议我们的所有客户使用技能矩阵对他们的内部数据技能进行全面盘点。这有许多不同的形式,但通常涉及可视化组织、部门、团队或个人级别的优势和技能差距。
AXA XL 的 Rachel 建议,您可以通过询问以下问题来确定每个角色的差距:
- 你想知道什么?
- 你想要更多的什么?
- 我们还能提供什么,例如培训、招聘、技能发展或基于项目的工作?
- 我们是否将这些能力与我们的战略项目正确地结合起来了?
对于数据分析师、数据科学家和数据工程师等分析专业人士来说,公司可能希望调查在导入数据、在电子表格中进行数据分析、自然语言处理以及建立和维护数据管道等重要技能方面是否存在差距。这是我们为数据专业人员开发的技能矩阵示例。
对于数据消费者和领导者来说,成功所需的技能包括沟通、理解数据可视化和设计思维等软技能。
设计思维是创造一个解决方案,不管它是什么:技术的,数据的,还是模型的。如何以与客户相关的方式做到这一点?那么,如何有效地沟通结果呢?
4.为每个角色创建学习之旅
整体学习方法需要使用设计思维来创建有效的学习之旅。这不仅仅是建立技术技能,也是建立重要的商业技能。例如,AXA XL 要求他们的精算师能够将数据转化为有意义的术语,以便评估保险风险的保险商等决策者能够将公司的风险评估置于背景中,并得出有用的结论,如承担多大的风险。精算师的学习之旅必须包括将数据置于背景中并将其含义传达给更广泛的受众的能力。
为了帮助组织发现他们团队跨角色的数据技能水平,我们通过基准报告提供了免费的技能审计。个人可以参加我们的信号技能评估来跟踪自己的进步。
在评估技能后,我们建议组织建立自定义的跟踪,以便每个人都能达到其角色或职责所需的基本技能水平。数据消费者和领导者的学习路线可能倾向于我们的理论课程,而数据专业人员则参加我们的动手编程课程。例如,由于 AXA XL 的很多数据都是 pdf 格式,他们的精算师和数据科学家的学习之旅包括我们的几门关于自然语言处理的课程。对于职业生涯早期的精算师,我们推荐这些通过预测分析考试的课程。
从您的数据计划中获益
Rachel 说,通过回答这个问题,很容易衡量你的数据程序是否成功:**它是否帮助你变得更加有利可图?**如果数据正确地反馈到决策中,那么你的底线将会反映出来。因此,如果你的员工的技能在发展,你的公司正在做出明智的决策,那么可能的答案是:是的。
欲了解有关构建成功的数据程序的更多信息,请观看在线研讨会点播。
金融服务采用人工智能的 5 大障碍
数据科学和人工智能在金融服务中的应用几乎不是新闻。从根据信用评分提供贷款的银行、根据风险定价的保险公司,到根据预期风险和回报提供财务建议的投资基金,数据一直是金融部门的支柱。然而,要在数据科学和人工智能方面取得成功,金融服务机构需要深化对机器学习和人工智能的使用。在最近的一次网络研讨会中,渣打银行前集团 CDO、TruEra 现任首席战略官 Shameek Kundu 概述了如何在金融服务中加快人工智能的采用。
人工智能的应用很广泛但很肤浅
Shameek 解释说,今天在金融服务领域有一系列广泛的人工智能和机器学习用例。这里有一些值得注意的现实世界的例子。
- 安盛的机器学习预测核保简化了保单购买流程
- 光学字符识别(OCR)帮助花旗银行加快了他们的手动文档处理
- OCBC 银行的调查人员利用机器学习来检测欺诈交易
然而,这并不意味着金融服务机构正在充分利用数据科学和人工智能,因为需要深入采用这些技术。淡马锡报告称,几乎所有的金融服务都在一定程度上使用人工智能。然而,由于行业范围内的障碍,只有 13%的公司在大多数流程中真正使用了人工智能。
Many AI projects remain in their infancy, unable to reach the end goal of full deployment, according to the Bank of England Machine Learning Survey
广泛采用人工智能的障碍
有限的数据质量和可用性
监管机构越来越多地审查公司如何处理数据,美国和欧盟通过州数据隐私法就是明证。此外,由于数据隐私法的地理差异,数据的跨境共享仍然有限。这种规定转化为机器学习模型训练和预测的有限数据。
不成熟和分散的技术环境
随着新生的机器学习领域继续发展,它经历了相对不成熟和分散的技术领域形式的成长烦恼。
根据 Algorithima 的调查,如今,组织需要大约一到三个月的时间来将机器学习模型部署到生产中。交付时间长是由于缺乏成熟的机器学习操作化(MLOps) 工具而产生的症状。然而,鉴于其的快速发展,MLOps 工具的发展只是时间问题。
对机器学习缺乏信任
复杂的机器学习模型不容易解释或解释它们的预测。由于缺乏对黑箱模型的理解,最终用户很难相信他们的输出。
一个恰当的例子是 IBM 沃森。曾经被吹捧为医疗保健的未来,其黑箱模型未能赢得最终用户的信任。这些医生理所当然地拒绝将生死决定交给人工智能黑匣子。
类似地,从事欺诈检测等高风险决策的金融服务监管者和银行家发现很难相信黑箱模型。当透明度对于防止歧视和不公平结果以及履行披露义务不可或缺时,尤其如此。认识到这一点,美联储州长布雷纳德在 2018 年 11 月的一次演讲中说,“可解释性的挑战可以转化为人工智能方法适用性的更高水平的不确定性”,并呼吁金融服务公司在应用黑箱模型时保持警惕。
最后一英里操作化
机器学习项目也会遇到最后一英里问题——在正确的时间将结果提供给正确的人的挑战。例如,期待立即得到满足的手机应用程序用户在得知某个推荐需要 10 分钟才能加载时会不高兴。
解决最后一英里操作化的问题不仅需要成熟的 MLOps 工具环境,还需要机器学习从业者关注用户体验。
缺乏数据人才
人工智能项目的全面部署需要一个数据专业人员团队——包括数据科学家、分析师、工程师和机器学习科学家。因此,缺乏数据人才仍然是各行各业采用机器学习的一个障碍,包括金融服务业。
德勤的一项调查显示,23%最成熟的人工智能采用者报告称,在人工智能实施方面存在显著的人才技能差距。解决这一技能缺口需要一个针对特定人才的以为中心的再培训和技能提升战略。
结论
上面列出的障碍表明,只要有足够的时间和努力,它们是可以解决的。解决这些问题将使金融服务业离释放其采用人工智能的巨大潜力更近一步。
如果您对人工智能在金融服务中的应用感兴趣,请务必收听 Shameek 的点播网络研讨会“扩大人工智能在金融服务中的采用”。
托管您的数据科学产品组合的 5 个地方
为什么要有作品集项目?
找到从事个人项目的时间和动力是一项挑战。然而,无论你是在全职工作、自雇还是在找工作,平衡你的职业生活和你对构建数据科学项目的热情肯定是有益的。以下是您应该投入时间和精力构建数据科学投资组合的一些主要原因。如果你想了解为什么创建项目组合项目很重要,以及创建项目组合项目的最佳实践和例子,请务必阅读这篇文章。
培养和磨练技能
学习编码、构建模型、提高模型准确性和部署模型都是数据科学工作流程的一部分。这些技能需求量很大,创建项目组合是磨练你的技能和强化你感兴趣领域的知识的好方法。此外,组合项目允许你建立与你的背景、工作或专业不完全一致的技能。如果你专攻自然语言处理应用,建立计算机视觉辅助项目会让你的技能更上一层楼。可能性是无限的。
向招聘人员展示你的经历
想象一下,两个初级数据科学家来到招聘人员面前;第一个人说,“我知道 Python、机器学习和 MLOps,”但第二个人说,“我也知道所有这些,我在这个项目中应用了我的知识,我收集了数据,在其上应用了机器学习模型,并将其部署为 web 应用程序。”很明显哪个候选人会最突出。投资组合项目可以确立你作为数据科学家的合法性。你的投资组合越多样化,你就越能展示你可以与招聘人员和招聘经理谈论的各种技术技能。
展示你的软技能
创建数据科学项目组合展示了一致性、持久性、对细节的关注以及不断学习和改进的意愿。这些软技能在许多职业领域都至关重要,数据科学也不例外。更重要的是,如果你用基于内容的项目来补充技术组合项目,你将能够展示你的沟通和数据讲述技能,这将进一步让你成为一名数据科学家。
迈出创业的第一步
在副业和创业之间,只有一步可走,那就是全职开始冒险。无数的冒险变成了百万美元的创业公司。此外,项目组合也是成为一名自由数据科学家的好方法。要了解更多关于成为自由职业数据科学家的信息,请阅读关于成为自由职业数据科学家指南的第 1 部分和第 2 部分。
托管您的数据科学产品组合的 5 个地方
与数据科学社区共享您的项目有助于建立通用知识库,促进协作,帮助建立您的品牌,并让您参与更大范围的对话。这就是为什么就你的项目进行交流,并确保尽可能多的人可以看到它们是有好处的。托管您的数据科学投资组合有很多选择,但这些是帮助您在线展示投资组合的一些最佳工具和平台。
1.Datacamp 工作区
Datacamp Workspace 是一个基于云的协作笔记本,允许您分析数据、与其他人协作并即时发布分析结果。Workspace 使您能够只通过浏览器编写代码、分析数据和分享您的数据见解。除了通过剧本模板预先编写的代码示例之外,它还提供了 20 多个预加载的数据集供您分析。Workspace 支持 R、Python 和 SQL,可以在任何操作系统上使用。它需要零安装和零下载。创建项目后,您可以共享指向您的 DataCamp 个人资料的链接,以便人们可以立即访问它们。Workspace 上托管的高质量项目的一些示例如下
-
土耳其的森林大火
2.卡格尔
Kaggle 是一个面向数据科学家和机器学习爱好者的在线社区平台。它允许您与其他数据科学家协作,查找和发布数据集,发布笔记本,并与其他数据科学家竞争以解决数据科学挑战。有许多数据集可供那些想要实现其算法的人使用。这个平台的优点是数据的结构和清理相对较好。因此,这是一个开始感受从事数据科学项目的好地方。注册后,您可以浏览几个类别中正在进行的不同比赛:
- 针对初学者的长期比赛是让你开始的好资源。你可以应用你的知识,并用它们来实践你所学到的东西。
- 限时竞猜奖品或名气比初学者难度高一步。
- 有奖品的限时比赛会更有挑战性。它们通常由外部组织者赞助,如网飞、谷歌等。
参加这些比赛是发展、提高你的技能和增长你的技术能力的好方法。为了展示你的工作,你需要一个笔记本(内核),详细解释你的项目的来龙去脉,以便尽可能多的人能够理解它。
由于该平台以参与人数众多而闻名,对于初学者来说,赢得奖项似乎并不容易。但是,参加比赛和出版笔记本可以让你发展技能,积累积分,从而在队伍中攀升。很容易想象,在 Kaggle 上达到特级大师的最终级别,将开启你作为数据科学家的职业生涯。你可以阅读这本关于 Kaggle 的完整指南了解更多信息。Kaggle 上的一些优秀笔记本可以在下面找到:
3.开源代码库
从高层次来说,GitHub 是一个网站和云服务,它使开发人员能够存储和管理他们的代码库,并跟踪和监控代码库的变化。要理解 GitHub 是什么,您需要知道两个相关的原则:版本控制和 Git,它们帮助您记录项目随时间的变化,以便以后调用特定的版本。您可以查看本指南来了解更多关于 Git 的信息。该平台允许用户协作或发布开源项目,派生和共享代码,并跟踪问题。使用 GitHub pages 建立一个 GitHub 账户并托管你的投资组合既简单又免费。只需遵循以下步骤:
- 创建一个 GitHub 账户。
- 学习如何使用 Git 和 GitHub 。通过跟随这个教程或者Git 入门课程,你可以找到关于理解 Git 和 Github 的详细解释和教程。
- 通过重复以下步骤将你的网站上传到 GitHub 页面:
- 给你的网站一个主题,一个引导主题或者一个 HTML/CSS 模板可以,但是 WordPress 主题不行。
传递项目的一个有效方法是使用 Github 这样的平台。创建您的 Github 帐户后,您可以开始在那里发布您的项目。在 Github 中,你的每个项目都必须有一个用户容易阅读的README.md
文件。这是编码人员经常忘记的事情,但却是至关重要的。如果你没有一个README.md
,读者很难理解这个项目是关于什么的。以下是 GitHub 页面组合项目示例
4.个人网站
拥有一个博客或个人网站也是集中你的项目的一个很好的方式,特别是因为它相对简单,不需要花费大量的预算就可以建立一个网站。如果你决定走这条路,WordPress 是一个很好的起点,尽管另一个 CMS 如 Strikingly 或 Wix 会做得很好。虽然与在 DataCamp Workspace 或 Kaggle 等网站上托管项目相比,很难看到您的项目,但托管您的网站允许更多的控制和定制。此外,如果你努力优化你的搜索引擎优化,你可以出现在谷歌搜索相当高。
5.媒体(和社交网络)
尽可能多的交流你的项目是很重要的。对于基于内容的作品集项目,除了你自己的个人网站,你还可以使用博客平台。Medium 是让您的项目接触更广泛受众的最佳平台之一。此外,在社交网络如 Quora、LinkedIn、Twitter 和 Reddit 上发帖可以帮助巩固你作为数据科学家的合法性,并使你的项目获得更多的关注。
了解更多信息
拥有可靠的数据科学产品组合可以改变游戏规则。这是获取和学习新能力以及利用和改进现有能力的机会。追求组合项目可以让你积累新技能,获得招聘者的关注,并可能通过帮助你开始自由职业之旅而产生潜在的收入来源。向招聘人员展示你参与的项目将使你与其他数据科学家区分开来,所以花些时间磨练你的投资组合,因为投资回报绝对值得付出努力。有关投资组合项目和进入数据科学的更多信息,请查看以下资源:
获得 DataCamp 高级学生计划的 5 个理由
-
**您将以学生价格获得高级课程:**由专家讲师指导的课程,全程都有互动元素;测试你所学知识的评估;一个工作空间特性,你可以使用 Python 或 R (SQL 即将推出)开发你的投资组合;以及认证服务,这将包括从 DataCamp 获得对您技能的认可。
-
从提炼数据的角度来看,数据是新的石油。能够以一种可用于发现模式、讲述故事和告知未来决策的方式收集和组织数据,对于组织来说是一种游戏规则改变者。因此,数据科学是发展最快的职业领域之一,目前对数据科学家的需求超过了供应。
-
我们已经被你的一些潜在雇主利用了。【1,800 的财富 1,000 强公司和 1,800 多家组织都在使用我们的产品。有什么更好的方式来表明你在面试中处于领先地位,而不是已经采取了他们的技能提升计划的元素?
-
即使你不是数据科学家,这也是一套方便的技能。组织越来越多地在数据科学初学者课程中培训他们的非技术人员,因此表明你和 IT 人员之间的沟通将是无摩擦的,这是你求职过程中的一支可爱的箭。
-
你可能已经走上了成为数据科学家的道路。如果你的学位在某种程度上涉及数学,那么你已经满足了许多数据科学招聘信息中列出的基本要求。参加我们的一些课程或通过我们获得认证可以在申请这些工作时进一步提高你的地位。
最重要的是,我们提供了一个很大的折扣:今天就登录解锁吧!
练习技能的 5 个 SQL 挑战
随着越来越多的公司变得更加数据驱动,SQL 作为最流行的商业编程语言之一同时繁荣起来也就不足为奇了。SQL 的流行源于它的易用性和与关系数据库及其许多不同管理系统的良好兼容性。
从小型创业公司到大型私营公司,甚至政府机构,只要有数据的地方都会用到 SQL。SQL 是处理大型关系数据库的理想工具。你还在等什么?这些 SQL 挑战可以帮助您掌握这种重要的编程语言。你也可以看看我们的 Python 挑战和 R 挑战。
为什么要接受 SQL 挑战?
就像其他编程语言一样,您必须练习您的 SQL 技能,以建立和保持您的流畅性。通过我们的五个 SQL 挑战,从初学者到高级人员,任何人都可以使用真实的数据集来提高他们的 SQL 流畅性。这些数据集包括:
- 电子游戏的历史
- 美国婴儿名字趋势
- 世界上最古老的企业
- 纽约市公立学校考试成绩
- 在线体育零售收入
通过各种数据集,您可以创建一个全面的 SQL 组合来展示您的技能。这些项目可以存储在 DataCamp Workspace 中,在这里您可以展示不同的数据集并与您的队友协作。
免费周期间要完成 5 项 SQL 挑战
你们中的许多人都将迈出这一步,开始学习我们的各种 SQL 课程、课程、项目等等。在本节中,您将找到 5 个可以在 1 周或更短时间内完成的 SQL 项目。选择一个项目,今天就开始!
1.探索电子游戏的历史
许多电子游戏迷对电子游戏现在都只是续集和它们曾经有多好有不同看法。回忆电子游戏曾经有一个黄金时代是很容易的,但是你能用数据支持你的论点吗?
电子游戏的黄金时代是什么时候?项目中,您将探索历史视频游戏销售情况并查看数据,以了解哪些游戏最畅销和最受欢迎。除了能够赢得争论,这还是学习研究一个重要市场的好方法。
预备课程
2.为你的下一个孩子选择一个名字
莎士比亚有句名言“玫瑰换成其他名字闻起来还是一样香”,但这同样适用于婴儿的名字吗?有些名字是时髦的,有些是永恒的。你可以用数据分析找出哪些名字是哪些!
在分析美国婴儿名字趋势项目中,你将探索一百多年来的美国婴儿名字,看看人们的口味是如何随着时间的推移而变化的。
预备课程
3.寻找世界上最古老的企业
商业的一个重要部分是规划未来,并确保企业在不断变化的市场条件下生存下来。DataCamp 成立于 2013 年,但事实证明,少数业务甚至更老!
在什么和哪里是世界上最古老的企业项目中,您将使用您的数据操作技能来寻找世界上最古老的企业,并探索它们属于哪个行业。
预备课程
4.分析纽约市公立学校考试成绩分数
每年,数百万美国青少年参加学术评估测试(SAT)作为大学入学过程的一部分。
在分析纽约市公立学校考试成绩项目中,您将分析纽约市公立学校的 SAT 成绩,并查看哪个区表现最好。
预备课程
5.增加体育零售商的收入
运动服装是一个蓬勃发展的零售领域,许多零售商都在争夺一块消费者的衣橱。当然,要想收益最大化,还需要分析一些数据。
在优化在线体育零售收入项目中,您将查看定价数据、评分和评论以及网站流量,以便就体育零售公司如何增加收入提出建议。
预备课程
简化工作流程的 5 个技巧和窍门
数据分析正在彻底改变我们开展业务的方式,Tableau 等工具是它的核心。Tableau 允许任何人快速分析数据,提取见解,并通过易于使用的界面构建交互式仪表盘或其他数据产品。几乎任何具有基本 Excel 知识的人都可以加载 Tableau,插入 Excel 文件,并增强他们的数据工作流。
尽管它很容易使用,但成为 Tableau 专家有很大的深度。这篇博文分享了一些鲜为人知的技巧和诀窍,以帮助 Tableau 从业者简化工作流程,并始终如一地提供令人惊叹的可视化和仪表盘。这些技巧特别关注在数据准备和格式化过程中节省时间。
简化 Tableau 工作流程的五个技巧
1.使用 Tableau Prep Conductor 和 Tableau Prep Builder 自动化和重复使用数据准备流程
使用正确、最新的数据对于做出准确明智的决策至关重要。使用 Tableau Prep Builder 构建的流允许用户自动更新数据。该构建器允许用户可视化和管理整个数据准备过程。
Tableau Prep Conductor 在 Prep Builder 之上工作,允许用户调度和管理这些流。这意味着分析师不需要花费时间手动运行这些流,也不需要等待数据被填充。这些流程和过程可以在整个组织内共享和重用,从而减少未来设置数据准备过程的时间。
Tableau 为使用 conductor 工具自动化数据准备流程提供了一些最佳实践:
- **在非工作时间自动化流程:**这允许流程在使用较少计算资源时运行,并在稳定的服务器环境中工作,而不是使用桌面资源。
- **使用 REST API 实现自动化:**如果数据更新取决于其他任务的完成,用户可以利用 REST API 在相关流程完成时触发更新。
- **利用管理视图、服务器状态和警报:**conductor 工具提供了许多功能来监控流的性能。它还允许用户在流程失败时发送通知,并提供如何修复错误的建议。
- **确保合适的人可以访问数据:**任何技术工具中的适当文档对于其在整个组织中的可用性都是至关重要的。用户可以用关键字标记流,以对内容进行分类,从而使它们更容易被组织中的其他人重用和访问。此外,可以通过权限和身份验证设置来管理用户特定的流访问。
Tableau prep toolkit 通过确保正确的数据可供正确的人使用,可以节省组织的时间并消除工作流的低效。
2.跨多个流程重复使用清洗操作和计算
在任何技术领域,不要重复自己(干)是精简工作流程的一个必不可少的概念。用户不必花费额外的时间来应用相同的清理操作和在不同的流之间重写复杂的计算逻辑。他们应该努力确保流程设置正确,并且每一步第一次都能按预期工作。在这之后,他们应该相信这个步骤会被插入到其他流中。这是节省分析师时间和减少重写相同复杂逻辑的误差的最可靠的方法之一。
Tableau 允许从一个流中复制步骤,并将它们放到另一个流中。这是通过转到您想要复制的变更,将其粘贴到您想要添加它的步骤的变更中,然后拖放它来应用它。
干式编程是一个基本的技术概念,Tableau 使数据分析师能够在他们的工作流程中定期实现它。
3.创建样式模板以节省格式化未来仪表板的时间
每个人都有执行创造性工作的个人风格。这包括我们在表格上设置边框的方式,我们使用的字体,我们利用的调色板,以及可视化的位置。例如,看看皮尤研究中心或 FiveThirtyEight 的文章。他们所有的可视化在整个网站上都有一致的风格。
如果声音设计是你的风格,一致的风格有助于其他人认可你的作品,并且可以成为一个有价值的讲故事的机制。开发一个与您的工作相关联的优秀仪表板对于有效沟通非常有用。
然而,设计仪表板的过程通常非常耗时。如果您发现自己正在制作外观相似的仪表板,您可以创建一个模板文件来显著减少规划仪表板和从头开始做出设计决策所需的时间和精力。
虽然 Tableau 上没有专门的“模板”功能,但是通过创建一个包含模拟数据的工作簿,可以将格式从一个工作表复制到另一个工作表。您可以随时引用此模板工作簿,方法是右键单击图表选项卡以“复制格式”,然后通过右键单击返回到当前选项卡以“粘贴格式”。
开发原始模板文件将非常耗时,但最终会产生更高效的工作流。
4.了解重要的 Tableau 键盘快捷键
能够在没有持续鼠标导航的情况下工作可以节省大量时间。Brainscape 声称,学习键盘快捷键每年可以节省 8 天(64 小时),并提高 3.3%的工作效率。Tableau 是一个用户输入非常多的应用程序,这意味着有很多机会使用快捷方式来加快工作流程。
Tableau 支持其他应用程序中的许多标准键盘快捷键,并具有用于数据操作和仪表板设计的特定快捷键。
这里的是 Tableau 上可用快捷键的完整列表。虽然这个列表乍一看很长,但是学习这些将有助于简化你的工作流程和提高生产力。
5.使用网格功能或平铺功能布局仪表板
在 Tableau 中创建仪表板时,有两种不同的方式来布局对象:浮动和平铺。浮动选项给用户更多的自由,而平铺选项以一种有组织的方式快速地编辑信息。
浮动
布局可视化和文本需要以一种精确和有组织的方式来做好。在没有系统的情况下,仅仅通过将可视化拖放到画布上很难做到这一点。通过打开菜单栏上仪表板下拉菜单下的网格功能,可以大大改进和简化这一过程。
一旦网格打开,还有其他几个特性可以提高网格的效用。例如,可以在“网格选项”部分的“仪表板”下更改网格之间的像素。增量 10 最适合可用的键盘快捷键。
作为浮动对象放置后,可以使用箭头键将图形移动一个像素,或者使用 Shift 和箭头键将图形移动 10 个像素。可以通过使用 alt 键和箭头键进行 1 像素大小的调整,使用 alt + shift 键和箭头键进行 10 像素大小的调整。
平铺
如果用户希望快速创建仪表板,可以将工作表以平铺模式放入工作表中。它将图表彼此相邻地添加到表单中。通过双击左侧窗格中的工作表,可以快速添加填充画布的图块。双击画布上对象的顶部可以选择这些图块的容器。
Tableau 正在彻底改变我们与数据交互的方式,并创建价值驱动的交互式仪表盘。我们希望这些 Tableau 提示和技巧有助于您利用其所有可用功能来简化工作流程。要获得更多关于成为更好的 Tableau 从业者的资源,您可以查看以下资源:
在营销中使用数据科学的 5 种方式
市场营销中的数据科学导论
你有没有在某个网购平台购买过物品,却发现每次浏览网页都被同类商品的广告淹没?这是数据科学在市场营销中的应用。
仅在过去两年中就产生了世界上的大部分数据,公司现在有能力以前所未有的规模收集和存储客户数据。每次用户与组织的网站、社交媒体页面或 POS 系统交互时,都会创建新的数据点。
然后,这些数据被用来构建对用户行为的洞察,并向他们发送策划广告、个性化产品推荐和特别促销。
我们大多数人在日常生活中与营销数据科学应用程序进行交互,并无意识地根据它们做出决定。
在本文中,我们将介绍在营销中使用数据科学的 5 种方式。然后,我们将探索一个个人项目,您可以针对每个用例将其添加到您的数据科学投资组合中。最后,我们将谈到为什么你应该成为一名营销数据科学家,以及如何找到一份这样的工作。
数据科学在营销中的 5 个用例
1.推荐系统
网飞、Spotify 和亚马逊等公司使用推荐系统,根据用户与平台的互动为用户提供个性化的内容建议。
例如,如果你在网飞上观看了一部电影,并给了它一个积极的评价,下次你打开该应用程序时,你将被推荐相同类型、内容和演员的电影。
这是我们在日常生活中如何与推荐引擎互动的一个简单例子。
随着时间的推移,推荐系统会变得越来越强大,因为用户会继续与它们进行交互。
例如,如果你是 Spotify 的新手,你最初的音乐建议将是通用的。该应用程序将推荐对主流观众有吸引力的各种流派,因为该算法没有足够的数据来了解你的偏好。
随着你在平台上花费更多的时间,推荐引擎将了解更多关于你的喜欢和不喜欢,你的音乐建议将根据你的口味进行策划。该算法甚至可以预测你在不同季节或一天中不同时间可能喜欢的音乐类型。
推荐系统的类型
推荐系统可以大致分为两种类型——基于内容的推荐系统和基于协同过滤的推荐系统。
1。基于内容的推荐系统:
作者图片
基于内容的推荐系统仅仅根据产品的内容给出建议。
例如,如果你喜欢读波西·杰克森系列的小说,你可能会被推荐《奥林匹斯山的英雄》,这是同一位作者写的,并且是一个相似的类型。
然而,像这样的算法的一个缺点是,不会向你推荐与你已经读过的书不同的书。如果你喜欢波西·杰克森,那么你只会被推荐冒险和奇幻书籍,即使你可能喜欢非虚构或悬疑小说。
您可以使用基于协同过滤的推荐系统来克服基于内容的推荐系统的这一缺点,我们将在本文后面解释这一点。
基于内容的推荐系统项目构想
如果你是一个初学者,在构建推荐系统方面几乎没有经验,那么 Kaggle 电影数据集是一个很好的起点。该数据集包含 45,000 部电影的元数据,包括它们的海报、上映日期、类型和收入。
您可以根据 Datacamp 上 Python 教程中的推荐系统编写代码,使用数据集中可用的电影细节构建一个基于内容的推荐系统。
如果你想在建立电影推荐系统方面获得更多指导,请在 Datacamp 上注册一个现场代码培训课程。这是一个由专家指导的研讨会,他将在 1.5 小时内教你如何在 R 中创建推荐系统,如果你在这个过程中遇到任何挑战,你可以向讲师提问。
2。基于协同过滤的推荐系统
基于协同过滤的模型用于基于过去的用户行为生成建议。它们可以进一步分为基于用户和基于项目的协同过滤。
顾名思义,基于用户的协同过滤将具有相似行为的客户分组在一起。
然后,该算法根据这些客户群的共同偏好提供产品推荐,如下图所示:
作者图片
另一方面,基于项目的协作过滤根据用户偏好将相似的项目组合在一起,如下图所示:
作者图片
要了解更多关于不同类型的推荐系统以及如何实现它们,请参加 Datacamp 的在 Python 中构建推荐引擎课程。
协同过滤项目理念
您可以使用 Kaggle 上的图书推荐系统数据集构建一个基于协同过滤的推荐系统。这个数据集只包含三个变量——用户 ID、图书的 ISBN 代码和每本书的用户评分。
这个推荐系统教程可以帮助你在不熟悉协同过滤工作原理的情况下开始项目。
2.情感分析
图片来自 KDNuggets
情感分析,也称为观点挖掘,是确定一段文本背后的底层情感的过程,是数据科学在营销中的另一个热门应用。
下面是一个关于情绪分析如何为组织增加商业价值的例子:
南非的一家银行见证了比平常更高的客户流失率。许多用户开始转向竞争对手机构,不再想与他们做生意。银行试图在情绪分析的帮助下确定问题。
他们在社交媒体上收集了超过 200 万个数据点,以分析客户对他们的评价,并根据这些数据训练了一个情感分析模型。
根据这一分析,该机构意识到,大多数负面评论来自用户,他们不满银行在午餐时间没有足够的柜员,导致等待时间长。
然后,该银行通过在高交易量时段增加柜员来补救这种情况,从而减少了用户流失。
上面的例子说明了情感分析在帮助公司改进产品和超越竞争对手方面有多么有用。情感分析的其他应用包括产品分析、市场研究和用户评论挖掘。
要了解更多关于情感分析模型以及如何从头开始构建它们的信息,请参加 Datacamp 上的 Python 中的情感分析课程。
情感分析项目理念
首先,您可以使用 NLTK 库中的数据集创建一个电影评论情感分析模型。NLTK 是一个 Python 包,它为自然语言处理提供了一组不同的算法。
在这个项目中,您可以使用内置于库中的电影评论数据集,该数据集可以使用一行代码导入。然后,您需要构建一个算法,将电影评论数据分类为积极和消极情绪。
如果您需要入门指导,请阅读 Datacamp 上的 Python 情绪分析教程。
3.客户流失预测
图片来自深度笔记
客户流失是当用户停止与某个实体做生意时发生的一种现象。例如,如果你是网飞用户,并决定终止在该平台上的订阅,那么你就是一个已经发生变化的客户。
对于公司来说,更换一个不满意的客户比留住一个现有客户的成本更高。因此,许多组织雇用数据科学家来识别即将流失的用户,以便他们可以防止这种情况发生。
下面是一个客户流失预测模型如何帮助公司留住用户的例子:
您向互联网服务提供商订购了服务,最近发现连接速度很慢。您提出了一些投诉,并尝试联系客户支持团队,但问题仍然存在。因此,您甚至多次开关路由器并重新连接到网络。
最后,由于您对该 ISP 的用户体验不佳,您决定改用竞争对手的品牌。
ISP 的数据科学团队收集客户行为数据,在用户连接到网络时跟踪用户活动,并收集投诉信息。在整合了所有这些数据之后,团队意识到你面临着高风险。
他们会立即提醒营销和产品团队,你可能会停止与他们做生意。
然后,该公司的营销团队会向您提供个性化的促销和打折的 WiFi 计划,甚至提供免费升级现有套餐的服务。升级后,您意识到连接速度快了很多,并且您对 ISP 的整体体验也更加愉快。然后你决定继续订阅它们,而不是换成竞争对手的品牌。
上面的例子说明了客户流失模型在留住组织现有用户方面的作用。这种应用程序为公司增加了直接的商业价值,经常被网飞和 Spotify 等基于订阅的平台使用,这些平台依赖用户续订作为其主要收入来源。
客户流失预测项目理念
您可以使用 DataCamp 上的电信客户流失数据集来创建您的第一个流失预测项目。
该数据集包含伊朗电信公司用户的信息,如年龄、使用行为、订阅时长和投诉。使用这些数据来预测客户是否可能流失。
如果你不确定从哪里开始,就按照客户流失率预测教程来构建这个模型。你也可以看看我们关于用 Python 预测客户流失的课程。
4.客户细分
图片来自 Madlytics
客户细分是根据共享特征将用户划分为不同的客户子群体的过程。然后,根据每个细分市场的行为,为其提供不同的促销和产品。
下面是一个客户细分如何为组织增加商业价值的例子:
某电商公司构建客户细分模型,针对不同用户进行个性化促销。
如果用户经常浏览平台,但只在有折扣时购买,他们就被归类为“促销猎人”每次有持续折扣时,该细分市场中的所有客户都会立即收到电子邮件通知,因为他们可能会在此期间购买更多商品。
另一方面,一些用户购买特定的商品,并愿意不考虑价格而购买,因为他们更看重质量而不是价格。这些客户的目标是不同的,该公司的营销团队只根据他们已经表现出兴趣的产品向这一群体宣传高端产品。
通过这种方式,购买力高的顾客会看到迎合他们兴趣的更贵的产品,从而鼓励他们花更多的钱。在促销期间,重视价格的用户会被更便宜的产品所吸引。
上面的例子很简单,但展示了客户细分如何让公司从每个用户身上获取最大利润。
客户细分模型最常见的应用之一是在营销活动中建立广告组。
例如,脸书收集其用户的人口统计和行为数据,并允许公司根据这些信息投放针对定制受众群体的广告。用户可以根据特定的特征进行细分,例如他们的位置、年龄、性别、他们喜欢的品牌以及他们所属的人。
客户细分通常通过建立无监督的机器学习模型来实现,如 K 均值聚类。
如果您想了解更多关于客户细分以及如何构建 K-Means 聚类等算法的信息,请参加我们的Python 中的客户细分课程。
客户细分项目理念
你可以使用 Datacamp 的电子商务数据集建立一个客户细分组合项目。
该数据集由英国电子商务平台上的订单详情组成。
记录客户购买信息,如他们订购的商品、产品价格和发票日期,您可以使用这些数据根据他们在平台上的活动对用户进行细分。
5.市场篮子分析
图片来自 Analytics Vidhya
购物篮分析,也称为关联挖掘,是一种用于分析经常一起购买的商品的技术。这是通过处理历史购买数据来识别在交易中经常一起出现的产品组合来实现的。
零售商可以利用这一分析结果来改进商店设计,鼓励顾客在一次交易中购买更多商品。
例如,购买婴儿配方奶粉的人也可能会购买尿布,因此商店通常会将这些物品放在彼此附近,以使用户可以轻松获取。
然而,购买模式并不总是那么明显。根据地区、文化影响和人口统计因素,客户倾向于一起购买不属于同一类别的商品。这些相关性中的许多无法通过肉眼发现,这就是为什么组织依赖于数据科学技术,如购物篮分析。
下面是一个市场篮分析如何识别未被人们发现的关联的例子:
市场购物篮分析最常引用的例子是“啤酒和尿布”案例研究。根据这项研究,中西部的一家杂货连锁店使用数据挖掘技术来识别经常一起购买的商品。
他们的分析显示,顾客通常在周五晚上一起购买啤酒和尿布。这种相关性可能看起来纯粹是巧合,但这里有一个可能导致它的场景:
一个年轻的父亲在办公室度过漫长的一周之后,在周五晚上去杂货店买了几瓶啤酒。他的妻子意识到了这一点,并要求他也为他们的新生儿购买尿布。这种行为变成了一种习惯,上班的爸爸们开始在周五回家前一起买啤酒和尿布。
发现这一点后,商店开始将啤酒和尿布放在同一过道上,并立即见证了销售额的增长。
这个故事最早是在 90 年代中期报道的,其真实性多年来一直受到质疑。不管是不是虚构的,这个用例都提醒我们,在揭示人类肉眼看不到的隐藏关联时,统计是多么强大。
购物篮分析不仅限于实体零售店。电子商务平台也在同一页面上展示高度相关的产品,确保它们在用户的视线范围内。
例如,如果你在网上购买黑色牛仔裤,你可能会在页面底部看到配套的鞋子,鼓励你购买一捆产品而不是一件。同样,这直接导致了公司销售额的增加,因为顾客最终购买的产品比他们想要的要多。
要了解有关购物篮分析以及如何使用机器学习技术来执行它的更多信息,请参加 Python 学习课程中的购物篮分析。如果你更喜欢使用 R,参加 R 课程中的市场篮子分析。
购物篮分析项目理念
为了开始购物篮分析,您可以使用与上面客户细分部分提到的相同的电子商务数据集。请记住,这是在 UCI 机器学习库上可用的数据集的截断版本,仅包含 2500 行。如果想要处理更多的数据,可以下载更大的数据集。
如前一节所述,电子商务数据集包含客户交易数据,如发票号码和购买的产品。您可以使用此信息来识别客户在同一交易中经常一起购买的商品。
你可以使用 R 教程中的市场篮子分析来指导这个项目的实施。如果 Python 是你的首选语言,那么我们有一门用 Python 进行市场篮子分析的课程。
营销中的数据科学——后续步骤:
你为什么应该考虑成为一名营销数据科学家?
数据科学在营销领域有广泛的应用,其中许多我们在上面讨论过。这些用例通过提高销售额、解决客户的痛点以及鼓励购买者消费更多来为组织增加直接价值。
过去,当组织无法访问大量客户数据时,营销专家会自己执行上述许多应用程序。情绪分析和市场研究是通过发出调查问卷进行的。营销人员根据他们对客户行为的理解向用户发送有针对性的广告,这更像是一个直观的过程,而不是数据驱动的过程。
如今,随着组织收集和存储的数据量激增,公司已经开始采用数据驱动的营销方法。
然而,公司雇佣数据科学家来研究营销用例是不够的。
虽然数据科学家可以处理复杂的数据集,建立高度准确的预测模型,并执行统计分析,但这些技能本身不足以从数据中获得有价值的洞察力。他们缺乏市场营销领域的知识,通常无法将手头的数据与业务问题联系起来。
另一方面,营销专家了解客户行为,知道如何制定问题陈述,可以指导营销决策。他们缺乏处理大型数据集的专业技术。
专攻营销领域的数据科学家拥有这两种角色的综合技能,这对组织来说是无价的。这些人可以弥合数据科学和营销领域之间的差距,并可以做出对公司有利的数据驱动型决策。
如何成为营销数据科学家
要成为营销数据科学家,您必须具备强大的技术和分析能力、营销领域知识和软技能:
1.技术
- SQL 来提取、清理和操作数据库中的数据。参加SQL 简介课程,学习数据库操作的基础知识。
- 统计方面的专业知识以及监督和非监督机器学习技术的知识。参加统计学简介课程,了解统计分析的基础知识。
- 至少了解一种编程语言(R、Python、Java 等)。如果你不知道如何编码,可以去 Datacamp 的 Python 编程技能赛道或者它的 R 备选。
- 进行 A/B 测试的能力。
- 能够使用 Tableau、PowerBI 和 Excel 等工具执行数据可视化和构建仪表板。
- 了解广告活动如何在脸书和谷歌展示网络等平台上运行和优化。
- 能够进行实验设计和归因建模。
请记住,根据您加入的组织和团队,上述要求会有所不同。例如,一个专注于向用户展示产品推荐的团队不会致力于优化广告,也不会执行诸如属性建模之类的任务。
如果您不具备营销领域的知识,但想学习如何进行 A/B 测试、可视化营销指标和分析转化率,请参加 Datacamp 上的熊猫营销简介课程。
2.软技能
- 沟通能力强。
- 将复杂的技术概念分解给高级管理层并帮助决策的能力。
- 制定数据驱动的解决方案来解决业务问题的能力。
为了更清楚地了解公司对营销数据科学家的要求,以下是优步对该职位的要求:
如果您没有营销数据科学领域的经验,展示您在该领域技能的最佳方式是创建解决现实世界业务问题的项目。
我们已经为本文中解释的每个应用程序列出了相关项目,在简历中展示一些项目是一个好主意,可以向招聘经理展示您可以使用数据科学技术来提升商业价值。
最后,如果你想弥补现有的知识差距,并学习如何将数据科学方法应用于营销,你可以参加 Datacamp 的 Python 课程中的机器学习营销,或其 R 等效课程。
60 多个 Python 项目,适合各种专业水平
Python 是成为数据科学家时最重要的学习工具之一。然而,要真正掌握 Python,边做边学是必不可少的。这就是 Python 项目的用武之地。
构建 Python 项目将有助于你对正在学习的技能建立信心,开发一个有助于你在求职中脱颖而出的作品集,并从中获得乐趣。在本文中,我们将概述 60 多个 Python 项目想法,以加速您跨技能水平和领域的学习之旅。
在开始 Python 项目之前
如果你已经熟悉 Python,你可以马上开始这些项目。然而,如果你想建立必要的基础技能来开始 Python 项目,请查看 DataCamp 的列表 140+ Python 课程。我们所有的课程都是交互式的,旨在帮助你打破编码障碍,发展你的 Python 技能。
一旦您准备好开始项目工作,请查看 DataCamp 工作区,并在浏览器中的 DataCamp 笔记本编辑器中开始工作和发布您的项目。
初级 Python 项目
作为初学者,您应该利用 Python 项目来保留您所学的内容并获得新的技能。这些项目主要围绕探索性数据分析任务,以及对相关现实世界数据集的简单建模和预测任务。
1.钻石价格数据分析
钻石根据其碳原子的结构分为五种杂质类型。来自 Kaggle 的钻石数据集给你更多信息——切工、净度、颜色和价格。通过一些探索性的数据分析来发展您的数据可视化技能。
2.鲍鱼壳年龄数据分析
这是动物学中一个独特的数据集。鲍鱼壳是大自然的奇迹,你可以通过计算它们壳内的圆圈来确定它们的年龄。能否用 Python 数据分析技巧确定鲍鱼壳的年龄?
3.英超数据分析
一个足球(或英式足球)数据集,在这里你可以探索、分析和可视化英格兰超级联赛 2018-2019 赛季的事件。
4.电信流失预测
客户流失是最基本的机器学习问题之一。在这个客户数据集中,您将能够根据客户的使用数据预测电信提供商的流失。
5.股票价格分析和预测
你想找出两年前特斯拉股票暴涨 100%背后的原因吗?如果是的话,2010 年至 2021 年的科技股数据集将是第一个开始。
6.NBA 投篮数据
篮球运动员在哪个距离最有可能得分?在这个捕捉自 2021 年 NBA 季后赛的 NBA 投篮数据集中,你将能够回答这个问题。
7.预测电子商务销售
使用来自在线零售商的这个电子商务数据集,利用数据可视化和预测技术来预测未来的销售。
8.分析 Airbnb 房源
这是一个极好的数据集,有助于理解 Airbnb 租赁房源背后的动态。通过探索性数据分析和可视化,您将能够了解哪些社区拥有最受欢迎的房源,了解价格和房型之间的关系,等等。
9.分析 GDP 数据
国内生产总值是一个地区或国家经济健康的最强有力的指标之一。在该数据集中,分析在过去 50 年中各国的 GDP 是如何演变的。
10.奥运数据分析
柔道比赛中哪个国家赢了?运动员的身高如何影响一项运动的成功?通过对奥运会数据集的探索性分析,你将能够回答这个问题。
中级 Python 项目
除了初学者任务和数据集,这组 Python 项目将通过使用非表格数据集(例如,图像、音频)来挑战您,并测试您在各种问题上的机器学习能力。
1.从音频数据中分类歌曲流派
你是真正的音乐爱好者吗?然后,在这个音频识别项目中,你会喜欢用机器学习在音乐数据集上预测音乐流派。
2.分析和可视化优步皮卡在纽约
具有地理位置的数据集在地图上进行分析和可视化总是很有趣。纽约市超过 2000 万次乘车的优步接送数据集也不例外。
3.手写字符识别
MNIST 数字识别是实践深度学习的一个很好的起点。然而,这个数据集增加了另一层挑战,因为你预测的是英文手写字母。
4.信用卡欺诈检测
信用卡欺诈总是一个挑战——主要是因为数据中会有严重的阶级不平衡。看看你能否在这个信用卡欺诈数据集中绕过这个问题。
5.利用声音进行性别预测
在这个音频数据项目中,您将使用模糊包根据音素和它们的发音来对姓名的性别进行分类。
6.酒店预订取消率
如果你对房地产感兴趣,这是一个很好的数据集,可以用来了解酒店预订取消率。通过简单的机器学习技术,你可以尝试根据历史数据预测酒店取消预订的可能性。
7.图像中的人脸检测
有没有想过你的 iPhone 是如何在你的脸上放置小盒子的?这是因为它在引擎盖下执行面部检测。您可以使用带有面部注释的图像的这个小数据集来创建类似的功能。
8.从图像中预测蜜蜂的种类
机器学习算法可以根据图像检测蜜蜂的种类吗?在这个图像识别项目中,你将做到这一点。
9.分析和预测自行车共享需求
这个自行车共享数据集包含了一家自行车共享初创公司的大量自行车骑行信息。有了这个数据集,你就可以分析需求波动背后的驱动因素,甚至可以通过时间序列分析和机器学习来预测未来的需求。
10.构建推文分类器
不同的性格有不同的推特风格。在这个社交媒体分析项目中,你将使用机器学习和自然语言处理来分类推文是由唐纳德·川普还是贾斯廷·特鲁多创作的。
高级 Python 项目
这些高级项目超越了复杂的数据集,并挑战你对有趣的问题应用创造性的解决方案。无论是创建电影推荐系统,书籍中人物之间的网络分析,还是用机器学习解释手语,这些项目都将为您提供足够的复杂性,让您在旅途中学习新技能。
1.建立一个电影推荐系统
流媒体平台根据您和其他像您一样的人与内容的交互方式提供精细的推荐。在这个项目中,你将学习如何建立一个电影推荐系统。
2.美国信号语言识别
美国手语是北美许多聋人使用的主要语言。在这个图像识别项目中,你将使用深度学习来识别美国手语字母。
3.实时车牌识别
一个很棒的项目,使用视频数据集的深度学习实时识别车牌号码。查看包含数据集和代码的 GitHub 项目。
4.股票新闻标题中的情感分析
在寻找股票未来表现的线索时,投资者情绪是一个非常重要的指标。有了自然语言处理和机器学习,你可以在这个自然语言处理项目中自动从新闻标题中提取情感。
5.垃圾短信检测
垃圾邮件检测是数据科学的基石,需要结合自然语言处理和机器学习技术。用这个短信数据集创建一个垃圾邮件检测工具。
6.《权力的游戏》的网络分析
虽然在这一点上有点过时,但《权力的游戏》抓住了世界的想象力,不同于其他任何剧集。有这么多的角色和知识,其中最重要的是什么呢?在这个网络分析项目中,您将回答这个问题。
7.利用机器学习降低交通死亡率
在这个机器学习项目中,您将挖掘美国各州交通死亡率的历史数据,并应用机器学习来发现各州之间的相似性和差异,并提供粒度政策建议。
8.情节概要中的电影相似性
有这么多电影可供选择,很容易想到彼此相似的电影。如果你能找到自然语言处理和机器学习来根据电影的情节摘要对电影进行分类会怎么样?在这个 Python 项目中,您将完全做到这一点。
9.具有多标签输出的电影类型分类
一部电影可以结合多种类型。有了这个网飞电影数据集,你可以应用多标签分类,根据电影的描述、分级等来预测电影可能拥有的多种类型。
10.构建和部署机器学习管道
虽然这不是一个具体的项目,但是部署和维护列表中的其他项目是一个非常有用的技能,可以向雇主展示。在这个教程中,你将确切地学习如何去做。
有趣的 Python 项目来培养您的 Python 技能
虽然不是最复杂的,但这些项目提供了有趣和引人入胜的数据集来探索和开始加速您的 Python 学习之旅。
1.怪异的作者识别
将推理小说作家的作品分类。找出一个摘录是否属于埃德加·爱伦·坡、惠普·洛夫克拉夫特或玛丽·雪莱。
2.视频游戏销售预测
你在等动视或者 EA 即将推出的游戏吗?试着用过去 16k+视频游戏的数据来预测它的销售情况。
3.迈尔斯-布里格斯(MBTI)人格类型预测
根据 MBTI 指标,有 16 种性格类型。不要谷歌它,试着用这个性格类型数据集预测你的性格。
4.探索比特币价格数据
加密货币的价格因其极端的波动性而令世界着迷。在这个项目中,你将对比特币价格应用时间序列分析和数据可视化技术。
5.歌曲流行度预测
在这个包含 50 年代歌曲的大数据集中,你可以根据几个属性来预测一首歌的受欢迎程度。
6.分析健身追踪器数据
随着健身追踪器的兴起,你可以分析大量的数据。在这个数据分析项目中,您将分析并可视化 Runkeeper 健身追踪器数据。
7.用数据打破神话
1991 年的一项研究发现,左撇子比右撇子平均早死 9 年。这实际上是真的吗?在这个统计分析项目中一探究竟。
8.分析呼吸仪数据
使用从爱荷华州的呼吸测定器收集的数据,你将能够可视化和分析爱荷华州的醉酒情况,并找到可以导致更好的政策决策的模式。
9.登上音乐广告牌
有了这个从 2010 年到 2019 年约 600 首歌曲的 Spotify 数据集,你将能够探索和分析流行流派在过去十年中是如何演变的,根据关键属性预测歌曲的流派,等等。
10.分析乐高数据库
虽然这个项目也需要一些 SQL 技能,但这个乐高数据库可以让你挖掘全年成千上万的乐高销售,并了解哪些乐高套装推动了最多的销售。
用于实践的附加指导和非指导 Python 项目
在本文中,我们链接了许多 DataCamp 项目和数据集。DataCamp 根据你的目标难度提供了一系列引导式和非引导式项目。以下是练习的附加项目列表
指导性 Python 实践项目
1.预测信用卡批准
自动化信用卡审批是银行业中一个巨大的机器学习用例。在这个项目中,你将学习如何预测一份信用卡申请会被银行接受还是拒绝。
2.揭示机器学习研究中的趋势主题
在这个项目中,你将应用机器学习,通过分析过去十年的神经信息处理系统论文来发现机器学习研究趋势的未来。
3.献血者分类
献血是生命的救星。在这个项目中,分析献血的模式并预测一个人未来是否会再次献血。
4.按成分比较化妆品
选择一种不会危害皮肤健康的化妆品是很难的。在这个有指导的项目中,你将学习如何处理化妆品的成分,从而对一种新的化妆品是否对你有益做出更明智的决定。
5.诺贝尔奖获得者的视觉历史
几乎每个从事研究的人都梦想一生中获得一次诺贝尔奖。但是你的年龄、种族和性别会影响你的机会吗?通过分析 1901 年以来获奖者的数据来找出答案。
6.Scala 语言的 GitHub 历史
根据 TIOBE 指数,Scala 在最受欢迎的编程语言中排名第 34 位。在这个指导的项目中,通过分析 GitHub 库的历史来了解它是如何形成的。
7.探索 Linux 的发展
像 Git 这样的版本控制系统存储了关于软件项目进展的丰富信息。在这个项目中,您将分析和转换 Linux 内核的真实 Git 库,并了解 700K+提交是如何创建地球上使用最广泛的操作系统之一的。
8.重现约翰·斯诺的幽灵地图
约翰·斯诺医生(不是《权力的游戏》中的人物)手工绘制了霍乱病例地图,并推断出了他所在地区的霍乱爆发源头,从而诞生了现代流行病学。在这个项目中,你将重现他的作品和他著名的地图。
9.棒球数据分析的新时代
Moneyball 开创了体育分析的时代。在这个项目中,你将分析 MLB 的 Statcast 数据来比较不同的棒球运动员,并了解是什么推动了本垒打。
10.为谷歌广告生成关键词
为搜索广告生成关键词是一个极其细致和繁琐的过程。如果可以用 Python 自动完成这项任务会怎么样?在这个项目中,你将学习如何做到这一点。
11.手机游戏 A/B 测试
A/B 测试推动了许多数字产品和服务的成功,手机游戏就是一个很好的证明。在这个项目中,你将了解在流行的饼干猫游戏中运行的实验对用户保持的影响。
12.利用机器学习优先处理债务催收
债务拖欠是银行和金融机构的一个大问题。在这个项目中,你将使用机器学习和回归来理解如何为一家银行确定债务回收的优先顺序。
13.查尔斯·达尔文的图书推荐系统
查尔斯·达尔文是一个狂热的读者,拥有广泛的参考书目。在这个项目中,你将使用查尔斯·达尔文最喜欢的书籍来创建一个推荐系统,根据他的口味提供书籍推荐。
用于实践的无指导 Python 项目
1.在办公室调查网飞电影和客串明星
在这个项目中,你将操纵和想象网飞电影和文化现象系列“办公室”中客串明星的表演
2.探索乐高的历史
每秒钟大约生产 1140 块乐高积木。通过分析其历史销售数据,找出世界上最受欢迎的玩具品牌是如何变得如此占据主导地位的。
3.洗手的发现
洗手是我们所有人的第二天性,但在过去并不总是如此。事实上,匈牙利医生 Ignaz Semmelweis 通过分析医院病人的死亡率数据发现了洗手的好处。在这里重现他的数据分析。
4.Google Play 中的 Android 应用市场
安卓应用市场广阔且竞争激烈。分析并可视化这个从谷歌 Play 商店刮来的数据集,找出是什么造就了一个伟大的应用。
5.古典小说中的词频
在这个项目中,你将从古腾堡计划网站上抓取一本小说,然后分析一个大型书籍语料库中的单词分布。
6.糟糕的密码和 NIST 准则
几乎每个网站都需要密码,那么你怎么知道你用的是不是最好的密码呢?在这个项目中,你将创建一个系统,自动检查你的密码是否符合美国国家标准与技术研究所。
7.将搜索兴趣与谷歌趋势进行比较
Google 用 Python 公开了它的 Trends API,这样用户就可以找出任何关键词的搜索兴趣。这是一个极好的时间序列数据来源,记录可追溯到 2004 年。在这个项目中,你将探索全球五大互联网浏览器的搜索兴趣。
8.探索纽约 Airbnb 市场
利用数据清理和处理来揭示对纽约市 Airbnb 市场的洞察。
如何选择将哪些 Python 项目添加到简历中
面对这么长的 Python 项目列表,如何选择一个添加到简历中呢?根据畅销书《Ace the Data Science Interview》的作者尼克·辛格(Nick Singh)的说法,当你从事 Python 项目时,这里有四个关键原则需要考虑。
1.项目应该出于真正的兴趣
就你关心的话题做一个项目会让整个过程更吸引你,增加你完成的机会。此外,当你和招聘经理谈论你的项目时,这种热情会持续下去。
2.简单胜过复杂
今天,人们很容易被花哨的工具和尖端技术分散注意力。然而,现实世界中的数据科学需要一种简单、实用的方法来构建解决方案。项目的目标之一是展示你用相对简单的技术开发有用的数据科学解决方案的能力。
3.总是完成你的项目
做项目时很容易陷入范围蠕变。作为一个经验法则,永远要确定一个你知道你能从头到尾完成的项目——即使这意味着只是一个简单的数据分析练习。
4.项目应该有可量化的影响
一旦项目完成,确保分享你的工作,并以可量化的方式从社区获得反馈。无论是 GitHub stars、LinkedIn shares,还是 Reddit 提示语——分享你的工作是向潜在的招聘经理展示你的项目的可量化影响的最佳方式。
让您的 Python 学习更上一层楼
我们希望您喜欢这个 Python 项目列表,并且它们可以加速您的 Python 学习之旅。如果您想开始学习,并且可以先使用 Python 复习工具,请务必查看下面的 DataCamp 的 Python 课程和其他资源。