KDNuggets 博客中文翻译(二百五十二)

原文:KDNuggets

协议:CC BY-NC-SA 4.0

顶级 38 个 Python 数据科学、数据可视化和机器学习库

原文:www.kdnuggets.com/2020/11/top-python-libraries-data-science-data-visualization-machine-learning.html

自上次我们进行 Python 库汇总以来已经有一段时间了,因此我们借此机会在十一月开始时提供了这样一个新的列表。

我们如何构建这份包含 38 个 Python 数据科学库的列表


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织 IT 工作


上次我们在 KDnuggets 做这个时,编辑和作者 Dan Clark 将广泛的 Python 数据科学相关库分成了几个较小的集合,包括数据科学库、机器学习库和深度学习库。虽然将库分成类别本质上是任意的,但在之前的发布时这是合理的。

不过这次,我们将收集到的开源 Python 数据科学库分成了两部分。这篇文章(本篇)涵盖了“数据科学、数据可视化和机器学习”,可以看作是涵盖常见任务的“传统”数据科学工具。第二篇文章,将于下周发布,将覆盖用于构建神经网络的库,以及用于执行自然语言处理和计算机视觉任务的库。

再次强调,这种分离和分类是任意的,有些情况比其他情况更是如此,但我们已尽力将工具按预期用途进行分组,希望这对读者最有帮助。

我们将 Python 数据科学库组织为 6 个类别:

本文所包含的类别,我们认为涵盖了常见的数据科学库——那些可能被数据科学领域的从业者用于通用的、非神经网络、非研究工作的库——包括:

  • 数据 - 用于数据管理、操作和其他处理的库

  • 数学 - 尽管许多库执行数学任务,但这一小集合专门用于此

  • 机器学习 - 不言而喻;不包括主要用于构建神经网络或自动化机器学习过程的库

  • 自动化机器学习 - 主要用于自动化机器学习相关过程的库

  • 数据可视化 - 主要用于数据可视化功能的库,而非建模、预处理等。

  • 解释与探索 - 主要用于探索和解释模型或数据的库

我们的列表由团队一致决定的、代表常用和广泛使用的 Python 数据科学库组成。此外,库必须有一个 Github 仓库才能被纳入。类别没有特定顺序,每个库也没有特定顺序。我们曾考虑按星标或其他指标构建排序,但决定不这样做,以免对库的价值或重要性进行显著的偏颇。它们在此的排列因此完全是随机的。库的描述直接来自 Github 仓库,以某种形式或另一种形式呈现。

感谢 Ahmed Anis 对数据收集的贡献,以及 KDnuggets 其他员工的意见、见解和建议。

请注意,下面的可视化由 Gregory Piatetsky 展示了每个库的类型,通过星标和贡献者进行绘制,其符号大小反映了库在 Github 上的相对提交次数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:顶级 Python 数据科学、数据可视化和机器学习库

根据星标数量和贡献者数量进行绘制;相对大小按贡献者数量确定

那么,不再废话,以下是 KDnuggets 员工确定的 38 个顶级 Python 数据科学、数据可视化和机器学习库。

最佳 Python 库:数据

1. Apache Spark

星标:27600,提交次数:28197,贡献者:1638

Apache Spark - 一个统一的大规模数据处理分析引擎

2. Pandas

星标:26800,提交次数:24300,贡献者:2126

Pandas 是一个 Python 包,提供快速、灵活和表达力强的数据结构,旨在使处理“关系型”或“标签化”数据变得既简单又直观。它的目标是成为在 Python 中进行实际、现实世界数据分析的基础高层构建块。

3. Dask

星标:7300,提交次数:6149,贡献者:393

任务调度的并行计算

最佳 Python 库:数学

4. Scipy

星标:7500,提交次数:24247,贡献者:914

SciPy(发音为“塞派”)是用于数学、科学和工程的开源软件。它包括统计、优化、积分、线性代数、傅里叶变换、信号和图像处理、常微分方程求解器等模块。

5. Numpy

Stars: 1500, Commits: 24266, Contributors: 1010

Python 科学计算的基础包。

适用于:机器学习的最佳 Python 库

6. Scikit-Learn

Stars: 42500, Commits: 26162, Contributors: 1881

Scikit-learn 是一个基于 SciPy 的 Python 机器学习模块,采用 3-Clause BSD 许可协议分发。

7. XGBoost

Stars: 19900, Commits: 5015, Contributors: 461

可扩展、可移植和分布式的梯度提升 (GBDT, GBRT 或 GBM) 库,支持 Python、R、Java、Scala、C++ 等。可在单机、Hadoop、Spark、Flink 和 DataFlow 上运行

8. LightGBM

Stars: 11600, Commits: 2066, Contributors: 172

基于决策树算法的快速、分布式、高性能梯度提升 (GBT, GBDT, GBRT, GBM 或 MART) 框架,用于排序、分类以及许多其他机器学习任务。

9. Catboost

Stars: 5400, Commits: 12936, Contributors: 188

一个快速、可扩展、高性能的决策树梯度提升库,用于排名、分类、回归和其他机器学习任务,支持 Python、R、Java、C++。支持 CPU 和 GPU 计算。

10. Dlib

Stars: 9500, Commits: 7868, Contributors: 146

Dlib 是一个现代 C++ 工具包,包含机器学习算法和用于创建复杂 C++ 软件的工具,解决实际问题。可以通过 dlib API 与 Python 配合使用

11. Annoy

Stars: 7700, Commits: 778, Contributors: 53

用于内存使用和磁盘读写优化的 C++/Python 近似最近邻算法

12. H20ai

Stars: 500, Commits: 27894, Contributors: 137

开源的快速可扩展机器学习平台,用于更智能的应用:深度学习、梯度提升与 XGBoost、随机森林、广义线性建模(逻辑回归、弹性网)、K-Means、PCA、堆叠集成、自动机器学习 (AutoML) 等。

13. StatsModels

Stars: 5600, Commits: 13446, Contributors: 247

Statsmodels: Python 中的统计建模与计量经济学

14. mlpack

Stars: 3400, Commits: 24575, Contributors: 190

mlpack 是一个直观、快速且灵活的 C++ 机器学习库,具有其他语言的绑定

15. Pattern

Stars: 7600, Commits: 1434, Contributors: 20

Python 的网络挖掘模块,包含抓取、自然语言处理、机器学习、网络分析和可视化工具。

16. Prophet

Stars: 11500, Commits: 595, Contributors: 106

用于生成高质量的时间序列数据预测工具,支持线性或非线性增长和多重季节性。

最佳 Python 库:自动化机器学习

17. TPOT

星标数:7500,提交次数:2282,贡献者数:66

一个 Python 自动化机器学习工具,通过遗传编程优化机器学习管道。

18. auto-sklearn

星标数:4100,提交次数:2343,贡献者数:52

auto-sklearn 是一个自动化机器学习工具包,可替代 scikit-learn 的估计器。

19. Hyperopt-sklearn

星标数:1100,提交次数:188,贡献者数:18

Hyperopt-sklearn 是一个基于 Hyperopt 的模型选择工具,用于在 scikit-learn 中选择机器学习算法。

20. SMAC-3

星标数:529,提交次数:1882,贡献者数:29

顺序模型基础的算法配置

21. scikit-optimize

星标数:1900,提交次数:1540,贡献者数:59

Scikit-Optimize,或 skopt,是一个简单高效的库,用于最小化(非常)昂贵和嘈杂的黑箱函数。它实现了几种顺序模型优化的方法。

22. Nevergrad

星标数:2700,提交次数:663,贡献者数:38

一个用于执行无梯度优化的 Python 工具箱

23. Optuna

星标数:3500,提交次数:7749,贡献者数:97

Optuna 是一个自动超参数优化软件框架,特别为机器学习设计。

最佳 Python 库:数据可视化

24. Apache Superset

星标数:30300,提交次数:5833,贡献者数:492

Apache Superset 是一个数据可视化和数据探索平台

25. Matplotlib

星标数:12300,提交次数:36716,贡献者数:1002

Matplotlib 是一个全面的库,用于在 Python 中创建静态、动画和交互式可视化。

26. Plotly

星标数:7900,提交次数:4604,贡献者数:137

Plotly.py 是一个交互式、开源的、基于浏览器的 Python 图形库

27. Seaborn

星标数:7700,提交次数:2702,贡献者数:126

Seaborn 是一个基于 matplotlib 的 Python 可视化库。它提供了一个高级接口,用于绘制吸引人的统计图形。

28. folium

星标数:4900,提交次数:1443,贡献者数:109

Folium 基于 Python 生态系统的数据处理优势和 Leaflet.js 库的地图绘制优势。你可以在 Python 中处理数据,然后通过 folium 在 Leaflet 地图中进行可视化。

29. Bqplot

星标数:2900,提交次数:3178,贡献者数:45

Bqplot 是一个基于图形语法构造的 Jupyter 2-D 可视化系统。

30. VisPy

星数:2500,提交次数:6352,贡献者:117

VisPy 是一个高性能的 2D/3D 数据可视化库。VisPy 通过 OpenGL 库利用现代图形处理单元(GPU)的计算能力来显示非常大的数据集。VisPy 的应用包括:

31. PyQtgraph

星数:2200,提交次数:2200,贡献者:142

快速数据可视化和 GUI 工具,适用于科学/工程应用

32. Bokeh

星数:1400,提交次数:18726,贡献者:467

Bokeh 是一个用于现代网页浏览器的交互式可视化库。它提供了优雅、简洁的多功能图形构建,并对大规模或流式数据集提供高性能的交互性。

33. Altair

星数:600,提交次数:3031,贡献者:106

Altair 是一个用于 Python 的声明性统计可视化库。使用 Altair,你可以花更多时间理解数据及其意义。

最佳 Python 库:解释与探索

34. eli5

星数:2200,提交次数:1198,贡献者:15

一个用于调试/检查机器学习分类器并解释其预测的库

35. LIME

星数:800,提交次数:501,贡献者:41

Lime:解释任何机器学习分类器的预测

36. SHAP

星数:10400,提交次数:1376,贡献者:96

一种博弈论方法,用于解释任何机器学习模型的输出。

37. YellowBrick

星数:300,提交次数:825,贡献者:92

可视化分析和诊断工具,方便机器学习模型选择。

38. pandas-profiling

星数:6200,提交次数:704,贡献者:47

从 pandas DataFrame 对象创建 HTML 个人报告

更多相关话题

深度学习、自然语言处理与计算机视觉的顶级 Python 库

原文:www.kdnuggets.com/2020/11/top-python-libraries-deep-learning-natural-language-processing-computer-vision.html

评论

在之前的文章中,我们查看了 数据科学、数据可视化和机器学习的顶级 Python 库。这次,我们将关注深度学习、自然语言处理和计算机视觉的顶级库。这些类别实际上不需要进一步的说明。

这种分隔和分类是随意的,有时比其他情况更多,但我们尽力将工具按照预期的使用场景进行分组,希望这对读者最有帮助。


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT


显然,现如今并非所有的 NLP 和 CV 工作都采用深度学习技术,但随着趋势向这种技术转变以获得最先进的结果,我们坚持这种否则随意的分类逻辑。

我们的列表由我们团队共同决定的、代表常用且广泛使用的 Python 库组成。此外,要被列入其中,库必须有一个 Github 仓库。类别没有特定顺序,库在每个类别中也没有特定顺序。我们曾考虑按星数或其他指标进行排序,但为了避免对库的任何感知价值或重要性进行明确偏向,我们决定不这样做。因此,它们在这里的列出是纯粹随机的。库的描述直接来自于 Github 仓库,以某种形式展示。

再次感谢 Ahmed Anis 对数据收集的贡献,以及 KDnuggets 团队其他成员的意见、见解和建议。

请注意,下图由 Gregory Piatetsky 展示了每个库的类型,按星数和贡献者进行绘制,符号大小反映了库在 Github 上的提交次数,采用对数刻度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传图 1:顶级 Python 库,用于深度学习、自然语言处理和计算机视觉

按星标数和贡献者数绘制;相对大小由提交日志数决定

那么,废话少说,这里是 KDnuggets 员工评定的 30 个顶级 Python 库,用于深度学习、自然语言处理和计算机视觉。

深度学习

1. TensorFlow

星标:149000,提交:97741,贡献者:2754

TensorFlow 是一个端到端的开源机器学习平台。它拥有全面且灵活的工具、库和社区资源,使研究人员能够推动机器学习的最新技术,并使开发人员能够轻松构建和部署机器学习驱动的应用程序。

2. Keras

星标:50000,提交:5349,贡献者:864

Keras 是一个用 Python 编写的深度学习 API,运行在机器学习平台 TensorFlow 之上。

3. PyTorch

星标:43200,提交:30696,贡献者:1619

Python 中的张量和动态神经网络,具有强大的 GPU 加速

4. fastai

星标:19800,提交:1450,贡献者:607

fastai 简化了使用现代最佳实践训练快速且准确的神经网络

5. PyTorch Lightning

星标:9600,提交:3594,贡献者:317

用于高性能 AI 研究的轻量级 PyTorch 封装。扩展你的模型,而不是样板代码。

6. JAX

星标:10000,提交:5708,贡献者:221

Python+NumPy 程序的可组合变换:微分、矢量化、JIT 到 GPU/TPU 等等

7. MXNet

星标:19100,提交:11387,贡献者:839

轻量级、可移植、灵活的分布式/移动深度学习,支持动态、感知变异的数据流调度器;适用于 Python、R、Julia、Scala、Go、JavaScript 等更多语言

8. Ignite

星标:3100,提交:747,贡献者:112

高级库,帮助灵活且透明地训练和评估 PyTorch 中的神经网络。

自然语言处理

9. FastText

星标:21700,提交:379,贡献者:47

fastText 是一个用于高效学习词表示和句子分类的库。

10. spaCy

星标:17400,提交:11628,贡献者:482

工业级自然语言处理(NLP),使用 Python 和 Cython

11. gensim

星标:11200,提交:4024,贡献者:361

Gensim 是一个 Python 库,用于主题建模、文档索引和大规模语料库的相似性检索。目标用户是自然语言处理(NLP)和信息检索(IR)社区。

12. NLTK

Stars: 9300, Commits: 13990, Contributors: 319

NLTK – 自然语言工具包 – 是一个开源 Python 模块、数据集和教程的套件,支持自然语言处理的研究和开发。

13. Datasets (Huggingface)

Stars: 4300, Commits: 568, Contributors: 64

快速、高效、开放访问的数据集和评估指标,适用于自然语言处理以及 PyTorch、TensorFlow、NumPy 和 Pandas。

14. Tokenizers (Huggingface)

Stars: 3800, Commits: 1252, Contributors: 30

快速的最先进的分词器,优化用于研究和生产。

15. Transformers (Huggingface)

Stars: 3500, Commits: 5480, Contributors: 585

Transformers:最先进的自然语言处理,适用于 Pytorch 和 TensorFlow 2.0。

16. Stanza

Stars: 4800, Commits: 1514, Contributors: 19

官方斯坦福 NLP Python 库,支持多种人类语言。

17. TextBlob

Stars: 7300, Commits: 542, Contributors: 24

简单、Pythonic 的文本处理–情感分析、词性标注、名词短语提取、翻译等。

18. PyTorch-NLP

Stars: 1800, Commits: 442, Contributors: 15

PyTorch 自然语言处理(NLP)的基础实用工具。

19. Textacy

Stars: 1500, Commits: 1324, Contributors: 23

一个 Python 库,用于执行各种自然语言处理(NLP)任务,基于高性能的 spaCy 库。

20. Finetune

Stars: 626, Commits: 1405, Contributors: 13

Finetune 是一个库,允许用户利用最先进的预训练 NLP 模型进行各种下游任务。

21. TextHero

Stars: 1900, Commits: 266, Contributors: 17

从零到英雄的文本预处理、表示和可视化。

22. Spark NLP

Stars: 1700, Commits: 4363, Contributors: 50

Spark NLP 是一个构建在 Apache Spark ML 之上的自然语言处理库。

23. GluonNLP

Stars: 2200, Commits: 712, Contributors: 72

GluonNLP 是一个工具包,能够简化文本预处理、数据集加载和神经模型构建,帮助你加速自然语言处理(NLP)研究。

计算机视觉

24. Pillow

Stars: 7800, Commits: 10799, Contributors: 303

Pillow 是友好的 PIL 分支。PIL 是 Python Imaging Library。

25. OpenCV

Stars: 49600, Commits: 29453, Contributors: 1234

开源计算机视觉库

26. scikit-image

Stars: 4000, Commits: 12352, Contributors: 403

Python 中的图像处理

27. Mahotas

Stars: 644, Commits: 1273, Contributors: 25

Mahotas 是一个快速计算机视觉算法库(全部用 C++ 实现以提高速度),操作 numpy 数组。

28. Simple-CV

Stars: 2400, Commits: 2625, Contributors: 69

SimpleCV 是一个开源机器视觉框架,使用 OpenCV 和 Python 编程语言。

29. GluonCV

Stars: 4300, Commits: 774, Contributors: 101

GluonCV 提供了计算机视觉领域的最先进(SOTA)深度学习模型的实现。

30. Torchvision

Stars: 7500, Commits: 1286, Contributors: 334

torchvision 包含流行的数据集、模型架构和计算机视觉的常见图像变换。

相关:

  • 数据科学、数据可视化与机器学习的顶级 Python 库

  • 前 13 个 Python 深度学习库

  • 前 8 个 Python 机器学习库

更多相关内容

顶级 8 个 Python 机器学习库

原文:www.kdnuggets.com/2018/10/top-python-machine-learning-libraries.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 评论

Python 在机器学习、AI、深度学习和数据科学任务中继续领先。根据 builtwith.com,45% 的科技公司更愿意使用 Python 实现 AI 和机器学习。

因此,我们决定启动一系列调查各类顶级 Python 库的活动:


我们的顶级 3 门课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织 IT


顶级 8 个 Python 机器学习库 ✅

顶级 Python AI 库 – 敬请期待!

顶级 X 个 Python 深度学习库 -  敬请期待!

顶级 Python 数据科学库 – 敬请期待!

当然,这些列表完全是主观的,因为许多库可以轻松地放入多个类别。例如,Keras 被包括在这个列表中,但 TensorFlow 被省略,并且出现在深度学习库集合中。这是因为 Keras 更像是一个‘终端用户’库,如同 SKLearn,而 TensorFlow 更吸引研究人员和机器学习工程师。

一如既往,请随时在下面的评论区表达你的挫折/不同意见/烦恼!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

顶级 8 个 Python 机器学习库按 GitHub 贡献者、星标和提交数量排序(圆圈的大小)

现在,让我们进入列表(GitHub 数据截至 2018 年 10 月 3 日):

1. scikit-learn (贡献者 – 1175, 提交 – 23301, 星标 – 30867)

“scikit-learn 是一个用于机器学习的 Python 模块,基于 NumPy、SciPy 和 matplotlib。它提供了简单而高效的数据挖掘和数据分析工具。SKLearn 对每个人都可用,并且可以在各种环境中重复使用。

2. Keras (贡献者 – 726, 提交 – 4818, 星标 – 34066)

“Keras 是一个高级神经网络 API,用 Python 编写,能够运行在 TensorFlowCNTKTheano 之上。它的开发重点是实现快速实验。能够在最短时间内从想法到结果是做好研究的关键。

3. XGBoost (贡献者 – 319, 提交记录 – 3454, 星标 – 13630)

“XGBoost 是一个优化的分布式梯度提升库,旨在具有极高的效率灵活性可移植性。它在梯度提升框架下实现机器学习算法。XGBoost 提供并行树提升(也称为 GBDT、GBM),以快速且准确的方式解决许多数据科学问题。相同的代码可在主要的分布式环境(Hadoop、SGE、MPI)上运行,并能解决超出数十亿个样本的问题。”

4. StatsModels (贡献者 – 162, 提交记录 – 10837, 星标 – 3275)

“Statsmodels 是一个 Python 包,为统计计算提供对 scipy 的补充,包括描述性统计和统计模型的估计与推断。”

5. LightGBM (贡献者 – 91, 提交记录 – 1272, 星标 – 6736)

“一个快速、分布式、高性能的梯度提升(GBDT、GBRT、GBM 或 MART)框架,基于决策树算法,用于排序、分类和许多其他机器学习任务。它隶属于微软的 DMTK(github.com/microsoft/dmtk) 项目。”

6. CatBoost (贡献者 – 77, 提交记录 – 3304, 星标 – 3241)

“CatBoost 是一种基于梯度提升的机器学习方法,采用决策树。CatBoost 的一些主要优势包括:与其他 GBDT 库相比质量更高,推理速度最佳,支持数值特征和类别特征以及包含数据可视化工具。”

7. PyBrain (贡献者 – 32, 提交记录 – 992, 星标 – 2598)

“PyBrain 是一个用于 Python 的模块化机器学习库。它的目标是提供灵活、易于使用但仍然强大的机器学习任务算法以及各种预定义的环境来测试和比较你的算法。”

8. Eli5 (贡献者 – 6, 提交记录 – 929, 星标 – 932)

“ELI5 是一个 Python 包,帮助调试机器学习分类器并解释其预测。它支持以下框架和包:scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite。”

留意接下来几周内发布的系列文章!

相关内容:

更多主题内容

更新版:顶级 Quora 数据科学作者及其最佳建议

原文:www.kdnuggets.com/2017/07/top-quora-data-science-writers-best-advice-updated.html

本文基于 数据科学中最受欢迎的作者,这是过去 30 天中回答浏览量最多的 10 位作者的数据,数据检索日期为 2017 年 6 月 29 日。

为了避免混淆,请注意这篇文章是由我“撰写”的,但文中包含的所有信息——从问题到答案——与我无关。我只是将这些有价值的回答编辑在一起。


我们的前 3 个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业的捷径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Quora 上的数据科学主题页面。

1. Håkon Hapnes Strand,数据科学家 - 255,104 次浏览, 173 个回答

摘自对: 什么是“全栈”数据科学家?

我还没有听到过这个表达的使用,但这是我对其含义的看法:

数据科学家构建预测模型。这是他们工作的核心。此外,他们还需要了解一些其他内容:

  • 数据工程
  • 软件工程
  • 业务分析

一个全栈数据科学家能够无缝地执行数据工程师、软件工程师、业务分析师和数据科学家的角色。如果你需要有人开发一个应用程序,全栈数据科学家可以接手。如果你需要有人建立数据仓库,或者分析企业的战略管理过程,全栈数据科学家也可以做到。

2. Mike West,SQL Server 和机器学习爱好者 - 127,776 次浏览,45 个回答

摘自对: Python 在 Scala (+Spark) 崛起的情况下是否仍然在数据科学中相关?

Scala 和 Spark 不是 Python 的对手,它们是朋友。

我已经说过一段时间了。Python 是并将继续是未来十年机器学习的黄金标准。

唯一的 Python 竞争对手是 R,坦率地说,在现实世界中,每个人都在使用 Python。你会在大学层面看到很多 R,但在应用领域则不会。

Python 确实有太多的领先优势。

大数据主要是将任何数据(几乎总是非结构化数据)转化为可以建模的格式。Scala 和 Spark 只是你可以用来处理非常大数据集的工具。

TensorFlow 不是用 Scala 编写的。

不要被一两篇文章迷惑,即使它们是 Andrew Ng 写的。做你自己的研究。

3. Corrin Lakeland - 117,841 次浏览,87 个回答

摘自回答:未来 5 到 10 年,数据科学家将从事什么工作?

这引出了未来的展望。在接下来的五年中,我预计会看到很多目前声称参与其中的公司实际上会尝试在严肃项目中使用它。我预计其中相当一部分项目会失败,整个行业将会更加成熟,对什么有效和无效有更多的理解。

看看现在有多少图形用户界面工具支持机器学习。比如自动聚类数据的 Excel 插件。再过五年,我预计大多数人只会想到这些工具时才会想到数据科学。

十年后,我认为时尚将会真正改变。数据科学将成为其他学科中普遍且被期望的技能,专门的数据科学家可能会被看作有些奇怪。你还会看到一种情况,即系统捕获的数据很常见且正常地适用于数据科学,而不是现在大多数数据的结构方式需要大量的处理。

4. William Chen,Quora 数据科学家 - 117,834 次浏览,195 个回答

摘自回答:你为什么选择从事数据科学而不是量化金融?

我即将列出的所有理由的总结是我选择数据科学是因为我对它更有热情。以下是促使我对数据科学产生热情的 5 个更具体的原因。

  • 对新兴和不断增长的职业路径的兴奋 - 这个决定是在 2013 年和 2014 年做出的,那时数据科学比现在更加新颖和不确定。进入一个仍在发展和创新中的领域对我很有吸引力,并且至今仍然如此。我尽量不让自己的决策基于炒作——因此这个点更多的是关于数据科学领域的成长以及它会为我提供一个位置,而不是它的热门程度。
  • 对数据科学的熟悉程度 - 这是列表中最弱的理由,但当我需要选择全职工作时,我已经有了两次数据科学相关的实习经历:一次在 Etsy(公司),一次在 Quora(公司)。在这两个实习中我都有很好的经历,所以选择全职从事数据科学对我来说是一个快乐的已知数量。
  • 对从事消费者互联网产品的兴趣 - 我对消费者互联网产品有长期的兴趣,自从我获得拨号上网的机会以来,我一直对这个领域的增长感到兴奋。数据科学工作对我来说是一个独特的机会,让我能够成为我一直着迷的消费者互联网世界的一部分。
  • 对从事新兴产品的兴趣 - 消费者互联网产品一直让我感兴趣,因为它们存在于不确定的领域中,可能会变得非常重要(或只是失败)。对从事一个可能变得非常重要的产品的兴趣,以及知道自己在其中扮演了一个小角色的诱惑是很大的。
  • 对知识共享的承诺 - 我一直致力于分享想法和观点,无论是通过担任哈佛统计学 110 课程的教学助理,还是在 Quora 上尽可能多地写作。科技领域通常有见面会、博客文章、Quora 回答、研讨会和邀请讲座的文化。而在神秘的量化金融领域,情况则有所不同。

5. Clayton Bingham,南加州大学神经工程中心研究员 - 108,512 次浏览,8 个回答

摘录自:在 Python 中,如何使用 BeautifulSoup 将网站数据保存为 CSV?

懒惰的办法是这样做:

一旦你将数据放入数据框中,你可以进行任何解析/格式化操作。或者,如果你只需要这一次,你也可以用 Excel 或其他工具来完成。

希望这对你有帮助!

6. Lili Jiang,Quora 数据科学经理 - 88,461 次浏览,8 个回答

摘录自:作为数据科学家,你对年轻时的自己有什么建议?

首先,数据科学是否如你所想?

我遇到的 9 位有志数据科学家中,有 10 人将机器学习等同于数据科学。“数据科学”是一个涵盖面广的术语。机器学习只是其中的一部分,但在许多主要科技公司中,产品分析也是数据科学团队的一个重要组成部分。产品分析是一颗隐藏的宝石。它很有趣,但讨论却不多。包括:

  • A/B 测试设计
  • 设计指标:以视频平台为例。什么是优化的最佳指标,能够最能代表用户满意度?应该是观看的视频数量?观看视频的时间?还是一周内返回观看另一部视频的用户百分比?
  • 调查指标变化的原因:为什么这批用户的活动突然激增?
  • 理解产品机制:按钮 X 和功能 Y 如何提升产品?我们应该将页面 A 重定向到 B 或 C,还是直接从 A 跳到 C?
  • 识别趋势并提供战略建议:用数据论证公司应投资于 ______ 领域,以保持竞争力。

7. Zeeshan Zia,计算机视觉和机器学习博士 - 70,564 次观看,24 个回答

摘自回答:2017 年 AI 是否被过度炒作?

视具体社区而定,既有“是”,也有“不是”。

如果你谈论的是学术研究社区,它并不过度炒作。过去几年里,AI 取得了重大突破,这种庆祝当然是有道理的。

在我自己从事的目标识别领域,我们从~35%的准确率(Pascal VOC 上的平均精度)提高到超过 65%,仅用了 3 到 4 年时间。此前,我们每年进步 1%到 2%,尽管目标识别是计算机视觉中最热门的领域,每年在顶级会议上发表的论文最多。深度学习在强化学习方面也取得了重大突破,这为通用 Atari 游戏的成功奠定了基础,并在预期十几年后战胜了围棋世界冠军!它终于使语音识别达到了可用的准确度水平。

8. Jason T Widjaja,商业和分析极客。喜欢他的兄弟。- 60,837 次观看,167 个回答

摘自回答:关于分析/数据科学炒作的风险是什么?

从根本上说,我认为数据科学不会很快消失。只要:

  • 人们总是希望做出更好的决策,
  • 人们永远关心未来会发生什么,
  • 做得好的个人和公司总是会受益。
  • 可用的数据点持续增加,
  • 我们拥有的工具和技术不断改进(你明白的)…

…分析和数据科学并不是无处不在的。

免责声明:极度偏见的样本量为一个。

9. Roman Trusov,硕士学位信息技术与数据科学,斯科尔科沃科技学院(2018 年) - 57,815 次观看,139 个回答

摘自回答:数据科学家应该如何处理版本控制,包括管道代码和模型?

为了从版本控制系统中获得最佳效果,最好将它们分开。

像对待其他代码一样将代码保存在版本控制系统中是唯一合理的方式,因为如果你作为数据科学家进行了一些繁重的 ETL,或者你的代码做出的决策可能带来或损失大量金钱,那么它一定会经过代码审查。没有其他方式。

对于一些数据科学家更为典型的事情,我认为将 Jupyter notebooks 存储在版本控制中并不是一个好的做法。你无法在这些笔记本上看到清晰的差异,它们不是“生产代码”,总的来说,当你完成某件事时,你希望推送至少一个“最终版”Python 脚本。Jupyter notebooks 非常适合实验和演示,但在这些情况下之外,总有更好的选择。

10. Shweta Doshi,GreyAtom 联合创始人,数据科学沉浸式学习学校 - 50,866 次观看,123 个回答

摘自回答:开始从事数据科学家工作需要哪些基本知识和技能?

你需要熟悉的基本知识分为 3 类,即编程、数学和科学。

作为数据科学家,你将被期望将一个业务问题转化为数据问题,创建预测模型来回答问题,并讲述发现的故事。专注于实现数据的统计方法的统计学家以及专注于管理数据科学团队的数据经理,往往会担任数据科学家角色。

数据科学家是编程与数据科学实施、数据科学理论与数据业务影响之间的桥梁。

相关

  • 前 10 名 Quora 机器学习作家及其最佳建议(更新版)

  • 前 10 名 Quora 数据科学作家及其最佳建议

  • Quora 上关于“如何学习机器学习”的最佳建议

更多相关主题

数据清理的顶级 R 包

原文:www.kdnuggets.com/2019/03/top-r-packages-data-cleaning.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 评论

作者:Anna Kayfitz, StrategicDB Corp的首席执行官

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


我们的三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析水平

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 工作


随着每天有数百万或数十亿的数据元素进入你的业务,几乎不可避免地会有一些数据缺乏创建高效商业模型所需的质量。确保你的数据干净应该始终是数据科学工作流的第一步,也是最重要的一步,因为没有它,你将很难看到重要的信息,并可能因为重复、异常或缺失信息而做出错误的决策。

R 是最常用且功能强大的数据编程工具之一,它是一个用于统计计算和图形绘制的开源语言和环境。R 为用户提供了创建数据科学项目所需的所有工具,但无论如何,它的效果取决于输入的数据。因此,R 环境中有许多库可以帮助在项目开始之前进行数据清理和处理。

探索数据

你导入的数据集中的大多数探索工具已经存在于 R 平台中。

总结(数据)

这个实用的命令简要概述了所有的数据属性,显示每个属性的最小值、最大值、中位数、均值和类别分布。这是一种快速发现潜在数据异常的好方法。

紧接着,你可以使用直方图来更好地理解数据的分布。这将可视化显示数据集中或任何你特别希望观察的数值列中的异常值。

plyr 包

你需要安装 plyr 包来创建你的直方图,使用标准的 R 功能来安装库。


Install.packages(“plyr”)

Library(plyr)

Hist(YOUR_DATASET_NAME)

这将创建一个数据的可视化图,以便快速发现任何异常。箱线图可视化使用相同的包,但将数据分为四分位数以进行异常值检测。这两者结合将迅速告诉你是否需要限制数据集或仅在算法或统计建模中使用某些数据段。

纠正错误

R 提供了一些内置方法来纠正数据错误,例如转换值,就像你在 Excel 或 SQL 中使用简单逻辑一样,例如 as.character() 将列转换为字符字符串。

然而,如果你想开始纠正你在直方图或箱线图中看到的错误,还有其他可以做到这一点的附加包。

stringr 包

stringr 包可以通过修剪空白和替换某些不必要的词来帮助清理数据。这些是相当标准的代码片段,如 str_trim(YOUR_DATA_FIELD),它简单地移除空白。

然而,如何去除我们直方图告诉我们存在的异常值呢?这需要比这更复杂一点,但作为基本示例,我们可以告诉 R 用该字段的中位数替换所有的异常值。这将把所有数据聚合在一起,消除异常偏差。

缺失值

在 R 中检查不完整数据并对该字段执行操作非常简单。例如,这个函数将完全消除你选择的数据列中的缺失值。


Na.omit(YOUR_DATA_COLUMN)

根据字段类型,有类似的选项可以用 0 或 N/A 替换空值,从而提高数据集的一致性。

tidyr 包

tidyr 包旨在整理你的数据。它通过识别数据集中的变量并使用提供的工具将它们移动到列中,有三个主要函数:gather()separate()spread()

gather() 函数将多个列收集成键值对。例如,假设你有类似的考试分数数据。

NameExam AExam B
John5580
Mike7690
Sam4575

gather 函数通过将数据转换成像这样可用的列来工作。

NameExamScore
JohnA55
MikeA76
SamA45
JohnB80
MikeB90
SamB75

现在我们真正能够分析考试分数了。separatespread 函数执行类似的操作,你可以在安装了包后探索它们,但最终它们会根据需要调整你的数据。

以下是一些其他可能对 R 中数据清理有用的包

  • purr 包

purr 包旨在进行数据处理。它与 plyr 包非常相似,尽管较旧,一些用户发现它更易于使用,并且在功能上更为标准化。

  • sqldf 包

许多 R 用户在 SQL 语言中编写代码更为舒适,而不是 R。这个函数允许你在 R studio 中编写 SQL 代码来选择数据元素。

  • janitor 包

该包能够通过多个列找到重复项,并轻松从数据框中创建友好的列。它甚至具有一个 get_dupes()函数,用于在多个数据行中查找重复值。如果你希望以更高级的方式去重数据,例如,查找不同的组合或使用模糊逻辑,你可能需要查看一个去重工具

  • splitstackshape 包

这是一个较旧的包,可以处理数据框列中的逗号分隔值。对于调查或文本分析准备非常有用。

R 有大量的包,这篇文章仅触及了它的表面。随着新库不断出现,在开始任何新项目之前,进行研究并选择适合自己的包非常重要。

简介:Anna Kayfitz 是StrategicDB Corp的首席执行官,该公司专注于数据清理和分析。她拥有 Schulich 商学院的 MBA 学位,并在创办 StrategicDB 之前在数据分析和营销领域工作了 10 多年。

资源:

相关:

更多相关话题

机器学习的顶级 R 包

原文:www.kdnuggets.com/2017/02/top-r-packages-machine-learning.html

Michael LiPaul Paczuski,The Data Incubator。

在 The Data Incubator The Data Incubator,我们以拥有最新的数据科学课程为荣。我们的课程很大一部分基于来自企业和政府合作伙伴的反馈,了解他们希望学习的技术。但我们希望采用更加数据驱动的方法来确定我们在 数据科学企业培训 和为希望进入行业的数据科学职业的硕士和博士提供的 免费奖学金 中应该教授的内容。以下是结果。

排名


我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织 IT


最受欢迎的机器学习包有哪些?让我们来看看基于包下载和社交网站活动的排名。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

值得注意的:OneR: 1 (SO); mlr: 2 (Github); ranger: 4 (Github); SuperLearner: 5 (Github)

排名基于 CRAN (The Comprehensive R Archive Network) 下载的平均排名和 Stack Overflow 活动 (完整排名见 [CSV] )。CRAN 下载数据来自过去一年。Stack Overflow 根据问题正文中的包名以及 ‘R’ 标签的结果数量进行排名。GitHub 排名基于仓库的星标数。详见 方法

Caret 位居首位,神经网络在其他算法重磅选手中表现突出

也许并不令人惊讶,caret 排在首位。它是一个用于创建机器学习工作流的通用包,与一些特定算法的包良好集成,这些包在排名中紧随其后。

这些包括 e1071(用于 SVM)、rpart(树)、glmnet正则化回归)以及,可能对 R 来说比较意外的神经网络(nnet)。有关这些包的详细信息,请参见 下面

排名揭示了 R 包社区的碎片化。几个顶级包,如 rparttree,实现了相同的算法,这与 Python 的 scikit-learn 的一致性 - 和广度 - 形成了对比。

尽管如此,如果你喜欢 R 的数据处理能力(如 tidyverse),你可以使用这些包来进行一些强大的建模,而不必切换到 Python。此外,随着更多功能被添加到 modelr,一个 tidy 工具,我们可能很快会看到它被纳入这个列表中。

包详情

caret 是一个用于创建机器学习工作流的通用包,并在这个排名中位居榜首。接下来是一些实现特定机器学习算法的包:随机森林(randomForest)、支持向量机(e1071)、分类和回归树(rpart)以及正则化回归模型(glmnet)。

nnet 实现了神经网络,而 tree 包则实现了树结构。party 用于递归分割和二叉树的可视化,arules 用于关联挖掘。SVM 和其他核方法在 kernlab 中实现。h2o 包用于可扩展的机器学习,并且是更大 H2O 项目的一部分。ROCR 用于模型评估,包括 ROC 曲线,而 gbm 实现了梯度提升。更多的分割算法可以通过 RWeka 访问,而 rattle 是一个用于数据挖掘的 R 图形用户界面。

一些包在 Github 上表现突出:mlrSuperLearner 是另外两个提供类似功能的元包,而 ranger 提供了随机森林的 C++ 实现。

最后,OneR 在 Stack Overflow 上排名第一,但 SO API 经常将其自动更正为“one”,所以结果不可靠。

方法

下面,我们描述了得出这个排名的方法论。

第 1 步:获取一个详尽的机器学习包列表

从一开始,我们就设想我们的排名建立在包下载量、Stack Overflow 和 Github 活动的结合上。我们知道存在一些 API 可以提供这些指标。

然而,获得所有 R 包的初步机器学习列表是一项更艰巨的任务。这个列表需要是详尽的、客观的且最新的。一个糟糕的初始列表将会显著影响我们的排名。

询问周围的人有所帮助。一位朋友向我们推荐了 “CRAN 任务视图:机器学习与统计学习”,它在底部有一个很好的列表,并且易于抓取。

它的优点在于,软件包列表来自权威来源(CRAN 是“官方” R 包存储库),并且定期更新(最后更新时间:2017 年 1 月 6 日)。感谢作者,托斯滕·霍瑟恩,他通过电子邮件也非常响应。

之前的想法是使用 Google 查找“顶级 R 机器学习包”的列表,然后尝试抓取所有包名称,进行合并,并将该列表作为起点。但抛开工程任务,我们还发现当前可用的列表相对于我们的需求质量较差。它们过时,没有明确指定方法,且往往非常主观。

确定客观指标

一个好的排名需要对“最佳”有明确的定义,并且需要使用好的指标构建。

我们将“最佳”定义为“最受欢迎”。这不一定意味着这些包被广泛喜爱(用户可能因为 API 很糟糕而频繁搜索 Stack Overflow)。

我们为排名选择了 3 个组件:

  • 下载量:来自 CRAN 镜像的下载次数

  • Github:包在其主仓库页面上的星标数量

  • Stack Overflow:包含包名称并标记为 ‘R’ 的问题数量

CRAN 下载量

有几个 CRAN 镜像,我们使用了 R-Studio 镜像,因为它具有方便的 API。RStudio 可能是最广泛使用的 R IDE,但它不是唯一的。如果我们汇总了其他 CRAN 镜像的下载量,我们的排名可能会有所改进(虽然可能不会显著)。

GitHub

最初,我们通过查询 Github 的搜索 API 来寻找包的 Github 页面,可能带有“language:R”,但这被证明不可靠。有时很难挑选出正确的 Github 仓库,并且并非所有 R 包都是用 R 语言实现的(搜索 API 中的“language:R”参数似乎指的是仓库使用的最流行的语言)。

相反,我们回到 CRAN 寻找这些网址。每个包都有一个官方 CRAN 页面,其中包括有用的信息,包括源代码链接。这就是我们获取包的 Github 仓库位置的地方。

之后,通过 API 获取 Github 星标很容易。

Stack Overflow

从 Stack Overflow 获取有用结果很棘手。一些 R 包名如 treeearth 存在明显的困难:Stack Overflow 的结果可能没有过滤到仅针对 R 包的结果,因此我们首先在查询中添加了一个 ‘r’ 字符串,这大大帮助了我们。

一个好的(最佳的?)策略是寻找问题正文中的包名,然后添加 ‘r’ 标签(这与添加 ‘r’ 字符串不同)。

构建排名

我们仅在每个 3 个指标中对包进行排名,并取其平均排名。没有复杂的操作。

其他注意事项

所有数据于 2017 年 1 月 19 日下载。CRAN 下载量数据来自过去 365 天:2016 年 1 月 19 日至 2017 年 1 月 19 日。

数据科学的顶级 R 包?

这个项目起初是对“数据科学”顶级包的排名,但我们很快发现范围太广。

数据科学家做许多不同的工作,你几乎可以将任何 R 包归类为帮助数据科学家的工具。我们是否应该包括字符串处理包?数据库读取包怎么样?

另一个更长的项目可以是使用更多的“数据科学”来制定一个关于“数据科学”顶级 R 包的排名。

资源

源代码可在The Data Incubator’s Github上获得。如果你有兴趣了解更多,请考虑:

  1. 数据科学企业培训

  2. 面向希望进入行业的硕士和博士的免费八周奖学金

  3. 招聘数据科学家

相关:

  • 按受欢迎程度排列的前 20 个 R 包

  • R 中的 ARIMA 预测介绍

  • 利用 Anaconda 轻松构建和分享 R 包

更多相关话题

大数据、数据科学、分析计划失败的主要原因

原文:www.kdnuggets.com/2016/12/top-reasons-big-data-science-analytics-fail.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 评论

作者:安基特·马哈詹,RetailMarketingTechnology.com

我在过去 11 年中一直从事数据科学专业工作,并有机会与多个雇主和客户合作,满足他们在金融服务、零售/快消品、电信、媒体与娱乐、数字媒体、教育和技术等多个领域的数据科学需求。在这 11 年中,我观察和参与了数据科学管理实践和企业战略,密切关注了这些计划的成功与失败。我回顾并反思了我认为抑制数据科学战略发展的五个主要原因。


我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持您组织的 IT 需求


外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缺乏来自最高领导层的明确数据科学授权

一些公司加入了数据科学的浪潮,因为他们想成为炒作的一部分,而不是实际价值创造的一部分。这些肤浅的目标往往反映出最高领导层要么对基于数据的战略效果没有充分的信心,要么只是因为一个人的个人喜好(而非真正的知识)而参与了“big data”这一词汇。在缺乏明确数据科学授权作为业务战略输入的情况下,组织目标与数据科学路线图从未同步,导致了不切实际的目标,从而导致了惨败。

抵制接受变革

实施有效的数据科学企业战略的首要任务(无论你的商业模式是 B2B 还是 B2C)是接受变革。通常,僵化的等级制度、部门孤岛和复杂的政治组织动态成为实施中央数据战略的障碍,而这并没有促进真正的创新。每个人都想争取一块蛋糕或整个蛋糕,但却不知道自己是否有资格争取,或不理解拥有部分蛋糕会对生态系统产生的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传一个明确的例子:为了实施几乎实时的活动响应/最佳下一步建议模型并投入生产,可能需要营销、销售、IT、财务等不同部门之间的协同,但由于不同利益相关者的权力游戏和缺乏接受变革的意愿,这种协同有时会失败,这要求协调和统一来自不同来源的数据和输入,并在这些部门的不同关键利益相关者之间建立更紧密的协同(这些部门传统上因各种政治原因一直各自为政)。

如果打破组间的隐性隔阂或障碍,统一数据,数据科学能为组织创造更多价值。政治因素往往成为障碍。即使无法建立中央数据科学结构,也可以创建一个松散的数据科学中心,作为两个团队(例如 IT 和市场营销或与数据战略相关的任何其他业务职能)之间紧密合作的结果,有效地构建解决问题的强大用例,成为其他部门的榜样。如果组织动态甚至不允许这样做,可以创建一个实验数据科学实验室,该实验室不属于特定部门/团队(但仍可自由访问数据源系统进行实验,作为现有技术单位/团队的平行单位/团队),并且免于政治动机驱动的议程,由一个能干、公正的领导者主持(有关更多信息,请参见下一点-‘首选’人选)。

没有提出正确的问题或定义不明确的问题

每个人都有问题,但是否能转化为对业务有直接影响的有用业务指标,往往被忽视。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传有些举措只是为了展示与数据的相关性,而非实际需求。错误的假设被建立,导致众多隐藏的假设,进而产生糟糕的业务用例。有效的数据科学是领域、数据、数学和统计、算法、编程、研究/实验和艺术的健康结合,或简单来说是科学和艺术的结合。我们可以自动化科学,但很难自动化艺术或量化抽象的东西。建模稀有事件非常棘手,最近美国选举就是一个很好的例子,特朗普击败了所有的民意调查、预测,所有专家都面临尴尬局面。

在组织内部,因政治原因不同的利益相关者之间总是存在着一场常态的争斗,每个利益相关者都希望保护自己的领域或扩展现有的领域。一个‘领域/业务专家’会试图强调该领域或艺术以展示自己的重要性,并在沟通和商业战略方面标榜自己的权威,他们常常提出一些花哨的问题,而不管是否有支持数据,或这些问题是否能转化为有用的指标。数据科学家则会过度强调数学部分,以展示为什么每个问题都需要通过数学来解决,以及如何通过 PCA 来解决供应链优化问题,即使可能根本不需要这样做。数据工程师则会强调技术(数据仓储)或实现部分,以展示他的角色不亚于宇航员。这是一场带有偏见的辩论,往往会让正确的问题被掩盖在背景中。每个人都很重要,但他们需要协调工作。

为什么以及需要部署哪个模型到生产环境,取决于最初的假设/业务问题。这些业务问题必须与具体的目标或指标关联起来,而很多时候这只是一个空白字段,空白字段的指标不符合部署标准。即使一年进行 12 次模型运行或更多,也不符合部署条件,除非你能产生一个与最初假设强相关的业务指标,并且对业务带来增值。

在缺乏正确问题的情况下,技术或实施人员会做什么?实施一个有缺陷的假设——这有意义吗?如果我们颠倒一下情况——在有正确问题但技术实施/算法/模型/样本(在过时样本上表现极差)错误的情况下,这是否有帮助,这又让我回到了上面第 2 点——不同利益相关者之间缺乏协同。一个既具备强大业务/领域背景(大局观)又具备同样强大数据科学背景(核心技术方面的核心数据科学/分析主题)的客观领导者,并且愿意接受变化,可能是你的‘首选’人选,但这些人通常需要较高的报酬,即使你找到这些人,也需要允许他们以自由和权威来建立该生态系统,但这种自由和灵活性通常是缺乏的。由于对系统感到沮丧,他们往往会离开(因为管理层对他们的激情和承诺未给予认可)。

缺乏数据优先级排序

每个组织都有大量的数据来源,因此也会有多个关于这些数据的假设,需要根据我们能从中提取的增量业务价值和数据质量来优先排序。如果没有这些优先级,我们往往会浪费时间和资源在低价值的业务问题上,这些问题在业务结果方面不会带来太多增量价值。为确保这一点,我们需要简化所有业务功能中的数据获取和存储活动,以提高可用于分析的数据质量,然后根据业务价值进行优先排序。每个模型的好坏取决于其数据,这一点需要时刻牢记。

缺乏灵活性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传将数据科学项目视为有明确开始和结果的项目可能是个错误,因为在组织在其分析和数据科学范式中达到稳定之前,它将经历一个广泛的试错阶段(至少几年的时间甚至更久),经历哪些有效,哪些无效,哪些数据相关,哪些模型表现良好,以及哪些模型最终需要部署才能产生有用的业务指标,从而产生增量影响。系统必须具备从错误中快速学习的灵活性和敏捷性,但通常很多人认为分析/数据科学是一种魔法,算法的一键点击将从根本上改变业务结果——没有比这更愚蠢的了。这是一个令人遗憾的现实。

我有时会想,人们是否能诚实地反思自己是问题的一部分还是解决方案的一部分。

当然,还有一些额外的原因涉及技能、IT、工具或数据库选择、存储解决方案、能力和资源,但这些问题只有在人员、生态系统和文化挑战得到解决之后才会优先考虑。这些额外的问题属于操作和技术方面的范畴,适合另写一篇文章。

简介:Ankit Mahajan,首席执行官兼总编辑 RetailMarketingTechnology.com,总部位于奥地利和印度

原文。已获转载许可。

相关:

  • 特朗普、民调统计及预测房价

  • 大数据 + 错误方法 = 大失败

  • 大数据项目失败的 3 个原因

更多相关话题

Top /r/MachineLearning 帖子,三月:一份超级严厉的机器学习指南;是 Gaggle 还是 Koogle?!?

原文:www.kdnuggets.com/2017/04/top-reddit-machine-learning-march.html

在三月的 /r/MachineLearning 中,我们欣赏到了一份超级严厉的机器学习指南,得知 Google 正在收购 Kaggle,从 Salesforce 的首席数据科学家那里获得超监督学习建议,听到 Andrew Ng 退出百度的告别,并了解到更多有关 Distill 的激动人心的信息,这是一个基于网络的“机器学习研究互动视觉期刊”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过去一个月**/r/MachineLearning**的前 5 名帖子是:

1. 一份超级严厉的机器学习指南

这本简短而直白的机器学习指南由 /u/thatguydr 编写,他的简洁性令人钦佩。他的整个指南——在随后的讨论中扩展、讨论,并有其他人提供的材料——如下:

首先,阅读该死的 Hastie、Tibshirani 和其他人。第 1-4 章和第七章。如果不理解,就一直读,直到明白为止。

你可以继续阅读剩下的书。如果你愿意,你应该这么做,但我会假设你都知道了。

学习 Andrew Ng 的 Coursera 课程。在 Matlab、Python 和 R 中完成所有练习,确保它们的答案一致。

现在忘掉这些,阅读深度学习书籍。在 Linux 机器上安装 tensorflow 或 torch,并运行示例直到理解。做一些 CNN 和 RNN 的工作,并进行前馈 NNs。

完成所有这些后,去 arXiv 阅读最新的有用论文。文献每隔几个月就会变化,所以要跟上。

这样,你现在可能可以被大多数地方雇用。如果需要简历填充,可以参加一些 Kaggle 比赛。如果有调试问题,使用 StackOverflow。如果有数学问题,多读书。如果有生活问题,我无从知道。

它在诚实和准确性方面都很美妙。我有点不满的是没有生活建议,因为我期待这类人(或女士)会很擅长提供这些建议。

2. Google 收购数据科学社区 Kaggle

Google 收购了 Kaggle。这不应该是一个巨大的惊喜,考虑到以下几点:

Kaggle 与 Google 也有一段历史,不过那是最近的事。本月早些时候,Google 和 Kaggle 联手举办了一场价值 $100,000 的机器学习竞赛,主题是分类 YouTube 视频。该竞赛也与 Google Cloud Platform 进行了深度集成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将拭目以待谷歌在 Kaggle 上的最终目标是什么,但这里有各种交叉的可能性。根据你对潜在垄断的看法,这个事件要么令人兴奋,要么令人恐惧。但这是一个很好的品牌推广举措,并且可以帮助谷歌扩展其最近成为全球唯一机器学习巨头的兴趣。

3. Salesforce 首席数据科学家的建议

来自 Salesforce 首席科学家 Richard Socher 的一条推特建议:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管这是一个苹果和橙子的比较(“与其吃一块肉类披萨,不如去砍些木头”),我在某种程度上可以理解他的立场。这将是一个伟大的教育性项目,并且可以支持整个社区,特别是如果他鼓励分享这些精选数据集的话。但实际上,我不认为所有从事无监督学习问题的人都会或应该去标注分类数据。这显然不会推动无监督学习的进展。

4. Andrew Ng 从百度辞职

在他的 Medium 博客上,Andrew Ng 宣布了他从百度辞职以及他即将到来的计划。剧透警告:他并不会在 Van Nuys 开一家海鲜餐厅:

我将继续致力于引领这一重要的社会变革。除了将大型公司转型为使用 AI,还存在丰富的创业机会以及进一步的 AI 研究。我希望我们所有人都能拥有自动驾驶汽车;可以自然对话的计算机;以及理解我们病痛的医疗机器人。工业革命使人类摆脱了许多重复的体力劳动;我现在希望 AI 能让人类摆脱重复的脑力劳动,例如在交通中驾驶。

祝好,Ng 先生!

5. Distill:一种机器学习研究的互动视觉期刊

Distill 正式推出,由 Google Brain 的创始编辑 Chris Olah 和 Shan Carter 进行规划和管理。撰稿人 Michael Nielsen 写道:

Distill 正在认真对待网络。Distill 文章(至少在其理想和雄心勃勃的形式中)不仅仅是一篇论文。它是一个互动媒介,允许用户——“读者”已不再足够——直接与机器学习模型进行互动。

理想情况下,这类文章会将解释、代码、数据和交互式可视化整合到一个环境中。在这样的环境中,用户可以以传统静态媒体无法实现的方式进行探索。他们可以更改模型,尝试不同的假设,并立即看到结果。这将使他们能够以传统静态媒体无法实现的方式迅速建立理解。

这无疑是一个需要关注的关键资源。祝相关人员好运。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相关:

  • 顶级 /r/MachineLearning 帖子,二月:牛津深度 NLP 课程;Scikit-learn 结果的数据可视化

  • 顶级 /r/MachineLearning 帖子,一月:TensorFlow 更新;AlphaGo 野外表现;自动驾驶马里奥卡丁车

  • 顶级 /r/MachineLearning 帖子,十二月:OpenAI 宇宙;面向编码员的深度学习 MOOC;马斯克:特斯拉变得更棒


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速通道进入网络安全职业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升您的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织进行 IT 工作


更多相关话题

Top /r/MachineLearning 帖子,十月:不适合工作场所的图像识别、可微分神经计算机、Hinton 在 Coursera 上

原文:www.kdnuggets.com/2016/11/top-reddit-machine-learning-october.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 在十月的 /r/MachineLearning 上,事情变得不适合工作场所,DeepMind 继续创新,Hinton 再次成为头条,AI 开放网络被介绍,Stuart Little 拥有了一辆自主驾驶的汽车。

过去一个月**/r/MachineLearning** 的前五名帖子(不包括子版块的元讨论)是:

1. Yahoo 的 open_nsfw 图像合成

如果标题不够清楚的话……

警告:此帖子包含抽象的裸体描绘,可能不适合工作场所

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个在 GitLab 上的项目探讨了 Yahoo 的 open_nsfw,一个用于“工作不适宜(NSFW)分类的深度神经网络,使用深度神经网络 Caffe 模型。”帖子解释了:

Yahoo 最近开源的神经网络 open_nsfw 是一个精调的残差网络,根据其在工作场所使用的适宜性对图像进行 0 到 1 的评分。在文档中,Yahoo 说明:

“定义 NSFW 材料是主观的,识别这些图像的任务并不简单。此外,在一个环境中令人反感的内容在另一个环境中可能是适合的。”

作为双重免责声明,帖子中的合成图像以抽象的方式令人不安,并且不适合工作场所。

然而,这个项目和文章是对技术的合法探讨,远非无意义或色情。这是对研究的真实展示。

2. DeepMind 新的《自然》论文:使用动态外部记忆的混合计算神经网络

这篇来自 DeepMind 的帖子提供了对 最近发表在《自然》上的论文 的概述,介绍了可微分神经计算机。来自文章:

在最近的一项《自然》研究中,我们介绍了一种称为可微分神经计算机的记忆增强神经网络,并展示了它能够利用记忆回答有关复杂结构化数据的问题,包括人工生成的故事、家谱,甚至伦敦地铁图。我们还展示了它能够通过强化学习解决一个方块拼图游戏。

观看可微分神经计算机回答家谱关系问题:

3. Geoffrey Hinton 的《机器学习中的神经网络》课程已经开始。我们还为它创建了一个子论坛 (r/nn4ml)

Geoffrey Hinton 的《机器学习中的神经网络》在 Coursera 上重新开课。虽然你可能错过了前几周的课程,但如果你有兴趣学习这些材料,这是一个很好的入门课程,之前几周的所有材料和视频仍然可以访问。

如标题所述,子版块/r/nn4ml也是一个值得关注的资源,对参加课程的人可能有帮助。特别值得注意的是,子版块上有一个关于组建学习小组以在 TensorFlow 中实现课程内容的讨论。该线程有活动,并提到成员们使用的 Slack 频道,并附有加入说明。活跃的协作社区正在实现神经网络模型用于教育目的。听起来是个好事。

4. 介绍 AI 开放网络:一个 100% 开源的 AI 研究社区

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直接来自 AI•ON 网站:

AI•ON 是一个致力于推进人工智能的开放社区:

  • 引起对重要但未被充分重视的研究问题的关注。
  • 连接研究人员并鼓励开放的科学合作。
  • 为希望获得机器学习经验的学生提供学习环境。

以应用研究项目为重点的协作 AI 研究。听起来是个好事。

5. 在闲暇时间制作了一个自驾遥控车

自动驾驶汽车持续成为头条新闻,但最近引起的关注比以往更多

这个项目将自动驾驶引入了遥控车。研究人员已经将 Nvidia 最近的论文以紧凑形式实现,结果令人鼓舞:

有关项目实现的详细信息及代码,请查看这篇文章

相关:

  • 顶级 /r/MachineLearning 帖子,九月:开放图像数据集;巨额深度学习资助;高级 ML 课程资料

  • 顶级 /r/MachineLearning 帖子,八月:Google Brain AMA,使用 TensorFlow 的图像完成,日本黄瓜种植

  • 顶级 /r/MachineLearning 帖子,七月:Google Brain AMA,Geoff Hinton 获得 IEEE 奖章,Hinton ANN 课程上线!


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你所在的组织进行 IT 工作


更多相关主题

九月份 /r/MachineLearning 热帖:从头实现一个 C++神经网络

原文:www.kdnuggets.com/2015/10/top-reddit-machine-learning-september.html

作者 Matthew Mayo

/r/MachineLearning 上的九月份,我们找到了一段关于 C++的神经网络教程视频,了解到基于深度学习的汉字手写识别已经超越了人类水平,拿到了一份机器学习算法速查表,将函数式编程与深度学习联系起来,并发现了一个神经网络论文库。

1. 绝对初学者的 C++神经网络 +154

这篇文章是一个戴夫·米勒讲解简单反向传播神经网络的视频,并演示如何在 C++中编写一个。该视频时长约为一小时,根据我个人跟随教程的经验,我可以告诉你,视频运行期间实现手工制作的、功能齐全的神经网络是可以实现的。简短的评论区还包含一些有用的讨论,包括对这本在线深度学习书籍的参考。你可以在这里找到米勒自己编写的神经网络代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2. 富士通实现了 96.7%的手写汉字识别率 +151

根据文章,手写汉字的实际人类等效识别率为 96.1%,而富士通以 96.7%的准确率超过了这一水平。遵循近期大量机器学习研究的精神,研究人员选择了深度神经网络作为工具。然而,这并不是你父亲的手写数字识别任务,因为需要识别 3800 个汉字。研究人员还创新性地提出了一种自动变形手写样本的方法,以增加训练样本的数量。

3. 速查表 - 常见机器学习算法的 Python 与 R 代码 +150

这篇文章通过 Analytics Vidhya 汇集了机器学习算法实现(通过库)的集合,分别在 Python 和 R 中实现。相应的代码覆盖了 10 种流行算法的整个建模过程(数据加载、训练、测试),包括决策树、支持向量机和线性回归。备忘单 对于对某种语言(或两种语言)不熟悉的新人以及希望温故或寻求快速复制粘贴解决方案的经验丰富的实施者都同样有用。

4. 神经网络、类型和函数式编程 +142

上个月,Christopher Olah 帮助我们理解了 LSTM 网络,而本月他选择的主题是深度学习:它的起源,它在不远的未来预期和改变后的形式,以及它与函数式编程的联系。Olah 在此提出了一个推测性的理论,即“深度学习研究了优化与函数式编程之间的关系”,将表示等同于类型,并将各种不同的神经网络与其感知的函数式等效物进行比较。尽管 Olah 自己表示“这是一篇相当奇怪的文章,我觉得发布它有点奇怪”,但这篇文章阅读起来非常有趣,帮助我们以全新的视角来看待两个熟悉但不相关的概念。这里是直接链接到论文

5. 神经网络论文精选列表 +139

在这里!神经网络和深度学习无处不在,软件工程师和神经网络爱好者 Robert S. Dionne 为大家做了个好事,整理并分享了一个 相关论文列表,与我们当前的集体关注密切相关。该列表整齐地按 30 个类别进行展示,如限制玻尔兹曼机、卷积神经网络和并行训练。随着大量深度学习论文的涌现,能够整理和 解释 这些论文的人真是太好了。

简历:Matthew Mayo 是一名计算机科学研究生,目前正在进行关于并行化机器学习算法的论文研究。他还是数据挖掘的学生,数据爱好者,以及一名有志的机器学习科学家。

相关内容:

  • Top /r/MachineLearning 帖子,八月:深度学习以许多著名画家的风格进行绘画

  • Top /r/MachineLearning 帖子,7 月:机器学习视觉介绍、谷歌新专利争议、深度学习和著名艺术

  • Top 5 arXiv 深度学习论文,解析


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织的 IT


更多相关主题

数据科学家使用的顶级 SQL 查询

原文:www.kdnuggets.com/top-sql-queries-for-data-scientists

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业的快车道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


我知道“Python”这个词在数据科学的背景下可能是被使用得最多的词。在某种程度上,这有其原因。然而,在这篇文章中,我想专注于 SQL,它在谈论数据科学时常被忽视。我强调谈论,因为在实际应用中,SQL 并没有被忽视。相反,它是数据科学中编程语言的圣三位一体之一:SQL、Python 和 R。

SQL 用于数据查询和操作,但也具有相当可观的数据分析和报告能力。我将展示一些你作为数据科学家需要了解的主要 SQL 概念以及来自 StrataScratch 和 LeetCode 的一些简单示例。

然后,我将提供两个常见的业务场景,其中所有或大部分 SQL 概念必须应用。

数据科学家主要 SQL 概念

这是我将讨论的概念概述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1. 查询和过滤数据

这是作为数据科学家的实际工作通常开始的地方:查询数据库并提取你任务所需的数据。

这通常涉及相对简单的 SELECT 语句,包含 FROM 和 WHERE 子句。要获取唯一值,使用 DISTINCT。如果需要使用多个表,还要添加 JOIN。

你通常需要使用 ORDER BY 来使数据集更加有序。

结合两个表的示例 你可能需要通过连接两个表并按姓氏排序来列出人员的姓名以及他们所在的城市和州。

SELECT FirstName,
       LastName, 
       City, 
       State
FROM Person p LEFT JOIN Address a
ON p.PersonId = a.PersonId
ORDER BY LastName ASC; 

2. 处理 NULL

NULL 是数据科学家通常不会无动于衷的值——他们要么只要 NULL,要么想要删除它们,或者将它们替换为其他值。

你可以使用 IS NULL 或 IS NOT NULL 在 WHERE 子句中选择有或没有 NULL 的数据。

使用 条件表达式 通常可以用其他值替换 NULL:

  • NULLIF()

  • COALESCE()

  • CASE 语句

IS NULL 示例: 通过此查询,你可以找到所有没有被 ID = 2 的客户推荐的客户。

SELECT name 
FROM customer 
WHERE referee_id IS NULL OR referee_id <> 2; 

COALESCE() 示例:我可以通过这个示例重新编写,说我想查询所有数据,但也添加一列,显示 0% 作为主机响应率,而不是 NULL。

SELECT *,
       COALESCE(host_response_rate, '0%') AS edited_host_response_rate
FROM airbnb_search_details; 

3. 数据类型转换

作为数据科学家,你会频繁地转换数据。数据通常不会以所需的格式出现,因此你必须将其调整为满足你的需求。这通常使用 CAST() 完成,但也有一些替代方法,具体取决于你的 SQL 版本。

数据类型转换示例: 该查询将星级数据从 VARCHAR 转换为 INTEGER,并移除具有非整数值的值。

SELECT business_name,
       review_id,
       user_id,
       CAST(stars AS INTEGER) AS cast_stars,
       review_date,
       review_text,
       funny,
       useful,
       cool
FROM yelp_reviews
WHERE stars  '?'; 

4. 数据聚合

为了更好地理解他们正在处理的数据(或者仅仅因为他们需要生成一些报告),数据科学家经常需要对数据进行聚合。

在大多数情况下,你必须使用 聚合函数 和 GROUP BY。一些常见的聚合函数包括:

  • COUNT()

  • SUM()

  • AVG()

  • MIN()

  • MAX()

如果你想要过滤聚合数据,使用 HAVING 而不是 WHERE。

求和示例: 你可以使用此查询对每个用户的银行账户进行求和,并只显示余额超过 1,000 的用户。

SELECT u.name, 
       SUM(t.amount) AS balance
FROM Users u
JOIN Transactions t
ON u.account = t.account
GROUP BY u.name
HAVING SUM(t.amount) > 10000; 

5. 处理日期

对于数据科学家来说,处理日期是很常见的。再说一遍,这些日期格式有时并不符合你的口味或需求。为了最大化日期的灵活性,你有时需要提取日期的部分或重新格式化它们。在 PostgreSQL 中,你最常用这些 日期/时间函数

  • EXTRACT()

  • DATE_PART()

  • DATE_TRUNC()

  • TO_CHAR()

处理日期的常见操作之一是找出日期之间的差异或添加日期。你可以通过简单地减去或添加这两个值,或者使用专门的函数来完成这项操作,具体取决于你使用的数据库。

提取年份示例: 以下查询从 DATETIME 类型的列中提取年份,以显示 Roxanne Cafe 每年的违规次数。

SELECT EXTRACT(YEAR FROM inspection_date) AS year_of_violation,
       COUNT(*) AS n_violations
FROM sf_restaurant_health_violations
WHERE business_name = 'Roxanne Cafe' AND violation_id IS NOT NULL
GROUP BY year_of_violation
ORDER BY year_of_violation ASC; 

日期格式化示例:通过以下查询,你可以使用 TO_CHAR() 将开始日期格式化为 ‘YYYY-MM’。

SELECT TO_CHAR(started_at, 'YYYY-MM'),
       COUNT(*) AS n_registrations
FROM noom_signups
GROUP BY 1; 

6. 处理文本

除了日期和数字数据外,数据库中经常包含文本值。有时,这些值需要被清理、重新格式化、统一、拆分和合并。由于这些需求,每个数据库都有许多文本函数。在 PostgreSQL 中,一些比较流行的函数有:

  • CONCAT() 或 ||

  • SUBSTRING()

  • LENGTH()

  • REPLACE()

  • TRIM()

  • POSITION()

  • UPPER() & LOWER()

  • REGEXP_REPLACE() & REGEXP_MATCHES() & REGEXP_SPLIT_TO_ARRAY()

  • LEFT() & RIGHT()

  • LTRIM() & RTRIM()

所有数据库中通常都有一些重叠的字符串函数,但每种数据库都有一些独特的函数。

文本长度示例: 此查询使用 LENGTH() 函数根据长度查找无效的推文。

SELECT tweet_id 
FROM Tweets 
WHERE LENGTH(content) > 15; 

7. 排名数据

排名数据是数据科学中常见的任务之一。例如,它可以用来查找最畅销或最滞销的产品、收入最高的季度、按流媒体次数排名的歌曲以及薪水最高和最低的员工。

排名是通过窗口函数完成的(我们将在下一部分详细讨论):

  • ROW_NUMBER()

  • RANK()

  • DENSE_RANK()

排名示例:此查询使用 DENSE_RANK() 函数根据列出的床位数量对房东进行排名。

SELECT host_id, 
       SUM(n_beds) AS number_of_beds,
       DENSE_RANK() OVER(ORDER BY SUM(n_beds) DESC) AS rank
FROM airbnb_apartments
GROUP BY host_id
ORDER BY number_of_beds DESC; 

8. 窗口函数

SQL 中的窗口函数允许你计算与当前行相关的行。这种特性不仅用于排名数据。根据窗口函数的类别,它们可以有许多不同的用途。你可以在窗口函数文章中阅读更多信息。然而,它们的主要特性是可以同时显示分析和聚合数据。换句话说,在执行计算时,它们不会合并单独的行。

FIRST_VALUE() 窗口函数示例: 一个窗口函数示例是显示特定年份的最新用户登录。FIRST_VALUE() 窗口函数使这一任务变得更容易。

SELECT DISTINCT user_id,
       FIRST_VALUE(time_stamp) OVER (PARTITION BY user_id ORDER BY time_stamp DESC) AS last_stamp
FROM Logins
WHERE EXTRACT(YEAR FROM time_stamp) = 2020; 

9. 子查询与 CTE

子查询和 CTE(称为更整洁的子查询)允许你达到更高级的计算水平。通过了解子查询和 CTE,你可以编写复杂的 SQL 查询,在主查询中引用子查询或 CTE 用于子计算。

子查询和 CTE 示例 以下查询使用子查询找到产品销售的第一年。这些数据然后在主查询的 WHERE 子句中用于过滤数据。

SELECT product_id, 
       year AS first_year, 
       quantity, 
       price 
FROM Sales 
WHERE (product_id, year) IN (
    SELECT product_id, 
           MIN(year) AS year 
    FROM Sales 
    GROUP BY product_id
); 

代码可以使用 CTE 代替子查询来编写。

WITH first_year_sales AS (
    SELECT product_id, 
           MIN(year) AS first_year 
    FROM Sales 
    GROUP BY product_id
)

SELECT s.product_id, 
       s.year AS first_year, 
       s.quantity, 
       s.price 
FROM Sales s
JOIN first_year_sales AS fys 
ON s.product_id = fys.product_id AND s.year = fys.first_year; 

使用 SQL 的业务示例

现在让我们来看几个业务案例,数据科学家可以使用 SQL 并应用我们之前讨论的所有(或大部分)概念。

寻找最佳销售产品

在这个示例中,你必须了解子查询、数据汇总、处理日期、使用窗口函数排名数据以及过滤输出。

子查询计算每个产品每个月的销售额,并按销售额排序。主查询则简单地选择所需的列,仅保留排名第一的产品,即畅销产品。

SELECT sale_month,
       description,
       total_paid
FROM
  (SELECT DATE_PART('MONTH', invoicedate) AS sale_month,
          description,
          SUM(unitprice * quantity) AS total_paid,
          RANK() OVER (PARTITION BY DATE_PART('MONTH', invoicedate) ORDER BY SUM(unitprice * quantity) DESC) AS sale_rank
   FROM online_retail
   GROUP BY sale_month,
            description) AS ranking_sales
WHERE sale_rank = 1; 

计算移动平均

滚动或移动平均是一个常见的业务计算,数据科学家可以应用他们广泛的 SQL 知识,如这个示例所示。

以下代码中的子查询按月份计算收入。主查询然后使用 AVG() 窗口函数计算 3 个月的滚动平均收入。

SELECT t.month,
       AVG(t.monthly_revenue) OVER(ORDER BY t.month ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) AS avg_revenue
FROM
  (SELECT TO_CHAR(created_at::DATE, 'YYYY-MM') AS month,
          SUM(purchase_amt) AS monthly_revenue
   FROM amazon_purchases
   WHERE purchase_amt>0
   GROUP BY 1
   ORDER BY 1) AS t
ORDER BY t.month ASC; 

结论

所有这些 SQL 查询展示了如何在数据科学任务中使用 SQL。虽然 SQL 不适用于复杂的统计分析或机器学习,但它非常适合查询、操控、汇总数据和进行计算。

这些示例查询应该能帮助你在工作中。如果你没有数据科学工作,其中许多查询将在你的SQL 面试问题中出现。

内特·罗西迪 是一位数据科学家及产品策略专家。他还是一名兼职教授,教授分析学,是 StrataScratch 的创始人,该平台帮助数据科学家通过来自顶级公司的真实面试问题来准备面试。内特撰写了有关职业市场的最新趋势,提供面试建议,分享数据科学项目,并涵盖所有 SQL 相关内容。

更多相关内容

KDnuggets 推文最佳,1 月 04-10 日:漫画:当自动驾驶车把你带得太远了;大量免费的编程书籍

原文:www.kdnuggets.com/2017/01/top-tweets-jan04-10.html

最受欢迎的 @KDnuggets 推文(1 月 04-10 日)是

转发最多的:

#漫画:当 #自动驾驶 车 + #机器学习 把你带得太远了…… #AI t.co/z65aSnd0nn t.co/jXJKLgoDP7 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

收藏最多的:

大量(我们假设为真正的)免费的 #编程 书籍:t.co/31LzaLStn6 t.co/ledMPOfUPl

观看最多的:

#漫画:当 #自动驾驶 车 + #机器学习 把你带得太远了…… #AI t.co/z65aSnd0nn t.co/jXJKLgoDP7

点击最多的:

#AI #数据科学 #机器学习:2016 年的主要发展,2017 年的关键趋势 @zacharylipton @jilldyche @goodfellow_ian t.co/1riBvzO8W7 t.co/GrOVzzkRxL

十大最吸引人的推文

  1. 大量(我们假设为真正的)免费的 #编程 书籍:t.co/31LzaLStn6 t.co/ledMPOfUPl

  2. #AI #数据科学 #机器学习:2016 年的主要发展,2017 年的关键趋势 @zacharylipton @jilldyche @goodfellow_ian t.co/1riBvzO8W7 t.co/GrOVzzkRxL

  3. Scikit-Learn 备忘单:#Python #机器学习 作者 @willems_karlijn 通过 @DataCamp t.co/8TuGdniMDO t.co/nmxjCS1mOi

  4. #漫画:当 #自动驾驶 车 + #机器学习 把你带得太远了…… #AI t.co/z65aSnd0nn t.co/jXJKLgoDP7

  5. #AI 和 #机器学习 未来 1:背景,作者 Neil Lawrence @lawrennd t.co/I3YwCfXQEM t.co/eQO7QFIQF8

  6. #ICYMI 5 个你不能再忽视的 #机器学习 项目,1 月 t.co/iuYcBxKbD9 t.co/GmA3Ipc6Jv

  7. 为什么 #决策树 有效:训练 #数据 #机器学习 中错误的概率以指数速度减少 t.co/VUIiN3DtKO t.co/LcDSgKsuxR

  8. 每位员工的收入:黄金比例,还是假象? #劳动力 #分析 t.co/Ey11UVSNtC t.co/JLSbsjCZoR

  9. #AI 和 #机器学习的未来 3:机器学习的特洛伊战争,作者:Neil Lawrence @lawrennd t.co/q4fXpt4yaH t.co/ofTvj1OJFu

  10. 5 个你不能再忽视的#深度学习项目 t.co/dgie5TYB32 t.co/Fmr8Fd3uLT


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


更多相关话题

KDnuggets 最受欢迎的推文,3 月 16-18 日:87 项研究显示,准确的数字并不比你编造的数字更有用(Dilbert)

原文:www.kdnuggets.com/2015/03/top-tweets-mar16-18.html

最受欢迎的 @KDnuggets 推文,3 月 16-18 日

最吸引人的 10 条推文

  1. 87 项研究显示,准确的数字并不比你编造的数字更有用 #Dilbert buff.ly/1HXm17p pic.twitter.com/GZipoZ5Lr4 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  2. 研究人员建立了 Sirius - 一个免费的开源 Siri 版本,使用#深度学习、语音 buff.ly/1x7Xxro pic.twitter.com/63a3GbPG8C 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  3. #PI 艺术:从圆心向外,前 13,689 位π的数字 #数学 buff.ly/1AtnNIf pic.twitter.com/sj6PGgRo0J 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  4. 很棒的教程 + #Python 代码:1 层神经网络 #机器学习 #算法 buff.ly/1HVSivv pic.twitter.com/37KG6OcJDw

  5. 特征工程:如何转化和创建变量 #机器学习 #数据科学 buff.ly/1BFvoaL pic.twitter.com/iiQVTJd4IU 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  6. 数据科学家需要了解的 5 件事关于 Excel:命名范围、排序/过滤、数据透视表 buff.ly/1x7XaNg pic.twitter.com/oMusaVGNSH

  7. 用#深度学习分类浮游生物 - 国家数据科学竞赛的获胜者解释 @kaggle buff.ly/1BugyPy pic.twitter.com/8GRlY6uxs5

  8. 给 Yann LeCun 的公开信 - 小数据需要专门的#深度学习 buff.ly/1Cnb3I5 pic.twitter.com/F1GYbz4M8x

  9. 发出噪音:拥抱#随机性是扩大#机器学习算法的关键 buff.ly/1O0vnmY pic.twitter.com/uaEMMBG6dE

  10. 为什么#数据引力在#架构#设计中不能被忽视?#访谈与 @mccrory@Basho buff.ly/1F18gpM pic.twitter.com/DTgmoIOCFs

更多相关内容

KDnuggets 推文精华,5 月 13 日至 19 日:线性代数与优化及机器学习:一本教科书

原文:www.kdnuggets.com/2020/05/top-tweets-may13-19.html

5 月 13 日至 19 日最受欢迎的 @KDnuggets 推文

最被转发:

成为自学的#机器学习工程师所需的一切 t.co/QNOjw6eNEc t.co/hXUjCH9BDP

最受喜爱:

线性代数与优化及机器学习:一本教科书 t.co/jfzjVtFIIH t.co/oRHE5sUycg 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最受关注:

线性代数与优化及机器学习:一本教科书 t.co/jfzjVtFIIH t.co/oRHE5sUycg

最具互动性:

线性代数与优化及机器学习:一本教科书 t.co/jfzjVtFIIH t.co/oRHE5sUycg

点击量最高的前 10 条推文

  1. 线性代数与优化及机器学习:一本教科书 t.co/jfzjVtFIIH t.co/oRHE5sUycg

  2. 成为自学的#机器学习工程师所需的一切 t.co/QNOjw6eNEc t.co/hXUjCH9BDP

  3. SQL 备忘单(2020) - 一个有用的备忘单,记录了一些更常用的 SQL 元素,甚至还有一些不太常见的 t.co/uzPb4resu9 t.co/r7MHbZP512

  4. 《自动化机器学习:免费电子书》 - KDnuggets t.co/ovSMpsyrSU 关于自动化机器学习理论和实践还有很多需要学习的内容。这本免费电子书可以帮助你正确入门。 t.co/Www9mDEdgT

  5. 《自动化机器学习:免费电子书》 - KDnuggets t.co/ovSMpsgR1m t.co/421rvT30wS

  6. KDnuggets 新漫画探讨了可能是最糟糕的远程医疗例子 … t.co/jh1Z1SlztV t.co/mpDJLQu9rM

  7. 24 本最佳(且免费的)书籍来理解机器学习 - KDnuggets t.co/NeAdMfq09K t.co/QY60ES68ew

  8. Scikit-Learn 设计原则 t.co/yxXwRksgKy t.co/g2QbOCZt10

  9. 《统计学习的元素:免费电子书》 - KDnuggets t.co/KHiPdBCc6u t.co/dfiawOvvjL

  10. 编程人员数学教授了你为编程职业所需的#数学,集中讲解作为开发者需要掌握的知识。使用代码 kdmath50 来节省@ManningBooks t.co/k7YGKRmPZi t.co/Kv3xFlBgXB


我们的前三大课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持你的组织在 IT 领域


更多相关主题

KDnuggets 最受欢迎的推文,11 月 2 日至 8 日:35 个物联网开源工具;集成学习者简介

原文:www.kdnuggets.com/2016/11/top-tweets-nov02-08.html

最受欢迎的 @KDnuggets 推文,11 月 02-08 日

最受转发:

35 个物联网开源工具 #KDN t.co/8XxYD7VDH8![物联网](https://t.co/8XxYD7VDH8)

最受喜欢:

#数据科学基础:集成学习者简介 t.co/nY7mKR76Gt #机器学习 #数据挖掘 @mattmayo13 t.co/bkXYwaoMKP

最受观看:

#ICYMI 机器学习工程师需要知道的 10 种算法 t.co/jJGA270FL7 t.co/55wMDMcPFq

点击最多:

#ICYMI 21 个必须知道的数据科学面试问题及答案 t.co/mYKUrUT5aK t.co/ZtL2y7ai6e

前 10 条最吸引人的推文

  1. #ICYMI 21 个必须知道的数据科学面试问题及答案 t.co/mYKUrUT5aK t.co/ZtL2y7ai6e

  2. #ICYMI 大数据科学:期望与现实 t.co/lYYQd0tZGg t.co/qVHCnsmOy3

  3. #ICYMI 大数据科学:期望与现实 t.co/e2xbCB070X t.co/wMesDAQnHA

  4. #ICYMI 机器学习工程师需要知道的 10 种算法 t.co/jJGA270FL7 t.co/55wMDMcPFq

  5. 对#Git 分支感到困惑?@devbootcamp 制作了这个实用图示 t.co/5u2SmmSsDB

  6. #数据科学基础:集成学习者简介 t.co/nY7mKR76Gt #机器学习 #数据挖掘 @mattmayo13 t.co/bkXYwaoMKP

  7. #arXiv 语义知识图谱:一个紧凑的、自动生成的实时遍历和排名模型 t.co/XWancCFSTk #分析 t.co/HwsmynPr9q

  8. #人工智能 分类矩阵 t.co/ex8ZfvsmWi t.co/qXVTD1VQ7a

  9. #ICYMI 进入机器学习之前阅读的 5 本电子书 t.co/4xxefW3Hlf t.co/S4zOsKHUBI

  10. #ICYMI 8 个(简单)步骤学习数据科学 t.co/hpIuL3ut6I t.co/HO5RcjhqXU

更多相关话题

KDnuggets 顶级推文,11 月 17-18 日:在学习#Python 时随手备份此秘籍;#BigData 是否是最被炒作的技术?

原文:www.kdnuggets.com/2014/11/top-tweets-nov17-18.html

11 月 17-18 日最受欢迎的 @KDnuggets 推文有

转发最多:

#BigData 是有史以来最被炒作的技术吗?不是(至少目前还不是) t.co/lzZIFs4FNs pic.twitter.com/RaiurvM7h5— Gregory Piatetsky (@kdnuggets) 2014 年 11 月 17 日

最受喜爱:

在学习编程时随时备份此#Python 秘籍 t.co/IIGLXJjzjq t.co/lEPdSvuX8A 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最受关注:

#BigData 是否是最被炒作的技术?不是(至少目前还不是) t.co/lzZIFs4FNs http://t.co/RaiurvM7h5

点击最多:

在学习编程时随时备份此#Python 秘籍 t.co/IIGLXJjzjq http://t.co/lEPdSvuX8A

前 10 条最具吸引力的推文

  1. 在学习编程时随时备份此#Python 秘籍 t.co/IIGLXJjzjq t.co/lEPdSvuX8A

  2. #BigData 是否是最被炒作的技术?不是(至少目前还不是) t.co/lzZIFs4FNs t.co/RaiurvM7h5

  3. 如何在 8 个(不那么)简单的步骤中成为数据科学家 - 精美信息图 #BigData t.co/ebZPRjLH1p t.co/GRPZyZw3EX

  4. R 和 Hadoop 使得机器学习对每个人都可能 t.co/ROA33LiUvP

  5. 同意!数据可视化需要展示结论,而非艺术杰作 t.co/lPmV24r70n t.co/qmdLoVs7CK

  6. 极客与书呆子:文化,#apple,#etsy - 极客;神经科学,哈佛,书呆子;#bigdata 既是极客又是书呆子 t.co/Ok0R3hu3Oo t.co/uaR092QwaX 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  7. 《数据科学与商业》,作者 @FakeFoster,Fawcett,优秀的书籍 & MBA 必读书单之一 t.co/kVGVbnTD9V t.co/UJmqGQjLeb

  8. 唯一需要关注的技能:解决问题 t.co/qFi238ncQf

  9. 为什么 Azure ML 是机器学习的下一个大趋势? t.co/qc1711ChWZ

  10. Bing Predicts 超越行业专家,准确预测美国中期选举的准确率超过 95% t.co/hrPNCrQuYe t.co/cHxLK5yZOw


我们的前三课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业生涯的捷径。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持组织的 IT 部门。


相关话题

KDnuggets 推文,11 月 21 日至 27 日:管理者数据科学入门 – 思维导图;人工智能简介

原文:www.kdnuggets.com/2018/11/top-tweets-nov21-27.html

11 月 21 日至 27 日最受欢迎的 @KDnuggets 推文如下

转发最多的:

管理者数据科学入门 - 思维导图 t.co/pD0QuhbXqN t.co/MHn0GStsOp 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最受喜爱的:

管理者数据科学入门 - 思维导图 t.co/pD0QuhbXqN t.co/MHn0GStsOp

最受欢迎的:

人工智能简介 t.co/QkRdKzPTDV t.co/VhK5ATefKK

点击最多的:

管理者数据科学入门 - 思维导图 t.co/pD0QuhbXqN t.co/MHn0GStsOp

前 10 条最具吸引力的推文

  1. 管理者数据科学入门 - 思维导图 t.co/pD0QuhbXqN t.co/MHn0GStsOp

  2. 人工智能简介 t.co/QkRdKzPTDV t.co/VhK5ATefKK

  3. 直观理解卷积的#深度学习 t.co/X6xruKljP6 t.co/GYHnYaVv5K

  4. 管理者数据科学入门 t.co/pD0QuhbXqN t.co/864afVypuf

  5. 10 个免费的机器学习与数据科学必看课程 t.co/aM7h4AWmFN t.co/lKppfhUhuO

  6. 人工直觉与强化学习,#机器学习 #AI 的下一步 t.co/EtHWqknDcX t.co/G65w0fK5Lh

  7. 大数据游戏板™ t.co/Mmnw8IBko5 t.co/nnkMEdzP2w

  8. 最佳 Python IDE 用于数据科学是什么? t.co/UuDv6s9BIb t.co/BEA9C2hDDV

  9. 漫画:感恩节、大数据与火鸡数据科学。t.co/C355O0C6FU t.co/SqhMwEQLJV

  10. 10 个免费的机器学习与数据科学必看课程 t.co/aM7h4AWmFN t.co/3pYX26fggu

更多相关内容

数据科学的顶级 YouTube 频道

原文:www.kdnuggets.com/2021/03/top-youtube-channels-data-science.html

评论

视频是一个很好的学习工具,YouTube 上有大量的数据科学资料等着被消费。然而,发现平台上的优质内容可能很困难,我们往往珍视那些优秀频道的发现。

我并不是告诉你什么你不知道的事情,但我在这里(希望能)帮助缓解在 YouTube 上寻找优质数据科学视频内容的麻烦。这里的想法是采取定性的方法来识别平台上有价值的频道。我们的方法是从直觉出发,认为优质内容应该会导致频道的受欢迎程度,这可以通过订阅者数量来衡量。

不幸的是,按订阅者数量搜索频道并不那么简单,并且由于没有权威的列表来确定哪些频道的内容是或不是“数据科学”,我们还不得不依赖关键词搜索。确定哪些频道最终进入我们的列表的方法如下,首先是我们的 YouTube 搜索标准:

  • 搜索词:“数据科学

  • 搜索类型:频道

  • 排序依据:观看次数

这些是搜索结果。需要注意的是,这个过程的一个主要警告是,我们必须依赖关键词搜索来识别相关的数据科学内容。

在执行上述搜索后,我们按照这些步骤来最终得到订阅者数量最多的频道列表:

  • 我们抓取了前 100 个频道的结果

  • 我们排除了任何没有公开订阅者数量的频道

  • 我们重新按订阅者数量对列表进行了排序

我们得到的是按订阅者数量排序的前 15 个数据科学内容的 YouTube 频道列表,这是通过我们的关键词搜索词识别的。由于超过 15 个的频道变得不那么有趣,我们在此阈值后中断了列表,以避免淹没读者于过多的视频时长中。

我们还收集了每个频道的总观看次数以及每位订阅者的观看次数,并利用所有这些数据创建了下面的可视化图表,以帮助快速传达这 15 个频道的故事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1. 数据科学的顶级 YouTube 频道

按观看次数和订阅者数量绘制;相对大小按视频数量确定;

按观看次数/订阅者数量的颜色强度

所以这里是按订阅者数量排序的前 15 个数据科学 YouTube 频道,以及来自这些频道本身的简短描述。

1. edureka!

订阅者:2,440 K,视频:4012,观看次数:197 M,开始日期:2012 年 6 月 29 日

我们是一个实时互动的电子学习平台,使命是让每个人都能轻松学习。我们提供由讲师主导的课程,以及 24/7 随时随地的支持,以实现业内最高的课程完成率!我们的实际项目、24*7 支持、个人学习经理确保你的学习目标得以实现!

2. Joma Tech

订阅者:889 K,视频:83,观看次数:55 M,开始日期:2016 年 8 月 31 日

我谈论硅谷生活、大型科技公司、数据科学和软件工程。

3. Simplilearn

订阅者:883 K,视频:2468,观看次数:63 M,开始日期:2009 年 10 月 29 日

Simplilearn 是全球排名第一的在线训练营,致力于帮助人们获得在数字经济中成功所需的技能。

4. StatQuest with Josh Starmer

订阅者:434 K,视频:192,观看次数:21 M,开始日期:2011 年 5 月 23 日

统计学、机器学习和数据科学有时可能看起来非常可怕,但由于每种技术实际上只是由小而简单的步骤组合而成,它们实际上非常简单。我的目标是将主要方法论分解为易于理解的部分。也就是说,我不会简化材料。相反,我会提升你的理解,以使你变得更加聪明。

5. Great Learning

订阅者:330 K,视频:1129,观看次数:37 M,开始日期:2013 年 4 月 3 日

Great Learning 致力于让任何想要学习的人都能获得优质教育。Great Learning Academy(http://greatlearning.in/academy)致力于支持免费学习,提供 200 多个完全免费的热门职业领域课程。除了视频,你还可以获得完成证书,做作业和项目,参加实时课程,与顶级教师和行业专家互动。所有这些都是免费的。

6. Krish Naik

订阅者:321 K,视频:895,观看次数:21 M,开始日期:2012 年 2 月 10 日

我担任首席数据科学家,开创机器学习、深度学习和计算机视觉领域的工作,同时也是一名教育者和导师,拥有超过 8 年的行业经验。这是我的 YouTube 频道,在这里我用许多实际问题场景讲解机器学习、深度学习和人工智能的各种主题。我已在各种聚会、技术机构和社区组织的论坛上进行了 30 多场关于数据科学、机器学习和人工智能的技术讲座。我的主要目标是让每个人都熟悉机器学习和人工智能。请订阅并支持这个频道。由于我喜欢新技术,这些视频都是免费的,我承诺将来会制作更多有趣的内容。

7. 数据学院

订阅者:165 K,视频:100,观看次数:8.1 M,开始日期:2014 年 4 月 30 日

你是否在学习数据科学,以便获得第一份数据科学工作?你可能对自己“应该”学习的内容感到困惑,并且很难找到你能理解的课程!Data School 让你专注于首先需要掌握的主题,并提供你可以理解的深入教程,无论你的教育背景如何。

8. 365 数据科学

订阅者:161 K,视频:188,观看次数:5.9 M,开始日期:2017 年 8 月 7 日

在 365 数据科学公司,我们每天上班的原因是我们想解决数据科学中最大的难题——教育。

9. Ken Jee

订阅者:123 K,视频:178,观看次数:3.3 M,开始日期:2014 年 2 月 28 日

数据科学和体育分析是我的热情所在。我叫 Ken Jee,过去 5 年里,我一直在数据科学领域从事体育分析工作。我曾在从初创企业到财富 100 强的公司中担任数据科学职位。我从商业和咨询背景转型进入数据科学领域。当我刚开始我的数据科学之旅时,我感到非常迷茫;当时几乎没有资源可以让我学习这个领域。我决定开始制作 YouTube 视频,分享我的经历,并希望帮助其他人进入数据科学和体育分析领域。

10. 数据科学道场

订阅者:67.1 K,视频:246,观看次数:3.6 M,开始日期:2014 年 8 月 6 日

在数据科学道场,我们相信数据科学适合每个人。我们的面对面数据科学训练营已吸引来自全球超过 1,500 家公司的 4,000 多名专业人士参加。我们的频道是展示我们致力于教授各种技能水平数据科学的完美平台!你会发现数据科学和数据工程的教程、社区讨论和课程。

11. 可视化艺术

订阅者:54.7 K,视频:252,观看次数:3.5 M,开始日期:2016 年 8 月 15 日

欢迎来到 ArtofVisualization 频道,这里有最好的 Tableau 和 BI 教程!我们以始终与您分享最新、最前沿的 Tableau 可视化、仪表板及大量提高数据可视化技能的技巧和窍门而自豪!

12. IBM 数据与人工智能

订阅者:43.2 K,视频:229,观看次数:0.6 M,开始日期:2011 年 7 月 18 日

作为认知战略的一部分,组织可以通过数据转变其行业和职业。IBM Analytics 使任何人都能与数据互动,以回答最棘手的业务问题,发现模式并追求突破性的想法。在 IBM,我们提供全面的数据分析方法,包括在影响点提供即时业务价值的专业知识。在这里,你可以找到演示、示例、访谈、技术教程等。

13. 数据科学教程

订阅者: 25.9 K,视频数量: 659,观看次数: 2.5 M,开始日期: 2015 年 11 月 1 日

在这个频道中,我的目标是讲解 R 语言及其编程和统计分析技术。R 语言由于其易于学习的编程语法和丰富的分析包,成为统计学家和研究人员的首选编程语言。

14. Andreas Kretz

订阅者: 19.8 K,视频数量: 306,观看次数: 0.5 M,开始日期: 2017 年 4 月 18 日

我帮助你进入数据工程领域,这是数据科学的基础工作。建立大数据平台。数据科学播客《数据科学的水管工》的主办者,探索如何摄取、处理和存储数据,以使数据科学家能够为客户做出出色的工作。使用像 Hadoop、Spark 和 Kafka 这样的工具。这就是数据工程——数据科学的基础工作。我已经从事这个令人兴奋的工作快八年了 😃

15. 数据科学学院

订阅者: 19.0 K,视频数量: 77,观看次数: 0.5 M,开始日期: 2016 年 2 月 26 日

这是 Data Science Academy Brasil 的官方 YouTube 频道:www.datascienceacademy.com.br

以下是按订阅者数量排序的前 15 个数据科学 YouTube 频道,以及一些额外的数据,帮助你决定这些频道是否可能有你感兴趣的视频内容。祝你观影愉快!

相关:

  • 10 分钟内最佳机器学习 YouTube 视频

  • 数据科学、数据可视化和机器学习的顶级 Python 库

  • 深度学习、自然语言处理和计算机视觉的顶级 Python 库

更多相关主题

学习数据科学的顶级 YouTube 频道

原文:www.kdnuggets.com/2022/04/top-youtube-channels-learning-data-science.html

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Christian Wiediger 通过 Unsplash

随着数据使用的普及,数据科学家的需求也在增加。每天都有新的公司提供训练营,大学也在策划新的课程以满足这种需求。然而,选择合适的内容和最佳资源可能很困难。


我们的前三名课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. Google 网络安全证书 - 快速进入网络安全职业生涯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. Google 数据分析专业证书 - 提升你的数据分析能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. Google IT 支持专业证书 - 支持您的组织的 IT 工作


由于疫情迫使世界各地的人们在家工作,很多人都在远程学习。我们越来越倾向于通过 Zoom 会议或视频观看讲座。

这是 YouTube 成为人们自我发展和知识增加的重要元素的地方。

以下是提供数据科学学习的 YouTube 频道列表。

1. StatQuest With John Starmer

如果你是数据科学新手,理解统计学和机器学习的概念可能会很困难。John Starmer 于 2011 年 5 月 24 日加入 YouTube,目前有 680K 订阅者。

Starmer 使用图像概念帮助你理解复杂的主题,并逐渐提高你的理解能力。我在第一次接触数据科学时使用了 StatQuest,那时我意识到理解统计概念是多么重要。

他开始他的视频时会有一个简短的吸引人的介绍,唱歌来打破僵局,并让你对学习复杂的理论感到轻松。

2. Krish Naik

Krish Naik 是 iNeuron 的联合创始人,拥有超过 10 年的机器学习、深度学习和计算机视觉经验。Krish Naik 于 2012 年 2 月 11 日加入 YouTube,目前有 542K 订阅者。

Naik 不仅讲解数据科学、机器学习、深度学习等理论和应用,还提供有关进入和在该领域发展的建议和指导。

他在他的 YouTube 频道上还有三种不同类型的会员;数据科学材料、数据科学指导和项目实时数据科学。

3. Simplilearn

Simplilearn 于 2009 年 10 月 29 日加入 YouTube,目前拥有 187 万订阅者。他们旨在帮助人们获得在数字经济中取得成功所需的技能。

他们提供课程和全面的认证程序,并与世界著名大学建立了合作伙伴关系。他们的做法使 85% 的学员获得了晋升或找到了新工作。

他们不仅提供全面的理论和应用数字相关内容的教程;还制作了关于当前市场趋势的视频以及自我发展方面的最佳书籍推荐。

4. freeCodeCamp.org

freeCodeCamp.org 是一个允许你免费学习编程的组织。他们于 2014 年 12 月 16 日加入 YouTube,目前拥有 523 万订阅者。

该频道由 Quincy Larson 创建,他制作了数千个编程教程和视频,并在全球拥有数千个 freeCodeCamp 学习小组。

如果你不确定编程是否适合你,并且想先了解一下,freeCodeCamp.org 是一个不错的起点,因为你不用担心经济压力。

5. Edureka!

Edureka! 是一个实时互动的电子学习平台,于 2012 年 6 月 29 日加入 YouTube,目前拥有 322 万订阅者。

他们提供由讲师主导的课程,这些课程具有全天候的随需支持,并且包含实际项目,以确保学员的学习目标能够实现。

他们涵盖的主题范围广泛,如数据科学、人工智能、大数据、DevOps、区块链、Python、Selenium、Tableau、Android、AWS 架构师、数字营销等。他们还提供关于热门公司、最高薪资职位、编程语言和证书的信息,以帮助你为相关领域做好准备。

6. Corey Schafer

Corey Schafer 专注于为软件开发人员、程序员和工程师创建教程和演练。Schafer 于 2006 年 5 月 31 日加入 YouTube,目前拥有 90.1 万订阅者。

Schafer 的内容并不针对特定的技能水平,他面向初学者到有多年经验的人。Schafer 涵盖了各种主题,如 Python、Git、终端命令、SQL、JavaScript、计算机科学基础等。

7. sentdex

Sentdex 提供从基础到复杂的 Python 编程教程。Sentdex 于 2012 年 12 月 16 日加入 YouTube,目前拥有 111 万订阅者。

Sentdex 涵盖了各种主题的教程,如机器学习、金融、数据分析、机器人技术、网络开发、游戏开发等。

Sentdex 的视频相比其他 YouTube 频道时间较短,但他仍提供了理解主题所需的所有信息,这使得他的视频对那些需要信息且容易因长视频而感到失望的人非常有用。

8. Joma Tech

如果你已经在进行数据科学之旅,但需要一些关于该领域和市场趋势的建议,Joma Tech 就是你需要的人。

Joma Tech 谈论硅谷的生活和主要科技公司。Joma Tech 于 2016 年 8 月 31 日加入 YouTube,目前有 165 万订阅者。

他告诉你作为数据科学家、工程师等你将要做的真实情况,以及有关招聘过程的信息。

Nisha Arya 是一名数据科学家和自由职业技术作家。她特别感兴趣于提供数据科学职业建议或教程以及理论基础知识。她还希望探索人工智能如何有助于人类寿命的不同方式。她是一名热衷学习者,寻求拓宽技术知识和写作技能,同时帮助指导他人。

更多相关主题

顶级 YouTube 机器学习频道

原文:www.kdnuggets.com/2021/03/top-youtube-machine-learning-channels.html

评论

KDnuggets 最近为你带来了数据科学的顶级 YouTube 频道,采用了定性方法来识别平台上有价值的频道。由于该活动似乎对一些读者有用,我们重复了这个过程,这次为你带来了 YouTube 提供的顶级机器学习频道。

在这一轮中,我们更改了用于确定“顶级”频道的指标。我们保持了定量方法,但调整了具体细节。(此外,我们完全认识到制定标准的行为是一种主观性,但现实中需要做出一些决策。)这次确定哪些频道出现在我们的列表中,始于此 YouTube 搜索标准:

  • 搜索词:“机器学习

  • 搜索类型:频道

  • 排序依据:相关性

这次搜索的结果收集于 2021 年 3 月 21 日,并在此网址出现过。

提取了前 100 个结果。之后应用了以下数据处理:

  • 移除**<100K 观看次数**的频道

  • 移除过去12 个月没有更新的频道

  • 视频/观看次数排序频道

我们计划从结果列表中选取前 X 名以包含在帖子中。然而,由于某些频道创作者最近的争议,我们在主观性的行为中移除了一个频道。虽然我们祝愿该个人一切顺利,但我们无法善意地将其内容纳入我们的推荐列表。

最终,我们将结果截取至前 15 名,如下所示,并包含在以下图像化可视化中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1. 顶级 YouTube 机器学习频道

按观看次数和订阅者数量绘制;相对大小按视频数量;

按观看次数/订阅者数量的颜色强度

这里列出了按观看次数/视频数量(或每视频观看次数)排序的前 15 个 YouTube 机器学习频道,并附有直接来自这些频道的简短描述(如有)。

1. sentdex

观看次数/视频:76K,订阅者:1020K,视频:1212,观看次数:92M,观看次数/订阅者:90

“Python 编程教程,超越基础知识。学习机器学习、金融、数据分析、机器人技术、网页开发、游戏开发等。”

2. codebasics

观看次数/视频:44K,订阅者:271K,视频:365,观看次数:16M,观看次数/订阅者:59

“本频道的目标是通过最简单和直观的方式教授编程,以实现这一愿景。我在我的频道上教授简单编程、数据科学、数据分析、人工智能、机器学习、数据结构、软件架构等。”

3. DeepLearningAI

Views/Video: 42 K, Subscribers: 130 K, Videos: 205, Views: 8.7 M, Views/Subscriber: 67

“欢迎来到 DeepLearning.AI 官方 YouTube 频道!在这里,你可以找到我们 Coursera 程序上关于机器学习的视频以及录制的活动。DeepLearning.AI 在 Coursera 上创建了高质量的 AI 程序,赢得了广泛的全球关注。通过提供教育平台并培养紧密的社区,DeepLearning.AI 成为了任何希望建立 AI 职业的人们的途径。”

4. deeplizard

Views/Video: 25 K, Subscribers: 93.8 K, Videos: 289, Views: 7.1 M, Views/Subscriber: 76

“建立集体智能。”

5. Krish Naik

Views/Video: 24 K, Subscribers: 334 K, Videos: 921, Views: 22 M, Views/Subscriber: 65

“这是我的 YouTube 频道,我在这里讲解机器学习、深度学习和 AI 的各种主题,并提供许多真实世界的问题场景。我在各种聚会、技术机构和社区组织的论坛上进行了超过 30 场关于数据科学、机器学习和 AI 的技术讲座。我的主要目标是让每个人都熟悉机器学习和 AI。”

6. Kilian Weinberger

Views/Video: 17 K, Subscribers: 11.9 K, Videos: 39, Views: .65 M, Views/Subscriber: 54

“Kilian 的频道没有描述,但内容包括康奈尔大学的机器学习讲座,Kilian 是计算机科学副教授。”

7. Machine Learning

Views/Video: 14 K, Subscribers: 1.39 K, Videos: 20, Views: .28 M, Views/Subscriber: 199

“观看行业专家的观点,赚取免费云积分,操作系统课程,现代技术教程,关于 IAAS、PAAS、SAAS、混合云战略的宝贵课程,获取 Meetups、会议的重播和实时信息等等。”

8. Daniel Bourke

Views/Video: 14 K, Subscribers: 79.4 K, Videos: 270, Views: 3.7 M, Views/Subscriber: 46

“我是一个机器学习工程师,致力于技术与健康的交汇点。我的视频将帮助你更好地学习并保持健康。”

9. Hsuan-Tien Lin

Views/Video: 12 K, Subscribers: 21.8 K, Videos: 195, Views: 2.3 M, Views/Subscriber: 105

“Hsuan-Tien Lin 没有频道描述,但他的视频涉及现代人工智能的机器学习、数据结构与算法、机器学习基础/技术等。他的频道在本文发布时仅发布了约 2 个月的视频,且视频记录中包含英文和中文(我认为)。”

10. Python Engineer

每视频观看数:11 K,订阅者:28 K,视频数量:121,观看总数:1.3 M,每位订阅者观看数:46

“你好,我是 Patrick。我是一个热爱机器学习、计算机视觉和数据科学的软件工程师。我创建免费的内容,以帮助更多人进入这些领域。如果你有任何问题、反馈或评论,请随时给我发消息!我很乐意与你交流 😃”

11. Data Science Courses

每视频观看数:10 K,订阅者:14.5 K,视频数量:81,观看总数:.85 M,每位订阅者观看数:59

“没有描述,但 Ali Ghodsi 是滑铁卢大学的教授,也是该大学人工智能研究小组的成员。频道包括讲座视频。”

12. Abhishek Thakur

每视频观看数:9.4 K,订阅者:42.8 K,视频数量:85,观看总数:.8 M,每位订阅者观看数:19

“我制作关于应用机器学习、深度学习和数据科学的视频。我是全球首位 4 次 Kaggle 大师。”

13. Jeff Heaton

每视频观看数:9.1 K,订阅者:48.3 K,视频数量:411,观看总数:3.7 M,每位订阅者观看数:78

“你想学习深度神经网络以及我在机器学习研究中的其他领域,这使我在一些 Kaggle 竞赛中排名前 7-10%吗?如果是的话,请订阅我的频道!我叫 Jeff Heaton,博士。我是一家财富 300 强公司的数据科学副总裁,同时还在顶级大学担任深度学习课程的兼职讲师。”

14. Subalalitha C N

每视频观看数:8.8 K,订阅者:2.87 K,视频数量:40,观看总数:.35 M,每位订阅者观看数:123

“我是 Dr.Subalalitha C.N,目前在印度 SRM 科学与技术学院担任副教授。在这个频道中,你可以找到我关于机器学习、自然语言处理以及算法设计与分析的讲座。”

15. Machine Learning TV

每视频观看数:8.0 K,订阅者:23.1 K,视频数量:126,观看总数:1.0 M,每位订阅者观看数:43

“这个频道完全围绕机器学习(ML)。它包含了所有有用的资源,帮助机器学习爱好者和计算机科学学生更好地理解这一成功的人工智能分支的概念。”

以下是按每个视频的观看次数排序的前 15 个机器学习 YouTube 频道,并附带一些额外的数据,以帮助你决定这些频道的视频内容是否对你感兴趣。祝你观影愉快!

相关

  • 数据科学的顶级 YouTube 频道

  • 10 分钟内最佳机器学习 YouTube 视频

  • 数据科学、数据可视化和机器学习的顶级 Python 库


我们的前三个课程推荐

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 2. 谷歌数据分析专业证书 - 提升你的数据分析技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 需求


更多相关主题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值