TowardsDataScience 博客中文翻译 2020（二百七十）-CSDN博客

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

深度线性回归

原文：https://towardsdatascience.com/data-science-crash-course-in-depth-linear-regression-fd06511f586c?source=collection_archive---------25-----------------------

数据科学速成班

从线性回归开始理解算法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“随机数据点及其线性回归”——摘自维基百科

本月早些时候， Edward Qian 和我开始为有抱负的数据科学家编写一套综合课程，这些课程可以在我们的网站【www.dscrashcourse.com】上找到

我将把稍加修改的课程交叉发布到 Medium 上，让更多的观众可以看到。如果你觉得这些文章很有帮助，请到网站上查看更多的课程和练习题！

算法是计算机解决特定问题时可以遵循的一组规则。在建模的背景下，每种算法将使用不同的方法来获得最能代表目标变量的函数。回想一下，回归算法探索了自变量和一个连续因变量之间的关系。

线性回归

线性回归对因变量和至少一个自变量/解释变量之间的线性关系进行建模。有一个解释变量的线性回归模型称为简单线性回归，而有多个变量的线性回归模型称为多元线性回归。

当对训练集进行拟合时，线性回归模型估计未知参数，以量化自变量的线性变化对平均因变量的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

系数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是估计的参数。有了这些系数，只要我们知道解释变量，我们就可以估计未来观测值。

ϵ (读作ε)是误差项，也称为残差。误差是真实目标变量和预测目标变量之间的差异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

系数是如何计算的？

简而言之，我们选择“最佳”系数来最小化误差项。

做这件事有几种不同的方法。标准方法之一是使用普通最小二乘估计 (OLS)方法。OLS 方法做了几个假设:

可以使用线性关系对数据进行建模，类似于上面所示的形式
误差项 ϵ 是独立同分布的，总体均值为零
误差项的方差必须是常数；它不能是目标的函数
独立变量与误差项不相关，也彼此不相关
理想情况下，误差项应该是正态分布的——这使我们能够可靠地计算置信区间

在这些假设下，我们可以构建一个封闭形式的公式来计算使误差项最小的系数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

推导从一个目标开始:最小化残差平方和。

回想一下，我们可以将误差度量为y—Xβ

误差平方和可以定义为系数的函数。在矩阵符号中:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

函数 S 使用我们的 beta 参数计算误差平方和。

这是 β 的二次函数，所以如果我们对 β 求导就能找到全局最小值。然后我们可以通过将β设为 0 来求解^。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将左侧设置为零。我们的 OLS 假设允许我们假设 X 具有满列秩，这使得 X ⊤ X 可逆。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模型解释

线性回归的简单性是一把双刃剑。线性模型非常容易解释和理解，但也是对现实世界复杂性的简化。大多数数据集也会违反 OLS 方法的假设。

模型解读的重要性不可小觑。能够解释系数使我们能够使用模型来推动业务战略，量化我们努力的效果，并给予利益相关者对我们算法的信任。

我们用一个例子来演示一下。房地产经纪人吉姆训练了一个线性回归模型来预测房价，作为平方英尺和年龄的函数。让 y 代表房子的价格， x 1 代表平方英尺， x 2 代表以年为单位的年龄。

他使用上述公式计算系数，并得出他用来预测 house 的公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

吉姆的模型告诉了我们很多关于房价的信息:

平方英尺每增加一个单位，平均房价就会增加 500 美元
房龄每增加一个单位，平均房价就会下降 1.2 美元

这些信息可以用来提高房屋的估价。现实并非如此简单，但如果增加一平方英尺的额外空间只需要 200 美元，难道你不想增加房子的面积来卖个更高的价钱吗？

关注交互效应和分类变量

吉姆意识到体型和年龄之间的交互作用非常重要。他补充说，作为一个预测，并重新训练他的模型。他的新公式变成了:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jim 决定将房屋类型作为预测因素纳入他的模型。每栋房子要么是联排别墅，半独立式或独立式住宅。他决定将这些视为分类变量。

新模型将利用这些额外的预测因素:

x 3 : 1 如果房子是联排别墅，否则为 0
如果房子是半独立式的，x 4 : 1，否则为 0
x 5 : 1 如果房子是独立式的，否则为 0

这再次扩大了他的公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这告诉我们，在其他条件相同的情况下，独立式住宅比半独立式住宅平均贵 4000 美元，比联排别墅贵 11000 美元。

线性回归的常见陷阱

多重共线性:独立变量可能高度相关，这违反了 OLS 假设(也许他们当年建造了更大的房子，让我们可以根据房屋年龄预测面积)
异方差性:非恒定方差也违反了 OLS 假设(也许，房子越老，价格的方差越大)

其他一些值得思考的趣闻:

我们的线性模型需要截距吗？(零岁没有平方的房子应该值 1000 美元吗？那还是房子吗？)
我们的目标变量的合理值范围是多少？房价当然不能是负的…

感谢您的阅读！

如果你喜欢这篇文章，可以看看我关于数据科学、数学和编程的其他文章。通过 Medium 关注我的最新更新。😃

作为一个业余爱好项目，我还在www.dscrashcourse.com建立了一套全面的免费数据科学课程和练习题。

如果你想支持我的写作，下次你报名参加 Coursera 课程时，可以考虑使用我的会员链接。完全公开—我从每一次注册中获得佣金，但不会对您产生额外费用。

再次感谢您的阅读！📕

解释逻辑回归

原文：https://towardsdatascience.com/data-science-crash-course-interpreting-logistic-regression-97fc0f40d06b?source=collection_archive---------57-----------------------

数据科学速成班

从逻辑回归开始理解概率模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由乔纳森·彼得森在 Unsplash 上拍摄

本月早些时候， Edward Qian 和我开始为有抱负的数据科学家编写一套综合课程，这些课程可以在我们的网站www.dscrashcourse.com上找到

我将把稍加修改的课程交叉发布到 Medium 上，让更多的观众可以看到。如果你觉得这些文章很有帮助，请到网站上查看更多的课程和练习题！

逻辑回归用于通过估计事件的对数概率来模拟事件发生的概率。如果我们假设对数赔率和独立变量 j 之间存在线性关系，那么我们可以将事件发生的概率 p 建模为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可能会注意到没有指定对数底数。对数的底数实际上并不重要——回想一下，如果我们将两边乘以 logkb，我们可以将底数 b 改为任何新的底数 k

这给了我们假设左手边的基础的灵活性。当然，基数会影响结果的解释以及系数值。

隔离概率

如果我们有对系数的估计，就很容易分离出p。注意 p/(1-p) 代表事件发生的几率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将用另一个例子来说明解释。房地产经纪人 Jim 训练了一个逻辑回归模型来预测某人出价购买房子的可能性。他通过使用两个解释变量来保持模型的简单性:

1:潜在客户看房的次数
x 2:房子要价千元

在使用程序确定最佳系数后，Jim 为他的模型推导出这些系数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

吉姆的模型告诉我们:

预期买家每多参观一次房子，平均几率的自然对数就会增加 2
房价每增加 1000 美元，平均来说，赔率的自然对数减少 0.002

那…听起来很拗口，而且很难理解。我们可以用一个简单的技巧来提高口译水平。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以计算出 e 的 2 次幂和-0.002 的值，以简化解释。

潜在买家每多参观一次房子，平均而言，出价的几率就会受到约 7.39 倍的乘数影响
房价每增加 1000 美元，平均而言，出价的几率会受到乘数 0.998 的影响

如果 Jim 的客户 Sue 有一次参观了一栋定价为 1，000，000 美元的房子，那么我们可以使用上面推导的公式来估计她购买该房子的概率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这表明苏有大约 4%的机会出价买下这栋房子。

作为分类器

尽管是一个回归模型，逻辑回归经常用于分类。孤立概率总是在 0 和 1 之间。我们可以设置一个任意的阈值来预测观察值所属的类别。

我们还可以将逻辑回归扩展为两个以上类别的分类器，使其成为一个多类别分类器。我们可以通过采取一对所有的方法来做到这一点，在该方法中，我们训练与类别一样多的逻辑回归模型(每个模型预测一个类别发生的对数概率)，并采用产生最高概率的类别进行推断。

感谢您的阅读！

如果你喜欢这篇文章，你可能想看看我关于数据科学、数学和编程的其他文章。通过 Medium 关注我的最新更新！

了解树木

原文：https://towardsdatascience.com/data-science-crash-course-understanding-trees-60337f605448?source=collection_archive---------70-----------------------

数据科学速成班

了解用于分类和回归的基于树的模型

本月早些时候， Edward Qian 和我开始为有抱负的数据科学家编写一套综合课程，这些课程可以在我们的网站【www.dscrashcourse.com】上找到

我将把稍加修改的课程交叉发布到 Medium 上，让更多的观众可以看到。如果你觉得这些文章很有帮助，请到网站上查看更多的课程和练习题！

基于树的方法可用于回归和分类。这些算法背后的思想是将预测器空间分成多个不重叠的区域，并将新的观测值分配给它们各自的区域。这些方法也被称为决策树方法。

回归决策树

在将预测空间分成 n 个区域后，我们计算该区域中响应变量的统计量(例如，平均值)。新的预测将被放入它们各自的区域中，并且该区域的统计数据将被用作预测。

我们用房价的例子来说明一个例子。为了简单起见，我们假设最佳区域已经确定。房地产经纪人吉姆想尝试一种基于树的方法来预测房价。他用房子的面积和年龄作为预测指标。

Jim 的决策树将其预测器空间划分如下:

区域#1:面积小于 250 平方英尺，年龄小于 10 岁
区域#2:面积小于 250 平方英尺，年龄超过 10 年
区域#3:面积超过 250 平方英尺，年龄在 10 岁以下
区域#4:面积超过 250 平方英尺，年龄超过 10 年

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

吉姆想推断一栋新房子的价格(在图中用红色标出)。这所房子属于第四区。从训练集中观察到的区域 4 中房屋的平均价格是$125，000。因此，吉姆的模型会预测这个新房子会卖那么多。

分类决策树

用于分类的决策树的行为类似于回归。假设 Jim 决定使用相同的预测器(在不同的数据集上)来预测某人是否会出价购买房子。蓝色的观察值对应于那些提供报价的观察值，而红色的观察值对应于没有报价。该算法将预测器空间分成 n 个区域，并且每个区域被映射到一个类别。

Jim 的决策树将其预测器空间划分如下:

区域# 1:5 岁以下
区域#2:年龄超过 5 年，面积超过 250 平方英尺
区域#3:年龄超过 5 年，面积小于 250 平方英尺

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设算法也告诉我们，区域 2 和 3 映射到“offer”，而区域 1 映射到“no offer”。有了这些信息，我们可以预测随后的观测值将属于哪一类。

更复杂的基于树的方法

我们可以集成(组合)多个决策树来形成更复杂的模型。基于树的集成算法分为:

Bagging (也称为 bootstrap aggregation ):更小的数据子集是通过替换随机抽样产生的。在每个子集上训练决策树。来自每个决策树的结果被平均以产生最终输出。
Boosting :与 Bagging 不同，在 Bagging 中每个决策树都是独立训练的，Boosting 算法中的每个学习器都是从以前的学习器中顺序学习的。
堆叠:几个模型并行训练。另一个模型被训练以基于每个集合模型的预测来确定输出。这种集成技术在基于树的模型中并不常见。

装袋示例:随机森林

随机森林是一种流行的机器学习算法，使用 bagging 集成决策树。除了随机采样每棵树的训练数据之外，随机森林还随机采样用于每棵树的特征。

Boosting 示例:使用决策树的 AdaBoost

AdaBoost 是 adaptive boosting 的缩写，在迭代过程中集成决策树:我们从数据集上训练的一个决策树开始，但在每个迭代步骤中，我们重新加权数据集，以更加强调错误分类，并在这个重新加权的数据集上重新训练决策树。

感谢您的阅读！

如果你喜欢这篇文章，你可能想看看我关于数据科学、数学和编程的其他文章。关注我 Medium 上的最新更新！

数据科学不一定要性感才能有影响力

原文：https://towardsdatascience.com/data-science-doesnt-have-to-be-sexy-to-be-impactful-7c20f3d12b41?source=collection_archive---------44-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学不仅仅是机器人和人工智能助手。Unsplash 上 Photos 爱好的照片。

2020 年格蕾丝·赫柏庆典

今年 9 月 29 日至 10 月 3 日，来自 115 个国家的 30，000 名技术人员聚集在一起参加格蕾丝·赫柏庆典，这是一个女性学习、交流和庆祝其技术成就的年度会议。我很幸运地成为与会者之一，我从那里的大量讲座中学到了很多东西——从如何评估创业想法，到下一代人工智能硬件如何工作，到打击刻板印象威胁和冒名顶替综合症，到使用一种特殊的基于时间的神经网络来教机器人自动驾驶，我已经在之前的帖子中写过这些。

在数据科学的未开发领域建立伟大的职业生涯

有一件事是我没有预料到的，那就是我最喜欢的演讲之一来自并不令人兴奋的会计软件领域。但我想写的是我参加的 Intuit 两位高级数据科学家的演讲，因为这是我见过的最好的例子之一，说明了一个最初看起来很平凡的任务实际上可以成为一个非常迷人和复杂的数据科学项目。

尝试在目前“热门”的领域寻找数据科学角色确实很有诱惑力…但令人惊叹的职业生涯可以超越目前被认为是数据科学中性感或迷人的话题。

我们都听说过“数据科学家是 21 世纪最性感的工作”这句恶名昭彰的话，这句话出自 2012 年《哈佛商业评论》一篇文章的标题。即使在这个“性感”的工作中，机器学习的“性感”部分也往往会得到所有的关注，就像我上面提到的自主机器人。但在不那么迷人的部分(包括会计软件)，也有一些真正伟大的工作正在进行，这些工作可能以各种意想不到的方式引人入胜并具有挑战性。

我认为，对于正在开始数据科学职业生涯的读者来说，这是特别重要的一点。尝试在媒体目前“热门”的领域寻找数据科学角色可能真的很有诱惑力，比如自动驾驶汽车、语言和图像生成模型、人工智能助手，或者任何工作描述中大量掺杂“前沿”一词的领域。

但是，惊人的职业生涯可以超越目前被认为是数据科学中性感或迷人的话题。一些最有影响力的工作发生在传统行业或数据科学领域相对较新的行业，如法律、房地产或会计。

这些都是巨大的行业，有巨大的需求和现有的用户群，以及数据科学和机器学习应用的巨大潜力。因此，绿地项目有大量的机会，即使很小的改进和效率也可以产生真正有影响力的结果，并增加巨大的价值。

最重要的是，像这样的项目也很有趣。我自己也做过一些，但是我想在这里讨论的是一个更清晰的例子。表面上看起来相对简单的分类模型实际上是一项大数据科学事业，涉及一系列复杂的数据处理、多种不同的机器学习模型和定制的评估技术。

Chi-chat:一个度量驱动的最佳频道推荐用户协同框架

本次演讲由 Intuit 高级数据科学经理范和高级数据科学家文瑶主讲

看似复杂的数据科学项目

这个例子来自为个人和企业制作会计和其他财务软件的 Intuit。当客户联系客户服务时，他们有三种与他人通话的方式可供选择——拨打电话、实时聊天或预定回拨。不同的方法适合不同类型的问题。例如，实时聊天很受欢迎，适合简单的标准问题，但如果你有一个更复杂的问题，就不那么好了。

因此，当客户有问题时，任务就是推荐他们应该使用三个渠道中的哪一个。总体目标是将用户行为导向最有助于他们的渠道，以提高客户满意度并缩短处理时间。这听起来相当简单——这只是一个分类任务，对吗？不对。事实上，这个看似简单的问题原来是一个复杂而有趣的数据科学项目，涉及多个不同的机器学习模型和一堆其他考虑因素。

在进行有影响力的工作方面(这应该是每个数据科学家的最终目标)，该项目将帮助数百万客户以最适合他们的方式获得他们需要的帮助。

项目步骤

首先，你有杂乱的训练数据，以成千上万个客户问题的形式发给客户服务。每个客户及其需求都是独一无二的，不同代理的反应也各不相同。在步骤 1 中，数据科学家必须使用自然语言处理进行文本预处理来准备这个问题数据。除了删除停用词等标准内容，这还包括映射首字母缩写词、自定义拼写检查模块(包括与 Covid 相关的关键字，如“刺激支票”和特定于税务软件的术语，如“TurboTax ”),以及标准化税务表单名称的格式(事实证明这非常复杂)。

接下来，在步骤 2 中，他们使用了一个名为 sent2vec 的模型，将问题表示为句子嵌入的集合。这是基于一个奇妙的单词嵌入模型，叫做word 2 vec——如果你还不熟悉这个，我强烈推荐你去看看。Word2vec 可以用于将大量的单词缩减为少量的特征，这些特征基本上代表了单词的共享上下文。语料库中的每个单词然后可以以向量(也称为单词嵌入)的形式来表示，该向量对于这些共享特征中的每一个都具有值。Sent2vec 通过取句子中单词嵌入的平均值，将这些单词嵌入转换成句子嵌入。这将创建一个向量，它表示您创建的 n 维空间中的句子，其中 n 是嵌入特征的数量。

然后，在步骤 3 中，他们使用 k-means 聚类来基于这些句子嵌入以及一些给出用户上下文的特征(包括他们的操作系统、平台和语言)对问题进行聚类。在第 4 步中，他们通过使用这些上下文特征进行客户合作，对此进行了补充。

接下来，在步骤 5 中，他们进行了度量驱动的集群标记，以确定要使用的正确通道，这也涉及统计显著性测试(姑且称之为步骤 5.5 )。这被证明是一个重大的技术挑战，因为他们有多个指标需要优化—客户满意度、效率、案例解决率和客户偏好。让事情变得更加复杂的是，一些指标相互冲突。例如，在案例解决时间上得分很低的更长的电话通常会导致更高的客户满意度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最高优先级的指标是客户满意度。图片来自维基媒体。

为了给正确的频道分配标签，他们使用了一种非常有趣的基于指标优先级的分级顺序方法。例如，客户满意度是他们最重要的衡量标准。因此，他们首先进行了一个双样本 t 检验，以确定净推销商得分(一个常用的客户满意度指标)。如果结果是显著的(即，如果一个通道在这种情况下明显更好)，他们会推荐具有更好指标的通道。如果没有，他们会转到下一个指标，如案件处理时间，并重复这一过程，以此类推每个指标。

这些示例将提供基于指标的建议。如果这些指标都不重要，但用户偏好率很重要，那么他们会给出基于偏好的建议，例如，如果客户倾向于为特定类型的问题安排回电。如果结果在任何指标上都不显著，他们会默认为实时聊天，因为这是最受欢迎的渠道。

最后，在步骤 6 中，他们根据满意度、联系解决方案和通话效率进行了 A/B 测试，以确定该模型是否比当前情况有所改进(用户可以选择自己的沟通方式，无需推荐)。在这种情况下，A 中的频道是随机排序的，而 B 中的频道是由机器学习模型推荐的。基于 ML 的推荐在所有指标上都表现得更好。他们还输出模型推荐的强度，以指定它是强推荐还是弱推荐，并发现当模型有信心时，客户体验改善得更多。

科学或主题听起来有多性感或前沿并不重要。重要的是增加价值，产生影响，并建立帮助人们和解决问题的东西——你可以在任何领域工作。

有影响力的数据科学

总之，尽管一开始看起来像是一个相对简单的项目，但这项任务涉及复杂的数据预处理、单词和句子嵌入的 NLP 模型、聚类模型、客户协同分类、统计显著性测试、基于度量层级的标签的复杂解决方案以及 A/B 测试。在进行有影响力的工作方面(这应该是每个数据科学家的最终目标)，该项目将帮助数百万客户以最适合他们的方式获得他们需要的帮助。还不错。

因此，下次你发现自己在阅读数据科学工作清单，或者被要求从事一个听起来不像是世界上最迷人的数据科学主题的项目时，请记住，无论科学或主题听起来多么性感或前沿。重要的是增加价值，产生影响，并建立帮助人们和解决问题的东西——你可以在任何领域工作。

数据科学教育

原文：https://towardsdatascience.com/data-science-education-78a70b8e4940?source=collection_archive---------26-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

迈克尔·克里斯滕森在 Unsplash 上的照片

意见

正规教育比其他教育更好吗？

随着机器学习变得越来越普遍，其软件包变得越来越容易使用，底层技术细节被抽象出来并对从业者隐藏起来是很自然的，也是可取的。然而，这也带来了危险，从业者会意识不到设计决策，从而意识不到机器学习算法的局限性。[1]

在这篇文章中，我想讨论一下我在正式的分析学学位项目中的经历，并与自学方法进行比较(在这里，自学方法被定义为包括书籍、项目、YouTube 教程、MOOCs 以及任何其他不能相加形成学位的*。*

我想先说，如果你想像我一样，从一个非常不同的学科转行成为一名数据科学家，那么我不认为自我导向学习可以与一个知名机构的正式教育相提并论。这种观点可能不会受欢迎，我知道持有这样的观点很可能会被涂上柏油，插上羽毛，并被 Twitter 的高等法院视为“异教徒”或“看门人”。

但是请把你的干草叉放下几分钟，听我说完。

我的故事

自从我长大后，明白了一个喜欢科学和数学的人不一定要成为医生或会计，我的人生目标就是“解决问题”。我知道这很模糊，但即使是在今天，我也找不出一个更合适或更能说明问题的理由。

所以我做了任何想解决问题的年轻女孩都会做的事情:我在当地一所大学注册了化学工程专业。在换了几次专业后(我喜欢我的工程课，但觉得实习很单调)，我于 2015 年从德雷克塞尔大学毕业，获得了……化学工程学士学位。没错:我又回到了起点。

但我有了一个新计划:拿到学位后短短几周，我就把所有的东西装进了我的 2004 款讴歌 TL，搬到了佐治亚州的亚特兰大，在佐治亚理工学院学习分析。

完成学士学位后，我决定进入佐治亚理工学院攻读硕士学位，主要有三个原因:(1)我绝对不想在化工厂工作(也许会遭受身体伤害* );(2)我喜欢使用数据进行决策的潜力；(3)“数据科学家”最近被评为“21 世纪最性感的工作”，我想变得性感。

正式学位课程的额外津贴

显然，了解一个话题有很多方法，我承认，与学位项目相关的时间和金钱可能并不值得每个人或每个职业。(如果你已经在数据科学相关的岗位上工作多年，也许一些自我驱动的项目就是你改变职业生涯所需要的全部。)然而，在下面的小节中，我将讨论我认为正规教育的主要好处。

1.策划的课程

正如我上面提到的，有很多方法可以了解一个主题，鉴于免费在线资源的可用性，我认为任何人都可以自学几乎任何他们想学的东西(这种信息的可用性对于数据科学来说尤其如此**)。此外，如果你真正理解如何应用数据科学概念，那么绝对没有理由(除非一些公然的反社会行为等)。)为什么你不能找到有报酬的工作。

然而，当你设计自己的课程时，很难知道你是否完全理解了一个主题，此外，当学习完全是自我指导的时候，就有把重点放在容易理解的材料上而不是理解重要的材料上的风险。

假设我破解了一个机器学习管道，它确实是一个很棒的管道，我保证:它运行很快，它需要的唯一参数可以简单地从响应变量中导出，并且它在训练集上获得了 100%的准确性。

**如果没有人来填补我的知识空白，那么我可能会发现它们，但为时已晚:**例如，当一位客户因根据我脆弱的见解做出决策而损失了巨额资金，而我已经被赶下了数据骗子。

换句话说:学生需要老师。

2.专注的时间到了

我认为自己是一个相当有成就的自学者:我如饥似渴地阅读，除了短暂的兴趣之外，我不怕开始一个项目；然而，自学，当你有了一份全职工作，有了家庭，有账单要付，有甜甜圈要吃等等。经常充满了开始和停止。

我知道这一点，因为我有过这样的经历:我断断续续地学习德语几乎有十年了，尽管在这段时间里我取得了进步，但我仍然发现自己不得不一次又一次地复习相同的词汇，因为我很少把流利的德语作为优先事项。

出于这个原因，如果你对数据科学的职业很认真，那么当务之急是通过沉浸在主题中来专注于学习。我认为，如果一个人致力于学习，那么他们可以在业余时间自学，当然，但这样的做法可能会阻碍学习。

换句话说:全日制学位课程是让你沉浸在某个话题中的最简单的 T2 方式，因为在你学习期间，学习是你的首要任务。

3.网络机遇

我有一个阿姨曾经告诉我，“重要的不是你知道什么，而是你认识谁，”这种情绪过去常常困扰着我，因为在我的成长过程中，我是一个孤独的人，希望她能靠自己的大脑生活，认为自己太害羞和笨拙，没有魅力。所以我从来没有真正期望过喜欢网络。

但当我到达佐治亚理工学院时，我的同学们形成了一个相当亲密的小团体:我们在公共区域一起做作业，我们一起租了一个 Airbnb 去参加另一个城市的会议，期末考试后我们一起喝啤酒，我们因共同的痛苦和邻近而联系在一起。

我没有意识到，在成长过程中，在高中以及类似的时候，当我认为我必须靠自己的时候，这些与同龄人交往的经历就是人际关系网。这不全是招聘会和电梯推销:这是在校园里呆到很晚，试图调试代码并从别人的错误中学习。

然后还有招聘会和校园面试，我开始向这些巨大而重要的公司做电梯推销，因为我是这个伟大项目的一部分。成为某件事情的一部分是一种很棒的感觉。

换句话说:有时候是你认识的人，你认识的人，你认识的人认识的人。

(后来，在另一个故事中，我又一次收拾好 04 年的讴歌 TL，带着我所有的家当去了克利夫兰，哦，除了稍纵即逝的兴趣之外，我还找到了一份工作，独自开动脑筋(也许还有一点魅力)。

我能说什么呢？一个人在他拥有的时候用他所拥有的来工作。)

在线学位课程

当我开始讨论我的经历时，我想把重点放在传统的校园课程与通过书籍、项目和 MOOCs 自学的比较上。然而，在分析和计算机科学方面有一些新的在线项目(例如，佐治亚理工学院就有；UT Austin 有这些课程)，我相信这些课程正开始以 MOOCs 尚未能做到的方式重新定义大学教育。这些项目比校内项目便宜，但据称它们提供同样著名的教育和同样的学位。我个人没有上过任何这样的课程，但它们似乎是向公平和普及教育迈出的惊人一步。

我想这些项目在社交机会方面会有一些限制(尽管，鉴于目前的情况，所有的社交都是远程进行的，也许在线学生会融入到这样的活动中)，但它们确实提供了一种精心策划的学术体验，而且鉴于它们的低价，学生们可能会更好地将全部注意力投入到学习中。

数据科学:一个新兴行业

尽管数千年来统计学家和计算机科学家一直在从事属于“数据科学”范畴的工作，但数据科学是一个新兴领域，因此，它通常被视为一种可以通过专注于实际应用而忽视理论来学习的行业。

每篇描述如何在两周或更短时间内成为数据科学家的文章，以及每段三分钟的视频(视频中，一个人在正方形和圆形之间划了一条线，称之为机器学习)都体现了这种数据科学作为一种交易的观点。这种过于简单化对整个领域都是有害的:如果我们不认真对待自己和教育，为什么别人要如此？

许多数据科学都是应用性的，是的，编程技能在工业中非常重要，但是要真正成为一名可以信赖的专家，从数据中获得有用的见解，并教会机器学习和热爱，就不可能将应用与数学和计算理论分开。

法律和工程都经历了类似的过程，从行业开始，然后正式成为职业，有组织、道德规范、执照和进入壁垒，如大学学费***(尽管如上所述，这些壁垒可能是可以避免的，同时保持正式化更积极的方面)。

我相信，随着时间的推移，由于他们在决策中的潜在作用，数据科学家将被要求达到越来越高的专业标准，在许多公司，他们已经达到了，因为许多数据科学职位要求申请人必须持有博士学位。

我认为每个数据科学家都需要博士学位吗？没有，而且(尽管我很想回到我的书房)我自己也没有。但我确实认为，对某些数据科学角色的博士要求表明，行业领导者特别重视两项技能:(1)设计和开展研究性学习的能力；(2)质疑自己假设和偏见的能力。

因此，如果您阅读本文是因为对成为数据科学家感兴趣，我强烈建议您考虑一个不仅能教您应用技能，还能教您如何以全面和深思熟虑的方式处理研究问题的项目。

最后的想法

我不会为了任何事情放弃我在乔治亚理工学院的经历。我从来没有质疑过我的时间或金钱是否可以更好地使用，这并不是因为某种认知巫术，比如沉没成本谬论，而是因为我所学的课程和我遇到的人对我解决问题和合作的方式产生了不可磨灭的、无价的影响。

我将是第一个告诉你我不是数据科学专家的人。我从我做的每一个项目中学到了一些新的东西，我不会以任何其他方式获得它:我想解决问题，而不是制造问题，我相信我所受的教育帮助我理解了其中的区别。

*我在杜邦公司的钱伯斯工厂实习；人们实际上已经因为在那里工作而得了癌症并死亡，更不用说在我实习后不久发生的爆炸，那次爆炸导致另一个地方的四人死亡。

*我觉得笑话是，“数据科学是 90%的数据清洗，10%的数据分析，建模等。，“但应该是，“数据科学是 10%做数据科学，90%说做数据科学。”

***反正在美国。

[1] Deisenroth，Marc Peter 等机器学习的数学。剑桥大学出版社，2020 年。

数据科学精英以及如何避免他们

原文：https://towardsdatascience.com/data-science-elitists-and-how-to-avoid-them-b8888178e8c0?source=collection_archive---------35-----------------------

你需要掌握的知识能够区分互联网上有益的批评和不必要的负面信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯汀娜·戈塔迪在 Unsplash 上的照片

互联网是一个可怕的地方。尤其是对于那些尝试新事物或转行的人。这里面有正确的信息也有错误的信息，有鼓励也有沮丧。对于数据科学来说尤其如此。成为一名数据科学家需要什么是一个有点争议的话题，许多人对此有非常强烈的看法。

具体来说，有一群人似乎只发出关于成为数据科学家的负面信息。我称他们为数据科学精英。他们倾向于认为，要成为一名数据科学家，你需要一个博士学位，你需要成为一名数学专家，你需要知道所有与数据相关的技术工具，以及你完美的计算机科学知识。不用说，我不同意他们的观点。在这篇文章中，我想告诉你为什么不认真对待数据科学精英，以及如何在成为数据科学家的过程中抵御消极因素。

首先，**当人们给你一长串技术技能时，你不应该当真。**数据科学家不是开发人员。是的，你需要学习一些技术工具，但其中许多并不是必需的，只是有了它们就好了。

此外，每个公司都有自己的技术栈，也就是他们使用的工具集。你申请的每家公司都有可能使用不同的技术，你不可能学会所有的技术。尤其是当你刚刚开始的时候，知道如何使用专业工具并不是首要任务。在播客第四集的中，我和 Samantha Zeitlin(一名招聘高级数据科学家)讨论了这个问题。她提到，根据她的经验，你在工作中学习工具。

当别人告诉你，你做不到，或者为时已晚时，你不应该当真。出于某种原因，有些人倾向于给人一种感觉，要么你现在就拥有这些技能，要么你就完蛋了。当我看到这样的评论时，这是我的脸:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个人在某个时候都必须是初学者。没有必要让一个人因为没有这种或那种技能而感到难过。如果你想成为一名数据科学家，你可以，就这样。我就是这么想的。根据你的背景，这可能会花你或多或少的时间。这需要的时间可能也取决于你的财务要求，以及你是否能全职工作，但仅此而已。这并不是说每个人都适合成为数据科学家。当然，在深入学习之前，你应该理解这份工作的要求和含义。但是我一会儿会谈到这一点。

你应该半信半疑地接受人们的建议。除非有人是“让他人成为数据科学家”的教授，否则我怀疑他们对自己的工作是否客观。如果有人获得了数学博士学位，然后成为了一名数据科学家，那么听到他们说你需要一个博士学位或者你需要高级数学技能就不足为奇了。人们试图提供帮助，但对他们来说很难做到客观。因此，不要把一个人的建议放在心上，试着去阅读其他人对同一话题的看法。也许你想成为数据科学家的播客可以帮到你。眨眨眼

当然，我不能告诉你应该留意数据科学精英的每一种方式。你必须自己发现错误的信息(或无用的信息)。我能做的就是告诉你如何学会只拿对你有用的东西。

这些是我在免费迷你课程《数据科学入门》中复习的内容。你可以用我的网站上的表格注册。回到我们的话题。

首先，也是最重要的一点，你需要对自己想要从事的数据职业类型有信心。如果你所拥有的只是对你认为你想做的事情的模糊解释，你将很容易被你所读到或听到的东西所操纵。当有人说，你需要成为一名优秀的开发人员才能成为数据科学家，你可能很难理解这到底是什么意思。了解数据管道，它需要哪种类型的开发，以及哪种类型的数据专家处理它的哪些部分将对你有所帮助。

你需要对这门学科有很好的理解。人工智能、机器学习、自然语言处理、深度学习、认知解决方案、计算机视觉、机器人技术，还有更多你可能在互联网上看到的东西，这些都与数据科学密切相关。但是它们之间有什么关系呢？要称自己为数据科学家，您需要了解多少？乍一看，这似乎很难理解，但如果你对数据科学运作的学科有一个很好的总体了解，你就不太容易受到干扰，对自己的道路更有把握。

**最后，你需要了解数据科学的核心要求和基本技能。**你可以在基本技能的基础上再接再厉，专攻某个领域，但不是没有坚实的基础。尽管如此，即使在你专注于基本技能之后，知道以什么样的顺序去解决和学习它们也是有帮助的。我称之为技能矩阵。了解所需的技能，学习它们的顺序，并清楚它们如何有助于你的学习，这将使你在竞争中领先。

在数据科学入门迷你课程中，我帮助你选择数据职业并对其充满信心，解释人工智能的学科以及数据科学和其他流行词汇如何适应这种情况，解释数据科学管道，并谈论成为数据科学家所需的必备技能。这是一门免费课程，你可以使用我的网站中的表格报名参加。

毕竟，在学习数据科学的同时，保持 it 的高效和智能是您的责任。用正确的观点武装自己，没有什么能阻挡你。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您是否打算转行从事数据科学职业，但不确定从哪里开始？通过我的网站免费参加我的数据科学入门课程。

本课程旨在帮助您:

阐明您的数据职业目标，
明白努力的方向，
了解必要的技能，
在您的学习旅程中做出明智的决定

此外，我每周发表文章、采访数据专业人员和免费资源，以帮助专业人员有效地将他们的职业生涯转向数据科学。如果你对你需要学习的东西感到迷茫，对所有声称自己是最好的课程感到困惑，觉得没有一门课程对你的目的来说足够完整，我的网站就是为你准备的。

每天的数据科学:我们的月刊现在是每日精选！

原文：https://towardsdatascience.com/data-science-every-day-our-monthly-edition-is-now-the-daily-pick-74a800bdf8d5?source=collection_archive---------82-----------------------

大家好！

我们希望帮助您养成每天学习数据科学的习惯。

我们不断地发布由不可思议的作者撰写的令人惊叹的文章，保持对我们所提供的一切的了解是一项挑战。为了帮助您轻松了解数据科学的最新动态，我们决定用新的每日简讯取代我们的每月简讯，您将在周一至周四收到。

我们将继续出版我们的月刊，并在《数据科学》上进行专题报道，在那里很容易找到。每日精选将精选精心策划的帖子，我们认为你会喜欢的。让我们一篇一篇地帮助您学习数据科学。

每日精选从下周一开始。我们希望你喜欢它！如果你不想收到它，可以在这里 取消订阅 。

TDS 团队

如果你不想收到我们的 每日快讯 ，你可以直接订阅我们的 每周文摘 。如果你只想看我们的月刊，最好的办法是每月来我们的刊物一次。你会在我们的主页上找到它。

数据科学用…做饭来解释？

原文：https://towardsdatascience.com/data-science-explained-with-cooking-1a801731d749?source=collection_archive---------22-----------------------

你从未意识到的惊人的相似之处

数据科学和烹饪是我的两大爱好。在做了这两方面的大量工作后，我发现这两个领域有大量的共同点。制作新菜肴的过程几乎直接反映了数据科学项目的生命周期。随着时间的推移，我开始用烹饪/数据科学的类比向那些不在这个领域工作的人解释我的工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设品尝

当厨师开始做一道新菜时，他必须了解当前菜单缺少什么。他需要弄清楚什么样的盘子可以完成选择或者替换掉被移走的盘子。

作为数据科学家，我们也需要从一个问题开始。通常是通过商业理解。我们需要找出哪些机会可以为我们的组织创造最大的价值。

成分=数据

在厨师决定了他想做什么类型的菜后，他去冰箱收集配料。如果他没有必要的原料，他会去商店收集。

作为数据科学家，我们的数据点就是我们的配料。我们手头可能有一些，但我们可能还需要通过网络抓取、SQL 查询等收集更多。

就像原材料一样，数据本身通常不是很有用。一旦我们结合了我们的数据并对其进行分析，我们最终会发现它的真正价值。盐本身一般不会被消耗掉，但是几乎每一餐都少不了它。

清洗你的食物和数据

食物可能会被灰尘、杀虫剂或其他有害物质覆盖。重要的是在食用前清洗配料，以避免不良味道和疾病。

这对我们清理数据也很重要。质量差的“脏”数据会给我们的模型带来灾难性的结果。诚然，我们清理数据的方式与厨师清理蔬菜的方式略有不同。我们需要专注于清理数据类型、输入空值和移除异常值。

风味工程

有时，厨师需要在将食材放入菜肴之前调整它们的成分。在烹饪之前，他们敲碎鸡蛋，切洋葱，切肉。

这一过程与数据科学中的特征工程非常相似。有时，我们需要更改数据，以便为我们的模型产生最佳结果。我们可以对数据进行分组、缩放、编码或转换。这些变化有助于提高我们输出的可解释性和准确性。

品尝和探索

当从头开始烹饪时，大多数厨师边做边品尝食物。他们需要了解每种配料的味道，以及这些配料混合在一起的味道。在理解了这些关系之后，他们将能够决定在最后一餐中包含哪些配料。

对于数据科学家来说，在构建模型之前探索我们的数据也很重要。我们必须了解变量之间的关系，以避免多重共线性(在某些模型中)。

Sous Vide =深度学习？

在厨师准备好配料后，就该选择如何烹饪了。有许多烹饪选择，他可以选择烤，烤，煮，嫩煎，烧烤，腌制…你明白了。根据他做的菜，他可能知道这些选项中哪一个会产生最好的结果。

这与我们的模型选择没有什么不同。根据我们试图解决的问题(回归、分类或聚类)，我们知道哪些模型可能是最好的，但我们仍然必须从那里缩小范围。我们最感兴趣的是尝试其中的几种，看看哪一种能产生最好的结果。

调整你的烤箱

厨师一旦选择了烹饪介质，就不会善罢甘休。他们还必须弄清楚要煮多久，在什么温度下煮。这些变量是这顿饭成功的关键。

这与机器学习模型的模型调整过程非常相似。我们必须对我们的算法进行一些调整，以确保我们得到最好的结果。不幸的是，我不认为有烹饪方法的 gridsearch 还没有。

美味交叉验证

我们的厨师已经做好了他的饭，但是他还没有做完！他需要检查结果。他想确定不只是他觉得好吃。让厨房里的其他厨师品尝这道菜对他来说很重要。如果他只迎合自己的口味，他的饭菜可能不会像他希望的那样有广泛的吸引力。

这很像数据科学中的交叉验证过程。我们希望确保我们的模型能够很好地推广，所以我们在新数据上测试它，并比较结果。

电镀艺术

如果食物符合可接受的标准，重要的是在上盘时使其具有吸引力。对食物进行电镀增加了厨师的客人的感官体验。

在数据科学中，我们必须向业务利益相关者解释我们的模型。我们必须产生美丽的视觉效果，增加对我们工作的理解。

电镀和数据可视化都可以被认为是他们自己的领域，因为他们有巨大的深度。

记录你的口味

最后，如果厨师喜欢这个结果，并且想要重现这顿饭，他需要写下一份食谱。他还应该培训厨房里的其他厨师来达到同样的效果。

对于数据科学家来说，记录我们的代码并构建系统来重复执行我们的模型是非常重要的。

在烹饪和数据科学中，再现性是长期成功的基础。

你的厨房应该是一个 API

经营餐馆时，对顾客来说，过程极其简单是很重要的。他们应该能够点一顿饭，而且饭菜应该始终如一地送到他们手中。他们不需要知道饭菜是怎么做的，厨师在做什么，甚至不需要知道厨房里发生了什么。

这就是模型 API 端点在数据科学中的工作方式。您应该能够向它发送请求(订单)，并获得可靠的响应(饭菜)，而不必担心香肠是如何制作的。

面向分析思维的数据科学|简介

原文：https://towardsdatascience.com/data-science-for-analytical-minds-introduction-8900b8d2477f?source=collection_archive---------48-----------------------

你是这样的人吗:

学过统计学、计量经济学或数学的概念。
喜欢推理，创造疯狂的假设，发现你的概念或理论中的缺陷？
计划在数据科学领域开始职业生涯*或寻找加速数据科学职业生涯的方法？

如果是的话，那么你已经登陆了正确的 5 部分博客系列，它将为你提供从数据中获取真实生活价值所需的所有实用信息。

数据科学对我有意义吗？

我想是的。作为 Atlan 的经济学研究生和首席数据科学家，我将数据科学视为经济学和计算机科学的美丽产物，它吸取了双方的精华，形成了自己的形状和个性。

作为经济学家，我们被训练去理解和发现所有层次的模式——微观的和宏观的——以及跨越不同的领域，如发展经济学、农业经济学、环境经济学等等。我们接受过将这些模式转换成数学方程的培训，以便进行经验测试，并与相关的利益相关者交流结果。

数据科学家拥有训练有素的经济学家的专业知识、处理大数据的知识、高效利用计算机能力的诀窍以及扼杀所有可重复任务的工程态度。

如果你也觉得自己理解了数据科学的一些组成部分，并且对数字、模式和思维的分析很有一套，那么你可以很容易地在数据科学中为自己创造一个位置，就像我一样。😃

数据科学的职业前景如何？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:艾登梅森，via: g iphy

数据科学正在以新的创新迅速改变各种行业的面貌。在整个组织中，数据现在是一项核心职能，就像销售、营销或产品和设计一样。

任何采用数据科学的公司都比行业中的其他公司具有竞争优势，因为业务突然变得有能力获得大量知识、更快的学习和过程修正。根据金雅拓的 2018 数据安全信心指数，89%的受访者知道，如果他们能够学会正确分析自己的信息，他们将拥有竞争优势。

在学术界，研究部门正在学习数据科学，并聘请专家来扩展他们的研究。2018 年诺贝尔经济学奖获得者 Paul Romer从 STATA 和 Mathematica 转到 Python，以便能够受益于其处理海量和各种类型数据集的能力，并获得在开源社区分享其工作的机会。

选举正在利用数据科学的力量在世界各地进行竞争，无论是英国退出欧盟竞选还是剑桥分析公司(Cambridge Analytica)完成的美国竞选。

在世界范围内，这导致了对数据科学专业人员需求的激增。2019 年， LinkedIn 将数据科学选为最有前途的职业。

现有的供应无法满足所有这些需求。indeed 2019 年 1 月的报告显示，对数据科学家的需求同比增长 29%，自 2013 年以来增长 344%——这是一个戏剧性的增长。但是，尽管需求以职位发布的形式出现爆炸式增长，精通数据科学的求职者的搜索增长速度较慢(14%)，这表明供需之间存在巨大且不断增长的差距。

数据科学家的一天是怎样的？

让我们举一个数据科学问题的例子来更好地理解这一点。

想象一下，你或你的公司得到了一笔资金，用于预测未来两年印度每个村庄和城镇的每月疟疾病例。

鉴于一系列因素可能导致或加速疟疾的发病率，您需要来自各种数据源的大量不同数据指标:气象信息卫星、村庄位置空间目录、道路网络等，医院目录、收入估计、卫生记录等 PDF 或 excel 格式的统计数据库。所有这些数据集都包含不同的数据类型、地理粒度和更新频率。

作为在职的数据科学家，您应该能够:

对问题陈述进行背景研究，并制定一个执行计划，考虑您和您的团队的有限时间表、资源和技能组合。
根据问题陈述，找到并整理映射到所需指标的正确数据集
处理和清理所有不同的数据类型，并将它们绑定在一起
进行解释性分析，为您的预测/预测模型找到正确的指标/特征。
建立适用于空间数据、时间序列数据以及横截面数据的模型。
编写一个脚本，该脚本可以在最少的人工干预下每月运行一次，完成所有步骤，包括数据源、数据清理、主数据库创建、运行预测模型
创建一个定期更新的可视化仪表板，以便相关利益相关者可以使用和分享这些见解。

看着问题陈述，你们中的大多数人，对疟疾发生和预测进行研究后，将能够设计解决方案和工作流程，但将这变成现实是数据科学家的工作。

那么，一名优秀的数据科学家需要具备哪些技能呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

背景图片来源: unDraw

工作，工作，工作…

在博客系列的后续部分中，我们将深入探讨每一个组件。现在简单说一下:

数据处理 &清理-

从全球来看，数据科学家通常将 80%的时间花在数据清理和准备上。这是为什么呢？这是因为数据科学家必须处理不同数据类型、文件格式、清理过程、更新频率、聚合级别、数据大小和其他维度的数据集。在进入分析或建模部分之前，通常需要进行大量耗时的数据处理过程来理解任何数据。因此，正确自动化数据处理的能力是任何数据科学家最需要的技能之一。

数学，统计& M 阿奇内学-

这将涉及对统计学和数学的深入理解，以建立和使用各种分析或预测的 ML 模型。任何学习和喜欢数学和统计学的人，都知道基本原理。来吧，现在就在你的脑海里背诵所有的 OLS 假设，你就会明白我的意思…但是，我们没有学到先进的 ML 技术，如 XGboost、支持向量机、神经网络等等。当我开始在工作中学习这些技术时，我意识到这些只是同样的统计和数学模型的更强大的扩展，如逻辑回归、线性优化和贝叶斯概率，这些都是我们在课程中学习的一部分。我们计划在以后的博客系列中深入研究这些技术。

编程语言 -

数据科学需要大量的数据争论、多模型测试和优化以及可视化，以得出正确的见解、做出推论、进行预测或做出决策。更重要的是，组织内每天都需要处理不同的数据规模和容量。因此，对于任何数据科学家来说，了解能够最好地自动化和优化工作(从数据清理到可视化)的脚本编程语言是必不可少的。r 和 python 是数据科学家最常用的编程语言，但是还有更多我们将在下一节详细讨论的。在一些大学，经济学家或统计学家主要学习 STATA 和 R 或 python 等语言的基础知识，这是一个很好的敲门砖，但在学习如何编写针对敏捷性和速度进行优化的 R 或 python 脚本方面，还有很长的路要走。

处理大规模数据-

与我们通常进行数据清理、ML 模型测试等的测试环境相比，大数据和生产算法需要高度优化的环境。
这个优化的环境包括选择正确的数据库或数据仓库来存储你的数据，选择正确的机器配置来运行脚本，选择正确的库和包来执行脚本中的特定任务，等等。并非所有这些任务都必须由数据科学家来完成，他们更关心的是数据工程师，但作为一家小公司或独立研究人员，你可能没有这种奢侈，所以拥有工作知识将是有用的。

检测模式&领域知识-

这些大概是你进入数据科学领域最应该自豪的技能。数据科学的所有其他组成部分都是技术密集型的，但这些更依赖于人的直觉和对该领域的研究，离自动化还很远。这里的固有技能是形成开箱即用的假设，寻找模式并通过数据支持它们，批判性地检查工艺流程中的每一步，并将数据和数学模型与行业需求联系起来。这些都是优秀的经济学家、数学家或统计学家所固有的技能，只要你对某个领域充满热情，这些技能就可以应用于任何行业或领域。

沟通&可视化-

对于任何数据科学家来说，沟通都是一项重要的技能。鉴于工作的性质，数据科学家需要将他们构建的模型或预测转化为可供非技术决策者采取行动的见解，这些决策者将根据数据设计行动方案。良好的沟通是各种属性的函数，我们将在下一篇文章中讨论，但真正有助于沟通的一个工具是观想。

当数据科学家必须获取大量数据、复杂模型和输出，并让时间和注意力有限的观众能够理解它们时，可视化就来了。正如他们所说，“一幅画胜过千言万语”，在我看来，一个好的观想值一百万。这也来自于人类天生对模式和符号的理解比其他任何语言都要好。

开源社区-

数据科学社区是建立在一些令人敬畏的开源工具、语言、框架、书面文章、维基、博客和书籍之上的。因此，我们都通过我们能做的方式做出贡献真的很重要——写博客，为 R、python 或任何开源语言做出贡献，在研讨会上发言，建立公共数据仪表板(如 COVID19 的仪表板)，为开放数据仓库如 OSM 或任何其他你喜欢的方式贡献数据。

那么，下一步是什么？

接下来是阅读和动手操作。正如托马斯·爱迪生的名言——“没有执行的愿景是幻觉”。

我和我的合著者安基塔·马图尔在这个博客系列中，我希望能帮助你开始走上成为一名数据科学家的道路。在这篇介绍性博客之后，本系列还会有 4 篇博客:

脏数据 -质量评估&清理措施
统计机器学习中的皮索 n
扩大规模——编程语言、数据存储&协作
传播知识——交流&社区

期待这些博客向您介绍数据科学的不同方面，同时为您提供可靠的资源来开始您的数据科学培训。黑客快乐！

帮助你起步的资源-

了解数据科学概念基础的书-Gareth James、Daniela Witten、Trevor Hastie、Robert Tibshirani 撰写的《统计学习及其在 R 中的应用》
帮助建立数据科学职业生涯的书 - 艾米莉·罗宾逊和杰奎琳·诺利斯的《建立数据科学职业生涯》
ML 技术核心数学理解系列视频讲座&概念- 斯坦福大学计算机科学系吴恩达教授的机器学习系列讲座
值得关注的伟大数据科学家名单-https://humansofdata . atlan . com/2019/10/data-science-leaders-and-influencers-you-must-follow/
免费 MOOCs 精选列表-https://towards data science . com/top-20-free-data-science-ml-and-ai-MOOCs-on-the-internet-4036 BD 0 AAC 12
学习数据科学教程— 初学者全教程

*在数据科学下，我们正在考虑所有相关的职业，如数据科学家、数据分析师、业务分析师、ML 从业者、统计学家等。成为它的一部分。

特别感谢我们这个系列的杰出编辑- 艾西瓦娅·比德卡尔🎉

自动驾驶的真实数据科学

原文：https://towardsdatascience.com/data-science-for-autonomous-driving-a1bf28208946?source=collection_archive---------38-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过迁移学习创建的图像(ostagram.me)

理解大数据

我定义数据科学在自动驾驶汽车中的作用的旅程

博世和梅赛德斯于 2017 年携手打造自动驾驶(AD)技术。两家知道如何制造汽车的成功的大公司现在正联合起来。这听起来真的非常非常令人兴奋。

那一年，我加入博世，成为该集团聘用的第一名“数据科学家”。当时，我不确定我作为数据科学家的角色在实践中意味着什么，但我有一个乐观和一个悲观的猜测:我可能会对核心人工智能算法(“功能编码”)做出贡献，或者我只会做数据分析。

一晃两年过去了，我领导的数据科学团队现在已经发展到 10 人，我可以证明这两种情况听起来都很幼稚。

以下是我在组建这个团队的过程中以及我们参与的一些项目中学到的一些东西。

1。DS 车型不跑 AD 车

我不得不与我团队中许多新雇佣的数据科学家进行一次“我们必须坐下来谈一谈”的谈话。是的，对象预测非常有趣，我知道 Coursera 展示了如何端到端地做这件事。但我也知道，在一个有数百名专家参与的项目中，为 AD 开发核心功能并不是“通用 ds”的职责。像感知和融合这样的团队已经对这些问题进行了多年的修补。在这里，我们有 5 年经验的博士独自研究像停车检测这样的小课题(大声喊出来，马克！你的工作受到重视！).汽车中运行的一切都需要以此为目的进行设计，这意味着:它可能需要用类似 C++的语言编写，具有有限的数据速率，并通过 GPU 特征向量直接分配内存。你用过 GPU 特征向量吗？我很怀疑，这是我瞎编的。要点是:AD 的功能开发通常需要大量的领域知识和软件开发技能，而一般的数据科学家没有受过这方面的培训；他们也不会特别感兴趣。

那么，DS 能为 AD 做些什么呢？

2。没有 DS 车型，AD 车辆无法行驶

我们团队经历了一个自我定义的过程。我们开始在汽车内部的算法和数据接收后应用的算法之间划一条线，汽车内部的算法主要是领域和实现的。最终，问题变成了“,哪些缺失的数据驱动方法可以支持 AD 的功能团队？”。我们带着这个问题，在与团队领导、管理层和开发人员的会议中四处巡视。我们现在问了一个稍微不同的问题。
From :我们如何应用 ML 来解决你的问题？
到:你的问题空间周围的界限是什么？
不久之后，请求开始接踵而至。我们讨论了项目，两年后，我确信我们的 DS 团队和其他团队一样是这个项目成功的关键。

在此期间，我们建立了一个数据中心，为开发人员和管理层提供按需和常规数据分析。我们开发了基于规则和概率的根本原因分析解决方案来支持取证团队。我们已经创建了一个特性库来支持各种 ML 项目。一个是场景识别，我们用于 KPI 估算、验证&确认，以及问题跟踪。特征库的另一个用途是用于异常检测。

—>所有这些项目都将在我 2020 年 4 月在波士顿 ODSC 的演讲中详细介绍。

3。说到底，不是模特的问题。

与这个领域的任何人交谈，你都会听到广告是而不是一个已经解决的问题。在一个不断学习和快速变化的环境中，数据科学家也需要这样做。面试中没有提到的技能会对你的工作效率产生影响。我们使用 dockers，我们编译，我们使用各种机器人框架，我们必须为 C++制作 python 绑定器。在某些时候，我们需要对你的 KPI 仪表板前端进行更改，重新启动你在 Kubernetes 上的作业，为你的 GPU 排除 Cuda 驱动程序的故障(这不是我编造的)；所以我们学会了所有这些技能。这是让我们快速迭代并跟上项目的原因。另一方面，我们的项目中也有“核心科学家”。他们会花至少几周的时间分析任何问题，并使用他们在研究生院熟悉的工具。他们提供了出色的报告，是无价的，但正是前一种类型的 DS 帮助定义了我们的身份。

最终，无论我们谈论的是自动驾驶还是广告，数据科学家的工作都是让自己变得不可或缺。

结束了。

免责声明:本文所表达的观点和意见均为作者个人观点和意见，不一定代表本文所报道的任何公司的官方政策或立场。

初学者的数据科学

原文：https://towardsdatascience.com/data-science-for-beginners-66e6c51ce066?source=collection_archive---------29-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: Pixabay

进入数据科学，我们需要什么？

像 SQL 这样的查询语言
像 R/Python 这样的编程语言
可视化工具，如 power bi/Qliksense/Qlikview/Tableau 等。
机器学习的基本统计学
机器学习算法(确保你在你希望成为专家的领域，如销售、金融、人力资源、运营等领域尝试用例。所有人的用例都不同)
实践和实施

a)查询语言

你可以学习的查询语言类型: SQL 无疑是市场上最好的语言，它不会消失。

您可以学习的另一种查询语言是 elasticsearch。如今它被广泛使用。我通过一门业余课程学会了它。SQL 和 elasticsearch 的区别在于，在 elasticsearch 中，您有一个数据框架，其中不是每一行都有相同的列值。例如数据库车。比方说，对于一些汽车，我们只有型号名称、价格和颜色信息。对于一些，我们可能有颜色，型号，价格，型号数量，母公司等。对于另一种类型的汽车，我们可能只有型号和名称等信息。在 SQL 中，这是通过在缺少字段的地方放置 NAN 值来捕获的。在 elasticsearch 中，没有 NAN 这个概念。

学习来源:你可以从 W3Schools/Tutorialspoint 或任何地方学习，因为学习 SQL 几乎不需要一周时间。如果您无法访问数据库进行练习，您可以加载任何 csv 文件作为数据库进行练习。

可以通过相同的网站学习 Elasticsearch /Kibana。同样，你可以参加 Udemy 的课程，因为这比 SQL 更难学。

**环境:**如果你正在学习 SQL，可以安装 MySQL/PostGRESQL，开始练习。对于 elasticsearch，您可以安装 Kibana 并进行练习。

为什么查询语言对数据科学很重要？

在数据科学中，我们有庞大的数据集，有数百万行和数百万列。对于分析，你不需要所有的数据。我们需要使用查询语言提取相关数据，然后进行分析。

**大数据:**还可以学习 Scala、Hadoop/MapReduce 等大数据语言或技术。然而，这对于大多数 D.S .工作来说是好的，而不是必须的。这更像是锦上添花。大数据是数据工程的一部分，通常涉及编码，这与融合了统计学、数学、编码和领域知识的数据科学不同。大数据应该在你彻底掌握数据科学之后学习。

b)编程语言

流行的语言:有两种主要的语言:R 和 python。r 是由统计学家和数学家设计的语言。Python 是一种编码语言。两个都好。然而，现在 Python 更受欢迎，因为它有来自编程世界的强大支持生态系统，更好的可扩展性，以及与 API 和其他完整产品代码的更好集成。

**学习来源:**通过 Coursera 学习 Python。课程名称是“数据科学的 Python”也可以通过 tutorialspoint 和 W3schools 学习。不仅仅是课程，我还通过主要和次要的项目了解到我们应该做的，作为我们证书的一部分。

我通过 Udemy 学会了 R。数据科学研究高级课程。深入学习一种语言并对另一种语言有一个大致的了解是有好处的。这是因为在一个团队中，你将与许多数据科学家一起工作。有些人会习惯使用 R，有些人会习惯使用 python。

环境 : Anaconda Navigator，Pycharm，Spyder 或者 Jupyter 笔记本。

环境是一个你基本上编码和实现你的代码的地方。

我个人最喜欢的环境是 Jupyter 笔记本。Jupyter 笔记本可以让你输入 R/Python/HTML 等等。，因此您可以使用特定语言的最佳库或技术，并在 Jupyter 中使用它。此外，如果两个人使用不同的语言，那么您可以使用 Jupyter 笔记本轻松地进行协作。

查询解析: Stackoverflow 和 Stackexchange 是询问语言问题的好地方。人们通常在 5 分钟到 24 小时内回复。

c)可视化工具

**可以学习的工具:**Tableau/PowerBI/Qliksense/Qlikview 是最常见的工具。PowerBI 和 Tableau 应用最为广泛。

PowerBI 几乎就像 excel 的高级版本，非常容易学习。excel 的唯一问题是它会崩溃，并且在处理大量数据时会变得很慢。也没有太多的选项可用于惊人的观想。这一切在 PowerBI 中都是可能的。另一个好处是 PowerBI 是免费的。对于 Tableau，您可以下载 30 天的试用版，但对于 PowerBI，您可以想用多久就用多久(PowerBI 的免费版本中提供了大多数功能)。Apple 不支持 PowerBI/Qliksense/Qlikview，因为它们是基于 windows 的产品。

**学习来源:**通过 Udemy 学习了 PowerBI。我根据评分来选择课程。任何评分在 4.3 以上的课程都很酷。我通过 Tableau 网站学习 Tableau。

d)数据科学统计学:

**你应该知道的基本术语:**标准差、均值、中位数、众数、偏度、假设检验、中心极限定理、总体对样本、z 得分、置信区间、p 值、统计显著性、临界值、比例检验、双尾、单尾、帕累托原理、卡方检验、z 检验、t 检验、正态分布、高斯分布等。

**学习来源:**Kirill Eremko 的 Udemy 数据科学统计课程，R 中的统计学习介绍或任何统计基础书籍。

e)机器学习算法:

最常用的算法类型: XGBoost、RandomForest、深度学习、神经网络、时间序列、决策树、聚类和分类算法。

**学习来源:**机器学习 Udemy 上的 Kirill Eremko 课程很惊艳。Otxts 书是 ML 可视化算法的好书。这是一个免费的资源，也是网上最好的资源之一。https://otexts.com/fpp2/graphics-exercises.html

R 中的统计学习介绍对 ML 中的统计和应用的基础很有帮助

如何决定实施哪些算法:

首先，了解您的问题的用例。你想干嘛?你的产出是连续变量吗？(取值 1、3、10 等。基本上任何值)或者它是二元决策还是你想把人们聚集在一起，为一群人做一些决定？

在一个项目中，我不得不从事金融领域的信用风险分析。你必须决定一个人是否有能力偿还贷款。所以这是一个二元决策。在这种情况下，您需要一个分类算法，因为您希望将一个人分类为违约者或非违约者。所以我使用逻辑回归(当输出为二进制是/否等时使用)、XGBoost 或决策树。你基本上可以使用任何分类算法。这里可以使用的其他分类算法有 SVN、朴素贝叶斯等。(你可以谷歌分类算法获得完整列表)。

如果在一个项目中，我需要预测股票或房子的价值，那么它可以取从 10 卢比到 1，000，000 卢比或更多的任何值，等等。(连续变量)。这里我将使用回归。回归可以是多种类型，简单线性、多元线性、多项式、SVR 等。通过检查 r 平方误差(预测值与实际值相差多远)，可以找到正确的回归技术。

同样，如果我需要找出目标细分市场，我将需要使用聚类算法。k 均值和层次聚类都是聚类算法的例子。

所以首先要学习算法(至少一个分类算法，一个聚类算法，一个回归算法)，然后看看你需要什么算法来解决手头的问题，然后开始分析。

我应该学习什么类型的项目和算法:

首先，选择你的域名。例如，我的领域是金融和营销。所以我可以在这里谈论这些。虽然清单是无穷无尽的，我将只写下我学到的最重要的算法

营销:时间序列建模(主要是 ARIMA 建模)，预测未来的销量、数量和价值。时间序列建模意味着你有一件事的数据，比如说一家公司一段时间(可能是几个月、几年、几天等)的销售数据，你可以预测该公司未来几年/几个月/几天的销售情况。

聚类算法对目标群体进行聚类，并为每个群体设计单独的类别。

流失建模，以决定有多少现场工作人员将留下，有多少将离开管理工作流程。

**金融:**分类算法像逻辑回归(逻辑回归和线性或多元回归完全不同，只是名字相似)，SVN，朴素贝叶斯，XGBoost 等。进行信用风险分析，找出谁会违约。

资产评估回归(股票价值、抵押资产等。)

f)实施

如何运用你的知识:

Coursera、Udemy 等课程中的项目
Vidhya，Kaggle 等分析的黑客马拉松，看看你在人群中的位置。
实时项目
在公司和工作中

希望这有所帮助！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Python 的电子商务数据科学

原文：https://towardsdatascience.com/data-science-for-e-commerce-with-python-a0a97dd7721d?source=collection_archive---------7-----------------------

我为电子商务行业准备了一份广泛的数据科学应用指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马克·柯尼希在 Unsplash 上的照片

商业是目前世界上发展最快、最具活力的行业之一。随着数字交易的便利和快速的送货上门，它的受欢迎程度一直在迅速增长。大型科技公司收入的一个主要来源来自其底层专有算法的交互，这些算法在很大程度上由数据科学提供支持，因此了解用于维持和增加客户数量的方法是非常重要的。

在本文中，我将向您介绍这个令人惊叹的行业是如何应用数据科学和 Python 脚本来实际展示这个案例的。数据集和脚本都可以通过这个链接在我的 GitHub 上找到。

1.数据和数据科学简介

数据的定义仅仅是原始事实的集合，如数字、文字或观察结果，而数据科学是处理数据研究的科学学科。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由弗兰基·查马基在 Unsplash 上拍摄

如今，大多数电子商务平台在不妨碍客户体验的情况下收集大量用户数据。收集的数据存储在结构化的或列表化的表格中，以便于分析和解释。不仅存储结构化数据，还存储非结构化数据，如图像、视频或文档，这些数据在研究用户偏好时也有很大价值，但通常更难处理和分析。

数据分析为这些公司提供了不断变化的洞察力和指标，使他们能够打造更好的产品。

对数据科学的兴趣大爆发的原因是由于数据量和计算能力的增长而被广泛采用。数据的增长与广泛的数字化和互联网渗透以及移动设备的大规模采用直接相关，移动设备在没有人工干预的情况下持续生成数据。另一方面，计算能力使数据科学家能够以高效的方式存储、处理和研究大量数据。

如今，不仅是大型科技公司，如谷歌、脸书、苹果、亚马逊或微软，正在充分利用其核心业务，而且小型和本地企业以及初创公司也逐渐采用数据科学来增加其业务价值。

2.数据科学的电子商务应用

电商代表电子商务，代表网络版实体零售店。它允许世界各地的人们通过在线平台购买、浏览和销售产品。

虽然从客户的角度来看，这似乎是一个相当简单的过程，但为了提供无缝的在线购物体验，需要克服几个障碍，例如与过程相关的障碍，包括产品订购、交付和公平定价。

然而，随着越来越多的人希望在网上购物，电子商务行业正在迅速扩张。这也意味着越来越多的传统企业正在将其商业模式转换或补充到电子商务中。

在电子商务行业发展的背景下，数据科学有助于从这些平台的大量可用数据中获得最大价值，并有助于将重点转向客户参与和体验。它侧重于:

用户产品推荐。
客户趋势和行为分析
预测销售和库存物流。
优化产品定价和支付方式。

这些应用中的每一个都涉及大量数据的存储和解释，其中数据分析技术派上了用场。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Pixabay 发自 Pexels

3.推荐系统

在案例研究中应用数据分析技术的一个例子是该公司的推荐系统，这是一种根据用户以前在平台上的购买或搜索来预测用户对某个商品的偏好的方法。

推荐系统被战略性地用于提高转化率、提升客户体验和扩大用户参与度。

一个被证明有效的大规模推荐系统是亚马逊的数据驱动和个性化营销方法，通过智能推荐给用户来提高平台的销量。据《麦肯锡洞察》杂志报道， 亚马逊 35%的收入是由其推荐引擎 **产生的。**这一成就之所以成为可能，是因为推荐系统应用于电子邮件宣传活动及其网站的大部分页面，包括站内和站外推荐。

有两种类型的推荐系统:

基于内容的推荐:根据产品的属性或特征进行推荐的方法。例如，如果一个产品与另一个产品共享属性，在用户购买第一个产品的情况下，系统应该推荐第二个产品，因为用户的偏好与第二个产品匹配的可能性更高。
协同推荐:这种方法基于多个用户显示的交互进行推荐。例如，如果几个客户同时购买了一种产品和另一种产品，系统应该相互推荐每一种产品，因为以前的客户在以前的场合一起购买了这两种产品。

4.客户分析

客户是任何电子商务公司的关键因素，强调为客户提供良好的客户体验和满意度应该是首要关注的问题。为了达到这样的服务水平，有必要了解客户及其偏好。

电子商务平台有可能跟踪客户从进入网站到离开的活动，无论这是在购买或销售某些产品之后，还是在浏览产品之后。基于这种了解客户的必要性，它采取的每一个行动都必须被记录和存储为潜在的有用数据，以确定客户的概况。

从收集到的数据中生成关于客户的可行见解的过程称为客户分析。

客户分析有助于了解客户行为的趋势和变化，以便修改业务战略，并相应地做出关键业务决策。它还提供了一种方法来分析哪些获取和保留客户的渠道实际上是有效的，哪些是无效的。

为了建立客户分析平台，电子商务公司必须关注客户的关键特征，包括:

客户描述和细分:可以根据客户的偏好、购买和浏览模式对客户进行分组，以建立个人档案并在此基础上提供推荐。此外，这种分析有助于建立目标受众、个性化产品，甚至适用于每个群体的营销策略。
这也有助于将重心转移到最赚钱的客户，以建立更好的客户关系。客户可分为地理特征、行为平台、人口特征和心理特征。
情感分析:这是确定一组单词或句子背后的情感的过程，目的是通过产品评论或支持票来识别客户对其购买或销售的产品所表达的情感。
情感分类器可以是正面的、负面的或中性的，有助于回应投诉和改善客户服务等。
流失分析:这是根据客户在平台中的活动，分析客户购买产品的可能性的过程，旨在优化现有的获取和保留策略。流失率的提高可以极大地影响业务的增长甚至可持续性。
终身价值预测:这是客户在与平台建立关系期间将为企业提供的估计总收入。该估计是使用早期交易模式、交易频率和交易量等因素进行的。
预测终生价值预测，有助于规划向什么样的客户投入业务资源，以从他们身上获取最大价值。

5.使用 Python 的数据探索过程

分析数据集之前的第一步是预览它包含的信息。为了轻松处理这些信息，我们将使用 Pandas ，这是一个用于数据操作和分析的 Python 库，它提供了用于操作数值表和时间序列的数据结构和操作。

对于不熟悉 Python 的人来说，它是一种强调编码效率、可读性和脚本重用性的高级通用编程语言。

数据集和脚本都可以通过这个链接在我的 GitHub 上找到。下面，我将包含在您的计算机上运行分析所需的代码:

# Imports 
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import seaborn as sns
import numpy as np

在导入必要的库之后，继续创建包含数据集信息的 pandas 数据框架，并研究它:

# Read dataset and preview
data = pd.read_csv('e_commerce.csv')# Exploring data
data.info()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过在“数据”变量中应用 info()方法的结果，我们可以访问数据集内的信息，该数据集由电子商务平台中的一系列交易组成，我们已经为这些交易确定了用户 ID、购买产品 ID 和许多在该过程中有用的描述性数据。

在继续分析之后，我们继续清理数据帧中的空特征。正如我们在下面的代码中看到的，产品 2 有 173.638 个空字段，这意味着用户在这种情况下不会购买一个以上的产品。此外，产品 3 有 383.247 个空字段:

# Count null features in the dataset
data.isnull().sum()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，让我们继续用零值替换空要素，因为我们需要一个干净的数据集来对其执行操作:

# Replace the null features with 0:
data.fillna(0, inplace=True) # Re-check N/A was replaced with 0.

在数据框架中，我们有客户进行的所有交易，其中包括每个人进行的每笔交易。为了确定在我们的平台上花费最多的用户，让我们按用户 ID 分组并合计花费金额:

# Group by User ID:
purchases = data.groupby(['User_ID']).sum().reset_index()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外，我们还可以访问每个用户 ID 购买的产品，让我们用用户 ID 1.000.001 试试:

data[data['User_ID'] == 1000001]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在确定了消费最多的用户之后，让我们提取这些用户的年龄范围以及每个年龄组的平均销售额:

purchase_by_age = data.groupby('Age')['Purchase'].mean().reset_index()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

年龄在 51-55 岁之间的用户群是在平台上花费最多的人群，所以也许我们应该将营销活动瞄准他们。让我们来看看用户年龄的图形分布:

plt.figure(figsize=(16,4))
plt.plot(purchase_by_age.index, purchase_by_age.values, color='purple', marker='*')
plt.grid()
plt.xlabel('Age Group', fontsize=10)
plt.ylabel('Total Purchases in $', fontsize=10)
plt.title('Average Sales distributed by age group', fontsize=15)
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

另一方面，它将有兴趣找出哪个年龄组和性别进行更多的交易。这两个事实很容易用几行代码计算出来:

# Grouping by gender and age
age_and_gender = data.groupby('Age')['Gender'].count().reset_index()
gender = data.groupby('Gender')['Age'].count().reset_index()# Plot distribution
plt.figure(figsize=(12,9))
plt.pie(age_and_gender['Gender'], labels=age_and_gender['Age'],autopct='%d%%', colors=['cyan', 'steelblue','peru','blue','yellowgreen','salmon','#0040FF'])
plt.axis('equal')
plt.title("Age Distribution", fontsize='20')
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

# Plot gender distributionplt.figure(figsize=(12,9))
plt.pie(gender['Age'], labels=gender['Gender'],autopct='%d%%', colors=['salmon','steelblue'])
plt.axis('equal')
plt.title("Gender Distribution", fontsize='20')
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

另外，我们可以计算出平台的客户所展示的那些职业中，哪些是购买产品较多的职业。看一看下面的代码:

# Group by occupation:
occupation = data.groupby('Occupation')['Purchase'].mean().reset_index()# Plot bar chart with line plot:
sns.set(style="white", rc={"lines.linewidth": 3})
fig, ax1 = plt.subplots(figsize=(12,9))
sns.barplot(x=occupation['Occupation'],y=occupation['Purchase'],color='#004488',ax=ax1)
sns.lineplot(x=occupation['Occupation'],y=occupation['Purchase'],color='salmon',marker="o",ax=ax1)
plt.axis([-1,21,8000,10000])
plt.title('Occupation Bar Chart', fontsize='15')
plt.show()
sns.set()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

最后，我们可以确定平台中最畅销的产品:

# Group by product ID
product = data.groupby('Product_ID')['Purchase'].count().reset_index()
product.rename(columns={'Purchase':'Count'},inplace=True)
product_sorted = product.sort_values('Count',ascending=False)# Plot line plot
plt.figure(figsize=(14,8))
plt.plot(product_sorted['Product_ID'][:10], product_sorted['Count'][:10], linestyle='-', color='purple', marker='o')
plt.title("Best-selling Products", fontsize='15')
plt.xlabel('Product ID', fontsize='15')
plt.ylabel('Products Sold', fontsize='15')
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

结论

我写这篇文章的目的是提供一种直觉，让人们了解全球公司如何应用数据科学来获取、保留和发展他们的客户群。除此之外，我还想对电子商务中涉及的理论提供一个实用的解释，包括推荐系统和客户分析。

如果你喜欢这篇文章中的信息，不要犹豫，联系我分享你的想法。它激励我继续分享！

深入了解数据科学的相关文章:

神经网络在烟囱溢流剖面中的应用:

[## 根据你的个人资料，你应该学习哪种技术？

根据堆栈溢出用户的标签，利用网络分析和 Python 来找出您应该…

medium.com](https://medium.com/swlh/which-technology-should-you-learn-according-to-your-profile-e081cf35d72f)

纽约 Airbnb 租房数据分析:

[## Airbnb 租房——使用 Python 分析纽约

发现最方便的租赁方式，以便继续实施具有良好可视化效果的数据分析。

towardsdatascience.com](/airbnb-rental-analysis-of-new-york-using-python-a6e1b2ecd7dc)

使用漂亮的可视化工具增强指标、KPI 和数据解释:

[## 用 Python 实现商业智能可视化

我准备了一份详尽的指南来展示漂亮的可视化效果，以增强度量、KPI、预测和其他…

towardsdatascience.com](/business-intelligence-visualizations-with-python-1d2d30ce8bd9)

感谢您花时间阅读我的文章！如果您有任何问题或想法要分享，请随时通过我的电子邮件联系我，或者您可以在以下社交网络中找到我以了解更多相关内容:

LinkedIn。
GitHub 。

参考

[1] Python 官网
[2]麦肯锡洞察杂志。

使用数据科学轻松处理企业资源规划数据

原文：https://towardsdatascience.com/data-science-for-erp-data-2b414028f9b6?source=collection_archive---------45-----------------------

用数据管理

面临分析公司数据的挑战，厌倦了巨大的 Excel 文件？用一个简单的 Jupyter 笔记本给他们写信

与 Dmytro Karabash 一起创建

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信用:斯科特·格雷厄姆@ unsplash

介绍

你现在是老板了。你有一个团队或一个业务部门在做咨询。可能是一群帮助客户的顾问，一些项目经理以敏捷或其他方式领导你的项目。每个人都填写他们的时间表(如果他们不填写，你会削减他们的奖金)——时间是向客户收费的，你也有固定费用的项目。也许更小的团队也是你组织的一部分——你可以领导 10 人、100 人或 1000 人(嘿，伙计——你管理一个有 1000 名员工的单位？不要读这篇文章——找一个读过的人。你甚至可能有一个 ERP(企业资源规划)或什么的，在一个可爱的角落办公室里有一个 CFO。你有没有一个很好的方法来估计每个团队成员和项目带来多少利润，以及如何合理精确地预测它？如果你有一个像样的 ERP 仪表板，它能给你所有这些，那么你是幸运的，你也不需要这篇文章。你有可能在年底得到一个简单的计算结果——比如“让我们假设你的项目在一年内的所有收入融资和 800 美元的人工日成本得到你的单位盈利能力”。800 美元可能看起来高得离谱，也可能低得不可接受，这取决于你从事的行业。所以这就是你计算你的团队给公司带来的钱的精确度？需要我们提醒你这是你工作存在的原因之一吗？

你还能得到什么？所有的时间表项目都有预算，你甚至可以得到大概的成本(我们以后再讨论)——一年的大量数据，即使是 10 人的团队。我们向您展示的是，您不需要 ERP 来完成剩下的工作 Jupyter 中的笔记本就可以了。请记住这一点——管理始于衡量。如果你手头没有他们的数据，你怎么能监督你的团队和项目呢？

为什么这里需要数据科学？好吧，你可以在你的手指上有所有的数据。最终，你会希望像这样计算你的利润

profit **=** revenue **-** cost

不仅是减去两个数字，而且是在表的层次上——所以上述语句的输出可以是一个表，其中包含每个顾问每月的利润，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或者通过下面的陈述获得 3 月份计费时间最多的 3 个人的列表

t**.**where**(**t**[**'Billable'**]** **&** **(**t**[**'month'**]** **==** '2020-03'**)**
        **).**groupby**([**'User'**])[**'effort'**].**sum**().**nlargest**(**3**)**

但是我们为你创建了一个 Jupyter Notebook ，你可以在那里玩代码，让它在几个段落中工作(感谢fast pages——我们的帖子和笔记本是一回事)。是的，需要学习一些 python。与您自己做的任何事情(ERP 报告、Excel、其他工具)的巨大区别在于，任何分析都保留在笔记本中，并且可以在您的数据更改后重新应用。

数据科学

所以，让我们把这件事做完。首先，是的，你需要了解一点 python 来获取文件。基础水平就可以了。如果你是 2020 年的经理，却不能写一个简单的脚本——嗯，你可能错过了一些东西。我们的目标不是构建 ERP，甚至不是拥有一个易于使用的工具包——我们希望向您展示如何为自己制作一个工具包(但是可以随意重用我们的代码)。你将看到的是一组简单的例子——花一两个小时将你的文件载入笔记本，然后开始玩它——只需做出你想要的分析。你最终可以检查一些数字或者构建你的图表和仪表板。没关系，即使你为一家公司工作(那是你最需要它的地方)——只要安装 Anaconda 并下载笔记本就可以了。所以，我们首先获取并转换我们的输入文件(如果你想了解文本和所有代码——在 colab 上阅读)。

我们加载的数据

让我们在这里总结一下——如果你是团队领导或业务部门经理，最有可能的情况是——你很少有字典

每个地区的成本或“外部”贡献者的默认成本
不属于你的项目每小时的平均收入

*# show roles*
roles **=** data**[**"roles"**]**
roles

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们需要设置默认值，并将其转换成易于使用的格式，这在 python 中非常容易:

default_revenue **=** 1200
default_cost **=** 850*# wide to long format*
roles_long **=** pd**.**melt**(**roles**.**reset_index**(),**
                     id_vars**=[**'Position'**,** 'Seniority'**],**
                     var_name**=**'region'**,**
                     value_name**=**'cost'**)**
roles_long

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，人数数据

你的员工名单，以及他们的等级(或费用)
参与模式(员工或承包商)

*# show head count*
headcount **=** data**[**"Employees"**]**
headcount **=** headcount**.**merge**(**
    roles_long**[[**'Position'**,** 'Seniority'**,** 'region'**,** 'cost'**]],**
    how**=**'left'**,**
    left_on**=[**'Seniority'**,** 'Position'**,** 'Country'**],**
    right_on**=[**'Seniority'**,** 'Position'**,** 'region'**])**
headcount**[**'cost'**]** **=** headcount**[**'cost'**].**fillna**(**default_cost**)**
headcount

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有预算、工作量估算、日期、收入确认类型(时间和材料、固定费用或其他)等的项目

*# show projects*projects **=** data**[**"Projects"**]**
projects

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您的团队/项目的时间表。其他团队可能会参与您的项目，而您的团队可能会在外部项目中工作

*# show timesheets*timesheet **=** data**[**"timesheet"**]**
timesheet

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里的 EXT 用户不在我们的人数之内(假设我们没有获得真实姓名，但在这种情况下，我们从 ERP 获得了一些 id)

为什么不直接用 ERP 来做呢？你的 ERP 可能没有很好地呈现你想要在你的层面上控制的参数(否则，你无论如何也不会读这篇文章)。到 2025 年，可能会有一个项目在进行改进——也许四大律所之一正在面试你的要求。如果您驾驶这艘船的时间足够长，您可能会得到快速而肮脏的计算、对 SAP 的 SQL 查询(字段名仍然是德语)或 Excel 文件。为什么？你的老板不在乎——他们已经雇佣了你，而且更好的 ERP 将在 2025 年到来。所以他们想知道你的团队赚了多少钱(最好是每个人、每个月、每个项目，有图表、预测和比较)，并想知道为什么它不那么有利可图(因为它从来都不是)。

为了简化您的工作，我们将从时间表中创建一个时间序列，这有点复杂，所以您现在可以跳过它，稍后再回来，但关键是，最终，您将获得一个可爱的每月熊猫数据框架。在数据科学中，拥有一个可以轻松分组和过滤的大数据框架(类似于 excel 表或 SQL 表)是很常见的。它是有帮助的，因为它使事情变得非常容易。

收益性

时间表和项目预算通过这种方式得到了简化，您可以在几条简单的语句中以您想要的方式操作它们。如果你学过 excel 公式，你也可以这样做。现在，让我们以最简单的方式来看看盈利能力。作为经理，我们建议你这样做来为你的团队设定基准。因此，利润就是收入——成本，我们希望保持简单。你可以实现你喜欢的计算。

**收入:**比方说，对于一个&材料项目，你产生的收入与你开出的账单(按照约定的费率)一样多，一直到它的预算。我们不做任何固定费用确认公式。不同的公司有不同的做法，你要么需要历史数据，要么需要实际认可的价值，这取决于你的经营方式。

我们还假设我们只对人数中的用户感兴趣(所以我们过滤掉所有分机用户)。

*# revenue calculation for a person for a month* 
*# (SUM REV of all timesheet records * corresp project rates)*
revenue_df **=** timeseries**[[**'User'**,** 'Project'**,**
                         'Billable'**,** 'effort'**,** 'date'**,** 'month'**]]**
revenue_df **=** revenue_df**.**merge**(**projects**[[**'Project'**,** 'Daily Rate'**]],**
                              how**=**'left'**,**
                              on**=**'Project'**)**
revenue_df**[**'Daily Rate'**].**fillna**(**default_revenue**,** inplace**=True)**
revenue_df **=** revenue_df**[(**revenue_df**[**'User'**].**str**[:**3**]** **!=** 'EXT'**)** **&**
                        **(**revenue_df**[**'Billable'**])]**revenue_df**[**'daily_revenue'**]** **=** revenue_df**[**'Daily Rate'**]** ***** \
    revenue_df**[**'effort'**]**
revenue **=** revenue_df**.**groupby**([**'User'**,** 'month'**])[**
    'daily_revenue'**].**sum**().**unstack**().**fillna**(**0**)**
revenue **=** revenue**[**revenue**.**sum**(**1**)** **>** 0**]**
revenue**.**head**()**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们每个月都有人均收入。不会太复杂吧？

成本:让我们从这样一个事实开始:仅仅使用“默认成本率”是不够的——每当利润受到压力时，你应该做得更好。你可能有在不同国家工作的人，他们的水平完全不同。和你的财务团队谈谈，从他们那里得到一些估计(或者一起做)。如果你被任命管理一个团队或业务部门，我们会说他们欠你很多。我们假设你在每个国家都得了几分。每个人的成本也很好。这个工具的美妙之处(与自己做 Excel 相比)在于你可以直接添加它——它只是几行代码。让我们来计算每月的直接成本:这里我们检查张贴在时间表上的工作成本，假设它们是满的——也可以检查一个月中的工作日数并进行比较。我们对外部资源不感兴趣，所以我们将再次过滤掉它们。

*# cost calculation for a project* 
*# (SUM COST of all timesheet records * corresp cost rates - see roles)*
cost_df **=** timeseries**[[**'User'**,** 'Project'**,** 'effort'**,** 'date'**,** 'month'**]]**
cost_df **=** cost_df**.**merge**(**headcount**[[**'Name'**,** 'cost'**]],**
                        how**=**'left'**,** left_on**=**'User'**,** right_on**=**'Name'**)**
cost_df **=** cost_df**[**cost_df**[**'User'**].**str**[:**3**]** **!=** 'EXT'**]**
cost_df**[**'daily_cost'**]** **=** cost_df**[**'cost'**]** ***** cost_df**[**'effort'**]**
cost **=** cost_df**.**groupby**([**'User'**,** 'month'**])[**'daily_cost'**].**sum**()**
cost **=** cost**.**unstack**().**fillna**(**0**)**
cost **=** cost**[**cost**.**sum**(**1**)** **>** 0**]**
cost**.**head**()**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，我们可以通过对数据帧的操作来获得每个用户每月的利润。在这里它结出了一些果实。利润=收入—成本。事实上，它需要先清理一些数据——但不是太多

profit **=** revenue **-** cost
profit**.**head**()**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们承诺过的，对吗？好的，第二个——在三月份输入最多计费时间的人

t **=** timeseries  
t**.**where**(**t**[**'Billable'**]** **&** **(**t**[**'month'**]** **==** '2020-03'**)**
        **).**groupby**([**'User'**])[**'effort'**].**sum**().**nlargest**(**3**)**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

还有什么？

现在，让我们看看如何将一些 python 和数据科学技术(我们将在下一篇文章中获得更多细节)应用于您在上面看到的数据，以及如何很好地将其可视化。

首先，让我们采取一个项目经理，并设想他/她的项目每月的收入。

**%matplotlib** inlinepm_selected **=** "CATHY THE NEW MANAGER"
drawdt **=** revenue**.**loc**[**pm_selected**].**Tplt**.**bar**(***range***(***len***(**drawdt**.**index**)),** drawdt**.**values**,** color**=**"green"**,**
        width**=**1**,** align**=**'center'**,** edgecolor**=**'black'**);**
plt**.**xticks**(***range***(***len***(**drawdt**.**index**)),** drawdt**.**index**);**
plt**.**ylabel**(**"Revenue / month: "**+**pm_selected**);**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这很简单。然后，对于那些稍微了解高级 python 的人来说，这是一件有趣的事情——您可以用几行代码制作一个交互式图表。好吧，作为团队领导，你可能不会这么做。抱歉。让我们做一些计算。首先，让我们确定输入的“可疑”时间(例如，一个人在一个给定的项目上连续三天以上做同样的工作，而不是 8 小时)——这是您自己做的一个快速检查，不需要问 PMO 任何事情，也不需要将它正式化。我可以说这是可疑的，因为我们工作的性质(你的可能会不同，所以你寻找另一种模式)使得你不太可能连续几天在一个项目上花费相同的时间(除非你被指派全职)。你正在做的事情很可能只是以某种方式将你的工作时间分配给你的项目。

*# remove the weekend*
working **=** timeseries**[(**timeseries**[**'workweek'**]** **==** **True)**
                     **&** **(**timeseries**.**Billable**)].**copy**()**
working **=** working**.**groupby**([**"User"**,** "Project"**,** "date"**]).**sum**().**sort_index**()**
working**[**'value_grp'**]** **=** **(**working**.**effort**.**diff**(**1**)** **==** 0**).**astype**(**'int'**)****def** **streak(**df**):**  *# function that finds streak of 1s: 0,1,1,0,1 -> 0,1,2,0,1*
    df0 **=** df **!=** 0
    **return** df0**.**cumsum**()-**df0**.**cumsum**().**where**(~**df0**).**ffill**().**fillna**(**0**).**astype**(***int***)** working**[**'streak'**]** **=** streak**(**
    working**[**'value_grp'**])**  *# streak of identical effort*
result **=** working**[(**0 **<** working**.**effort**)** **&**
                 **(**working**.**effort **<** 1**)** **&**
                 **(**working**[**'streak'**]** **>** 3**)].**reset_index**()**result **=** result**[**result**.**User**.**str**[:**3**]** **!=** 'EXT'**].**groupby**([**'User'**,** 'Project'**]).**last**()**
result**[[**"effort"**,**"date"**,**"streak"**]]**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

需要明确的是，基于以上所述，我们不建议发送主题为“时间可疑者名单”的电子邮件。人们可能会改变他们的行为，你可能不容易找到下一个模式。作为一名经理，你挖掘数据，发现见解，并以你认为合适的方式采取行动。你不会告诉你十几岁的孩子现在你知道他把香烟藏在哪里了吧？

用例

这里有一些上面提到的有用的例子——我们将在下一篇文章中讨论其中的一些。

决策——例如，确定最大的亏损项目
确定需要管理层关注的项目——在这里也应用机器学习，并确定你将自己挑选的项目
更好地分析非计费工时
识别可疑行为—异常检测
基于现有模式的收入和工作预测，当计划偏离时不突出显示
整合的按需分析(例如盈利能力预测、收入预测、未分配容量),以防您的 ERP 无法做到这一点

关键是加载你的数据(excel、CSV、TSV——无论什么)很简单，操作也很简单——比在许多 excel 文件中操作更直接，比等待 PMOs 更快。

请继续关注我们的下一篇文章。

最初发表于 Y 我们的数据博客

面向所有人的数据科学

原文：https://towardsdatascience.com/data-science-for-everyone-177482b5e140?source=collection_archive---------36-----------------------

开始从事数据科学的灵感

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

海威的座右铭

E 每个人都对数据科学充满热情——大多数人只是不知道。根据我自己在大数据、建模、分析等方面的经验。，数据科学有时候会觉得势不可挡；或者至少，只留给那些高级数学家和编程天才。虽然从外表上看，这个场可能是这样的，但实际上，它并不是无处不在。

这并不是说那些有数学倾向的人不会有数据/建模的倾向，但这种倾向并不是入门所需要的。也许在某一点上，拥有广泛的统计或建模背景实际上是利用数据的先决条件，但今天，事情发生了变化。

今天，似乎最阻碍人们进入数据科学的是信息量和概念的复杂性。可以理解，这个领域是由那些已经建立了分析思维模式的人建立的——许多概念或教程可能有点高层次。

你不知道，你所不知道的——还有很多你不知道的

通常，一个问题的答案只会让你有三个额外的问题，以此类推。

试图学习如何有效地利用数据，很快就会感觉自己对它一无所知。如果你的第一课是你实际上什么都不知道，并且你觉得其他人什么都知道，你就不太可能有效地理解新信息。

事实是，开源共享、堆栈溢出、GitHub 的美妙之处，以及数据科学中信息交换的普遍速度也是促使新人离开这个领域的原因。冒名顶替综合症猖獗。

相对于在汹涌的河流中踩水，学习如何在游泳池中游泳要容易得多

这并不是说数据科学的基本性质应该改变。恰恰相反。取而代之的是指出某样东西越难学，它最终产生的知识就越有价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

养成健康的习惯

人们出于本能而好奇，我们只是在探索好奇心的方式上做出了不同的选择。生物学家探索自然和生命的基本机制，物理学家探索现实的运作和边界，艺术家探索人类的思维及其与他人的关系。几乎每个行业或领域都在探索我们生活的某个特定方面，并以独特的方式突破界限。我认为数据科学可以让你量化和理解所有这些探索。

如果知识就是力量，那么数据就是原始的未开发和未成型的知识

数据是现代世界中最重要的商品。每个企业和行业都想最大限度地利用它。为什么？因为数据是物化的知识。它有效地增强了决策能力。它总是干净整洁的吗？当然不是。容易组织和理解吗？很少。但事实上它无处不在，现代竞赛是看谁能最有效地利用它——看谁能根据最聪明的见解以最快的速度做出最好的决定。

没有任何生物能以今天最慢的计算机的速度处理、加工或操纵信息。我们已经开发了一种方法来消化无数的输入，以前所未有的速度接收深不可测的输出。实际上，我们有办法具体回答你能想到的几乎任何问题。你想知道什么？大多数商家想知道什么？

科学和计算是你得到答案的方式。但是计算机是迷人的，因为它们可以在几分之一秒内解决复杂的方程，但可能不理解你最简单的意图。它们同时是这个星球上最深奥和最愚蠢的创造。这是因为，实际上，它们是一种工具，而工具只能和用户一样有效。如果计算机真的如此强大，我们为什么要把自己的见识局限于一个普通用户呢？

数据科学在每个领域都有应用，每个问题都有解决方案。从信息的角度来看，没有什么比这更强大或更重要了。这对每个行业都至关重要，也是最终达成任何解决方案所必需的。这是我们能得到的最接近客观真理的东西。

数据科学和分析是收集、处理、利用和解释这些知识的方式。这是现代决策背后的产业。因此，毫无疑问，这就是未来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

决策需要大量的思考。人脑和计算机哪个处理思想的速度更快？

所以一个一般人达到这个认识，试图进入这个领域，立刻就不知所措了。有些人立即放弃。要学的东西太多，太复杂，太难。然而，那些不可避免地会成功的企业仍能保持活力。

即使是追求数据科学的行为，尤其是当它来之不易时，也是一个至关重要的区别。一个人必须是一个问题解决者，一个人必须能够自己处理含糊不清的问题，陷入深深的困惑，然后独立地找到澄清。这是有经验的数据科学家经常面临的问题，也是试图学习建模技术的人第一次遇到的问题。但它的价值无可估量。你获得了一种内在的动力，去寻找一些真正非凡问题的最佳答案。你成为未来的问题解决者。

数据专家不只是带着一堆知识醒来。他们通过实践和经历来学习。专家通过频率成为专家。他们与初学者的区别在于，他们比大多数想尝试第一次的人尝试得更多，失败的次数也更多。拥抱失败并从中吸取教训。这几乎适用于每个行业——但在数据科学中，你可以很快从失败中吸取教训，因为你可以立即判断出你是否失败了。此外，你可以在几个小时内发现你失败的确切原因。答案就在那里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

丘吉尔雕像

“成功不是最终的，失败不是致命的，重要的是继续下去的勇气。”“成功是跌跌撞撞地从一次失败走向另一次失败，却不丧失热情”

——温斯顿·丘吉尔

做出了明智的决定，而人们只看到那个决定。事实上，这个决定是基于无数组信息精心设计的。数据科学家是决策制定背后的工程师。

作为一名数据科学家，坚持不懈是你成功的关键。保持对你想要的答案的渴望。保持对最佳化的驱动力。对你尚未发现的事物保持好奇和热情。

最成功的人是那些以最快速度做出最明智决定的人。那些利用每一点信息做出最佳选择的人。

历史数据科学:远程阅读

原文：https://towardsdatascience.com/data-science-for-history-distant-reading-b072e4f6d055?source=collection_archive---------51-----------------------

历史数据科学最有前途的应用之一是数字人文学科中被称为“远程阅读”的技术。远距离阅读是对更熟悉的术语“近距离阅读”的有意颠倒，意思是对文本细节的仔细、精细的检查。相比之下，远程阅读包括使用自动化对大量文本进行归纳。我在上一篇文章中用入侵文学的例子暗示了这一点，但现在我想借此机会详细说明什么是远距离阅读以及它是如何工作的。

远距离阅读的现代体现归功于意大利文学学者弗朗哥·莫雷蒂(Franco Moretti)，他在 21 世纪初震惊了文学界，建议文学学者完全放弃近距离阅读。他创造了这个术语，并写了一本关于远程阅读的书(字面意思为)，但量化文本的方法早在他之前就有了，正如泰德·安德伍德在他 2017 年的文章《远程阅读的谱系》中指出的那样。像数据科学本身一样，远程阅读独立于数字人文学科而存在，并声称其血统远远超出了现代计算的出现，但数字化已将其提升到一个新的水平，并以前所未有的方式将其纳入主流。虽然当前的化身起源于文学学者，遥远的阅读适用于历史方法，好像不是更容易。

远程阅读的核心概念是通过从大量的文学作品中收集见解，而不是依赖于从有限的“伟大”作品中进行细读。莫雷蒂认为这种方法的主要好处是能够更好地识别超越国界和流派的大规模模式，开拓研究范围，包括传统经典以外的作品，以及远距离阅读是客观的，而近距离阅读最终是主观的事实。前两点显然是对的，对于历史资料来说更是如此，因为传统资料的“正典”只占可用资料的很小一部分。然而，关于第三点，我必须建议谨慎行事。远距离阅读比近距离阅读更客观，提供了确凿的证据，但它是完全客观的，而不是完全客观的。处理数据是一门艺术，也是一门科学，只要涉及到人类(剧透:总是)，就会有一定程度的主观性。文集的作品是怎么选出来的？你是如何决定使用哪种模型的？你找到的东西在多大程度上取决于你正在寻找的东西？远程阅读既不是完全客观的，也不是神奇的灵丹妙药，无论弗朗哥·莫雷蒂如何试图说服你。最好不要单独使用，而是与细读和其他更传统的技巧结合使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不要成为这种人(感谢 XKCD 的兰德尔·门罗

现在来看看远距离阅读到底有多有效。文本分析属于数据科学的一个分支，称为自然语言处理(NLP)。NLP 是数据科学家知道数字人文主义者所说的“远程阅读”的名称。NLP 涉及通过对文档进行矢量化来分析文档，也就是说，将文档转换成可用于训练预测模型等的数值集。最基本的矢量化是通过计数。对于文档中的每个单词，取该单词出现的次数，并将其视为该单词的值。将接下来发生的事情可视化的最简单的方法是一个简单的二维散点图。假设我们从图书馆拿了 10 本书，并计算“狮子”和“老虎”这两个词在每本书里出现了多少次。然后，我们将“狮子”数量作为一个维度，将“老虎”数量作为另一个维度来绘制它们。结果看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

只统计了两个单词(而且数据是由你真实地在现场编造的)这显然是一个非常粗略的分析，但是仅仅根据这个情节，我们就可以对这些书的内容做出一些猜测。在左上角，我们有书上老虎出现的频率比狮子高得多。也许这些书是关于老虎的，或者重点介绍了老虎。在右下角我们看到了相反的情况，那里的书更多的是描写狮子而不是老虎。在右上角有狮子和老虎的高计数(也许是关于大型猫科动物的书？)在左下角，两者都很少——很可能这些是关于其他东西的书。现在想象一下，我们为单词“bear”的计数增加了第三个维度同样的逻辑仍然适用——书籍根据其内容移动到情节的不同区域，点与点之间的距离可能被解释为意义。现在想象我们增加了第四维度……但你无法想象，因为我们生活在一个三维世界(至少在空间方面)。令人欣慰的是，数学仍然有效——就计算机而言，你可以继续增加维度，得到的点之间的距离概念仍然有一些意义。有了足够多的词汇，你可能不仅能分辨出一本书是关于狮子还是老虎，还能分辨出它是悲观还是乐观，是写于 19 世纪还是 20 世纪，或者它属于哪种类型。开始问这类问题，弄清楚它们是如何相互作用的，很快，你就可以进行远距离阅读了。

计数矢量化只是一个开始。还有其他形式的矢量化，如 tfi df(TtotalFfrequencyInverseDdocumentFfrequency)矢量化，它使用相对于整个语料库中的频率的频率，而不是原始计数。其他方法考虑一个术语旁边出现的单词来衡量上下文和含义。不同的预处理方法，如删除过于常见的“停用词”或通过词干化或词汇化将词缩短为更通用的词根形式，可以用来影响矢量化的结果。还有多种不同的方法可供选择。例如，情感分析技术旨在识别文档的语气，而主题分析旨在确定文档在谈论什么。所用的方法一如既往地取决于所提的问题。

这就是你的介绍——欢迎来到遥远阅读的奇妙世界！请记住，它不是魔术，它不会创造纯粹的客观真理，但如果使用正确，它会是一个非常强大的工具。不要放弃近距离阅读(对不起，佛朗哥·莫雷蒂)，而是尝试远距离阅读——你不会后悔把它加入你的工具包。

造福社会的数据科学

原文：https://towardsdatascience.com/data-science-for-social-good-a88838bc8ed0?source=collection_archive---------20-----------------------

变更数据

超越我们想看什么类型的电影，到我们想生活在什么类型的世界。为社会公益做数据科学的资源、例子和机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由哥鲁达在 Unsplash 上拍摄

五年前，美国前总统巴拉克·奥巴马(Barack Obama)将 DJ Patil 博士介绍为联邦政府的首位首席数据科学家，并号召数据科学家加入到改善国家和世界的努力中来(主题视频)。

但是，如何通过数据科学让世界变得更好呢？

最常见的是，我发现了一些关于它的方法和技术如何在商业环境中有所帮助的例子。然而，由于我的背景是评估公共政策和项目，我想更多地了解如何使用数据科学来确定项目或政策的影响，或者设计基于证据的公共政策。

因此，我开始了一项搜索任务，以找出那里有什么资源，真实的用例是什么样的，以及数据科学如何用于社会公益。以下是我在资源、用例示例和机会方面的发现，适用于那些希望提高自己在该领域的技能并努力获得更大社会影响力的人。

卡内基梅隆大学数据科学和公共政策中心*:*在他们的网站上，你可以找到数据科学在社会科学和公共政策中产生重大影响的项目实例。他们能够做出贡献的领域有:刑事司法、教育、经济和劳动力发展、能源、环境、公共卫生、交通和基础设施、公共安全。一些真实的使用案例包括:用于预防不利的警察事件的早期干预系统、预防圣何塞的住房违规事件、通过行为和数据分析减少供水中断、减少艾滋病毒感染和提高艾滋病毒医疗护理的参与度等。每个项目都在他们的网站上有详细的描述，因此它们可以作为那些希望获得灵感的人的伟大用例。

[## 主页

www.datasciencepublicpolicy.org](http://www.datasciencepublicpolicy.org/)

更棒的是，他们每年都会组织**社会公益数据科学夏季奖学金，**通过该奖学金，他们将来自世界各地的有抱负的数据科学家聚集在卡内基梅隆大学，与非营利组织和政府机构合作开展为期 3 个月的数据科学项目，并向经验丰富的导师和项目经理学习。在项目期间，所有的研究员都有工资，并提供住房。要注册，请访问他们的网站，因为他们的注册过程在每年年初进行。

[## 卡内基梅隆大学数据科学公益暑期奖学金

数据科学为社会公益奖学金是一个全职的夏季计划，培训有抱负的数据科学家工作…

www.dssgfellowship.org](https://www.dssgfellowship.org/)

英国国家数据科学和人工智能研究所 艾伦图灵研究所 也复制了这个成功的程序。今年，由于新冠肺炎的原因，DSSGx 似乎将在遥远的地方举行。

艾伦图灵研究所的网站和博客也提供了与数据科学应用对社会影响相关的有趣和有用的材料。而且，从今年开始，他们已经开始实施一个新的实习项目——图灵实习网络，通过这个项目，他们将工业界和博士生联系起来。不幸的是，这些实习只针对那些拥有在英国工作权利的人。

[## 主页|艾伦图灵研究所

我们相信数据科学和人工智能将改变世界。我们是先锋；训练下一个…

www.turing.ac.uk](https://www.turing.ac.uk/)

DataKind，哪些主要陈述是“利用数据科学的力量为人类服务”和“…使用数据不仅可以更好地决定我们想看什么样的电影，还可以更好地决定我们想看什么样的世界”:微笑。如果你是这个领域的新手，并且希望获得经验，你可以申请他们的志愿者项目。对于更有经验的数据科学家来说，志愿服务可以作为回报社会和做有意义工作的一种方式。他们的一个优势是，除了总部在纽约之外，他们在班加罗尔、三藩市、新加坡、英国和 DC 华盛顿都有分部。DJ Patil 和许多其他杰出的数据科学家也是他们的顾问。

[## 数据种类

了解 DataKind 网络中发生的情况

www.datakind.org](https://www.datakind.org/)

****。org** ，一家来自英国的非营利组织，自称是一个跨学科和跨部门讨论政府部门数字革命的影响和潜力的全球论坛。他们组织年度会议，提交的论文在 Zenodo 平台上的a 社区中公开发表。涵盖的主题包括:数据驱动的城市系统，促进可持续的智能城市发展；使用机器学习减少公共采购中的腐败:欺诈检测模型；如何用机器提取档案数据等。**

** [## 政策 CIC 的数据

我们正在招募一组志愿者来协助国际政策的第五次数据运行…

dataforpolicy.org](https://dataforpolicy.org/)

微软研究院数据科学暑期学校— 我最后添加这个机会，因为尽管它很特别，但它只面向来自纽约市地区的大学生。暑期学校包括一个为期四周的数据科学实践介绍强化课程，入选学生还将因参与该课程而获得津贴。

[## 微软研究院数据科学暑期学校-微软研究院

2020 年重要更新:由于新冠肺炎，我们将举办今年的虚拟暑期学校，它将…

www.microsoft.com](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/)

评估和数据科学

农业、卫生和教育是大数据影响最大的领域。

[## 衡量大数据时代的结果和影响:评估、分析和…

我们生活在一个越来越依赖于大数据和数据科学的世界，在我们个人生活的方方面面…

www.rockefellerfoundation.org](https://www.rockefellerfoundation.org/report/measuring-results-and-impact-in-the-age-of-big-data-the-nexus-of-evaluation-analytics-and-digital-technology/)

对于那些对公共政策和项目评估感兴趣的人来说，值得一读的是 BCT 合伙人公司的首席数据科学家皮特·约克和发展评估顾问迈克尔·班贝格今年出版的一本书，这本书可以在网上免费找到，因为它的出版得到了洛克菲勒基金会的支持。令人高兴的是，这份报告更深入地研究了大数据和数据科学如何服务于影响评估，方法方面，整合数据科学和评估的必要条件，趋同领域，以及分歧点。它还包括一个案例研究，说明如何通过使用机器学习、预测分析和其他大数据技术来提高儿童福利计划的绩效。

此外，我在研究数据科学如何在公共部门中发挥作用时看到的一篇非常有用的文章是由 Alex Engler 写的关于所有政策分析师需要了解的关于数据科学的知识。亚历克斯是布鲁金斯研究所的研究员，研究人工智能和新兴数据技术对社会和治理的影响。我发现他的工作值得效仿。

[## 所有政策分析师需要了解的数据科学知识

由于公共政策不能在实验室里进行，所以实验在政策研究中很少见。实验需要…

www.brookings.edu](https://www.brookings.edu/research/what-all-policy-analysts-need-to-know-about-data-science/)

政府数据来源

现在让我们来谈谈数据的来源，以防你想检查它们，甚至试着使用它们。

好消息是，越来越多的政府正在开放他们的数据，并提供给任何人免费下载和使用。

下面，我们可以看到经合组织发布的一张图表，向我们展示了各国在数据可用性、数据可访问性和政府支持数据再利用方面的表现。毫不奇怪，韩国正处于领先地位，因为它甚至在最近向世界展示了它如何使用大数据和人工智能来对抗新冠肺炎(在 TDS 上发表的文章中给出了很好的描述)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源:经合组织，公开政府数据

美国政府公开数据(超过 211 609 个数据集):https://www.data.gov/
欧盟开放数据门户 (15 399 个数据集):https://data.europa.eu/euodp/en/data/
欧洲数据门户(收集了来自 36 个国家的 1 076 894 个数据集的元数据)https://www.europeandataportal.eu/en
公开政府数据朝鲜:https://open.go.kr/

这些只是一些例子。如果你想知道哪些国家加入了开放政府伙伴关系，你可以查看他们的成员名单。

如果你知道任何其他有用的资源和例子，请写评论给我，我会把它们添加到列表中。**

用于社会公益的数据科学:免费开放数据的最佳来源

原文：https://towardsdatascience.com/data-science-for-social-good-best-sources-for-free-open-data-5120070caf02?source=collection_archive---------12-----------------------

类型、优点以及在哪里可以找到它们

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Viktor Forgacs 在 Unsplash 上拍摄的照片

内容

简介
什么是开放数据？
开放与免费与在线数据
去哪里找公开数据？

国际组织
美国
欧洲
拉丁美洲
亚洲
其他开放数据源(谷歌公共数据浏览器、Kaggle、FiveThirtyEight、UCI 机器学习库等。 )

5。结论

介绍

数据科学有能力为建设我们想要生活的世界做出巨大贡献。已经有许多用例展示了如何利用它来解决现实世界中的问题。

在我以前关于这个主题的文章中也可以找到一些这样的例子:

[## 造福社会的数据科学

超越我们想看什么类型的电影，到我们想生活在什么类型的世界。资源、示例和…

towardsdatascience.com](/data-science-for-social-good-a88838bc8ed0)

然而，为了做到这一点，我们需要可以自由重用的数据，并以有用的格式进行组织。在本文中，我将介绍一些在这方面可以使用的最著名和最重要的门户网站。

什么是开放数据？

“开放数据”是指不受版权、专利或其他控制机制限制的免费数据。 ( 联合国儿童基金会数据 )

在这种情况下，仅仅在硬拷贝报告中公开共享数据是不够的。要使数据被认为是完全开放的，它必须遵循一定的原则，使其效用最大化:

使用国际公认的分类(国家适用 ISO-3166)进行组织；
使用非专有文件格式(如 JSON 或 CSV)；
通过符合标准的通信接口(如 SDMX-JSON)提供；
并用适当的元数据来描述它。

开放数据是一个更大的运动的一部分，它还包括开源软件、开放教育资源、开放访问、开放科学、开放政府等。

越来越多的特定类型的数据开始被视为的“公共产品”，当这些数据可供使用、重用和免费分发时，可以带来更好的政策制定、更明智的决策、价值创造和以公民为中心的服务。而就是这样，开放政府数据理念和一套政策也出现了。

开放式政府是一种理念，根据这种理念，公民应该能够获得政府文件和数据，以进行有效的公共监督。通过公开政府数据，公共机构在它们所服务的公民面前展现了透明度和问责制。

我遇到的一个令人惊讶的例子来自韩国首尔，在那里，开放数据已经成为常态，被用来解决城市和市民面临的真正挑战。在首尔，不仅公共机构在使用他们收集的数据，而且任何企业、非营利组织或普通公民都可以访问这些数据，如果他们希望利用这些数据或只是出于问责原因检查这些数据的话。

市政厅的目标之一是向市民提供开放数据，以便他们可以使用这些数据并在此基础上进行建设。通过这样做，它有助于创造一个新的行业，其中许多初创公司使用提供的数据来开发创新的解决方案，以应对城市面临的一些挑战。

想了解更多关于韩国和其他国家的例子，请看《经济学人》的视频:

开放数据、免费数据和在线数据

开放数据是没有限制的数据。免费数据是可以免费获得的数据。通常，开放数据也是免费的。但当涉及到在线数据时，并不是所有的数据都可以免费或无限制地使用。在许多情况下，它是受版权保护的，是其创造者的专有权利，它需要许可或支付费用。

即使数据没有版权，事情也不是完全清楚的。我们可以想到从 LinkedIn 上删除数据。2019 年，美国上诉法院驳回了 LinkedIn 阻止分析公司 HiQ 抓取其数据的请求。即便如此，LinkedIn 不喜欢任何人试图从它的平台上抓取数据，并且在一些文章中警告不要这样做。

去哪里找开放数据？

现在，让我们进入这篇文章的核心:在哪里可以找到公开的数据；无论是政府的还是其他类型的。下面，我介绍了国际组织提供的数据源、特定区域(美国、欧洲、拉丁美洲、亚洲)的数据源以及其他类型的全球相关数据源。

国际组织

世界银行公开数据

* [## 世界银行公开数据

世界银行公开数据来自世界银行:数据

data.worldbank.org](https://data.worldbank.org/)

通过这一门户，世界银行提供了免费和开放的途径，获取有关全球各国发展的大量数据。这是因为他们相信，通过提供更广泛的数据访问，他们可以提高透明度和问责制，并有助于帮助决策者做出更明智的决策。

用户可以按照国家和地区或指标浏览 4593 个数据集，这些数据集是围绕不同部门(农业、教育、性别、基础设施、环境、城市发展等)组织的。).

他们的搜索门户更有价值的是，它提供了对各种类型数据的访问，如时间序列、微观数据(从抽样调查、人口普查和行政系统中获得)，以及地理空间数据。

此外，如果你想更好地了解可以从他们的数据集中提取的信息类型，可以看看他们的 191 种可视化效果，涵盖的主题包括没有用上电的人数、全球二氧化碳排放量的增加、资源枯竭、获得改善的水源等。

经合组织数据

[## 经合组织数据

查找、比较和分享最新的经合组织数据:图表、地图、表格和相关出版物…最新的经合组织中期…

data.oecd.org](https://data.oecd.org/)

经合组织的数据门户网站提供了 875 个数据库，可以根据感兴趣的国家或主题(农业、发展、经济、教育、能源、环境、金融、政府、卫生、创新和技术、就业、社会)进行搜索。

该门户网站的好处之一是，它还提供长期记录的数据，有时早在 1959 年。一个不利之处是，它主要涵盖了与经合组织成员国相关的数据。例如，罗马尼亚不是其中的一部分。

如果你还不想下载数据集，只是想探索他们的存储，你可以在他们的数据仓库中的大型数据库上进行自己的查询。统计。

联合国数据

[## UNdata

人口人口，表面积和密度国际移民和难民人口增长，生育率，寿命…

data.un.org](http://data.un.org/)

联合国数据门户的创建源于这样一种信念，即统计应被视为一种公益，可以为循证政策和更好的知情决策服务。

该门户网站旨在提供对联合国编制的 32 个大型数据库中的 6000 多万个数据点的免费访问，与其他国际机构在单一入口点的访问一样。来源组织的例子有:粮食及农业组织、世界卫生组织、世界银行、经合组织、国际货币基金组织等。

搜索引擎允许用户根据更大的数据集、数据源或主题来查找信息。每个这样的元素都有一个下拉菜单，在我看来，可以方便用户导航。

此外，联合国数据通过单独的门户网站提供对三个专门的 UNSD 数据库的访问，如联合国国际贸易统计数据库、在线统计月报和众所周知的可持续发展目标指标。 联合国商品贸易统计数据库 是官方国际贸易统计数据、相关分析表格和出版物的资料库。 MBS Online 提供全球 200 多个国家和地区的经济社会统计数据。它包含 55 个表格，100 多个指标，涵盖各种主题，记录了 80 年。

联合国全球可持续发展目标数据库 提供了对 460 个数据系列的访问，这些数据显示了在实现可持续发展目标方面取得的进展。门户网站上的搜索可以按目标及其具体目标和指标进行过滤，也可以按地理区域(因为它还包括国家概况)和年份(2000 年至 2019 年)进行过滤。

联合国数据门户网站提供的其他一些功能包括访问作为《联合国统计年鉴》一部分制作的流行统计表以及国家(地区)和区域的统计概况。

儿童基金会数据

[## 公开数据-儿童基金会数据

“开放数据”是指不受版权、专利或其他机制限制的免费数据…

data.unicef.org](https://data.unicef.org/open-data/)

儿童基金会的数据门户网站是为那些希望专门处理儿童和妇女数据的人而设的。他们的 数据仓库 包括与儿童死亡率、儿童贫困、儿童保护和发展、教育、性别、孕产妇、儿童和新生儿健康、移民、营养、向工作过渡等主题相关的数据集。同样，数据也可以按国家过滤。

GHO 数据仓库——世界卫生组织

[## GHO

GHO 数据库是世卫组织 194 个成员国获取卫生相关统计数据的门户。它提供对…的访问

www.who.int](https://www.who.int/data/gho)

就数据而言，世卫组织的覆盖率很高，因为它与来自六个区域的 194 个会员国合作。通过全球卫生观察站，世卫组织提供了其监测的 1000 多项指标，这些指标可以根据可持续发展目标卫生和卫生相关目标下的主题、类别或国家进行导航。它提供的数据类型包括:道路交通伤害、非传染性疾病和精神健康、环境污染死亡率、烟草控制、清洁城市、健康公平监测等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者在谷歌数据集搜索上拍摄的标题

美国

数据。政府

[## Data.gov

今天标志着老年人健康数据收集的启动-一个新的资源编目超过 200 个联邦数据集…

www.data.gov](https://www.data.gov/)

美国政府的开放数据门户帮助用户浏览来自不同政府机构的超过 225 079 个数据集，这些数据集可以与工具和其他资源一起用于进行研究、开发 web 和移动应用程序、设计数据可视化等。

使用它的一个优点是，它允许根据位置(在地图上)、主题、格式、数据类型(地理空间或非地理空间)、组织、组织类型、局和出版商来过滤数据。

该门户的一个缺点是，尽管大多数数据集都有有效的元数据，但仍有一些数据集没有允许下载的有效 URL。

美国人口调查局

[## Census.gov

人口普查局的使命是作为美国人口和经济的高质量数据的主要提供者。

www.census.gov](https://www.census.gov/)

美国人口普查局负责产生关于美国人民和经济的数据，因为它的主要任务是每十年进行一次美国人口普查。它收集的数据然后被各级决策者使用——联邦、州或地方。

它提供的工具包括:美国事实查找工具、人口普查数据浏览器和 Quick Facts，这些工具允许用户根据自己的兴趣搜索和可视化数据。

欧洲

欧盟开放数据门户

[## data . Europ . eu

欧洲数据门户收集公共数据门户上可用的公共部门信息的元数据…

data . Europ . eu](https://data.europa.eu/)

欧盟开放数据门户网站提供免费获取广泛主题的数据，如:教育、环境、经济和金融、农业、林业、食品、卫生、政府和公共部门、司法、能源、科学和技术、交通等。 15 561 个数据集(截止日期)来自所有欧盟机构、团体和机关(如欧盟统计局、欧盟统计局、联合研究中心、欧洲投资银行、欧盟委员会总司、环境署等。).

门户网站上提供的大多数数据都可以免费重复使用，无论是用于非商业目的还是商业目的，前提是注明来源。而且只有少数数据集有特殊的再利用条件，这是出于保护第三方知识产权的需要。

作为奖励，该门户还提供对可视化目录的访问，该目录包括一系列可视化工具、培训材料[数据可视化研讨会和网络研讨会，涉及使用 D3.js、Qlik Sense、Webtools Maps、PowerBI 等工具以及可重用可视化工具。

欧洲数据门户

[## 主页|欧洲数据门户

欧洲数据门户对欧洲开放数据的现状进行年度基准评估…

www.europeandataportal.eu](https://www.europeandataportal.eu/en)

该门户由欧洲联盟出版办公室管理，收集欧洲各国公共数据门户上的公共部门信息元数据。迄今为止，它涵盖了 36 个国家、81 个目录和 1，089，978 个数据集，人们可以根据类似于欧盟开放数据门户使用的类别进行搜索。

此外，它还包括关于提供数据和重新使用数据的好处的信息。

开放所有欧盟成员国的政府数据网站

加上不再是欧盟一部分的英国:

[## 开放式政府

英国第四个开放政府国家行动计划 2019-21 (NAP)，在第六届开放政府期间发布…

www.gov.uk](https://www.gov.uk/government/collections/open-government)

亚洲

亚洲开发银行数据库

[## 亚行数据库|亚洲开发银行

亚行鼓励网站和博客链接到其网页。文章可以不加修改地重新发布…

data.adb.org](https://data.adb.org/)

亚洲开发银行成立于 1966 年，有 68 个成员，其中 49 个来自亚洲和太平洋地区。它的数据库有一个非常直观的搜索系统，通过这个系统，人们可以按主题或国家进行浏览。该存储库包含(迄今为止 ) 234 个数据集、45 个仪表盘和 10 个数据故事。涵盖的主题包括:金融部门、贫困、人民、公共部门治理、经济学和其他。

我在亚行最近的评估会议上了解到的另一个有趣的亚行产品是 EVA ，这是一个人工智能引擎，它扫描评估和其他类型的文件，以确定亚行在其成员国开展的业务中的经验教训。

韩国开放政府数据门户

[## 대한민국 정보공개 포털

编辑描述

open.go.kr](http://open.go.kr/)

在开放数据方面，韩国是最佳实践的一个很好的例子。然而，他们的网站是专为母语人士设计的。

拉丁美洲

数字促进发展

[## 美洲开发银行

探索一个国家的主要发展指标与其宏观经济概况、全球…

data.iadb.org](https://data.iadb.org/)

数字促进发展是美洲开发银行的开放数据门户，展示了拉丁美洲和加勒比地区的社会经济指标。它建立在七个数据源之上:Agrimonitor(跟踪农业政策)、INTrade(区域贸易)、Latin Macro Watch(宏观经济、社会问题、贸易、资本流动、市场和治理)、公共管理、社会脉搏(生活状况)、SIMS(劳动力市场)、Sociometro(社会经济状况)。搜索过程可以按国家或指标过滤。

下面，我添加了一篇有趣的文章，内容是关于大数据和开放数据以前在拉丁美洲国家是如何用于社会公益的:

[## 大数据和开放数据如何改变拉丁美洲

我们使用 cookies 来改善您在我们网站上的体验。通过使用我们的网站，您同意所有 cookies 符合…

www.weforum.org](https://www.weforum.org/agenda/2018/03/latin-america-smart-cities-big-data/)

拉丁美洲国家的开放数据门户

其他开放数据源

谷歌公共数据浏览器

[## 谷歌公共数据浏览器

谷歌公共数据浏览器使大型数据集易于探索、可视化和交流。因为图表和地图…

www.google.com](https://www.google.com/publicdata/directory)

谷歌公共数据浏览器在某种程度上是一个搜索引擎，方便访问由国际组织(如本文前面所述)、国家统计局、非政府组织和研究机构提供的数据集。此外，其背后的团队希望为用户提供更多，这就是为什么他们的目标是使公众感兴趣的大型数据集更容易探索、可视化和交流，即使是非技术受众也是如此。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者在谷歌公共数据浏览器上拍摄的标题

除了谷歌公共数据浏览器之外，还有 谷歌数据集搜索 引擎，它使用户能够通过简单的关键字搜索找到存储在网络上的数据集。当使用它时，可以应用与下载格式、使用权、主题相关的过滤器，或者根据最近的更新。数据源在搜索返回结果中对其数据集进行排名的一个标准是引用了某个数据集的学术文章的数量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者在谷歌数据集搜索上拍摄的标题

五三八

[## 我们的数据

我们正在分享一些文章和图片背后的数据和代码。

data.fivethirtyeight.com](https://data.fivethirtyeight.com/)

FiveThirtyEight 是来自新闻领域的高质量数据的非常全面的来源。涵盖的主题包括:政治、体育、科学与健康、经济和文化。

卡格尔

[## 查找开放数据集和机器学习项目| Kaggle

下载数千个项目的开放数据集+在一个平台上共享项目。探索热门话题，如政府…

www.kaggle.com](https://www.kaggle.com/datasets)

在开放数据源中，Kaggle 可能是数据科学家最熟知的，因为它围绕它建立了社区。

Kaggle 支持数据集的各种发布格式，但他们也鼓励数据集发布者尽可能以可访问和非专有的格式共享数据。支持的文件类型包括:CSV、JSON 和 SQLite。

对于数据科学新手来说，Kaggle 的一大优势是，它通过围绕每个数据集创建社区来支持学习，在社区中，每个感兴趣的用户都可以通过解决与该数据集相关的任务来做出贡献，提交他们的结果并参与讨论，接收和提供反馈。

DBpedia

[## DBpedia

与我们联系。成为 DBpedia 协会的成员，加入我们的各种委员会或帮助开发一个…

wiki.dbpedia.org](https://wiki.dbpedia.org/)

DBpedia 是基于维基百科中最常用的信息框构建的，其本体目前包含 4 233 000 个实例，例如，其中 1 450 000 个是个人，241 000 个是组织。它的数据此前已使苹果、谷歌和 IBM 等公司受益，用于它们一些最重要的人工智能项目。

UCI 机器学习知识库

加州大学欧文分校机器学习知识库包含 557 个数据集，可用于机器学习算法的实证分析。它创建于 1987 年，一直被学生、教育工作者和研究人员用作机器学习数据集的主要来源。他们最新上传的数据集涵盖的主题包括:脸书大型网页网络、两栖动物、早期糖尿病风险预测、比特币等。自 2007 年以来，最受欢迎的五大数据集是指:鸢尾植物的种类，根据人口普查数据预测收入是否超过 5 万美元/年，使用化学分析确定葡萄酒的原产地，诊断乳腺癌，患者是否患有心脏病。

结论

在浏览上述门户网站时，我惊讶于它们所提供的大量信息，以及其中一些提供给公众使用的附加工具。数据真的可以很美。

随着世界上可用的数据量越来越大，我相信我们有越来越多的机会将它们用于更高的目的，帮助塑造一个更美好的世界。

感谢您的阅读。我希望内容是有用的。如果你认为还有其他开放数据的来源值得添加，请在评论中提及。*

为理解而丢失的数据科学艺术

原文：https://towardsdatascience.com/data-science-for-understanding-vs-data-science-for-prediction-ffe846ee11e1?source=collection_archive---------31-----------------------

通过将我们的领域局限于预测数据科学，我们使得这个领域更少人性化——结果是更难接近

用于理解的数据科学和用于预测的数据科学之间存在巨大差异。

前者是理解人们为什么使用🙃表情符号和他们试图传达的情绪状态——以及这在不同文化和年龄组之间有何不同。

后者预测，如果有人以一定的顺序键入某些单词，那么他们将键入的下一个表情符号是🙃。

前者需要丰富的跨学科技能——主要是人类的技能——正如我 2016 年在宾夕法尼亚州立大学演讲中首次提出的。

后者是一个纯粹的技术问题，甚至可能是一个微不足道的技术问题，只是端到端数据科学过程的一部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

没有好奇心，就不会有理解🤔

不幸的是，“预测者”主导了当今数据科学领域的流行概念——尤其是围绕机器学习和人工智能的炒作。

每个人都想掌握最新的技术和建模技术，却不了解我们正在建模的潜在现象。

不仅没有理解，连一点好奇心都没有。

多年来，我最喜欢问数据科学学生的一个问题是，如果他们可以访问世界上所有的数据，他们会做什么。在过去，他们会说“我会寻求理解恒星的诞生，或社会的进步，或抑郁症的原因。”

现在，他们说“我会寻求学习计算机视觉，或深度学习，或神经网络。”

我们把所有的注意力都放在工具上，而忽略了我们试图解决的问题。杰出的德国心理学家埃里希·弗洛姆(Erich Fromm)在 1947 年就预见到了这一点，他写道:“我们已经陷入手段之网，看不到目的。”

不仅如此，当涉及到数据科学时，我们已经使这个领域变得更不人性化，因此更不容易接近。

数据科学是帮助我们了解世界的工具🌍

这几乎肯定是一个有争议的——很可能是少数——立场，但我甚至不确定用于预测的数据科学是否应该被视为数据科学——或者是否应该被视为工程学的一个分支。

公平地说，我主要认为自己是一名将数据科学作为理解世界的工具的研究人员，而不是我研究的对象本身，这一观点是由这一背景驱动的。

在我的职业生涯中，我一直感兴趣的问题基本上都是人类的问题。广告如何影响购买行为？我们如何让人们投票给我们的候选人？为什么人们会使用特定的表情符号，它们是什么意思？

这些都是涉及完整的端到端数据科学流程的问题。为了解决这些问题，我们需要有活力、有远见、跨职能的科学家，他们有天生的好奇心，热衷于了解世界和推动影响。

由于对预测的狂热关注，以及数据科学教育的卡格勒化，这些天我办公桌上的大多数数据科学简历都是学生们急切地寻求在最尖端的技术上超越彼此。

然而，他们简历上的几乎所有东西都是定义明确的项目，别人为他们做了最艰苦的工作。其他人定义问题，其他人收集、处理和组合数据。在他们建立了一个模型之后，其他人决定了这个模型的含义和下一步该做什么。

需要说明的是，当然有一些数据科学的工作只专注于构建模型，而且大多数工作报酬都很高。

但对我来说，这些工作并没有体现出数据科学的真正潜力和前景——增进我们对周围世界的了解。

只专注于机器学习会让我们的领域变得不那么多样化🖥

如果今天的数据科学家被视为整天坐在电脑后面，调整超参数的人，那么我们已经大大削弱了我们的领域，并因此使其更加多样化。

当我第一次进入数据科学(通过生物统计学的方式)——当哈尔·瓦里安第一次在 2009 年说“未来十年最性感的工作将是统计学家”——我们设想的人是一个有远见的布道者，让人们对这个迷人的新领域的潜力感到兴奋。

就连瓦里安也形容这个人有“获取数据的能力——能够理解数据、处理数据、从中提取价值、可视化数据、进行交流。”

我们是如何从 2009 年的那个起点走到今天的，当时我的一个同事半开玩笑地对我说，“我永远不会信任一个数据科学家去做一个 Powerpoint。”

我最近遇到了一位年轻的数据科学家——她向我坦白说，她有很多处理数据的经验，但对机器学习来说是新手，她甚至不确定自己是否应该成为数据科学家。

我不知道现在的学校在教什么，也不知道硅谷的招聘实践在传达什么，但这是一个非常新的现象！

我在 2012 年开始面试数据科学的工作，机器学习会作为一种事后想法出现，而且很少。

对于我面试的几乎每一个职位——初创公司和大型科技公司都是如此——我只是偶尔会被问及机器学习。我会笑着说我只知道聚类和分类的区别。招聘经理会说，这已经足够了😂

我们如何吸引充满活力、全面发展、充满好奇心的思考者进入我们的领域？🤓

在几乎所有情况下，数据科学中涉及模型拟合的部分通常是该过程中最不有趣、难度最小的部分。这一部分在两边都被动态和令人兴奋的问题空间所包围:将现实世界的问题转化为数据科学问题，获取、准备和清理数据，在左边和右边，找到见解并将其编织成一个产生影响的故事。

过去几年，我职业生涯中最大的收获之一是我有多爱“数据侦探工作”——这也是我对新闻业的热情派上用场的地方。追踪不同的数据来源，理解它们的含义，分析数据，并了解其来源。我觉得这一切太迷人了！

如果 80%的数据科学都是在清理数据，那么我们也需要热爱这一部分的人，而不仅仅是把它视为麻烦的人。

如果我们只将这个领域缩小到机器学习和预测，我们能够吸引那些充满活力、充满好奇心、有条不紊和坚持不懈的思想家吗？

还是说，这只会导致那些可能成为最佳大图数据科学家的人被吓得退出这个领域？这是否会导致工程导向型的人进入这个领域，期望一直做所有的 ML，而对实际的数据科学大部分时间是什么样子感到不满，并离开这个领域？

我不假装知道所有的答案，甚至不知道其中的任何一个，但我确实认为我们需要重新利用数据科学的价值来理解世界，而不仅仅是预测未来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

迈向数据科学的一小步为了理解:2016 选举日的顶级表情符号

在家学习数据科学

原文：https://towardsdatascience.com/data-science-from-home-b06042781799?source=collection_archive---------71-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由吉尔·威灵顿从皮克斯拜拍摄

意见

该领域将如何应对新常态？

随着新冠肺炎局势的持续和新常态的可能性，一旦最糟糕的情况减轻，企业将寻求改变他们的流程。在不久的将来，我们可以预期的最大变化之一是在家工作选项的扩散，即使在封锁放松之后。很大一部分员工在家工作的频率可能会增加。

那么，这对数据科学领域及其从业者意味着什么呢？

在过去的一个半月里，我一直在家工作。我可以对自己说，我在时间管理方面有困难，不能面对面地与他人交流，并且面对持续不断的真正可怕的消息。在所有这些过程中，我还试图对我们的工作在数据科学方面的未来有所了解。

寻找新的机会

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由海登·邓塞尔在 Unsplash 上拍摄

我们做生意的方式需要彻底改革。因为世界已经改变，我们的许多旧业务流程也需要改变，以适应新的现实。对于零售业来说，这意味着创造新的购物方式，既融入社交距离措施，又能减少恐慌性购买。运输、优化、定价和供应链模型将有更大的人员和能力限制。更复杂的是，购买模式在最近几个月发生了巨大变化，这种情况的新鲜感意味着我们不能依赖过去的数据来寻找模式。我们现在需要回答的一个重要问题是，在完全没有足够的过去数据的情况下，如何在灾难期间实时识别模式。

零售业也不是唯一会受到影响的行业。想想银行的信贷模型。现在，这些信用模型是否足够准确，足以决定一个人是否应该获得贷款？

或者，我们能相信当前的欺诈模型能捕捉到疫情事件后我们可能开始看到的所有新型欺诈吗？

我可以指出许多例子，在这些例子中，我们过去的数据不再具有代表性，我们需要想出新的方法来做有效的工作。过去，我经常想:“数据科学家还有什么可发明或创新的呢？一切都已经做好了！”现在我意识到情况不再是这样了。尽管这不是任何人希望它发生的方式，但我们有一个巨大的机会来塑造数据科学的未来。

每个人现在都很紧张，这是有原因的。这个世界正在经历一场巨变，与大多数人记忆中的任何事情都不一样。但我们也可以将这些时间视为创新的机会，为数据科学专业提出新的想法。我们现在所做的工作可能被证明是至关重要的，在大流行后的世界中找到一个位置。

每个人现在都是从零开始。

当这一切都过去后，让我们寻找方法让我们的领域变得更好。

不要养成坏习惯

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 sps 环球在 Unsplash 上拍摄

任何数据科学项目的很大一部分都是交流。无论你是与你的商业伙伴讨论项目的需求，还是在你的团队内部讨论潜在的想法，清晰的沟通在每一步都是至关重要的。我已经意识到冠状病毒的爆发已经严重影响了这一传播链。它减少了由即时讨论产生的大量调查工作的可能性。我不能只是四处看看，然后让团队中的某个人给我拿些东西，或者讨论项目的各种方法。相反，我需要为我需要讨论的所有事情安排一个时间，不管这些事情有多小。

由于这些沟通问题，我们很有可能回到一堆坏习惯，这些坏习惯是我们在新冠肺炎时代之前的世界里意识到它们不起作用后积极劝阻的。例如，我现在的很多时间都被会议和电话占用了，而不是在我的项目上工作。会议时间的增加尤其令人沮丧，因为已经很好地证实了过多的会议与更高的生产率并不相关。

我们养成的另一个坏习惯是侵蚀工作和家庭生活的界限。

现在，随着笔记本电脑进入我们的卧室，工作时间和停工时间之间没有明确的界限。缺乏真正的、有意义的休息时间会导致精疲力竭和压力增加。现在，我在不同的地区看到了这种情况。在印度工作，我可以看到我在美国的商业伙伴在不恰当的时间回复询问；我也是如此。

我们必须采取大胆的行动来避免这些坏习惯压倒我们的能力。首先，我们需要在召开足够多的会议以便有效沟通和召开太多的会议以至于没有人有时间完成工作之间找到一个平衡。不要安排整个会议，看看你和你的同事是否能通过即时消息或电话处理简单的问题。

虽然人们不再这样使用手机，但我记得手机主要是用来给别人打电话的。

此外，我发现在家里努力保持一个独立的工作空间也有助于设定清晰的界限。

最关键的是，你睡觉的地方不应该有工作。

我自己在书房角落里有一个很好的显示器和一把符合人体工程学的椅子，让它尽可能接近我以前的办公环境。这些简单的改变极大地提高了我的生产力。我一整天都保持良好的姿势，并且在工作时有很多屏幕空间。这种设置也有助于在一天结束时从工作中解脱出来。你的家不是为你的数据科学工作而设计的。专用的工作空间确实有助于您创建一个能有效满足您整体工作需求的工作环境。

你的家不是为你的数据科学工作而设计的。专用的工作空间确实有助于您创建一个能有效满足您整体工作需求的工作环境。

文档现在至关重要

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯科特·格雷厄姆在 Unsplash 上拍照

过去，我们的环境为我们提供了多种协作方式，让我们可以提出自己的想法。我们可以面对面地与人们交谈，或者召开会议来解释我们的想法。我们可以去同事的办公桌前询问一段特定的代码。我们可以与其他数据科学人员召开工作会议，让一些东西发挥作用。在某种程度上，办公环境提供了很多透明度和对他人工作的洞察力，有助于你自己的项目。但是现在，由于我们仅限于尝试通过协作工具如 Slack、Zoom、吉拉和其他工具进行交流，我们需要获得一些新的习惯。

虽然文档一直是数据科学工作中的一个重要方面，但由于缺乏这些过去的共享途径，它的重要性已经成倍增加。

这包括代码注释，给你的商业伙伴写详细的电子邮件，坚持不懈地记录每一个过程。过去，数据科学家总是在场，完整地解释他们的分析和结果。但是在我们目前的情况下，在没有白板和演示等工具的情况下，彻底跟踪一切并记录甚至最简单的部分有助于清楚地表达我们的想法。现在，我不仅在我的项目的 confluence 页面上记录我每天所做的事情，而且每当我觉得需要更多地了解他们的项目时，我也会看看其他人的 confluence 页面。尽管这种文档工作每天都要多花一点时间，但这有助于我理解我的工作，也有助于每个相关人员以更有意义的方式理解和做出结论。它的额外好处是进一步减少了许多不必要的会议。此外，好的文档有助于您的项目经理跟踪项目，提供想法和建议，并快速掌握重要信息和结果。

找到一种适合你的应对方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安德烈·班达拉在 Unsplash 上拍摄的照片

让我强调一下，如果你现在感到工作压力太大，这真的没关系。我们都是。随着持续的不确定性，企业对少花钱多办事的需求不断增长，以及我们周围不可避免的绝望感，很难不经历某种程度的倦怠。

请记住，在家工作时，你会有好的一天，也有坏的一天，就像我们在办公室工作时一样。我们都有自己处理办公室不愉快的方式。一些人和朋友出去，而另一些人可能只是在不好的感觉中睡觉。但是现在，我们很多人第一次面临糟糕的工作日渗透到我们的家庭生活中。在这种新常态下，见朋友是不可能的，睡觉熬过这场磨难可能也不是一种选择。因此，虽然我们都在期待这场噩梦结束的那一天，但我们也需要与 24/7 的新闻周期保持健康的距离，偶尔把我们的注意力从事情上转移开。我已经强调要限制我接触新闻。我早上一次，晚上一次回顾一天的事情。就我个人而言，写作也是一种有益的治疗活动，因为我试图保持理智。你可以用不同的方式去做，无论是散步，锻炼，或者只是和你的朋友和家人聊天。但重要的是找到一种适合你的应对方法。

这是艰难的时刻，每个人都需要很强的意志力才能在保持理智的情况下度过难关。

在这篇文章中，我提供了一些处理这种情况的方法。本质上，我们需要寻找创新的机会，创造新产品，有效地管理我们的时间，准备好对会议说不，激烈地记录，并找到应对严峻考验的方法。然而，也许最重要的是，我们需要记住，当我们犹豫不决时，要原谅自己。

如果你想学习数据科学，我想调出吴恩达的这个 精品课程 。这是我开始的原因。

谢谢你的阅读。将来我也会写更多初学者友好的帖子。在中关注我或者订阅我的博客了解他们。一如既往，我欢迎反馈和建设性的批评，可以通过 Twitter @mlwhiz 联系到我。

此外，一个小小的免责声明——这篇文章中可能会有一些相关资源的附属链接，因为分享知识从来都不是一个坏主意。

这个故事最初发表于 此处。

从零开始的数据科学

原文：https://towardsdatascience.com/data-science-from-scratch-4343d63c1c66?source=collection_archive---------13-----------------------

作为一个完全的初学者如何步入数据科学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

乌列尔·索伯兰斯在 Unsplash 上拍摄的照片

数据科学，也被称为本世纪最性感的工作，已经成为我们许多人的梦想工作。但对一些人来说，这看起来像一个具有挑战性的迷宫，他们不知道从哪里开始。如果你是其中之一，那么继续读下去。

在这篇文章中，我将讨论如何从头开始你的数据科学之旅。我将详细解释以下步骤。

学习 Python 编程的基础知识
学习基础统计学和数学
学习 Python 进行数据分析
学习机器学习
项目实践

学习 Python 编程的基础知识

如果您来自 IT 背景，您可能熟悉 Python 编程，在这种情况下，您可以跳过这一步。但是如果你还没有感受到编码的乐趣，你应该开始学习 Python。它是所有编程语言中最容易学习的，广泛用于开发和数据分析。

首先，你可以搜索免费的在线教程来帮助你理解 Python 的基础知识。我列出了几个链接，在这里你可以在短时间内自学 Python。你可以试试这些，自己选择。

这个列表并不详尽，您可以在网上找到更多的资源来帮助您开始学习 Python 的基础知识。你还可以找到很多 YouTube 频道，上面有针对初学者的 Python 教程。

一旦熟悉了语法和其他编程基础，就可以继续学习 Python 的中级和高级水平。虽然要擅长数据科学，但我还是建议你至少完成中级水平，这样你才能熟悉 Python 中的数据结构和文件系统。

让我们进入下一步。

学统计学和数学

数据科学是分析数据并得出有用且可行的见解的技能。为此，你必须具备基本的统计学和数学知识。我并不是要求你成为一个伟大的统计学家，但是你应该知道一些基本的知识来理解一些重要的事情，比如数据的分布和算法的工作。说了这么多，还是来看看你需要学什么吧。

首先，检查一下你的高中统计数据，这样你就可以再次接触基础。为此，我推荐可汗学院的一系列高中统计(如果你对它很透彻和熟悉，可以选择)。

复习完高中概念后，你可以开始阅读以下任何一本书:

统计学习入门(带 R)(强烈推荐)
思考统计(用 Python)

上面的链接会直接带你到这些书各自的 pdf 版本。您也可以在方便的时候购买纸质版本。读完这些书之后，你也会熟悉数据分析的基础知识，这将在下一步帮助你。

N ote: 虽然我要求您学习 Python 来开始您的数据科学之旅，但在学习过程中，您会遇到其他几个工具，如 R，它们也用于统计计算和数据分析。我的总体建议是，无论你遇到什么，都要保持开放的心态。如果你用两种不同的语言执行一个任务，基本的工作和逻辑通常是相同的。这只是语法和框架的问题。

说到这里，让我们继续我们的第一次数据分析尝试。

学习 Python 进行数据分析

这就是有趣的地方。现在，您已经了解了 Python 编程的基础和所需的统计数据，是时候动手了。

如果你想免费学习，只需在 Udacity 上注册一个帐户，并报名参加他们的免费课程— 数据分析简介。本课程将向您介绍有用的 Python 库，如数据分析所需的 Pandas 和 Numpy 。你可以按照自己的进度学习，并在几周内轻松完成课程。

Udacity 上还有很多其他课程供你探索。你也可以找到由 Udacity 提供的纳米学位课程，通常你需要付费。如果你放心付费学习，有很多好的平台比如 Coursera 、 Dataquest 、 Datacamp 等。尽管我强烈建议你查看一下 数据营的职业轨迹。 你可以根据自己已经知道的多少，找到最适合自己的赛道。

到这一步结束时，你应该熟悉一些重要的 Python 库和数据结构，如系列、数组和数据帧。您还应该能够执行诸如数据争论、得出结论、矢量化运算、数据分组以及组合来自多个文件的数据等任务。

虽然你现在已经准备好了下一步，但是在继续前进之前，还有一件事需要学习。弥合分析和机器学习之间差距的最后一把钥匙——数据可视化。

数据可视化是数据分析的重要组成部分，因为它可以帮助您得出结论并可视化数据中的模式。因此，学习如何可视化数据是非常必要的。最好也是最简单的方法就是通过 Kaggle 的数据可视化课程。在这之后，你将熟悉一个重要的 Python 库— Seaborn。

N 注: Kaggle 是一个受全世界数据科学家欢迎的网站。它适时举办竞赛来挑战数据专家的技能，还提供免费的互动课程来帮助像你们这样的初露头角的数据爱好者。

太好了！您已经完成了学习数据科学的一半以上。让我们进入下一步，即机器学习。

学习机器学习

机器学习，顾名思义就是机器(计算机)自我学习的过程。它是通过经验自动改进的计算机算法的研究。您主要使用预定义的算法来构建模型，这取决于您所面临的数据类型和业务问题。这些模型根据给定的数据训练自己，然后用于根据新数据得出结论。

学习机器学习最简单的方法是按照给定的顺序完成 Kaggle 上的以下课程:

虽然有许多其他方法来学习机器学习，但我提到了最简单的一种方法，你不必为此付费。如果钱不是你的制约因素，你可以在 DataCamp 、 Coursera (数一数二)、Udacity 等相关平台上探索各种课程。

到这一步结束时，你会明白监督机器学习和非监督机器学习的区别。你也会知道各种重要的算法，如回归、分类、决策树、随机森林等。

厉害！你刚刚破解了迷宫，加入了数据科学俱乐部。现在你要做的就是变得更好，爬上梯子。

项目实践

如果你还在读这篇博客，你真的具备了成为一名成功的数据科学家的条件。一旦你掌握了所有的知识，你就必须通过尽可能多的练习来保留和增强它。要做到这一点，你可以找到工作项目和要解决的业务问题。

保持练习的最好方法之一是参加卡格尔竞赛和解决问题。Kaggle 为您提供了需要解决的问题和需要处理的数据。如果是竞赛，你可以提交你的结果，并根据你的分数在排行榜中排名。

你也可以从事个人项目，建立自己的投资组合。您可以尝试以下资源来探索数据集:

为了练习，我建议您在本地机器上下载并安装 Anaconda 。这是做数据科学项目的一个很好的工具包。你会发现 Jupyter Notebook 是 Anaconda 中的一个工具，这是一个构建 Python 项目并在你的作品集中展示它们的好方法。

我确信，遵循这篇博客中的指导方针会帮助你实现学习数据科学的目标。你也可以查看下面我在 Coursera 上写的顶级数据科学课程的链接。在这个领域有很多东西要学，甚至有更多东西要探索。敬请关注。

[## Coursera 上的最佳数据科学课程

找出今年最适合你的 Coursera 课程

datasciencewithsan.medium.com](https://datasciencewithsan.medium.com/best-data-science-courses-on-coursera-2dabb62d4687)

2020 年的数据科学

原文：https://towardsdatascience.com/data-science-in-2020-afdcb2f6979f?source=collection_archive---------69-----------------------

什么保持不变，什么有所不同？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

裘德·贝克在Unsplash【1】上的照片。

介绍

2020 年当然有太多的不幸事件影响到几乎每个人。但是科技行业受到了怎样的影响，更具体地说，2020 年的数据科学受到了怎样的影响？根据您居住的地方、从事的行业以及您是哪种类型的数据科学家，这些异同可能适用于您，也可能不适用于您。下面，我将讨论这些影响，以及它如何在今年余下的时间里影响你。

什么保持不变？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Gabriel Benois 在Unsplash【2】上拍摄的照片。

因为数据科学大部分时间都是技术领域的一部分(或者说，与其他工作相比，这个角色本身几乎不需要那么多的亲自参与的工作)，所以日常工作中有一些部分幸运地保持不变，没有负面干扰。以下是数据科学过程中保持不变的相似之处或部分:

视频会议的使用

当然，视频会议现在非常普遍，但根据我的个人经验，以及数据科学社区中其他密友的已知经验，视频会议在过去已经在大多数日常工作中占据突出地位。在我之前的一些公司，我和我们的团队需要在整个工作周通过视频进行几次通话，甚至每天都要打几次电话。进行这种沟通的原因是，虽然我们的团队亲自密切合作，但我们的利益相关者却没有。我们不再花 30 分钟到一个小时开车到其他有不同部门的办公室——更多的是围绕业务和非技术焦点，而是开一个视频会议。这样，当我们今年真的需要做同样的工作方法时，它实际上与我们以前的日常工作没有太大的变化。

跨职能协作

与我上面所说的类似，无论是过去还是现在，都需要不仅仅是一个数据科学团队的协作，还需要其他几个团队的协作。一些例子是与市场营销、商业分析、客户服务等领域的利益相关者合作。同样的合作今年也很突出。

JIRA 和其他产品管理工具的使用

作为与利益相关者合作的一种方式，我们将使用 JIRA 或其他类型的产品管理工具进行交流。我们会创建票证，并在头脑中记着 sprint 目标来完成它们。今年也是如此。

有什么不同？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由马库斯·斯皮斯克在Unsplash【3】上拍摄的照片。

由于数据科学家的一些日常工作保持不变，今年的日常工作也发生了重大变化。

更多视频会议

尽管我们已经在数据科学领域的许多合作中进行了视频会议，但今年我们还是进行了视频会议。起初，这有点让人不知所措，因为你必须学习视频交流的礼仪(尽量不打断，但必要时也要参与)。但是现在，已经司空见惯，意料之中，所以一直是慢慢变得正常的差异。

不再有面对面的工作(对于许多公司，而不是所有公司)

伴随着以上一点，没有亲自动手。今年我甚至开始了我的工作，完全是在遥远的地方。这绝对是一次独特的经历，但随着每一天的到来，它变得越来越正常。

这种变化也促使企业首先询问自己是否需要办公室。

然而远程工作有时也有消极的一面——懒惰、工作量减少等等。现在，它得到了更多的尊重，一些公司甚至看到了更多的进步。

你工作的时间

今年远程工作的一个更独特的副作用是，你不再需要正常的上午 9 点到下午 5 点的工作时间。有些日子你可以晚一点开始，但随后你会发现自己在家里的办公室工作到晚上 7 点，只是因为你没有被提醒要设法避开交通，并在正常的社会驱动的下午 5 点下班时间离开。当然，这可能是积极的，也可能是消极的，取决于个人和公司。

新的工作时间

上面提到的一个可能的积极因素是，当你整天在家工作时，你会发现自己产生了更多的结果，做了更多的研究。你获得的新的工作时间可以是一个积极的变化，因为你不再花 30 分钟到 2 小时去上班——在我住的地方和其他大城市，交通会感觉好像永远都在工作，到你去工作的时候，你实际上已经筋疲力尽了，只是在你离开的时候又要做一次。因此，积极的一面是能够在仅仅清醒几分钟后就投入工作，完成更多的工作，也许是在下午 3 点而不是下午 5 点完成远程工作。

摘要

如您所见，对于数据科学家来说，2020 年有哪些保持不变，哪些发生了变化，有几个关键要点。这些要点也可以应用到其他护理人员和行业。总结一下，这些要点如下:

**Stayed the same:***Use of video conferencing**Cross-functional collaboration**Use of JIRA and other product management tools***Is now different:***Much more video conferencing**No more in-person work (for a lot of companies, not all)**The hours you work**The new amount of time you get for working*

感谢您的阅读！我希望你喜欢我的文章，并学到一些新东西。欢迎在下面评论你在 2020 年作为数据科学家的经历。什么对你来说保持不变，什么变了？哪些变化你不喜欢，哪些你喜欢？

参考

[1]照片由裘德·贝克在Unsplash(2019)上拍摄

[2]Gabriel Benois 在 Unsplash 上拍摄的照片，(2020)

[3]2017 年 Markus Spiske 在 Unsplash 拍摄的照片

后危机时代的数据科学

原文：https://towardsdatascience.com/data-science-in-a-post-crisis-world-8d1a477d38f7?source=collection_archive---------26-----------------------

过去不一定能预测未来

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: 约翰·霍金斯【COVID 仪表板

十年前，我刚刚开始涉足生物信息学，不知疲倦地学习统计学和计算。我开始学习 R 和数据库，用二手的 Pentium IIIs 搭建了一个集群进行并行计算，看了入门的机器学习文献。一切感觉就像昨天一样，却又是永远的过去。我很幸运，根本无法想象几年后我会在数据、科学和计算领域做些什么。过去几年可能是参与这一技术和方法演变的最佳时期；工具从未如此之好，数据从未如此之丰富，职业前景从未如此之乐观。从**久负盛名的* 旗/方到新兴的五人初创企业，数据科学这个术语随处可见。突然间，感觉我们拥有了解决癌症、贫困和各种社会政治问题的所有知识和工具，坐在自动驾驶汽车里，飞向月球。*

事实证明，只有最后一个愿望可能很快就会实现。2020 年初是一系列的警钟。疫情在短短几周内摧毁了世界，随之而来的是大规模的隔离、关闭、社会运动和动乱。随着经济引擎的燃料供应被切断，公司采取一切手段以求生存。不幸的是，数据科学部门发现自己很早就面临裁员，这可能与技术角色相对更能抵御经济危机的传统观念相矛盾。这要归咎于疫情，但可能不是所有的裁员；重组和整合是下意识的反应。这一过程的一部分可能是加速一场迟到的学习——当公司正在考虑如何迎接风暴并为复苏做准备时，一个不成比例的大数据科学团队可能被认为不太重要。

那么，为什么数据科学仅仅用了几个月的时间，就从 21 世纪最性感的工作变成了商业中不那么重要的工作呢？我们来深入探讨一下。还要注意，我将使用数据科学这个术语来涵盖更多的 技术领域，比如机器学习、统计学习、因果推理、AI，为了方便起见。此不涵盖基本分析、报告、数据工程或商业智能，因为这些功能通常是全面需要的。不区分可能会使我的两美分过于宽泛，不能涵盖所有的细微差别，所以请原谅我。

数据科学的价值，解释

数据科学不是魔法，也不能凭空创造价值，尽管有些人可能不这么认为。为了让数据科学释放其全部潜力，至少有三个先决条件:

业务正处于稳步增长的上升轨道，有一个巨大的基线，即使 1%的增量也足以证明大量数据科学投资的合理性；
领导层真正了解数据，并愿意将数据的声音纳入战略构建，而不是利用数据来强化预先确定的决策；
工程平台和运营团队成熟且可扩展，因此数据产品可以快速迭代和部署以实现收益。

我将详细解释这三个先决条件，但假设我的观点与事实相差不远，为了让数据科学大放异彩，需要具备很多能力。指望聘请一位知名研究人员担任首席数据科学家并立即产生回报，可能是不现实的。此外，这样一个高素质的团队甚至可能不是企业所必需的。

所以事不宜迟，让我们详细讨论一下这三个先决条件。

一个稳定增长的大企业

这在开始时可能不是不言自明的，因为世界经济的大部分在过去五年中都处于某种形式的增长或超增长状态，所以我们无法观察到反事实:当业务萎缩时，数据科学将如何发挥作用。过去的几个月表明，很少有人对减缓出血感兴趣；利用数据将周环比增长率从-20%降至-10%可能并不值得称赞。当衰退开始时，需要实施激烈的策略，例如暂停某些产品供应，分配过大的折扣，采取强有力的保留和重新激活措施，转向新的收入流等。由于这种策略以前很少执行(即使执行了，也可能被认为是异常值)，过去的学习很难预测未来的结果，更不用说与市场中其他参与者同时移动所产生的二阶效应了。最终结果是数据科学的价值可能会迅速减少。

公司还可能意识到，这种战略和市场的不稳定性可能会在复苏阶段延续足够长的时间，因此，在未来几个月或几年内，可能不太需要全面的数据科学/机器学习团队。另一方面，如果业务以每月 20%的速度增长，投资于扩展产品功能、加强工程基础设施，甚至扩大物流和客户服务以进一步推动增长，可能会比大量投资于最先进的数据科学以改善现状更好。简单的目测分析和建模可能就足够了。例如，从战略上来说，投资 100 万英镑在未来 6 个月内将服务扩展到一个新的城市可能是一个更好的选择，而不是扩大当前的数据科学团队，这可能会也可能不会带来与优化现有城市业务相同的回报。另一点需要注意的是，随着最近数据科学的繁荣和人才的供过于求，公司可能有信心缩小数据科学部门的风险很低。尽管顶级人才仍然有很高的溢价，但从零开始相对快速地重建一个有能力的团队可能不会太具挑战性。

现在我们已经看到，在危机期间和危机过后，企业可能不需要大规模的数据科学存在。那么，数据科学发挥作用的最佳场景是什么？我认为企业可能需要:

***不缩水:*利用数据减少整体损失并不是一件值得庆祝的事情。资本和资源可以更好地引导到强有力的支点。
***不过度增长:*投资新功能可能比优化更可取，此外，过去的经验可能无法预测未来，因为业务变化可能非常快。在数据科学有效发挥作用之前，可能还有许多技术债务需要偿还。
不平坦:如果业务进入缓慢增长和平台期，那么可能没有足够的增长/参与度来利用。事实上，最近科技领域数据科学的裁员可能部分归因于增长缓慢，因此可供探索的增量较小。

业务和产品也需要有足够的复杂性，以便机会不是肉眼直观的，而是只能通过复杂的数据分析和建模来发现。如果一个商家只在网上向客户销售一种产品，那么可能没有多少数据科学魔法可以施展。在一个由卖家、商品和买家组成的三方在线市场中，一种算法可以真正超越简单的规则系统，获得可观的利润，尽管回报在减少。第一种算法可能比简单规则高出两位数，比如 10-20%，但随后的改进可能会小得多，与现状相比通常不到 5%，代价是复杂性和可扩展性/维护挑战日益增加。如果你查看任何 Kaggle 竞赛，基线通常是随机森林或 xgboost 模型，获胜的解决方案通常是数百个模型的混合，结合外部数据和多轮仔细调整。然而，这种性能差异在商业上可能没有实质性的意义。对于不断增长的业务规模和复杂性，对数据科学功能的大量投入有时是一种前期投资，因此增长部分是投资假设的一部分。

也许实施这种非常复杂的方法来实现不到 5%的增量收益的唯一逻辑原因是，考虑到所有相关的直接成本和机会成本，5%的增量对业务来说必须足够重要。这意味着基线收入，或任何代理指标，如每日活跃用户，需要是巨大的。即使年收入达到 1 亿英镑，500 万英镑的 5%增量可能也只能维持 20 人强大数据科学团队的收支平衡，而且无法保证这种增量在未来几年能够实现。基线可能需要数十亿，在这种情况下，舞台上只剩下几个大玩家(脸书、苹果、亚马逊、谷歌、腾讯、阿里巴巴等)。对于较小的公司来说，投资于工程、销售、营销和分析，而不是技术密集型数据科学，可能会在短期内带来更好的回报。我过去曾在非常早期的阶段(不到 10 人)与相当多的公司交谈过，业务和产品处于早期开发阶段，雄心勃勃地计划建立一个数据科学/机器学习功能。现在还为时过早，这个团队更有可能被用来吸引投资者，而不是做有意义的工作。他们可能会花大部分时间进行特别分析，以回应领导的好奇心或建立数据管道。这并不是说这些不是关键任务，但这不是使用这种招聘的最佳方式。

您可能已经感觉到，数据科学是一个相当微妙的有机体，需要微妙的业务养分才能生存。它需要更多的内部和外部因素才能茁壮成长；进一步阅读。

精通数据科学的领导层

学术界和工业界的一个显著区别是，一个好的纸上研究是否能在合理的时间内在生产环境中实施，并有明确可衡量的结果。要做到这一点，领导层必须 1)全面了解数据科学产品，它能做什么，不能做什么，以及所有相关的风险、偏见和陷阱；2)支持所有级别的基于数据的思维和决策，并为数据科学提供有效的发言权；3)尊重数据的客观性；不要通过寻找有利的信号来将数据科学武器化。这些看似简单，但实际上很难做到始终如一。

成功的第一要素是领导者理解数据科学:数据是如何收集、汇编和提炼的；什么是抽样偏差；捕捉到了什么，更重要的是，没有捕捉到什么；分析和建模是如何完成的，假设和权衡是什么，等等。如果一位数据科学家分析了一项实验，并报告说一项新功能可能会增加 1%的用户参与度，那么这种说法通常会有很多假设。这种假设通常会在讨论、电子邮件链和总结中丢失，从而导致较大广播半径下的保真度降低。几度分离之后，人们可能会将一个估计解释为一个事实，将一个地区性实验的结果混淆为一个全球性实验，做出错误的推断，在错误的上下文中引用这样的数字来支持某些论点，等等。领导者需要意识到并促进数据科学研究的正确解释和使用，并在必要时进行纠正，有时甚至要介入并管理叙述。否则，误解可能会迅速发生，从而损害数据科学组织的可信度。

第二个要素是为数据科学提供合适的话语权。在过去，我目睹了两种情况，一种是数据科学家把从数据中发现的东西作为最终的真理来否定其他人的论点，另一种是数据科学家坐在决策桌的末端投下名义上的一票。这两种情况都不健康。理想情况下，数据科学应该为正在讨论的问题带来独立、客观(尽最大可能)和正交的观点，与其他各方(如工程师、设计师、消费者洞察、财务等)拥有平等的发言权。对数据的过度依赖可能会成为数据谬误的牺牲品，例如抽样偏差——被认为是对世界的客观描述实际上可能不具有代表性。名义上对数据的依赖会让数据科学团队无能为力。很难取得平衡，但肯定可以做到。

第三个要素是保持数据科学的客观性，不要只强迫有利的发现。从复杂而丰富的数据集中寻找预期的结果，在特征选择过程中冒泡某些特征或编造相关性，通常并不困难。领导者很容易从数据科学功能中找到额外的决策保证。有些人甚至认为只报道有利的发现而隐瞒测试不一定是撒谎。领导者需要意识到这一点，并尽快采取正确的行动，因为这不仅对内部和外部的数据科学职能部门，而且对所有合作者都极具破坏性。领导者应该明确并以身作则，这是一条永远不应该跨越的红线。

成熟的工程/运营平台

即使满足了所有这些先决条件，成熟的工程平台也是有效执行数据科学的必备条件。与数据科学相关的工程能力并不少见，如数据平台、审计、模型部署、实验工具包等。不断降低优先级，以便为更关键的产品功能开发腾出空间。因此，数据科学研究和部署之间往往会有差距。数据科学团队可能会编译一些数据，离线运行研发，然后返回一个可能会产生重大业务影响的模型。不幸的是，由于缺乏基础设施开发，甚至可能需要 3-6 个月的时间才能部署。当部署准备就绪时，整个业务可能已经转移，这可能会使之前的研究变得无关紧要。因为数据科学产品依赖于如此多的移动部分，所以解决数据接收、编译、模型部署、可扩展性和产品集成的成熟平台对于允许数据科学团队自助服务至关重要。否则，数据科学团队将别无选择，只能等待许多其他团队来铺平道路，然后才能交付任何东西。要做到这一点，不仅需要一个强有力的精通数据的领导层，还需要一个规模足够大的公司，以便能够留出资源来投资开发这种能力。较小的参与者通常没有这种奢侈，因此不得不继续依赖不太理想和更特别的解决方案。

所以现在你可能会问——我们到了吗？仍然可能缺少一个组成部分——一个能够执行战略并交付成果的强大的基层运营团队。想象一个客户服务优化工具，就像优步的 COTA 一样，让人类参与其中:客服人员需要训练有素才能使用这个工具来实现它的价值。仓库优化模型可能会假设工人可以以一定的速度重新进货和运输货物，这在现实中可能是真的，也可能不是真的(这可能会给地面上的人增加压力和紧张)。数据科学产品的预期增量回报和实现的增量回报之间存在巨大差异并不罕见，调试整个生命周期也不是小事。每一部分都必须完美无缺地运行，从这个意义上说，数据科学确实是火箭科学的翻版。

现金蜜月的结束

一系列危机以及近期独角兽的表现不佳和破灭，给不惜一切代价追逐增长的狂热浇了一桶冷水。投资者可能会更加保守，盈利能力而不是收入/活跃用户群现在可能会成为关键指标。数据科学人才的囤积可能会降温——几年前，这几乎是吸引投资者的必备条件，因为 FOMO、人才供应缺乏，以及数据科学在资本回报方面可以实现的宏伟愿景。雇主的热烈追捧吸引了许多专业人士转向数据科学，随着数据科学项目和训练营的过剩，人才供应不断增加。不可避免地，这将导致数据科学市场进入和修正的更高门槛。

我记得几年前，我参观了堪萨斯城，和一个当地人交谈。我依稀记得那里一个城镇兴衰的故事(细节我可能说错了)。由于汽车行业非常火爆，其中一家制造商建立了一个中心来培训特定技能的工人，并保证了就业。许多人为了职业前景蜂拥而至，但由于供过于求，整个项目仅在几年内就摇摇欲坠。现在，数据科学市场正在走一条类似的道路，尽管没有那么严重。我和训练营的一些人聊过，虽然他们对他们刚刚建立的可以区分猫和狗的模型非常满意，并且对他们在几个小时内取得的成就印象深刻，但许多人不知道他们在做什么，也不知道为什么猫/狗模型在任何情况下都有意义。数据科学如此简单以至于任何人都可以做的错误印象，再加上它是这十年中最好的工作之一的看法，可能会使人们匆忙做出决定集体放弃他们目前的职业并对自己进行快速训练，最终却发现他们所学的已经过时，他们不得不与许多经历过类似快速训练过程的人竞争。**

在后危机时代的未来几年，这对数据科学意味着什么？我认为它将继续繁荣，但以不同的方式。度过危机的公司将准备好复苏，许多破坏性的公司将出现在新的领域，尤其是医疗保健和教育领域。工具会继续变得更好，自动化程度更高，可伸缩性更强。数据科学将进一步民主化，但变得更加两极化——任何人都可以很快入门，但要成为顶尖人物需要付出更多努力。要真正脱颖而出，需要技术知识、实践经验、领域知识、工程技能、沟通、商业意识、战略眼光的良好组合，最后但同样重要的是，一些好运气。

一些预测

作为 Scott Galloway 教授的支点的粉丝，我愿意做一个无耻的模仿者，自己做一些预测。这毕竟是我做的事情；这次不同的是，我可能没有很多数据来佐证我的直觉。

数据科学市场可能会降温，尤其是入门级职位。企业可能会减少长期投资(自动驾驶、计算机视觉等)。)，但更侧重于分析和报告的自动化。对于应届毕业生来说，这将是一个艰难的时期，因为投资减少，创业公司的空缺会减少。另一方面，传统行业如制造业、酒店业、批发和杂货业、大品牌零售业等。可能认为这是培养数据科学能力并为下一轮竞争做好准备的好机会。此外，随着新冠肺炎的余波，许多新的机会可能会出现在纽约、波斯顿和旧金山湾区等科技中心之外。因此，从这些非典型的技术中心开始可能是一个不错的选择。
领域知识将受到强烈的追捧。无论是运筹学、计量经济学、生命科学、医疗保健、物理学还是其他。许多看似不相关的深度研究实际上可以转化为解决前所未见的挑战，在未来五年内，我们将有大量这样的研究。新冠肺炎，移民政策和去全球化等政治因素，以及研究经费的缩减将减少 STEM 博士的数量。随着数据科学在研究中更广泛的应用和强大的领域知识，美国下一轮毕业的博士可能会受到私营部门的热烈追捧。另一方面，私营部门专门的人工智能研究角色的数量实际上可能增长更慢，因为公司更有可能在短期内投资，并寻求不一定需要最先进的技术和理论能力的问题解决者。最好的仍然会在市场上非常火爆，但可能会出现较少的机会。
数据科学家的角色将进一步分化。面向业务的分析师、因果推理数据科学家、机器学习工程师和研究科学家的角色将被明确定义，而不是作为一把瑞士刀。由于领域知识的不断丰富，从一个轨道到另一个轨道的角色转换可能更加困难，类似于今天 UI 和后端工程师的分歧。全栈仍然是可能的，但可能不会在大公司中发现它的巨大效用。顶尖人才至少会有一个非常深的“初级技能轨迹”。这就像玩角色扮演游戏:平均分配你的技能点不会让你走得很远。你需要选择你是想成为一名战士，一名法师，还是一名巫师。

拥抱不确定性

对我来说，数据科学最吸引人的一点是，未来并不是一成不变的。这是一个新的、快速发展的领域，有很多不确定性。这很有压力，但也非常令人兴奋，因为我们每个人都可能有自己的方式来开拓自己的轨迹。然而，不确定性是我们的一种自然结构，我们的工作就是做出预测。

所以有些建议:

如果你对 2020 年的数据科学感兴趣，请做好准备，这可能没有捷径可走。参加训练营或速成班可能只会让你进入职场，但不要指望它能保证你之后马上找到一份理想的工作。你需要花几年时间在实践中学习，并逐渐增强你的能力。人才供应的增加和招聘的减少也意味着进入最负盛名的公司的门槛更高，并且不是所有的差距(成熟度、驾驭复杂和微妙的商业环境、沟通、技术权衡)都可以通过教科书学习来弥合。这将是一次长征，而不是冲刺。
对于已经加入的人来说，更深入更广泛，成为一个真正的问题解决者。我们不能成为只会一招的小马，而是必须继续了解我们的领域，同时也要关注我们周围发生的事情。既然时间有限，就需要做出选择；无论是关于你想发展哪种数据科学(分析 vs .机器学习)，获得哪种第二技能(商业 vs .产品开发)，还是追求职业目标(IC vs .技术领导力)，你都必须尽早做出一些决定，并坚持你的计划。根据短期的变化做出相应的调整，但要努力长期坚持下去。
充满激情和好奇心，确保你热爱你所做的事情。大量的数据科学工作并不有趣，臭名昭著的数据清理可能是最乏味和耗费精力的。如果你没有恋爱，那么你很可能不会走得很远。放弃并尝试不同的东西是可以的，我知道有些人发现数据科学不适合他们，于是转向工程或产品，后来获得了巨大的成功。你在这个过程中学到的技能不会被浪费，而且会长期受益。适应，适应最终会存活下来。

以前的数据科学博客:

免责声明及注释:

本文中的观点是我个人的观点，与我的雇主无关。
我妻子读了初稿，并提供了许多建设性的反馈。我做了许多相应的修改，并特别感谢她。

衰退中的数据科学

原文：https://towardsdatascience.com/data-science-in-a-recession-b8205ff783f7?source=collection_archive---------39-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由奎诺·阿尔在 Unsplash 上拍摄

这个时髦的领域遇到了第一个主要的经济障碍

数据科学领域非常年轻，这将是它的第一次衰退。毫无疑问，这将是对我们所有人的考验。这让我想起沃伦·巴菲特的一句话:

只有当潮水退去时，你才知道谁在裸泳。

但这也是一个机会——一个审视我们领域的各个方面并保留好的同时清除坏的方面的机会。这就是经济衰退的后果。在大金融危机(2008 年)之前，最热门的领域是量化金融(数据科学的精神前身)。金融肯定在危机中受到冲击，尤其是因为其有缺陷的风险模型是危机发生的部分原因。但事实证明，经济衰退对该领域是有利的。这个职业变得更精简，更经得起战斗考验，没有意义的理论被怀疑和削弱(尽管许多可疑的理论仍然存在)。

因此，让我们试着想象一下，数据科学领域可能会受到当前冠状病毒衰退的影响和改变。

整合和失业

这是痛苦的部分。虽然我们数据科学家很幸运，因为我们可以远程工作，但在如此严重的经济危机中，休假和失业是不可避免的。对整体就业、消费支出和经济增长的打击太大，任何职业都无法幸免，更不用说一个可以说是过热走向衰退的职业了。

预算和人员将被削减，几乎没有产生现金流潜力的外围项目将被搁置或取消。这一点都不好玩，但它将迫使整个行业诚实地评估自己的附加值。公司将询问并尝试回答以下问题:

我的数据团队到底需要多大？
我需要数据科学家吗？
数据科学项目的预期 ROI(投资回报)是多少？

这些问题的答案因公司而异。拥有财务缓冲、专有数据和愿意进行长期思考的管理层的公司，会比现金短缺的公司更积极地回答这些问题。当一家公司陷入绝境时(由于债务和/或销售崩溃)，目光短浅是很容易的，有时甚至是必要的。

那么我们这些员工应该做些什么准备呢？可悲的是，决定谁被解雇往往是一个非常主观的决定，并不由我们控制。它通常主要是一个人挣多少钱的函数(最终目标是降低成本)。我也不会告诉你让自己变得不可或缺——那是不现实的，也不是几周就能完成的事情(此时你要么已经是不可或缺的，要么不是)。

更确切地说，是时候变得积极和现实，而不是消极和愚蠢的希望。研究你公司的财务和单位经济。你的公司，即使在最好的时候，也只能勉强收支平衡。它需要投资者一轮又一轮的注资才能维持下去吗？如果是这样，那就该去寻找其他机会了。好消息是，现在招聘的公司肯定既有竞争力又有财力；坏消息是，在这些职位竞争激烈的同时，这样的职位却少得多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由杨奇煜·巴赞内格在 Unsplash 上拍摄

打破模式的范式转变

当我们最终完成封锁时，我们回到的世界将与我们躲藏时离开的世界感觉非常不同。仅在 8 周前还很有意义的商业模式在中短期内可能不再可行(例如 StubHub、Airbnb)。

这意味着后冠状病毒时代的消费者行为也可能会非常不同。不幸的是，这降低了大量数据集的价值。现在一个简单的赌注是许多模型(无论是推荐引擎、用户行为模型、时间序列预测等等。)将在未来几个月打破。

“范式转换”这个词经常被提起，而且通常是没有根据的。但是冠状病毒和它引起的衰退是真正的范式转变。在出现疫苗之前，我们互动、做生意和工作的方式将会大不相同。基于昨日数据训练的模型将不再具有预测性，有时预测性会大大降低。

关于这一点以及它如何使数据科学的未来更具挑战性和更令人兴奋，我有 3 个随机想法:

在新的世界(社会距离和经济衰退)中，建立解释用户行为的模型的竞赛正在进行。样本很小，聪明的推论和直觉将是关键。一些心理学的基础知识和对压力和焦虑如何影响行为的理解可能会在某个时候派上用场。
这也不意味着过去的模式已经过时了。即使疫苗需要很长时间，随着时间的推移，人们的行为将开始向正常方向转变(希望不会以更高的感染率为代价)。恐惧倾向于消退久而久之，我们习惯了世界的新状态；这将我们推回到我们的正常状态(但可能不是全部；足够严重的事件，如经济萧条，可以永久地改变人们的行为)。
在一个高度不确定的世界里，将会有更多的机会推动人们变得更好或更坏。数据科学模型既有解释或预测的功能，也有建议的功能。推荐引擎的全部目的是改变人们的行为(通过将他们推向我们希望他们购买的产品或服务)。随着世界和人们的心态开始回到某种新的、有些不同的常态的漫长旅程，对于公司来说，将会有独一无二的、也许一生只有一次的机会在这种新常态中赢得一席之地 —在这种黑暗时期向客户展示真正的价值，投资回报可能是巨大的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由海伦娜·洛佩斯在 Unsplash 上拍摄

给公司(和首席执行官)的一个建议—现在就建立您的数据专业知识！

危机是做最好的自己的机会。具有讽刺意味的是，在繁荣时期花费数十亿美元用于公关、碳信用、公司飞机和股票回购的公司，在经济衰退期间却能如此冷漠地转身解雇四分之一的员工。

是的，我理解对破产的恐惧。但关键是要在繁荣时期建立一个缓冲区，这样你就可以在其他人都逃之夭夭的时候投资。因此，首席执行官们，如果你在财政上一直很负责，现在现金充裕，考虑投资于员工的善意。像飞机、工厂和数据中心这样的资本货物并不是唯一的投资，你的员工和他们的长期发展才是你的公司最重要的投资。

这种疫情和衰退不会永远持续下去——如果你培养和发展你的分析和数据科学团队，而其他人都放弃和解雇他们的团队，想象一下几年后当业务开始再次繁荣时，你可以拥有巨大的竞争优势。

在过去的几年里，每个人都雇佣了数据科学家和数据工程师，试图通过“大数据”获得竞争优势，但这多少有些徒劳。但是和其他人做同样的事情并不能让你获得优势。你需要与众不同(在好的方面)才能超越别人。当其他人都在犹豫不决时，危机是一个难得的宝贵机会——当其他人都专注于短期错误时，投资、建设和行动要着眼于长期。为此，我对首席执行官和首席数据官有两点建议:

向刚毕业的学生和陷入困境的有经验的人提供带薪实习。在我看来，数据科学面试过程总是很偶然，假阴性率很高。相反，根据好奇心和求知欲快速筛选候选人，然后通过实习给他们一个展示自己的机会(并赚取美元和一份全职工作)。
我并不是主张公司付钱给数据人员让他们什么都不做。相反，拥抱黑客马拉松的心态。在正常时期，每个人都忙于扑灭现有客户的火灾，并接纳新客户。经济衰退(当需要服务的顾客少得可怜时)是一个专注于开发新想法和产品(并强化现有产品)的机会。所以我的建议是建立和测试一堆新的东西。这样，当经济开始复苏时，你的公司就能迅速运转起来。

太阳会再次照耀

在接下来的几个月里，我们会遇到一些困难，但是不要犯错误，我们会好起来的，尽管会有一些伤痕。数据科学领域和职业也是如此。经济衰退有一种抖松双手的习惯。2008 年，许多纯粹为了薪水而工作的金融家彻底离开了这个行业。同样的事情现在可能会发生在数据科学家身上(我的猜测是，对少数工作的激烈竞争将导致这些工作的薪酬越来越低；基本供求)。但是如果你真的对这个领域感兴趣，坚持下去，做好努力工作的准备，最终，你会找到机会的。

干杯，大家注意安全！