TowardsDataScience 博客中文翻译 2016~2018（三百一十六）

最新推荐文章于 2024-09-23 06:28:09 发布

绝不原创的飞龙

最新推荐文章于 2024-09-23 06:28:09 发布

阅读量4.4k

点赞数 14

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142447834

版权

MLM 专栏收录该内容

3744 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

什么是超参数？以及如何调整深度神经网络中的超参数？

原文：https://towardsdatascience.com/what-are-hyperparameters-and-how-to-tune-the-hyperparameters-in-a-deep-neural-network-d0604917584a?source=collection_archive---------0-----------------------

什么是超参数？

超参数是决定网络结构的变量(例如:隐藏单元的数量)和决定网络如何训练的变量**(例如:学习率)。**

超参数是在训练之前设定的(在优化权重和偏差之前)。

与网络结构相关的超参数

隐藏层和单元的数量

隐藏层是输入层和输出层之间的层。

“很简单。只要不断增加层，直到测试误差不再改善。”

使用正则化技术的图层中的许多隐藏单元可以提高精度。单元数量较少可能会导致装配不足。

拒绝传统社会的人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Random neurons are cancelled

Dropout 是一种正则化技术，用于避免过拟合(提高验证精度)，从而提高泛化能力。

通常，使用 20%-50%的神经元的小丢弃值，其中 20%提供了一个好的起点。过低的概率影响最小，过高的值导致网络学习不足。
使用更大的网络。当在更大的网络上使用 dropout 时，您可能会获得更好的性能，从而为模型提供更多学习独立表示的机会。

网络权重初始化

理想地，根据在每层上使用的激活函数，使用不同的权重初始化方案可能更好。

大多使用均匀分布。

激活功能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sigmoid activation function

激活函数用于向模型引入非线性，这允许深度学习模型学习非线性预测边界。

一般来说，整流器激活功能最受欢迎。

在进行二进制预测时，在输出层使用 Sigmoid** 。** Softmax 用于输出层，同时进行多类预测。

与训练算法相关的超参数

学习率

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Learning rate

学习率定义了网络更新其参数的速度。

学习率低减缓学习过程但平滑收敛。较大的学习速率加速学习但可能不收敛。

通常一个衰减学习率是首选。

气势

动量有助于用前几步的知识知道下一步的方向。它有助于防止振荡。动量的典型选择在 0.5 到 0.9 之间。

时代数

epochs number 是训练时整个训练数据显示给网络的次数。

增加历元数，直到验证精度开始下降，即使训练精度在增加(过拟合)。

批量

最小批量是参数更新发生后给网络的子样本数。

批量大小的一个好的默认值可能是 32。也试试 32，64，128，256 等等。

找出超参数的方法

手动搜索
网格搜索(http://machinelingmastery . com/Grid-Search-hyperparameters-deep-learning-models-python-keras/)
随机搜索
贝叶斯优化

什么是产品推荐引擎？以及它们的各种版本？

原文：https://towardsdatascience.com/what-are-product-recommendation-engines-and-the-various-versions-of-them-9dcab4ee26d5?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ref - http://www.emailvendorselection.com/recommendation-engines-for-email-marketing/

什么是产品推荐？

产品推荐基本上是一个过滤系统，它试图预测和显示用户想要购买的商品。它可能不完全准确，但如果它向你展示了你喜欢的东西，那么它就做对了。

推荐系统近年来变得越来越流行，并且被用于各种领域，包括电影、音乐、新闻、书籍、研究文章、搜索查询、社交标签和一般产品。大多数用于数字领域，今天的大多数电子商务网站，如易贝、亚马逊、阿里巴巴等，利用其专有的推荐算法，以便更好地为客户提供他们肯定会喜欢的产品。还有很多好处，我们将在接下来的博客中介绍。

如果设置和配置得当，它可以显著提高收入、点击率、转化率和其他重要指标。此外，它们还可以对用户体验产生积极影响，这转化为更难衡量但对在线业务非常重要的指标，如客户满意度和保留率。

所有这些都只能通过推荐引擎来实现。推荐引擎基本上是数据过滤工具，它利用算法和数据向特定用户推荐最相关的项目。或者简单地说，他们只不过是“商店柜台伙计”的自动化形式。你向他要一个产品。他不仅展示了那个产品，还展示了你可以购买的相关产品。他们在交叉销售和追加销售方面训练有素。

随着互联网上信息量的增长和用户数量的显著增加，公司根据他们的偏好和口味搜索、绘制并向他们提供相关信息变得越来越重要。聊天机器人也在做同样的工作，但是它们更聪明并且从用户查看或购买的每个产品中学习。

让我们考虑一个例子来更好地理解推荐引擎的概念。如果我没看错的话，你们几乎所有人肯定都用过亚马逊购物。如你所知，亚马逊网站 35%的收入来自其推荐引擎。那么他们的策略是什么？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Reference: Amazon

亚马逊在电子邮件活动和大部分网站页面上使用推荐作为有针对性的营销工具。亚马逊会根据你浏览的内容推荐不同类别的产品，并将你可能购买的产品放在你面前。比如产品页面底部的“经常一起购买”选项，吸引你购买套餐。这一建议有一个主要目标:提高平均订单价值，即通过根据顾客购物车中的商品或他们目前正在现场查看的商品提供产品建议来追加销售和交叉销售顾客。

亚马逊利用用户的浏览历史来让这些产品始终留在顾客的眼中。它使用客户的评级和评论来显示推荐和最畅销选项中平均得分较高的产品。亚马逊想让你买一个包，而不是一个产品。比如你买了一部手机，它会推荐你买一个保护套或者一个屏幕保护套。它将进一步使用来自引擎的建议来发送电子邮件，并让您了解产品/类别的当前趋势。

有哪些不同类型的推荐？

基本上有三种重要的推荐引擎:

协同过滤
基于内容的过滤
混合推荐系统

协作过滤:

这种过滤方法通常基于收集和分析关于用户的行为、活动或偏好的信息，并基于与其他用户的相似性来预测他们会喜欢什么。协同过滤方法的一个关键优点是它不依赖于机器可分析的内容，因此它能够准确地推荐诸如电影之类的复杂项目，而不需要“理解”项目本身。协同过滤基于这样的假设，即过去同意的人将来也会同意，并且他们会像过去一样喜欢相似种类的项目。例如，如果一个人 A 喜欢项目 1、2、3，而 B 喜欢项目 2、3、4，那么他们有相似的兴趣，A 应该喜欢项目 4，B 应该喜欢项目 1。

此外，有几种类型的协同过滤算法:

**用户-用户协同过滤:**在这里，我们试图搜索长相相似的顾客，并根据他/她的长相相似者的选择提供产品。这种算法非常有效，但需要大量的时间和资源。这种类型的过滤需要计算每个客户对信息，这需要时间。因此，对于大型基础平台，这种算法很难实施。
**项目-项目协同过滤:**它与前面的算法非常相似，但我们不是寻找看起来相似的客户，而是尝试寻找看起来相似的项目。一旦我们有了商品外观相似矩阵，我们就可以很容易地向从商店购买了任何商品的顾客推荐相似的商品。这种算法比用户-用户协同过滤需要更少的资源。因此，对于一个新客户，该算法比用户-用户协作花费的时间少得多，因为我们不需要客户之间的所有相似性得分。亚马逊在其推荐引擎中使用这种方法来显示促进销售的相关产品。
**其他更简单的算法:**还有像购物篮分析这样的其他方法，它们通常没有上述算法那样高的预测能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于内容的过滤:

这些过滤方法基于项目的描述和用户偏好选择的简档。在基于内容的推荐系统中，关键字用于描述项目；此外，还建立了一个用户简档来说明该用户喜欢的项目类型。换句话说，算法试图推荐与用户过去喜欢的产品相似的产品。基于内容过滤的理念是，如果你喜欢一个项目，你也会喜欢一个“相似”的项目。例如，当我们推荐同一种类的项目时，如电影或歌曲推荐。这种方法源于信息检索和信息过滤研究。

基于内容的过滤的一个主要问题是系统是否能够从用户关于一个内容源的动作中学习用户偏好，并在其他不同的内容类型中复制它们。当系统被限制为推荐与用户已经在使用的内容类型相同的内容时，当可以推荐来自其他服务的其他内容类型时，来自推荐系统的价值明显较小。例如，基于新闻浏览推荐新闻文章是有用的，但是当基于新闻浏览推荐来自不同服务的音乐、视频时，不是更有用吗？

混合推荐系统:

最近的研究表明将协作和基于内容的推荐结合起来会更有效。混合方法可以通过分别进行基于内容和基于协作的预测，然后将它们结合起来来实现。此外，将基于内容的能力添加到基于协作的方法中，反之亦然；或者将这些方法统一到一个模型中。

一些研究集中于将混合方法的性能与纯协作和基于内容的方法进行比较，并证明混合方法可以提供比纯方法更准确的推荐。这种方法可以用来克服推荐系统中的常见问题，例如冷启动和数据缺乏问题。

网飞是使用混合推荐系统的一个很好的例子。该网站通过比较相似用户的观看和搜索习惯(即协同过滤)以及通过提供与用户评价高的电影具有共同特征的电影(基于内容的过滤)来进行推荐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Reference: http://dataconomy.com/2015/03/an-introduction-to-recommendation-engines/

**总之，**在类型的产品推荐引擎上可以做出很多技术性的解释。用户或买家最关心的是产品和引擎给出的推荐质量。这样的认知计算方法可以让你的推荐人的质量更上一层楼。

有哪些‘高级’的 AI 和机器学习在线课程？

原文：https://towardsdatascience.com/what-are-some-advanced-ai-and-machine-learning-online-courses-8609ab281450?source=collection_archive---------1-----------------------

你在哪里可以找到不那么常见，但高质量的‘高级’机器学习和人工智能在线课程(免费)？

为什么是这篇文章？

机器学习是热门且有需求的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但问题就在这里。

许多年轻的专业人士已经开始了他们的数据科学和机器学习之旅，他们面临着一个共同的问题——他们已经完成了一两门基本的在线课程，完成了一些编程课程，在 Github 上建立了几个项目，然后……然后呢？

学什么？哪里可以找到集中的资源？基础掌握之后去哪里找稍微高级一点的课程？

在我之前的一篇关于媒体的文章(由 TDS 团队发表)中，我详细讨论了**，在那里你可以找到 MOOC(大规模开放在线课程)来启动你进入数据科学和机器学习的旅程**。那篇文章假设读者是初学者，并涵盖了基本的 MOOCs，这些 MOOCs 针对基础和中级学习进行了优化。你可以在这里找到那个，

[## 机器学习和数据科学如何选择有效的 MOOCs？

给渴望学习并为数据科学/机器学习做出贡献的非 CS 领域专业人士的建议。策划自…

towardsdatascience.com](/how-to-choose-effective-moocs-for-machine-learning-and-data-science-8681700ed83f)

我写了另一篇详细的文章，专门关注数据科学和机器学习需要掌握的数学概念以及学习哪些课程的主题。你可以在这里找到那个，

[## 数据科学的基本数学——“为什么”和“如何”

数学是科学的基础。我们讨论了成为更好的数据科学家需要掌握的基本数学主题…

towardsdatascience.com](/essential-math-for-data-science-why-and-how-e88271367fbd)

最近，我在个人邮箱和 LinkedIn 收件箱里收到了很多信息，大多来自聪明、年轻的专业人士，询问类似的问题和我对在线课程的建议。

对于这些信息，我大多都有现成的答案。我只是给他们发了一个我的文章列表(依次包含了来自 KDnuggets 或 Team AV 的其他高引用文章的链接和参考)。大多数情况下，我都会收到满意的回复:-)

然而，自从写了这些文章，我个人参加了一些人工智能和机器学习(ML)的“高级”课程，看到了一些讨论和评论，自然觉得有必要更新这些参考资料。

经过一番思考后，我决定最好留下原来的文章，因为它们确实迎合了初学者的需要，也很好地满足了许多读者的需求，并尝试编写一份新的在线课程列表。

这就是这篇文章的内容。

我所说的“高级”水平课程是什么意思？

“高级”是一个相对的术语。最好有一个基线来解释这个上下文中的单词。幸运的是，说到 ML 在线 MOOC，我们几乎有了一个黄金标准——教授吴恩达的 Coursera 课程(原版的，不是 Deeplearning.ai 专精)。

因此，在本文中，我所说的“高级”是指两个特征，这两个特征需要在将要讨论的课程中出现(不一定同时出现),

比上述课程更广泛，即涵盖更高级和更多样化的主题
与人工智能或 ML 相关的高度专业化的焦点

我希望我能说明，我的意图并不是说吴教授的课程是初级课程。这仍然是你所能要求的对机器学习世界的最好介绍——尤其是对初学者而言。但是，在你完成那门课程后，做一些编程，对数学概念感到舒适，你应该建立在你的基础上，学习不同的主题。

我只是希望这篇文章能通过列出一些专注于此的免费 mooc 来帮助你做到这一点。

选课的唯一重点是什么？

人工智能和人工智能是热门话题，涵盖这些主题的免费在线课程并不缺乏。尽管如此，我发现真正高质量的人工智能课程少得惊人。

是的，我就在那个阵营里，这个阵营坚信深度学习不是人工智能，因此拒绝任何课程的概念，标题里有“AI”这个词，但只涵盖 Python 中的深度学习框架，被归类为 AI 课程。

因此，为了将我的列表限制在有限数量的高质量课程上，我列出了一些简单的基本规则或过滤器。

我倾向于避免任何重点放在特定编程框架/工具上的课程，也就是说，没有像“Python 的机器学习……”这样的课程(一些例子或代码片段是可以的)
按照同样的逻辑，这份名单将有一些课程非常强调理论基础——这主要有利于大学课程，而不是由个体企业家或公司(如 fast.ai、谷歌、微软、IBM 等)提供的课程。)
类似地，我也加入了 Udacity 的课程，这些课程是由大学教师或知名研究人员教授的，比如巴斯蒂安·特龙或彼得·诺维格。我没有包括他们的纳米学位参考文献，我不认为这有助于提高智力。
我提出了两个对真正的人工智能学习非常重要但受到较少关注的主题— 强化学习 和 博弈论 。
没有主要侧重于数据科学/数据工程/数字分析/应用统计的课程。在当今世界，它们都是非常重要的学习主题，但为了这篇文章，我更愿意将它们与我对纯机器学习和人工智能的关注完全分开。

我相信这种关注将会自动地将列表导向高质量的人工智能和人工智能的基础课程，这将有利于中级到高级的学习者。

毕竟，你将是法官。

就我个人而言，我并没有修完所有的课程，尽管我已经完成了其中很大一部分。所以，我尽量让我对课程的评论简洁而真实。

链接和参考

没有进一步的拖延，这是清单。

通用机器学习和深度学习

这些课程涵盖了一般的 ML 和 DL 主题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: https://www.jeremyjordan.me/support-vector-machines/

**乔治亚理工学院的“机器学习”关于 Udacity 的课程:这是最全面的 ML 课程之一，涵盖了有监督的、无监督的学习、随机化优化技术(例如遗传算法)、强化学习，甚至是介绍性的博弈论概念。
原斯坦福课堂版吴恩达讲座:这是吴教授在斯坦福的 ML 课程的完整课堂版。深入涵盖了淡化的在线 MOOC 中缺失的 ML 基础主题。
国家研究型大学高等经济学院关于 Coursera 的“高级机器学习专业:这是俄罗斯研究人员提供的一套很棒的课程(共 5 门)。很好地涵盖了实用的深度学习技术以及基本概念。
【规模机器学习】Yandex 在 Coursera 上的文章:涵盖了使用 MLib/Spark 等的 ML 模型的部署和放大。
“机器学习加州理工课程” :之前在 edX 上，但后来移到了 Mostafa 教授的主页。链接点在那里。在机器学习和一般学习理论的深层数学方面，这是一门伟大的基础课程。
机器学习基础加州大学圣地亚哥分校 edX 上的“机器学习基础”:一门平衡的课程，教授 ML 中的核心理论和实践概念，重点是算法问题。

人工智能和博弈论

Photo by rawpixel on Unsplash

这些都是 AI 和博弈论相关的课程。

**Udacity 的“人工智能导论”课程 :你目前在网络上能找到的最全面的核心 AI 课程。它由两位著名的专家——巴斯蒂安·特龙和彼得·诺维格教授。它们涵盖的主题包括人工智能搜索算法、规划、表征逻辑、概率推理、机器学习、马尔可夫过程、隐马尔可夫模型(HMM)和过滤器、计算机视觉、机器人和自然语言处理。

哥伦比亚大学的“人工智能(AI)”edX上的课程:这也是对 AI 中本质话题的综合复习，只是在不那么严谨的层面上。这是对人工智能广泛领域的一个很好的介绍，涵盖的主题包括-智能代理的类型和定义，人工智能的历史，搜索，游戏，逻辑，约束满足问题，人工智能在自然语言处理(NLP)，机器人和计算机视觉中的应用示例。

斯坦福大学在 Coursera 上的博弈论:这是对博弈论精彩世界的一个很好的介绍(还很全面)，涵盖了所有基本主题，如纳什均衡、混合策略、相关均衡、子博弈完美、扩展形式、重复博弈和民间定理、贝叶斯博弈、联盟博弈。

【基于知识的人工智能:认知系统】由佐治亚理工学院在 Udacity 上举办:关于传统人工智能(或他们称之为 GOFAI)的综合课程，涵盖的主题包括——语义网络、手段和目的分析、基于案例的推理、增量概念学习、逻辑和规划、类比推理、约束传播和元推理。

强化学习

Photo by Franck V. on Unsplash

这些是强化学习相关的课程。

**佐治亚理工学院在 Udacity 上的“强化学习”课程:这可能是最全面的强化学习课程了。两位老师都非常博学，对这门学科充满热情。交付方式是会话式的，有趣的。它涵盖了所有的主题，如 MDP 基础知识、时间差异(TD)学习、价值和政策迭代、Q 学习、收敛特性、奖励成形、土匪问题、Rmax 分析、一般随机 MDP、状态概括、POMDP、期权、目标抽象技术、机制设计、蒙特卡罗树搜索、DEC-POMDP、政策评论家概念等。

实用强化学习，由国立研究型大学高等经济学院在 Coursera 上提供:这是另一个涵盖基本 RL 主题的非常全面的课程。与乔治亚理工学院课程的主要区别在于，它不包括博弈论讨论，而是提供更多关于深度 Q 学习的讨论。这是一门实践性更强的课程，教你构建 RL 代理的实用技巧(但不一定是完整的代码)。

其他相关主题

乌达城的“机器人人工智能”:这是一门很棒的小课程，专门关注人工智能在机器人领域的应用，授课老师不是别人，正是巴斯蒂安·特龙。他涉及的主题包括——定位、卡尔曼滤波器、粒子滤波器、高级人工智能搜索技术、PID 控制、SLAM(同步定位和绘图)等。

用于机器学习的数学专业化伦敦帝国理工学院 Coursera 上的:四门课程的伟大专业化，专门致力于建立机器学习的数学基础。它涵盖了——多变量微积分、线性代数和主成分分析(一个完整的短期课程)。

摘要

我希望给你一些免费在线课程的建议，这些课程涵盖了机器学习和人工智能的一些高级主题。在这篇文章中，我特别列出了 MOOCs，没有考虑自由形式的视频讲座(斯坦福 CS229 课程除外)。当然，你可以从各个大学的在线平台上搜索这样的视频讲座，它们通常质量很高。

祝你在学习这些令人兴奋的话题的旅途中取得巨大成功！

如有问题或想法分享，请联系作者tirthajyoti【AT】Gmail . com。此外，您可以查看作者的 GitHub 资源库 中其他有趣的 Python、R 或 MATLAB 代码片段和机器学习资源。如果你像我一样对机器学习/数据科学充满热情，请随时在 LinkedIn 上添加我或在 Twitter 上关注我。

** [## Tirthajyoti Sarkar - Sr .首席工程师-半导体、人工智能、机器学习- ON…

查看 Tirthajyoti Sarkar 在世界上最大的职业社区 LinkedIn 上的个人资料。Tirthajyoti 有 8 份工作…

www.linkedin.com](https://www.linkedin.com/in/tirthajyoti-sarkar-2127aa7/)**

您的数据科学团队可能失败的 3 个阶段是什么？

原文：https://towardsdatascience.com/what-are-the-3-stages-where-data-science-teams-fail-e9f8bcd86825?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在分析成熟度的每个阶段，技能、工具和流程的正确组合是什么

今天，大多数组织都声称是人工智能驱动的。这到底是什么意思有待解释。一些组织可能正在制作 excel 报表，而其他组织可能正在构建认知模型。但是，事实是，每个人都渴望在分析中发挥作用。

但是最大的问题是，我们应该从哪里开始呢？

应该从哪里寻找人才？团队应该如何组织？他们如何扩大规模以避免不可避免的、缓慢的死亡，这是大多数团队面临的问题？在数据科学团队的早期阶段行之有效的方法，在几年后，在他们实现最初的承诺后，就不再适用了。

随着数据科学市场的不断发展，没有标准的指导方针可以遵循。本文旨在填补这一空白。

首先，数据科学团队的需求是什么？

根据任何分析师的估计，公司正投入数千亿美元来解决数据问题。关键问题是得出可以推动业务决策的可行见解。一提到“分析”这个词，人们就会联想到预测模型和花哨的算法。

然而，只有在相关业务环境中正确应用相关技术，数据科学才能带来价值。即使是最简单的探索性分析，如果做得正确，也会带来丰厚的回报。人工智能有其应有的地位，但它不是解决所有数据问题的银弹。

数据科学团队发展的 3 个阶段是什么？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Todd Diemer on Unsplash

让我们看看如何着手孵化一项数据科学实践或一家提供分析服务的初创公司。从建立 Gramener 的经验中，我将追踪成长的三个不同阶段，每个阶段需要的重点领域和技能，并分享如何获得合适人才的智慧。

令人惊讶的是，这种数据科学团队的规模与我们的祖先多年来建造避难所的方式有几个相似之处。因此，为了增添一些乐趣，让我们将每个阶段与建造房屋的类比进行对比，并追溯不同时期的复杂程度:石器时代、中世纪和现代。

第一阶段:“临时营地”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Pic by José-Manuel Benito — Own work, Public Domain on wikimedia)

启动数据科学实践的最佳方式是直接投入，确定挑战的优先级，并提供一套现成的工具。人们必须挑选几个可以通过数据解决的紧急和关键的业务问题，而不是煮沸海洋。分析是一个漫长的旅程，开始的工作是成功的一半。

类似地，为理想的技能组合做过多的准备会导致分析瘫痪。船上的多面手，能够涵盖许多分析所需的技能的人(比如统计、编程和信息设计)，即使只是有限的深度。需要的是幸存者，他们在匮乏中茁壮成长，身兼多职，并注入活力来解决任何特定的挑战。

雇佣这样的初创阶段的超级明星需要非常规的方式。避开所有正规渠道。接入你的网络，在会议上发言和联系，通过技术传播者发出试探。这些早期的人不是为了工作或额外津贴而来，而是为了满足他们原始激情的自由挑战。

从你所在的地方开始。利用你所拥有的。尽你所能。——阿瑟·阿什

在我们的房屋建筑类比中，我们现在处于石器时代。为了满足基本的生理需求，穴居人建造了基本的、功能性房屋。帮助选择可行的地点、收集原材料、设计最粗糙的架构的通才技能，以及“完成工作”的常识就是所需要的全部。

第二阶段:“茅草屋”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Pic by OpenClipart-Vectors / 27440 images)

在最初的团队取得小胜利并确立目标后，数据科学团队可以开始向邻近的用例展开。慢慢扩大所解决问题的范围，加深与用户的伙伴关系。最初的试点现在可以发展成跨越一个季度或一年的长期计划。

展示增强的投资回报率，以证明下一级投资需求的合理性。虽然事情可能开始朝着对你有利的方向发展，但是在这个过渡阶段要避免过度承诺。开始专业化，投资于几个更深的领域(比如销售分析、 NLP )，同时继续保持浅层次，完成其他领域的工作(比如设计)。

随着多面手继续主持节目，开始填补更专业的角色。通过黑客马拉松、专业精修学校扩大招聘渠道，同时将现有员工提升到数据科学领域。开始根据所选的几个专业领域组织团队，同时保持视野开阔，反应敏捷。

前进，永不停止，因为前进就是完美。哈利勒·纪伯伦

随着人类的前进，房屋建筑的复杂程度迅速提高。效率和效果来自于稍微好一点的原材料和少数像泥瓦匠这样的核心角色，而多面手涵盖了其余部分。尽管梦想比头顶上的多一点点，功能&目的才是至高无上的。

第三阶段:“富丽堂皇的家”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(Pic by pngtree)

作为一个不断发展的实体，数据科学团队现在基本上是一个成熟的业务部门。凭借专业领域的专业知识和对所有关键数据科学技能领域的掌握，该团队现在已准备好处理广泛领域中足够复杂的问题。

不再面临生存挑战，团队的任务可以深深地融入到涉众的长期业务目标中。团队的结构可以是垂直排列的，或者是水平排列的技术卓越中心，或者是介于两者之间的混合矩阵结构。

用成熟的招聘流程和内部招聘人员推动快速增长的业务。对于庞大而多样的人数，通过增加传统渠道，广撒网招人。至关重要的是，在保持早期通才、满足专家期望的同时，还要标准化流程以扩大组织规模。

完美是不可达到的，但是如果我们追求完美，我们就能赶上优秀。——文斯·隆巴迪

快进到现代，我们有规模经营的建筑公司。专业组织拥有房屋建筑的各个方面，如设计、建筑、工程。虽然形式和功能被认为是理所当然的，但它承诺的是更高的生活质量和细微的方面，如优雅和可用性。

摘要

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3 Stages of Data Science teams evolution: Summary Illustration

我们已经了解了数据科学团队发展的 3 个关键阶段。第一部分的重点是采取小步快速起步，完成小目标。第二种方式是通过提升特定领域的能力，同时在所有其他领域保持多面手的地位，迈出有分寸的步伐。

最后，第三种方式更像是在跑马拉松，你必须集中精力，正确处理，并做好长期高效工作的准备。因此，每个阶段的重点、技能、招聘渠道以及组建团队的指导方针在这三个阶段都有很大的不同。

未能认识到这种区别可能会被证明是致命的做法，而熟练地处理这些细微差别可以作为释放增长的硝基助推器。贯穿这三个方面的关键原则是提供可操作的见解，推动业务决策并为数据科学投资带来投资回报。

如果你觉得这很有趣，你会喜欢我写的这些相关文章:

对数据科学充满热情？随时在LinkedIn上加我，订阅我的 简讯。

数据科学中的关键技能有哪些？

原文：https://towardsdatascience.com/what-are-the-key-skills-in-data-science-99415719e9e1?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为关于数据科学所需技能和经验的 白系列访谈 的一部分，我形成了以下关于数据科学、管理和团队建设的想法。

在数据科学访谈系列的第四部分 中， 管理分析 团队采访了 Lee Schlenker。他是商业分析和社区管理教授，也是商业分析学院的负责人之一。他的研究兴趣包括分析、决策和社区管理。他们讨论了商业中对数据科学技能和数据文化的需求。

“作为一名从业者、演讲者和顾问，我努力帮助学生和管理从业者理解数据如何改善管理决策。在我的研究生和高管会议和任务中，我对数据科学的愿景——“商业分析 4.0 ”建立在四个支柱上:理解数据在当今经济中扮演的角色，研究密切影响人类决策的认知过程，将机器学习应用于企业试图解决的特定类型的问题，以及帮助他们将数据转化为可操作的决策。在过去的一周里，商业分析研究所一直在采访专业人士，内容涉及数据科学中的技术、认知和商业技能，以及人力资源如何识别合适的候选人。在这里，我想谈谈我对这些技能在数据科学中的重要性的看法。”

贸易技能指的是对每个市场的商业逻辑、组织和公司资源货币化的理解。数据科学经理需要有良好的业务背景，以便分析数据如何反映业务实践的现实。

“管理主要是帮助内部和外部客户做出更好的决策。由于人类的决策会受到对风险、不确定性和模糊性的感知的影响，数据科学的作用是帮助管理层根据他们面临的问题(或机会)的性质做出最佳决策。数据科学是一种思维方式，而不是一套技能——管理候选人需要证明他或她通过分析方法“解决”业务问题的能力:评估背景(行业和企业业务模式的逻辑)，确定问题的根源，评估可供您使用的数据的质量，选择正确的方法来解决问题，并利用数据为集体行动创造条件。”

技术技能，指的是数据科学和管理，远不止是计算机知识；它需要了解行业中使用的算法和技术，以及如何将它们应用到业务需求中。

“技术技能涵盖的远不止计算机知识，技术是我们用来与客户和组织互动的工具的同义词。在研究软件和算法之前，管理候选人需要掌握技术在他们希望工作的行业和组织中是如何使用的。随着数字化转型中的创新站稳脚跟，这些技术确实在不断发展——竞争优势的基础源于当前技术如何捕获、聚合和交流数据，以及机器学习背后的分析方法如何促进意义的形成。最后一点是判断一个经理应该了解多少技术知识的关键——候选人应该对数据、数据存储、算法和软件有足够的了解，以帮助他或她的客户理解他们所掌握的数据。”

认知技能指的是理解人们如何解读他们看到的数据，以及他们如何利用数据来煽动行动。人们从不同的角度看待数据，优秀的数据科学经理会在手头问题的背景下从数据中寻找解决方案。

“数据科学的目标不是让机器变得更智能，而是帮助人们做出更好的决策。让我们记住，软件是由人编写的——最好的算法并不比编写它们的人更好。人们从不同的角度看待数据，因为他们从不同的角度看待价值。同样，我们数据的价值并不来自数据本身，而是来自使用它的环境。Kahneman 和 Tversky 在行为经济学方面的工作是非常重要的。在这里，管理者需要理解数据呈现的环境如何在解决具体问题时调节其感知价值。同样，格式塔原理和视觉传达的各种工作提供了数据如何或能够转化为行动的关键。"

人力资源招聘人员在招聘时应该更具分析性，通过测试应聘者所申请公司的真实数据问题来评估他们。

“我强烈建议将分析方法应用于我们如何接触人力资源。由于许多客户公司并不完全确定他们需要什么样的技能和能力，招聘人员可以从研究公司背景开始，以了解这个职位应该解决哪些问题或机会。在评估候选人的资历时，招聘人员最好调查一下候选人的数据测试如何揭示他或她的经历、过去的任务和成就，而不是看他们的简历。面试本身可以被设计成反映候选人在工作中将要面临的问题类型。最后，他或她的视觉沟通技巧应该在面试过程中展示出来。如果候选人的知识可以在电脑后面测试，那么候选人对公司的价值应该在他或她未来的同事面前测试。”

当今最好的人力资源机构可以通过紧跟该领域的最新趋势来识别优秀的数据科学家。

“我们在这里假设，公司或咨询公司以一致和统一的方式招聘——不幸的是，情况很少如此。脑海中浮现出某些项目经理和顾问，他们似乎在公司文化和与数据科学团队合作方面分享了大量经验。他们追随行业的发展，更倾向于关注问题的解决，而不是追随硬件和软件的最新趋势。最后，他们通常与顶级大学和专业协会都有密切联系，这使他们能够监控候选人库，以满足他们团队(或客户)的未来需求。”

Lee Schlenker 是 http://baieurope.com PAU 商学院的教授，同时也是商业分析学院的负责人。 他的 LinkedIn 简介可以在www.linkedin.com/in/leeschlenker.查看这是 商业分析研究所 关于数据科学和数据科学技能的一系列面试的一部分。

阅读白对数据科学专业人士的其他访谈系列:

白访谈系列:Yves Mulkers 关于数据科学的技巧

白访谈系列:Davy Cielen 谈数据科学技巧

白访谈系列:麦肯恩院长谈数据科学技巧

一个伟大的数据科学经理具备哪些素质？

原文：https://towardsdatascience.com/what-are-the-qualities-of-a-great-data-science-manager-6c936240cbb?source=collection_archive---------2-----------------------

这是我被问了很多次的事情。

首先，让我陈述一个显而易见的事实:数据科学经理通常需要成为优秀的经理。现实是，大多数技术人员、开发人员和科学家并不真正关心经理——或者只是把他们当作必要的开销。然而，正如各种高调实验所证明的那样，最好的管理者对团队的表现有着巨大的影响。

一个好的经理有远见，以目标为导向，关心团队，听取他们的决定，是一个导师和教练，授权和激励团队成员，避免微观管理。所有的软件工作都需要这样的管理者。

最重要的是，数据科学工作提出了自己独特的挑战，因为它是多学科的，新的，迭代的，工作流令人困惑，结果往往难以解释和说明，行话很多，数学对于不熟悉它的人来说很棘手，一些模型是一个黑盒，并且有关于什么可以做什么不可以做的宣传。

斯坦教授是这样说的:

成功管理一个数据科学团队需要的技能和理念不同于管理其他聪明的专业人员团队。明智的做法是意识到可能出现的潜在组织摩擦和权衡。

那么，一个伟大的数据科学(产品)经理还需要具备哪些特质呢？我认为高效的数据科学经理有 5 个品质:

平衡跨数据、数学/统计、机器学习和软件领域的技术差异，并将它们与业务背景和价值联系起来
通过在全局水平上做出贡献(是否有盲点，我们是否在正确的轨道上，挑战假设)以及提供关于决策(例如模型选择、不确定性水平)和解释的反馈，赢得技术团队的尊重和信任，更重要的是，
增加结构(例如，工作流、具有反馈循环和代码审查的敏捷流程、代码库、文档)，吸收冲击和消除障碍，识别脱节(例如，业务和数据科学之间或数据科学和开发运营之间)并建立共识，促进平稳的工作环境，管理工作量，设定节奏并保持质量
掌控关键工作流程领域，如数据采集、数据质量、确定最重要方面的优先级、结果展示等
知道如何为现实世界的应用推出数据科学解决方案…计划、管理或协调实现业务价值所需的业务流程变更、生产级代码和 IT 运营

Balázs Kégl 谈到了“形式化者”，这是数据科学家的一个特殊类别。下面是稍微编辑过的的帖子节选(方括号是我的)。

他们掌握在数据科学方面什么是可能的，在业务方面什么是需要的【有价值的、可行的】。他们能够流利地与领域专家交流，将业务目标转化为损失[技术]指标。他们形式化数据科学原型工作流(但他们不一定构建它们)。他们可以定义和确定数据收集工作的规模，并估计其成本。他们还可以估计构建和调整工作流并将其投入生产所需的工作量。

简而言之，数据科学形式化者拥有做出关于构建以数据为中心的产品的明智决策的所有要素。

当然，上面提到的每一点都可以添加很多细节，但重点是开始一场对话。你怎么想呢?有什么需要补充的吗？有什么故事可以分享吗？

参考资料:

[## 为什么管理数据科学家与众不同

成功管理一个数据科学团队需要的技能和理念不同于那些在…

sloanreview.mit.edu](http://sloanreview.mit.edu/article/why-managing-data-scientists-is-different/)

斯坦福大学的人工智能讲座https://www.youtube.com/watch?v=21EiKfQYZXc

https://medium . com/forward-data-science/the-data-science-ecosystem-industrial-edition-938582427466

工作规则！:来自谷歌内部的洞见将改变你的生活和领导方式作者:拉兹洛·博克

TED 中反复出现的话题是什么

原文：https://towardsdatascience.com/what-are-the-recurring-topics-in-ted-8392cf9f3fb?source=collection_archive---------2-----------------------

今天我探索了 TED 演讲和 T2 数据，他们的话题和观众。

鉴于 TED 上想法的多样性，演讲通常有几个相关的主题和标签。

为了可视化各个主题及其各种组合的频率，我使用了 R/python/D3 中的一个工具，名为 UpSet ，它是由一组哈佛研究人员开发的，使用矩阵、条形图和附加属性图来描述部分到整体的关系以及不同集合的交集。

首先，我研究了前 30 个主题的频率(总共 48 个主题)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到:

创意火花是最常见的主题
顶级主题关注非传统智慧、前瞻性思维和有意义的故事
常见的组合主题包括艺术的不寻常和创造性的火花，壮观的表演和创造性的火花，什么让我们快乐&大脑是如何工作的

同样，我查看了标签/主题，因为有 289 个标签/主题，所以我偷偷查看了涵盖一半讲座的前 30 个标签/主题，所以这仅反映了这 30 个标签内的讲座，不包含其他标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看到:

技术、文化、科学、全球问题和设计是热门话题
科学与技术，设计与技术，生物与科学，全球问题与文化，以及音乐，艺术与娱乐是一些反复出现的组合主题

接下来，我按主题查看了 2001 年至 2012 年间观点和喜好最多的会谈。鉴于一个演讲会出现在不止一个主题中，我将把它列为下一个最受欢迎的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

肯·罗宾逊 2006 年关于学校扼杀创造力的演讲是有史以来点击率最高的演讲，有 1200 万次点击率，是 3K 的最爱。

看看标题中的关键词也能让我们对主题有所了解。以下是 TED 演讲题目中最常见的 10 个动词、形容词和名词:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在会谈的内容中，在总共 1000+次会谈中,“人民”一词出现在《10K 时报》周围。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

寻找 TED 演讲的特点
 TED 演讲人的职业

这是我关于数据科学和视觉故事的# 100 日项目的第 60 天。我的 github 上的全部代码。感谢阅读。如果喜欢，请分享。欢迎新主题的建议和反馈。

成为一名数据科学家需要具备哪些技能？

原文：https://towardsdatascience.com/what-are-the-skills-needed-to-become-a-data-scientist-in-2018-d037012f1db2?source=collection_archive---------5-----------------------

根据 Glassdoor 的数据，数据科学家是 2017 年美国排名第一的职业。这并不奇怪，因为该领域的平均基本工资为 123，000 美元。尽管如此，数据科学就业市场远未饱和，仅在美国就估计短缺 19 万名专家。如果你正在考虑转向数据科学的职业生涯，2018 年将提供大量有利可图的机会。这篇文章的目的是让人们更清楚地知道在 2018 年成为一名数据科学家需要什么。

为了揭示这个不断发展的领域，我们在 2017 年底进行了一项关于这个主题的研究。这项研究包括从 1，001 份 LinkedIn 简历中收集数据，这些简历中的人目前都有“数据科学家”的头衔。这群人被分为两组——在财富 500 强公司工作的人和在其他地方工作的专业人士。此外，该样本包括在美国(40%)、英国(30%)、印度(15%)和其他国家(15%)工作的数据科学家。因此，数据是从具有各种背景的数据科学家那里收集的，以限制偏见。

典型的数据科学家特征

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A male, who speaks at least one foreign language, and has a second-cycle academic degree (Master’s or PhD). He has been in the workforce for 4.5 years, after taking him 2 years to land the title. R and Python are the preferred coding languages, followed by SQL.

人们不禁会注意到，数据科学专业在很大程度上是由男性主导的，他们占样本的 70%。尽管如此，随着该领域的巨大需求，每个有知识的人在该行业都有一席之地。所以如果你恰好是女性，请不要气馁，继续读下去。

数据科学家需要哪些顶级技能？

以下是科学家在个人资料中发布的最常见的技能数据。

**R 和 Python 是主导数据科学领域的编程语言。**据报道，53%的数据科学家能够“说”R 和/或 Python。请注意，它们可能会重叠，因为一些数据科学家同时使用两种语言。

在不断变化的数据科学世界中，这些是专业人员在工作中使用的最新工具。r 和 Python 是最基本的编程语言，每个打算进入这个行业的人都应该学习。

尽管数据表明 R 是使用更广泛的语言，但是根据 Stack Overflow 社区的说法，考虑将 Python 放在你的待办事项列表的首位，因为这是发展最快的编程语言。很可能到 2019 年，Python 的受欢迎程度将大大超过其他编码语言。它的灵活性和相对易用性是 Python 脱颖而出的主要原因。

数据科学的其他流行语言有:

SQL (40%)

MATLAB (19%)

Java (18%)

C/C++ (18%)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

渴望了解更多信息？

我们发现，拥有 SAS、LaTex、Hadoop 或 Tableau 也有好处。在基础之外扩展你的技能可以显著提高你获得数据科学家职位的机会。

工作经验

鉴于数据科学家这一职业最近才出现，数据科学家的工作经验中位数为 2 年也就不足为奇了。如果你申请的是一个数据科学职位，而之前没有该领域的经验，你也不必感到尴尬。你不会是第一个。在我们的样本中，只有 36%的数据科学家曾经是他们之前工作的数据科学家。这个领域有很大的发展空间。另外 64%的人的职位是什么？嗯，最常见的背景是分析师(19%)、IT 专家(16%)或学者(12%)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此外，8%的人在获得数据科学家工作之前是实习生。

从底层开始，那些人实现了梦想。所以，你能不能！

教育和培训

大多数从事数据科学家工作的专业人士都受过高等教育。事实上，调查结果表明，大约 75%的数据科学家拥有博士或硕士学位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

另一方面，一个花哨的学位并不是必须的。研究样本中大约 25%的数据科学家毕业于“未排名的大学”。换句话说，你的大学是否在“泰晤士高等教育”排行榜上，并不一定会决定你在数据科学领域开始职业生涯的机会。

此外，只有 13%的专业人员参加了数据科学和分析大学项目。大多数数据科学家拥有计算机科学(20%)、统计和数学(19%)或社会科学(19%)学位。只要你有一些定量的背景知识，你就有可能踏入数据科学的大门。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，你不一定要参加额外的学术项目来获得工作所需的技能。如果你想提升你的技能，在线课程是一个可行的选择。近 40%的数据科学家在他们的 LinkedIn 简历中报告注册了在线课程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就业行业

一旦你掌握了技能，你需要卷起袖子去找工作。那么，数据科学找工作最好的行业是什么？在英国和美国的就业市场，你很可能会被工业公司(制造业、快速消费品、公用事业、咨询等)聘为数据科学家。).然而，印度的情况并非如此，那里大多数(68%)的数据科学家受雇于科技和 IT 公司。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗保健和金融行业似乎也需要数据科学家，占整个样本的 14%和 6%。

雇佣公司

你觉得自己是在财富 500 强中还是更被小公司吸引？不管公司层级如何，似乎各种规模的公司都雇佣了能够用 R、Python、SQL 和 Matlab 编程的数据科学家。然而，如果你要去一家财富 500 强公司，SAS 和 Hadoop 可能会派上用场。图表之外的公司很少需要能够使用 Hadoop。在 F500 中，大数据为王，这对于较小的公司来说是不正确的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是数据科学专业在 2017 年底的样子，也可能是整个 2018 年的样子。好消息是，即使你没有匹配的学位或足够相关的工作经验，你仍然可以赶上相关的技能和工具。如果你对数据和终身学习充满热情，2018 年是开始从事数据科学家职业的时候了。

你可以在这里阅读完整的研究。

机器学习的类型有哪些？

原文：https://towardsdatascience.com/what-are-the-types-of-machine-learning-e2b9e5d1756f?source=collection_archive---------1-----------------------

面向普通人的机器学习:为普通人编写的机器学习类型分析。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习

在高层次上，机器学习只是研究如何教会计算机程序或算法逐步改进给定的任务。在事物的研究方面，机器学习可以通过这个过程如何工作的理论和数学模型来看待。然而，更实际的是研究如何构建展示这种迭代改进的应用程序。有许多方法来构建这个想法，但大体上有三个主要的公认类别:监督学习、非监督学习和强化学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在一个被人工智能、机器学习和过度热衷于谈论这两者的世界里，学习理解和识别我们可能遇到的机器学习类型是一件有趣的事情。对于普通计算机用户来说，这可以采取理解机器学习的类型以及它们如何在我们使用的应用程序中展示自己的形式。对于创建这些应用程序的从业者来说，了解机器学习的类型是至关重要的，这样，对于您可能遇到的任何给定任务，您都可以创建适当的学习环境，并了解为什么您所做的工作有效。

监督学习

监督学习是最流行的机器学习范式。它最容易理解，也最容易实现。这非常类似于教一个孩子使用闪存卡。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

给定带有标签的示例形式的数据，我们可以将这些示例-标签对一个接一个地馈送给学习算法，允许算法预测每个示例的标签，并向它提供关于它是否预测了正确答案的反馈。随着时间的推移，该算法将学习近似示例及其标签之间关系的确切性质。经过充分训练后，监督学习算法将能够观察到一个新的、从未见过的例子，并为它预测一个好的标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，监督学习通常被描述为面向任务的。它高度专注于一个单一的任务，向算法提供越来越多的例子，直到它能够准确地执行该任务。这是您最有可能遇到的学习类型，因为它在以下许多常见应用程序中都有展示:

广告流行度:选择表现良好的广告通常是一项监督学习任务。当你浏览互联网时，你看到的许多广告被放在那里，因为一个学习算法说它们有合理的流行度(和可点击性)。此外，它在某个网站上或与某个查询(如果你发现自己使用搜索引擎)相关联的位置在很大程度上是由于一个习得的算法，该算法认为广告和位置之间的匹配将是有效的。
垃圾邮件分类:如果你使用现代电子邮件系统，你可能会遇到垃圾邮件过滤器。垃圾邮件过滤器是一个监督学习系统。Fed 电子邮件示例和标签(垃圾邮件/非垃圾邮件)，这些系统学习如何先发制人地过滤掉恶意电子邮件，以便其用户不会受到它们的骚扰。其中许多还以这样的方式运行，即用户可以向系统提供新的标签，并且系统可以学习用户偏好。
人脸识别:你用脸书吗？最有可能的是，你的脸已经被用于一个被训练来识别你的脸的监督学习算法中。拥有一个可以拍照、识别人脸、猜测照片中的人(建议使用标签)的系统是一个受监督的过程。它有多个层次，找到面孔，然后识别他们，但仍然受到监督。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

无监督学习

无监督学习与监督学习完全相反。它没有标签。相反，我们的算法将被输入大量数据，并被赋予理解数据属性的工具。从那里，它可以学习分组、群集和/或组织数据，以便人类(或其他智能算法)可以进入并理解新组织的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

无监督学习之所以成为一个如此有趣的领域，是因为这个世界上绝大多数的数据都是未标记的。拥有智能算法，可以获取我们数万亿字节的未标记数据，并对其进行理解，这是许多行业潜在利润的巨大来源。仅此一项就可以帮助提高许多领域的生产率。

例如，如果我们有一个包含所有已发表的研究论文的大型数据库，并且我们有一个无监督的学习算法，知道如何以这样一种方式对这些论文进行分组，以便您始终了解特定研究领域的当前进展，会怎么样？现在，你开始自己启动一个研究项目，将你的工作钩入这个算法可以看到的网络。当你写下你的作品并做笔记时，该算法会向你提出相关作品的建议，你可能希望引用的作品，甚至可能帮助你推进该研究领域的作品。有了这样的工具，你的工作效率会大大提高。

因为无监督学习是基于数据及其属性，我们可以说无监督学习是数据驱动的。无监督学习任务的结果由数据及其格式化方式控制。您可能会在以下领域看到无监督学习:

推荐系统:如果你曾经使用过 YouTube 或网飞，你很可能会遇到一个视频推荐系统。这些系统经常处于无人监管的领域。我们知道关于视频的事情，也许它们的长度，它们的类型，等等。我们也知道很多用户的观看历史。考虑到用户已经观看了与你相似的视频，然后欣赏了你尚未观看的其他视频，推荐系统可以在数据中看到这种关系，并向你提示这样的建议。
购买习惯:你的购买习惯很可能包含在某个地方的数据库中，而这些数据此时正在被积极地买卖。这些购买习惯可以在无监督学习算法中使用，以将客户分组到相似的购买细分中。这有助于公司向这些分组的细分市场营销，甚至可以类似于推荐系统。
对用户日志进行分组:面向用户较少，但仍然非常相关，我们可以使用无监督学习对用户日志和问题进行分组。这可以帮助公司识别其客户面临的问题的中心主题，并通过改进产品或设计 FAQ 来处理常见问题来纠正这些问题。无论哪种方式，它都是积极完成的事情，如果你曾经提交过产品的问题或提交过错误报告，它很可能会被输入到无监督的学习算法中，与其他类似的问题进行聚类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

强化学习

与监督和非监督学习相比，强化学习是相当不同的。我们可以很容易地看到监督和非监督之间的关系(标签的存在或不存在)，与强化学习的关系有点模糊。一些人试图将强化学习与这两者联系起来，将它描述为一种依赖于时间依赖的标签序列的学习，然而，我的观点是，这只会使事情更加混乱。

我更愿意把强化学习看作是从错误中学习。将强化学习算法放在任何环境中，它在开始都会犯很多错误。只要我们向算法提供某种信号，将好的行为与积极的信号相关联，将坏的行为与消极的信号相关联，我们就可以加强我们的算法，使其更喜欢好的行为而不是坏的行为。随着时间的推移，我们的学习算法学会犯比以前更少的错误。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

强化学习是非常行为驱动的。它受到神经科学和心理学领域的影响。如果你听说过巴甫洛夫的狗，那么你可能已经熟悉了强化代理的想法，尽管是生物代理。

但是，要真正理解强化学习，我们来分解一个具体的例子。让我们看一下教代理玩游戏马里奥。

对于任何强化学习问题，我们都需要一个代理和一个环境，以及一种通过反馈回路连接两者的方法。为了将代理连接到环境，我们给它一组可以影响环境的操作。为了将环境与代理连接起来，我们让它不断地向代理发出两个信号:一个更新的状态和一个奖励(我们对行为的强化信号)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在马里奥这个游戏中，我们的智能体就是我们的学习算法，我们的环境就是游戏(很可能是特定的关卡)。我们的代理有一套动作。这些将是我们的按钮状态。我们的更新状态将是每一场比赛帧久而久之和我们的奖励信号将是分数的变化。只要我们将所有这些组件连接在一起，我们就建立了一个强化学习场景来玩游戏马里奥。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现实世界中强化学习在哪里？

电子游戏:强化学习最常见的地方之一就是学习玩游戏。看看谷歌的强化学习应用，哪个学围棋的 AlphaZero 和 AlphaGo。我们的马里奥例子也是一个常见的例子。目前，我还不知道有任何生产级游戏将强化学习代理部署为其游戏 AI，但我可以想象，这将很快成为游戏开发者采用的一个有趣的选择。
工业模拟:对于许多机器人应用来说(想想装配线)，让我们的机器学习完成它们的任务而不必硬编码它们的过程是很有用的。这可能是一个更便宜、更安全的选择；它甚至更不容易失败。我们也可以激励我们的机器使用更少的电力，以节省我们的钱。更重要的是，我们可以在模拟中开始这一切，以便在我们可能损坏机器时不浪费金钱。
资源管理:强化学习有利于在复杂环境中导航。它可以处理平衡某些需求的需要。以谷歌的数据中心为例。他们使用强化学习来平衡满足我们的电力需求的需要，但尽可能高效地做到这一点，从而削减主要成本。这对我们和普通人有什么影响？我们的数据存储成本更低，对我们共享的环境影响更小。

把这一切联系在一起

既然我们已经讨论了机器学习的三个不同类别，重要的是要注意，这些学习类型之间的界限很多时候是模糊的。不仅如此，有许多任务可以很容易地被表述为一种学习类型，然后转换成另一种范式。

例如，以推荐系统为例。我们把它作为一个无监督的学习任务来讨论。它也可以很容易地重新表述为一个监督的任务。给定一堆用户的观看历史，预测某部电影应该推荐还是不推荐。这样做的原因是，最终，所有的学习都是学习。这只是我们表述问题陈述的方式。某些问题更容易用这样或那样的方式表达。

这也凸显了另一个有趣的想法。我们可以混合这些类型的学习，设计系统的组件，以这样或那样的方式学习，但在一个更大的算法中集成在一起。

扮演马里奥的特工？为什么不赋予它识别和标记敌人的监督学习能力？
对句子进行分类的系统？为什么不让它有能力利用句子意思的表达，通过无监督的过程学习呢？
想要将社交网络中的人分组到关键细分市场和社交群组中吗？为什么不加入一个强化过程来提炼一个人的表征，这样我们就可以更准确地对他们进行聚类？

同样，我认为我们都了解一点机器学习是非常重要的，即使我们自己永远不会创建一个机器学习系统。随着机器学习在我们每天使用的一切事物中变得越来越普遍，我们的世界正在发生巨大的变化。理解基本原理将帮助我们驾驭这个世界，揭开看似崇高的概念的神秘面纱，让我们更好地思考我们使用的技术。

如果你有任何问题，让我知道！我自己仍然在学习人工智能领域的很多东西，讨论有助于加深理解。

如果你喜欢这篇文章或者觉得它有任何帮助，如果你给我一两美元来资助我的机器学习教育和研究，我会永远爱你！每一美元都让我离成功更近一步，我永远心存感激。

原主办:【hunterheidenreich.com】

还有比现在更好的时机吗？

原文：https://towardsdatascience.com/what-better-time-than-now-c7171cf8910e?source=collection_archive---------22-----------------------

艺术和想要改变世界是如何引导我走向数据科学的

数据在理解我们周围的世界中起着至关重要的作用。在我意识到数据的价值之前，我一直在以这样或那样的方式处理数据。现在我参加了一个沉浸式数据科学项目。这里有一点是关于我的旅程的:

在肯塔基大学，我是后来成为“绿点计划”的试点小组成员。我可以列举出遭受暴力或跟踪的女性的统计数据。然而，我知道有太多的人正在经历不符合“男人对女人的暴力”范式的暴力。我不得不就一个遗漏了很多人的框架提出问题。

后来，在佛蒙特大学的社会工作硕士项目中，我继续追寻这些问题。这包括利用国家调查数据研究性别和亲密伴侣暴力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Exploratory chart I created for a 2011 project on Gender and Intimate Partner Violence

在 MSW 项目中，我还承担了一个更密集的数据项目，作为我实地工作的一部分。我所在的组织调查了佛蒙特州的所有公立学校，以评估 LGBTQ+青年的学校氛围。在过去，这是一个由学校管理者完成的五个问题的调查。我把它变成了一个更全面的学生调查。

新的调查对学校氛围有了更准确的了解。100%的学校管理者报告说，他们有一个法律要求的反欺凌政策。然而，许多学生报告说，学校工作人员目睹了欺凌行为，却无动于衷。令我印象深刻的发现是:同性恋学生在许多指标上与异性恋或异性恋学生表现相似。被认定为双性恋、同性恋、质疑者或跨性别者的学生报告了不成比例的更高的暴力、精神健康挑战和缺乏资源的比率。

我对数据的欣赏也是通过我的艺术背景发展起来的。我曾宣称摄影是我美术学士学位的重点，然而我的兴趣和实践更多的是跨学科的。

我从像菲利克斯·冈萨雷斯-托雷斯这样的人的作品中找到了灵感。他用普通的材料来描述艾滋病流行、枪支暴力和历史上的重大事件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Untitled” (Portrait of Ross in L.A.) by Félix González-Torres. (photo: mark6mauno, CC BY-NC 2.0)

哈桑·埃拉希的追踪瞬变项目也引起了我的共鸣。作为对被列入政府观察名单的回应，他开始过度分享自己的生活:去过的每个机场，吃过的每顿饭，用过的每个厕所。该项目提出了关于隐私、我们共享的数据以及如何使用这些数据的问题。

后来，乔纳森·哈里斯的许多项目鼓励我继续思考艺术、数据和讲故事的交叉。在我们感觉很好中结合使用实时数据、情感分析和交互性让我大开眼界。为了好玩，我会继续学习社交网络分析和数据可视化之类的课程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2013 social network analysis of my Facebook account made with Gephi

“危机短信热线”是数据科学在社会公益方面的首批应用之一，它一直困扰着我。当执行董事和我都向 Hive Chicago 展示我们各自的项目时，我第一次知道了这件事。短信热线是一个重要的资源，我与和我一起工作的年轻人以及其他关心年轻人的人分享。但我特别兴奋地看到他们在理解危机趋势方面取得的进展，以便提供更有效的支持。正如董事会成员 DJ Patil 解释:“如果发短信的人带有‘布洛芬’一词，他们主动自杀的可能性会增加 16 倍(‘桥牌’是 8 倍，‘今晚’是 3 倍)，危机顾问可以立即开始风险评估，以帮助降低短信者的情绪。”

在过去的三年里，我的工作重点是在高中和大学学生中预防艾滋病和药物滥用。该职位包括更新、实施和分析当地青少年风险行为调查。我们用这些结果来指导我们自己的工作。

2016 年，我们带着一些高中同辈领导去了 CADCA 年中培训学院。框架研究所的 Moira O’Neil 做了主旨发言。放了四张幻灯片后，我的同事向我伸出手:“请不要因为它们而离开我们！”我笑了，但是我的同事是对的——框架的焦点和方法正好符合我的胃口。在奥尼尔在那次演讲中分享的所有东西中，这是我最大的收获:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

From Moira O’Neil’s presentation “Framing Change: A Strategic Approach to Communications”

主要观点是:如果你试图围绕一个问题推动改变，分享一个使这个问题人性化的故事。这可能是一个问题如何影响一个人的故事。下一步，包括数据，以显示问题的规模超出了个人。如果你停在这里，人们会变得不太可能支持改变，因为问题感觉太大了。但是，当你将一个故事和数据与可行的解决方案结合起来时，人们更有可能支持改变，而不仅仅是一个故事。

虽然我以前听说过这种说法，但我从未见过它被形象化。终于卡住了。自从第一次看到这个图表以来，我已经多次分享了它的简化版本。我们高中的同龄人领导小组用它来思考如何为自己辩护，并在他们的社区创造变化。它为我在全组织一级的种族和性别平等倡议方面的工作提供了信息。

不幸的是，在新政府的领导下，我被聘用时所依据的联邦研究基金不再提供了。随着拨款截止日期的临近，我面临着不确定性，不知道我是否还会有一份工作，或者那份工作会是什么。无论如何，这将意味着我在公司所做工作的转变。这似乎是一个跳跃的好时机。

虽然十多年来数据一直是我故事的一部分，但我从来没有能够花我喜欢的时间去研究它。我手机上的一个列表包含了我想用数据探索的项目想法，问题如下:

生活成本和无家可归率之间有什么联系？
大麻法律的变化如何影响鸦片制剂的死亡？
一个州的种族构成和它的监禁率有什么关系？
社交媒体使用的增加与青少年性活动的减少有关吗？
想法是如何被采纳的？一个人在开始使用一个短语之前要接触它多少次？

虽然我多年来一直在增加清单，但我还没有愉快地检查过任何东西。我很高兴开发一套新的技能，这将有助于我承担这样的项目。

对我来说，提高自己的能力，为我们的社区做出积极的改变，这很重要。数据科学有助于更明智、更有效地讲述故事、制定战略、进行干预和评估。除了危机文本行，还有很多例子激励着我。uAspire 正在使用虚拟咨询帮助学生找到支付大学费用的方法。T2 正在努力使用人工智能来帮助遭受家庭暴力的人。虽然这是我进入数据科学之旅的开始，但它是我已经走过的路的延续。

感谢阅读！想法、问题和反馈总是很受欢迎。

戈瓦纳斯的 311 噪音投诉能告诉我们关于中产阶级化的什么？

原文：https://towardsdatascience.com/what-can-311-noise-complaints-in-gowanus-tell-us-about-gentrification-444c7da0a07a?source=collection_archive---------8-----------------------

使用 Python 和 NYC 开放数据来识别我最喜欢的布鲁克林社区的模式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A view of of the Gowanus Canal taken in 2010, the year it was given Superfund Site status. Photo Credit

戈瓦纳斯是布鲁克林的一个街区，夹在公园坡和卡罗尔花园之间，沿着戈瓦纳斯运河，这是一条工业水道，现在因其“黑色蛋黄酱”而臭名昭著，这是一个被污染的假底的术语。这一街区仅占布鲁克林人口的 5%多一点，在 20 世纪中期，由于与集装箱化不兼容，这条大道在很大程度上被废弃后，这里相对安静。在过去的 15 年里，它经历了巨大的变化，部分原因是 2003 年的住宅重新分区和 2010 年的超级基金选址。今天，戈瓦努斯正在迅速贵族化。

在全食超市和肯瓦地板的招牌落下之前，我住在戈瓦纳斯。自从我 2013 年离开这个街区以来，建筑环境的变化相当惊人。除了建设引入新的住房存量沿水，该社区正在投资绿色空间，努力提高宜居性。变化如此之大，我很想知道随着时间的推移，社区是如何表达他们的担忧的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Picture of the Gowanus Canal from the 3rd St Bridge in 2012 (left) features the back of the Kentile Floors sign. Today, the sign is gone and the bridge view showcases high-end advertisements (right).

NYC 311 是非紧急呼叫系统，允许市民报告他们附近的问题。从一开始，它就是一个地区脉搏的快速快照。具体来说，噪音投诉被用作帮助理解中产阶级化的一个(不完善的)代理。这说明街上的人越来越多，但也说明那些使用电话线路报告噪音的人——那些潜在的不太熟悉附近基线声音的人。

通过查看 2010 年至 2017 年 311 个数据中的噪音投诉，我希望确定戈瓦纳斯的投诉如何偏离布鲁克林的整体分布。这个数据驱动的故事能告诉我们关于何时街区发生变化的什么，这种趋势对我最喜欢的布鲁克林街区的未来意味着什么？

数据

311 数据集从 2010 年至今在 OpenDataNYC 上可用。数据集很大，所以我用 api 过滤了布鲁克林的电话。噪音投诉分为四类:1)一般投诉；2)住宅；3)商业；4)街道/人行道。

在使用 Python 过滤掉其他类型的投诉后，这些年来，整个布鲁克林区有 664，116 个电话留给我处理。数据集brooklyn.head()如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

隔离 Gowanus

识别发生在 Gowanus 的电话需要一些数据管理。这是一个玩 Geopandas 和 Shapely Python 包的好机会，这是我在 NYU 大学的城市信息学课上第一次遇到的东西(见这里一个[有点乱]的作业，它也使用这些包来质疑 link NYC Wifi hub distribution 的公平性)。

首先，我组合了为每一行提供的纬度和经度，并将它们转换成适当的几何图形。这一步至关重要，因为它为数据引入了空间意义。这些纬度/经度不仅仅是数字；他们有一个相关的地理投影。

我不会在这里包括这个项目的所有代码(为此，请查看我的 Github )，但如果你想做类似的事情，下面是一些关键片段:

# creating a column which combines latitude and longitude
brooklyn['lonlat'] = zip(brooklyn['Longitude'],brooklyn['Latitude'])# creating a geometry column using shapely 
# this says: "these aren't numbers; they have a spatial definition"
brooklyn['geometry'] = brooklyn[['lonlat']].applymap(lambda x:shapely.geometry.Point(x))# assigning geometry, crs, and converting into a geodataframe
geometry = brooklyn.geometry
crs = {'init': 'epsg:4326'}
brooklyn = GeoDataFrame(brooklyn, crs=crs, geometry=geometry)

接下来，我使用 Google Maps 查看我定义的 Gowanus 社区的经纬度坐标。我用 Shapely 为这些点创建了一个多边形，如下图所示。从那里，我使用一个带有contains()函数的for循环来询问每个被记录的呼叫的位置是否在我标识为 Gowanus 的区域内，这产生了一个布尔数组。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

I used Google Maps to eyeball my Gowanus boundary. From there I used python to create a new dataframe with calls that were contained within the polygon using the Geopandas and Shapely packages.

我将该数组作为一个新列添加到我的布鲁克林数据库中，名为“is _ gowanus”——描绘一个全部为“真”或“假”的列，指定每个呼叫的纬度/经度是否落在多边形内。使用该专栏，我创建了一个名为“Gowanus”的新数据框架，其中:gowanus = brooklyn[brooklyn['is_gowanus'] == True]

在这个空间分析练习结束时，我的 Gowanus 数据框架有 7，262 行，相比之下，Brooklyn 数据框架仍然有 664，116 行。

探索性分析

现在我们已经有了每个群体的数据框架——布鲁克林和戈瓦努斯的全部——我们可以做一点挖掘了。首先，我按照年份和投诉类型对数据进行了分组，以便随时间的推移对数据进行可视化(这需要 python 中的一些时间序列体操)。下面的图表显示了布鲁克林和戈瓦努斯的抱怨是如何演变的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

These plots show the distribution of 311 noise complaint types from 2010 to 2017. While the volume of calls follows roughly the same trend, the noise types appear to follow a different distribution.

第一个堆积条形图显示了从 2010 年到 2017 年至今，整个布鲁克林 via 311 的噪音投诉稳步增加。请注意，总体而言，“住宅”噪音一直是投诉最多的。第二个堆积条形图显示了同一时期戈瓦努斯地区噪音投诉的稳步增长。Gowanus 地区主要是商业噪音投诉，而不是住宅噪音，以灰色显示。尤其是在 2016 年，电话数量似乎扩大到所有噪音投诉的大多数，这种模式在布鲁克林整体上没有观察到。

这两个图显示了这些年来电话总数增加的总趋势，但是在噪音投诉的类型方面有所不同。这可能主要是由于该地区的分区指定，但值得进一步调查。

平稳性测试

我的分析的下一部分使用平稳性测试来查看 Gowanus 的噪音投诉模式。如果数据是稳定的，那么它在一段时间内具有相同的统计属性，比如均值和方差。如果数据不稳定，通常是由于所谓的单位根，数据的一部分是不可预测的。

使用滚动方法直观评估平稳性

首先，因为只有相对较少的几个月的数据(少于 100 个月)，所以可以直观地查看趋势。我统计了自 2010 年以来每月的噪音投诉电话，按月份和年份分组。下图显示了一段时间内的数据，滚动平均窗口为 10。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

These plots show total noise complaints by month. Notice that there is some periodicity in Brooklyn (right) that doesn’t seem to be mirrored in the Gowanus plot (left).

这些图显示了从 2010 年到 2017 年 12 月，Gowanus 和 Brooklyn 的投诉量。请注意，滚动平均值的一般趋势大致遵循相同的模式，随着时间的推移稳步增加。布鲁克林地块似乎具有更规律的季节性，而戈瓦纳斯地块在 2014 年春夏出现了一些有趣的峰值。2017 年，冬季还有另一个高峰，这似乎没有反映在布鲁克林的整体情节中。

绘制时间序列数据后，整体趋势是否不同，从视觉上看并不完全清楚。为了进一步挖掘，需要将 Gowanus 调用数据标准化，并使用平稳性统计测试来确定 Gowanus 是否实际上是平稳的，或者它是否有单位根。

平稳性的 AD Fuller 检验

首先，我把 Gowanus 的数据做成一个比率。我没有使用噪音投诉的总数，而是查看了与布鲁克林其他地方相比，高瑙斯噪音投诉的百分比。你会注意到随着时间的推移，剧情似乎相当稳定，在 2016 年和 2017 年有一些潜在的变化点。使用这些标准化的数据，我们可以真正了解关于 311 噪音投诉行为的核心问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This plot shows the ratio of noise complaints in Gowanus to all of complaints in Brooklyn over time.

我选择使用 AD Fuller 测试来评估平稳性。 AD Fuller 测试的零假设是是一个单位根，这意味着不存在平稳性。如果我们可以拒绝零假设，这通常意味着数据是平稳的。我使用 python 中的 Statsmodels 包来实现测试。

单行测试的结果是 p 值为 0.00132，，这意味着我们可以在适当的置信区间拒绝空值。这个测试的假设是一个怪异的双重否定，但这意味着虽然有一些视觉上的变化，但这个数据总体上是平稳的。仅回顾过去三年，p 值仍接近于零，这也意味着稳定。

商业噪音投诉

看到平稳性测试的结果有点令人惊讶，但这可能并不能说明全部情况。我们探索性分析的一个较大偏差表明，噪音投诉细分存在较大偏差。为了特别关注这些，我重复了分析，只关注“商业噪音”投诉。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This plot shows the percentage of commercial noise complaints in Gowanus over time. Notice the irregularity in the past three years.

该图显示了戈瓦努斯地区商业噪音投诉的百分比。与所有随时间推移的噪声投诉不同，该图显示了过去几年中似乎存在的主要偏差，包括 2016 年和 2017 年明显的不规则峰值。特别是在进行过去五年的 AD Fuller 测试时，我们得到的 p 值为 0.0541 。在这里，我们不能拒绝零(只是勉强)，这意味着这些数据不是静态的。戈瓦努斯的情况有些不同。

结论和局限性

那么，戈瓦纳斯的 311 电话能告诉我们关于中产阶级化的什么呢？绝对没有什么是肯定的。

我们的测试结果表明，虽然这些噪音投诉数据总体上是稳定的，但对于 Gowanus 中的某些投诉类型，它们并不是稳定的。“商业噪音”在 311 数据集中的最佳描述是:“喧闹的音乐/聚会。”这可能意味着，随着社区的中产阶级化，会有更多吵闹的派对打扰居民。

然而，所有这些确实意味着，在 2016 年，更多的人会更加频繁地打电话给咨询喧闹的派对。这带来了这项研究的一个有趣的限制:在 311 报告中存在已知的偏差(见研究调查报告与实际违规的比率)。尽管由于数据的偏差，很难从数据中得出具体的结论，但我们仍然可以使用这种数据驱动的轶事来支持“邻居走了”的说法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

View from Smith Ave F stop looking over the canal towards Manhattan, 2013

下一步:周期性和变革点

该项目的下一步是调查不同类型投诉的确切变化点(偏离平均值超过 3 sigma 的区域)。布鲁克林时间序列数据中似乎也有明显的周期性，这在 Gowanus 呼叫的收集中并不明显。Gowanus 周期也可能存在，但它隐藏在噪声中，因为 Gowanus 调用的次数较少(信噪比随着 sqrt(N)下降)。傅立叶分析可以揭示是否存在类似的周期性，或者这是该社区与布鲁克林其他地区不同的另一个区域。

更多即将推出！参见 Github 上的完整探索。

代理可以从自我游戏中学到什么？

原文：https://towardsdatascience.com/what-can-agents-learn-through-self-play-37adb3f3581b?source=collection_archive---------9-----------------------

如果你想从零开始做一个苹果派，你必须首先发明宇宙——卡尔·萨根

[ 认知状态:使想法更清晰成形的沉思尝试]

最近几个月，DeepMind 的人工系统在复杂的战略游戏中击败了人类玩家，取得了惊人的胜利:首先是围棋，然后是紧接着的象棋和松吉。他们伟大的新武器？重复的自我游戏，算法收集观察数据，通过自我游戏来学习。先前的方法(包括最初的 Alpha Go)通过学习专家的走法，训练智能体直接模拟人类的战略行为；自我游戏的范式更优雅，让战略洞察力从与另一个战略玩家的互动中消失。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个巧妙的象征，自我游戏；你是自己最大的敌人，你是自己最伟大的老师。在某种程度上，这是愚蠢的:一个嫁接到机械过程中的人类故事。但是故事和人类已经运行良好。

自我游戏的最大好处是你不需要直接监督；代理用来学习的所有信息都来自另一个代理(它自己的克隆体),这个代理为了最大化它自己的目标而行动。在这种更不痛不痒的技术声明中，隐含的好处是功能无限的数据的承诺——仅受我们的计算机限制——机器可以在此基础上飙升至潜在的至高无上。AlphaZero 之所以能如此迅速地跃升为战略能力，是因为考虑到游戏的固定规则，这种积极并行的算法模拟游戏情节的速度比真正的人学习游戏要快得多。

自我游戏之所以诱人，是因为它不受人类收集的数据的限制，甚至也不受人类知识的现有限制，而只是纯粹优化游戏规则。

但是那些规则是什么？

要回答这个问题，我认为值得想清楚允许自我发挥的前提条件。

最重要的是，你需要一些方法来判定谁在一场特定的遭遇战中获胜。当您通过推动代理学习更有可能获胜的动作和状态来激励他们时，这是必要的。即使你没有对算法学习的数据进行硬编码，你也在对你试图优化的策略约束进行硬编码。当策略约束来自另一个玩家的行为时，它们可以被更简单地封装:作为判断游戏最终状态的规则。每种算法都根据你设定的规则来达到一个标准，并且根据它们符合你期望的行为的程度来惩罚或奖励它们。就游戏而言，这些规则很简单，因为游戏是一个固定且受约束的世界。有简单的方法来检查你是否赢了；它的设计是客观的。

这是必要的，因为在自我游戏的世界中，对一个代理人产生战略约束的世界完全是由一个单独的其他代理人的行为创造的。但在我看来，那些战略依赖完全在于试图通过简单规则取胜的代理人的问题是有限的。人类在宇宙中面临的大多数战略约束不是来自其他人，而是来自自然界的动态。

当我们想到 AGI 时，我们想到的是一个具有广泛战略能力的代理人，它也能获得关于世界的信息。我们能想象出什么样的环境，这些环境能产生什么样的习得行为，从而导致这种广泛的战略能力？

让我们想一想，如果我们有一个让自己活着的环境，会发生什么。给定的回合是什么？我们会在一个环境中设置一个代理，并给他们非常宽泛的指令“在最后，并产生最多数量的后代”吗？会有不同程度的其他代理人吗？他们能够结成联盟并传递信息吗？会有你不得不应对的随机事件吗？我们会等待语言进化，还是预先创造语言作为一种能力？环境如何激励代理人制定长期计划，在需要信息之前了解世界，建立联盟？从某种意义上来说，这个场景开始听起来像一个简单的游戏，其中数据是由代理的行为为我们创建的，而更像是一个复杂的环境，在这个环境中，我们假设了许多关于智能生物获得对世界的战略方法的环境的先验知识。

我是不是太过于模式匹配了？从进化已经使用的剧本中剽窃得太明目张胆了？也许吧。也许我们不应该认为进化环境是广义战略生物进化的唯一方式。但是我不知道我已经听到了一个令人信服的论点，关于那个模拟环境看起来像什么，从那些基于阿尔法零的存在断言 AGI 即将到来的人那里。

并且，冒着简短离题的风险，我认为人类进化的大框架值得在机器学习的世界里更多的考虑。我从 NIPS 2016 带回来的一个金块(不幸的是，我没有注意到演讲者)是这样一个想法:也许我们不应该只考虑一个人一生中学到了什么，而是全人类在数十亿年的时间里学到了什么？

当我还是个孩子的时候，我学会了如何说话，但在我有生之年，我没有学会为什么要说话。我没有遇到使语言适应的环境因素，也没有因此受到惩罚，没有尝试其他策略，也没有选择这个策略。对环境破坏的惩罚是死亡，这不是你能强加给一个生物并让它继续学习的惩罚。在许多方面，我更像是一个经过微调的网络，而不是一个经过全面训练的网络:我准备好了，就像海绵一样，通过漫长的世代将语言吸收到为它准备的路径中。对我来说，这是一个重要的区别:一旦工具存在，就学习如何使用它，而不是在面对促使它成为必要的动机之后，首先设计这个工具。

所有这些都是在说:如果我们希望通过激励一个智能体去赢得一场游戏来训练它，那么这个正确的比喻是指一个孩子成熟到成年，还是一个物种进化到生存？这个问题来自于(可能过于天真)的观察，即幼儿不会通过试图优化奖励和惩罚的某种客观函数，或者至少不是一种竞争性函数来了解世界。在很多方面，进化已经学会了以生存为标准的宏观目标函数，每个人都在几代人构建的机器基础上学习该目标的子元素:说话、联系、观察，使用一套物种水平的先验知识了解世界。

总结:是的，这是真的，当前最具体的机器学习问题是算法上的细微差别:我们如何以更实用的方式更好、更快地为系统建模。但是，我傲慢的假设是:我们设计的代理人的能力很快将不是由我们可以设计的模型的复杂性决定的，而是由他们成长和训练的环境的复杂性决定的。这些环境必须被设计，由人类明确指定，因为为了以数字速度运行，它们必须被参数化并被赋予可编程的规则。

机器智能的两大优势似乎是它可以迭代学习的速度，以及它可以用来做出决策的潜在巨大的数字数据池。但是，如果我们真的想利用第一个优势来构建一个战略智能体，而不仅仅是一个可以执行人类训练它执行的任务的智能体，我们需要为我们的智能体设计复杂、动态、多玩家的环境，以便在完全模拟的环境中迭代。因为人类已经领先一步了。

关于统计理论中最大的争论，一只章鱼能告诉我们什么？

原文：https://towardsdatascience.com/what-can-an-octopus-tell-us-about-the-biggest-debate-in-statistical-theory-f017295d781f?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Serena Repice Lentini on Unsplash

最杰出的统计学家(罗纳德·费雪和杰吉·内曼)会对通灵动物说些什么？

你可以在我的 Github 页面找到可视化计算的 R 代码

看看我的另一篇文章:贝叶斯统计如何说服我去健身房？

见见保罗。！！

保罗是一只出生于英国的章鱼，在德国奥伯豪森过着平静的水生生活，除了玩他的触角爪鱼和享受他每天的贻贝之外，他什么也没做。那是在他以最强有力的方式开始正确并连续预测德国 2010 年世界杯所有比赛结果之前。他短暂的职业生涯拥有令人印象深刻的 12/14 的正确预测记录，比大多数博彩公司更令人印象深刻。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Paul’s more than impressive prediction track record (Wikipedia). He also successfully predicted the WC 2010 final match between Spain and Holland

他的方法？保罗通过从他的水族箱中的两个塑料容器中挑出一个贻贝并吃掉它，预测了比赛的获胜者。你知道的:盛放牺牲贻贝的容器上的旗帜代表胜利者。

奥伯豪森海洋生物水族馆是否藏有一只来自超时空的胡言乱语的黑暗章鱼，或者，事实上，保罗只是一只幸运的普通章鱼，仍然是一个激烈辩论的话题。

从统计学的角度来看，保罗完美的占卜率是不能随便忽略的。

那么，统计理论中最有影响力的人物，比如罗纳德·费雪、杰吉·内曼和埃贡·皮尔森，会对这个世界上最受喜爱和蔑视的头足类动物说些什么呢？

我们可以根据非参数统计检验的假设，提出关于保罗常态或超感知觉的基本问题，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们假设保罗只是在没有任何知识的情况下随机选择了一个赢家。在这种假设下，很容易看出，如果在总共 14 个匹配中， X 是匹配的数量，保罗预测正确，那么×遵循大小为 14、概率为 0.5 且平均值为 7 的二项分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Graph of binomial distribution with n = 14, p = 0.5. Red columns represents data at least as extreme as actual observation (12 correctly predicted matches)

然后你会从统计学 101 中得到下一步的想法，我们进行一些假设检验。我们计算 P 值，将其与一些预设的显著性水平进行比较，然后我们可以拒绝或接受 I 型错误率为的零假设。

没那么快！！！

我必须阻止你行动太快，跳进计算 P 值和得出各种误解和错误的结论。

至少有两种方式可以进行假设检验程序。介绍的第一个程序是费希尔的数据测试方法——显著性测试；第二个是尼曼-皮尔森的方法——验收测试。本文将区分这两种方法之间的差异，并揭示它们在灵媒章鱼保罗(或触角假保罗)的案例中是如何产生分歧的

From left to right: Ronald Fisher, Jerzy Neyman, and Egon Pearson (Images source: Wikipedia)

P 值到底是什么？

**P 代表概率(也许？)。这是一种可能性，但不仅仅是一种可能性。简而言之，从实验中获得的 P 值代表获得至少与观察数据一样极端的数据的长期累积概率，假设零假设为真。

注意，P 值也是一个条件概率，以零假设为真的事实为条件。我稍后将回到它。

回到我们心爱的头足类动物，我们看到保罗在 14 场比赛中取得了令人印象深刻的 12 场预测准确性。因此，在预测率为 0.5 的零假设下，我们可以计算出观测数据的 P 值如下:

P 值和费希尔显著性检验

罗纳德·A·费希尔(Ronald A.Fisher)提出的 P 值是反对零假设的证据指标，其逻辑是:如果从实验中获得的 P 值很小，那么我们必须假设一个极其平常的事件刚刚发生，或者概率条件出现了问题。因此，0.0065 的低 P 值可以作为随机猜测不能令人满意地解释保罗记录的证据。

足以指出的是，Fisher 认为, P 值可以用作反对零假设的证据的连续度量。结果从“不重要”变为“重要”没有特定的固定值。正如罗斯诺所说:

当然，上帝爱 0.06 和 0.05 一样多。上帝把支持或反对零的证据的力量看作是 p 的大小的一个相当连续的函数，对此有什么疑问吗？

换句话说，对于所有的意图和目的，p = 0.06 和 p = 0.05 构成了反对零假设的相同数量的证据。

Though following conventions, the choice of significance level could be, at best, arbitray. Source: XKMD

话虽如此，在实践中，通过比较研究p*-值是否小于给定的显著性水平(0.05 或 0.01 ) 、，很大程度上使得对研究结果的评估受到约束。*

似乎很明显，我们的 p 值(0.0065)在 5%和 1%的水平上都是显著的。

但这实际上意味着什么呢？

许多人犯的一个常见错误是匆忙得出结论，例如:“由于测试 p 值<为 0.05(测试具有显著的 p 值)，零假设为真的可能性非常小/我们可以拒绝零假设。”

这是不对的。跟我念:W-R-O-N-G

记得我之前说过， P 值是一个条件概率，也就是说，它提供了在假设为真的零假设下观察到的和更极端结果的理论概率的信息。因为零假设 H 总是真的，所以它不可能同时是假的，也不可能是后验可证伪的。基本上，如果在任何时候你说 H 为假，那么你也使整个测试及其结果无效。

那么解读结果的正确方法是什么呢？

一个显著的结果从字面上解释为双重陈述:要么是一个以低概率发生的罕见结果刚刚发生，要么是零假设不能令人满意地解释研究结果。换句话说，你可以说“随机猜测的无效假设似乎没有解释通灵井保罗的占卜率，因此我们推断，其他过程——我们认为很可能是上帝对保罗的特殊指示——存在，解释了结果

p 值和尼曼-皮尔逊假设检验

在费希尔引入显著性检验的八年后，Jerzey Neyman 和 Egon Pearson 发表了另一种统计推断方法，利用了长期误差率而不是证据强度。

比方说，零假设可能是真的，也可能不是真的——保罗可能真的是一只正常的头足类动物，也可能不是。(记住:这种说法在费雪检验中是无效的，因为我们总是假设零假设为真)。在我们研究的最后，我们不得不拒绝或者不能拒绝零假设。

因此，可能会发生 4 种情况。

本质上，你可以做出一个正确的决定(拒绝真或成功拒绝假)，犯一个第一类错误(假阳性——拒绝真零假设)或一个第二类错误(假阴性——拒绝假零假设)

奈曼和皮尔森设计了一个连贯的频率主义范式，使用 P 值作为正式决策过程的一部分。奈曼-皮尔森范式是这样运作的:

有一个零假设(保罗是正常章鱼，成功率 0.5 )
有一个你认为可能是真的替代假设(保罗是一只成功率为 0.75 的灵媒章鱼——我刚刚编造了这个)
有一个长期的最大假阳性错误率，表示为α。我们预先设定这个错误率，通常是 5%或 1%
然后，我们需要计算可容忍的长期假阴性错误率所需的样本量β和检验的功效(正确拒绝零假设的概率，为 1β)
只有在仔细计算了这些特征之后，才能进行实验。在你的研究完成后，你将你的 p 值与α进行比较，如果 p < α

Now, if you are thinking that N-P’s α looks very similar to Fisher’s significance level, that’s a good catch as they both use the same conventional cut-off points (5 or 1%). However, there are 2 fundamental differences: 1) α has to be set 先验(不一定是费希尔显著性水平)，则拒绝零假设；以及 2) α不接受分级——也就是说，在实验之前，您可以选择α = 0.05 或α = 0.01，但不能在同一测试中同时选择两者(而 Fisherian 方法允许您具有更极端显著性的不同水平)

从根本上说，N-P 和 Fisher 之间的差异归结为长期 I 型错误率和显著性水平之间的差异(通常被错误地认为是一): Neyman-Pearson 对长期假阳性错误率的控制是以排除任何基于观察到的 P 值 的证据意义的行动为代价实现的。如果你想控制误差率，那么使用尼曼-皮尔逊方法，并在实验前设置α；如果你想要一个衡量的证据，那么使用费希尔的方法，并解释实验后观察到的P*-值。不能两个都用。*

让我们回到保罗身上，好吗？

使用 N-P 范式评估 Paul 的通灵能力的问题是，在实际进行观察之前，我们没有考虑设置、α、β和测试的 1β功效。

是的，在玩弄保罗的神力之前，奥伯豪森海洋生物水族馆的管理员怎么能不考虑假设检验呢？

反正为了讨论方便，我们继续进行，假设长期假阳性错误率α预设为 0.01，保罗会在 14 次尝试后耗尽神力，所以尝试次数限定在 14 次。这意味着测试的临界值是 11。

在这个临界值和样本量下，我们可以计算出长期 II 型误差为 0.47，因此测试的功效为 0.53(请参见我所附的计算 R 脚本)。在一天结束的时候，我们仍然可以拒绝零假设，并相信通过在无限系列的试验中这样做，我们只在 1%的情况下错误地拒绝了它们。

请注意这与费希尔的方法有多么不同:N-P 不是显著性测试(他们对反对无效假设的证据的强度不感兴趣)，而是接受性测试(决定是否接受替代而不是无效)。尼曼-皮尔森框架会说，在你的研究结束时，你必须做出决定，然后离开。

与此同时，有传言称，一名研究人员曾带着“不重要”的结果找到费舍尔，问他应该怎么做，费舍尔说，“去获取更多数据”。

很抱歉让你一直烦到现在。如果你和我一样，那么我希望你能通过这个小小的(编码)挑战活跃起来？

现在让我们假设我们有条件建立完美的实验。我想有一个决策程序，可以确保长期 I 型错误率和 II 型错误率都是 10%(所以功效是 90%)，我至少需要进行多少次观察？

(尝试这个问题并在我的 Github 页面查看解决方案)

正确的方法是什么？

都是！！！

因为这两种方法来自完全不同的实验范围。

当然，我们已经预见到了这一点

然而，这并不意味着在特定的环境中或为了特定的目的，一种方法并不比另一种更合适。

至少，在评估保罗的通灵能力时，我希望你能看到费希尔的方法比尼曼-皮尔森的方法提供了更多。费希尔方法的局部范围更符合基础实验科学实际进行的方式，因为我们通常试图在这些结果的基础上对这个系统做出推论。我们希望在给出一些观察结果的情况下得出一些关于 Paul 的结论，其中严格控制α、β和 1β幂的严格实验设计既无必要也不切实际。对于这样的实验，对结果的局部解释应该胜过对整体误差率的考虑。

尼曼-皮尔森方法的决策规则应该局限于旨在产生决策的实验——类似于一些临床试验的实验。

但是保罗到底有没有通灵能力？

也许是，也许不是。

事情是这样的:就我们进行的假设检验(费希尔或尼曼-皮尔森)而言，我们可以有把握地得出结论:随机猜测不太可能产生如此令人印象深刻的记录。然而，这并不是说保罗肯定接受了高等生物的精神指导。至少，没有证据表明费希尔、尼曼或皮尔森喜欢精神推断能力。然而，他们很可能会同意这里面有猫腻(没有双关语！！！)关于保罗做预测的方式。

请注意，在 14 场比赛中，保罗在 11 场比赛中专门选择了德国国旗(这在概念上与说“它选择了德国”完全不同)。也许德国国旗有什么吸引保罗的地方。也许，他知道摘下这面旗会让管理员高兴，给他更多的食物。毕竟，作为德国的居民，保罗为什么要冒着被他的第二故乡鄙视和憎恨的风险呢(事实上，就在世界杯半决赛之前，他的确是这样做的)？

“Where is my German-looking flag?”. Source: Google doodle

你会很高兴地知道，保罗短暂而非凡的一生是不可能被遗忘的。

章鱼保罗的粉丝们可以在奥伯豪森海洋生物水族馆欣赏一个 6 英尺高的塑料保罗抓着一个足球的复制品，作为对这种软体动物的纪念，在那里他成为了世界杯预言家。

Image source: Alex Domansky/Reuters

来源:

[1]罗斯诺和罗森塔尔(1989 年)。心理科学中的统计程序和知识证明。美国心理学家，44(10)，1276–1284

流行的深度学习应用

原文：https://towardsdatascience.com/what-can-deep-learning-bring-to-your-app-fb1a6be63801?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深度学习是最热门的技术之一。深度学习的研究论文很多，能跟上真的是应接不暇。

有许多令人兴奋的研究课题，如生成对抗网络、自动编码器和强化学习。在这些领域所做的研究吸引了人们的敬畏和兴趣，然而，这些研究中的大部分还没有准备好被实现到现代软件项目工作流中。

在这篇文章中，我将介绍一些在 web 和移动应用程序中经常使用的深度学习的流行应用程序，这些应用程序有很好的入门教程。

在科幻小说和未来可能性领域之外讨论深度学习，软件工程师、商业人士和应用程序开发人员想知道:深度学习现在如何帮助我？

在某种意义上，你可以找到很好的教程和源代码，详细说明如何实现这些算法；并且实现相对容易，下面是深度学习的一些稳定且普遍适用的应用。

文本情感分析

许多应用程序都内置了评论或基于评论的评论系统。自然语言处理研究和递归神经网络已经走过了漫长的道路，现在完全有可能在你的应用程序中的文本上部署这些模型，以提取更高层次的信息。这对于评估评论部分的情感极性，或者通过命名实体识别模型提取有意义的主题非常有用。

这些模型也可以用于内部决策和战略决策。

关于情感分析有多有用的更多信息:

样本代码

更多样本代码 ←文章底部回购

聊天机器人

另一个非常有趣的科幻类应用是聊天机器人。聊天机器人被许多人视为下一代网络用户界面的支柱之一。聊天机器人可以用对话样本和递归神经网络进行训练。有许多关于如何构建聊天机器人的教程:

图像识别

如果你的应用利用图像，图像检索和分类是非常有用的。一些最流行的方法包括使用识别模型将图像分类到不同的类别，或者使用自动编码器根据视觉相似性检索图像。图像识别策略也可以用于分割和分类视频数据，因为视频实际上只是图像的时间序列。

提高图像识别性能的流行策略

销售调研

除了寻找可以改进你的应用程序的新功能，深度学习在幕后也很有用。使用深度学习回归和分类模型，可以改进市场细分、营销活动分析和许多其他方面。如果你有大量的数据，这将非常有帮助，否则，你可能最好使用传统的机器学习算法来完成这些任务，而不是深度学习。

结论

每当我看到一个新的应用程序，就很容易想象推荐引擎、情感分析、图像识别和聊天机器人如何改进应用程序的功能。由于深度学习的力量，所有这些应用都成为可能或得到了极大的改善。

显然，这只是我的观点，深度学习还有很多应用。然而，我认为这是一个很好的应用程序列表，它有大量的教程和文档，并且通常运行可靠。相比之下，像生成对抗网络或强化学习这样的东西很难弄清楚如何集成到你的网络或移动应用程序中。我认为深度学习的这些用例对大多数 app 都有普遍适用性。此外，深度学习是数据科学的一个子集，数据科学可以通过更多方式为您的软件项目提供价值。

CShorten

Connor Shorten 是佛罗里达大西洋大学计算机科学专业的学生。对软件经济学、深度学习和软件工程感兴趣。

机器学习能为理论科学做些什么？

原文：https://towardsdatascience.com/what-can-machine-learning-do-for-theoretical-science-ed16fbe8dc8e?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

科学理论使这个世界变得可以理解，至少对我们大多数人来说是这样。但是后来我们听到了一个传言，说城里有一种新游戏:机器学习。连同它的兄弟，大数据，他们威胁要把科学理论赶出城镇。机器学习，尤其是深度学习，已经成为构建更加准确的预测模型的魔盒。利用它，人们可以根据以前观察到的模式进行预测。传统上，做预测是一件复杂的事情，除了其他事情之外，还包括发展理解事物如何运作的基本理论。但是现在你可以把足够多的数据扔给一个足够大的神经网络，你会从另一边得到预测。那么，为什么要为理论费心呢？

谣言很快就消散了，因为它是基于一个错误的前提，即科学的目标是做出预测。它不是。科学的目标是提供理解。理解来自解释，解释由理论提供。现代科学的整个大厦是建立在一张相互联系的理论网的基础上的。

谣言可能已经消失了，但它的幽灵仍在困扰着我们。老派理论家倾向于将这一新的经验主义浪潮视为平民对他们专业的攻击。而且，许多来自我们新民主化领域的分析能力较弱的新数据专家，似乎经常将理论与先入为主的偏见混为一谈。

对我个人来说，这种相当令人遗憾的事态……有些尴尬。我最初是一名理论物理学家。理论帮助我理解这个世界。然而，我现在靠修补机器学习算法谋生。我可以直接体会到这些算法的威力。是的，机器学习是一种工具，但它是独一无二的工具。它从根本上改变了我们与信息的关系。无论如何，我们对什么构成对现实的理解的概念将受到机器学习在科学中所扮演的角色的影响。

如果理性主义要在经验主义的洪流中生存下来，那么理论家需要找到一种方法，将机器学习有意义地融入他们的世界。不是作为一个处理挖掘数据的无脑苦差事的外国职员，而是作为一个完整的公民和建立科学理论艺术的向导。

这并不是一个奇怪的愿望。毕竟，我们如何存储、处理或传递信息的大多数重要进步，无论是新的数学技术还是电子计算机，都在科学理论的发展中得到了应用。没有理由认为机器学习应该是一个粗暴的例外。问题是，怎么做？

我们用来构建理论的模板很大程度上来源于物理学。理论本质上是一套规则，可用于推导现象不同方面的预测模型。理论的解释力来自于它们提供现实各方面的整体图景的能力，也就是说，能够表明不同的现象产生于一小组简单的规则。比如同样的统计力学的规则可以用来计算平衡中任何物质的热力学性质(如温度、压力、密度)。

从历史上看，我们相信能够在这样的理论框架的基础上解释宇宙，这在很大程度上是由物理学惊人的成功所推动的。然而，由于上个世纪最后 25 年肯尼斯·威尔逊和其他人的开创性工作所提供的见解，这一信念现在建立在健康的理解基础上。

考虑规则集的层次结构，初始(底层)规则集代表理论的数学结构，最终(顶层)规则集代表数据中观察到的稳定相关性的数学结构。我们现在可以考虑这样一种转换，即通过将这种转换应用于前一级别的规则集来获得每一级别的规则集。这个用来从低级规则集导出高级规则集的过程被称为重正化群流(我非常宽松地使用这个术语)。

对于某些类型的转换和规则集，会发生一些非常显著和意想不到的事情；从非常不同的初始规则集开始，最终得到相同的最终规则集。在这种情况下，最后一个规则集被称为固定点，导致相同固定点的一组初始规则集被称为构成了一个普遍性类。普遍性假设(或简称为普遍性)指出，自然界中实际存在的规则集和转换都属于上述类型。(见此处介绍普适性和重整化群)。

如果普适性是真的，那么这将意味着复杂系统中观察到的稳定相关性将独立于基础理论的细节，即简单的理论可能就足够好了。此外，我们应该看到在各种不相关的领域中，相关性具有相同的数学结构。

普适性首先是在接近连续相变的不同系统的热力学变量的行为中被观察和研究的。从那以后，人们在各种不同的和不相关的地方观察到了这种现象，例如复杂网络的动力学、多智能体系统、粉红噪声的出现和墨西哥一个城镇的公交系统，仅举几个例子(见这里一些有趣的例子)。有足够的经验证据表明，自然(包括许多人造实体)确实偏爱普遍性。

虽然属于普遍性类别的理论可能有非常不同的起源(就它们试图解释的现实方面而言)和数学细节，但它们共享一些重要的数学性质，这些性质对它们的数学结构有严格的限制。对于物理学中发现的普适类，这些性质通常是对称性、维度和局部性。但是，一般来说，它们将取决于具体的普适类，并且可以通过执行该类成员的重整化群流来确定。

普遍性本身只能部分解释为什么物理学的理论框架如此成功。第二部分来自对物理系统中规则集的层次结构与我们的直觉非常吻合的观察。在物理学中，规则的等级是尺度或分辨率的等级。直觉上，我们期望大的事物(宏观物体)有规则，小的事物(微观实体)也必须有规则。我们也知道大的事物是由小的事物组成的，因此宏观模式应该遵循微观理论。这正是现实中发生的事情。这就是为什么(近乎天真的)还原论在物理学的大部分领域如此有效的原因。

这个谜题的最后一块与技术发展的时间线有关。我们从观察人类尺度的现象开始，直到那时才开始发展技术，显微镜和望远镜，来观察越来越小和越来越大尺度的现象。这个时间线与物理系统中规则集的层次非常吻合。因此，我们可以在理论和实验之间建立一个非常富有成效的反馈。但是，更重要的是，起点非常关键——对于许多物理系统来说，人类尺度是普遍性发生的尺度。这意味着即使只有少量数据和人工检查，稳定的相关性也是显而易见的。

为了理解为什么以上几点如此重要，考虑这样一种情况:我们从包含一箱气体中所有原子在不同时间的快照的图片开始，而不是测量热力学性质。从这些数据中推导出热力学或统计力学有多容易？

我们目前在生物学、经济学或社会科学等领域遇到的情况与上述情况没有太大不同。与物理学不同，在这些领域中，我们没有机会知道现实中规则集的层级对应着什么。我们也不知道普遍性应该在哪个阶段发生，我们应该期待看到稳定的相关性。

但是我们以前没有，现在有了，更多的数据和一个工具，机器学习，来提取这些数据并找到这些稳定的相关性。有充分的理由相信深度神经网络本质上执行一种重正化群流，并且它们如此有效的原因之一是因为在许多情况下，数据生成的生成过程(规则集)是分层的。当通过普遍性的棱镜来看时，这意味着深度神经网络为我们提供了对包含正确基础理论的普遍性类中的重整化群流的访问，然后可以使用它来约束基础理论的数学结构。

考虑一个思想实验，其中向深度神经网络提供气体原子的快照以及热力学变量的一些复杂函数的值；我们训练网络的任务是从快照中预测价值。我们期望热力学出现在网络的最后一层吗？我们应该能够从网络的权重中约束统计力学的数学结构吗？原则上，没有理由不这样认为。

回到前面提出的问题上来；机器学习如何帮助理论科学？机器学习可以为科学理论提供数学支架，理论家将为其添加意义和通往现实的桥梁。然而，在我们到达那里之前，我们需要对机器学习有更好的理解。我们将需要从一般原理来理解机器学习算法。换句话说，机器学习中对称性、维数和局部性的类似物是什么？也许，是时候开始开发一个真正的机器学习理论了。

哲学能教会机器学习什么？

原文：https://towardsdatascience.com/what-can-philosophy-teach-machine-learning-4ff091d43de6?source=collection_archive---------5-----------------------

从苏格拉底到人工智能的认知科学之旅

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

‘Scuola di Atene’ by Raffaello. Source: Pixavay

从苏格拉底到认知科学

自从苏格拉底向 Thrasymachus 询问正义概念的定义，哲学第一次提出了一个最具挑战性的哲学问题:什么是概念？数百年来，关于概念的性质和结构的探索吸引了世界上最优秀的头脑的注意力；然而，直到 16 世纪和 17 世纪，这种探索才在两种对立的哲学传统之手下充分繁荣起来:经验主义和理性主义。

经验主义者认为概念是头脑中的一种图画或图像。根据这种观点，狗的概念相当于一幅原型狗的心理图画或图像。反过来，公正的概念相当于我们通常认为公正的事物和事件的脑海画面或图像的组合。

另一方面，理性主义者认为概念不应该被理解为孤立的精神图像。相反，他们声称概念更像是一个巨大推理网络中相互连接的节点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Alonso de Proaza’s illustration of the Porphyrian tree (sixth-century tree representing Aristotle’s categories) in his work "De logica nova" (1512). It illustrates one of the first attempts to build an inferential network.

经验主义者和理性主义者之间的竞争源于之前关于思想和知识本质的更根本的分歧。对于经验主义者来说，拥有一个概念就相当于拥有了感知识别和分类物体的能力，这是通过在头脑中计算这些物体所具有的所有感知特征来实现的。例如，拥有狗的概念——并因此拥有关于狗的思想和知识——相当于有能力根据这些物体通常具有的感知特征将狗与非狗的东西区分开来——因此得名( Empiria 在古希腊语中是经验的意思)。

相反，对于理性主义者来说，拥有一个概念需要更高的认知能力，也就是理性地得出所有推论的能力。因此，举例来说，拥有狗的概念——因此，拥有关于狗的思想和知识——包括能够推断狗是哺乳动物，哺乳动物是动物，狗也是，动物不同于植物，狗也是，植物和动物都是生物，狗也是，等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A graph representing a small inferential network

目前，大多数关于概念的讨论都是在认知科学的框架内进行的。根据这种方法，思维类似于计算机。因此，思维被理解为对头脑中的表征结构进行计算(见 Thagard，2018)。

认知科学方法继承了早期现代哲学的许多概念。事实上，经验主义和理性主义奠定了认知革命的基础。因此，毫不奇怪，多年来，许多认知科学家卷入了两种对立理论框架之间的长期争论:一方面，所谓的概念经验主义，概念原子主义，只是概念的表象观；另一方面，所谓的概念角色语义学，推理主义，或者只是概念的实用主义观点(参见 Margolis & Laurence，1999)。前者认为概念或者是一组基于感知的语义特征(心理图像)，或者是某种类似语言的心理词汇。在这两种情况下，概念都被认为是孤立的心理表征。相反，后者认为概念不是心理表征，而是推理能力的集合。根据这种观点，一个概念的意义在于它与许多其他概念的推理关系。

不言而喻，双方的分歧再现了经验主义和理性主义的同样分歧。因为，这里真正利害攸关的是关于认知本质的分歧，也就是说，那些认为整个认知架构最终依赖于孤立特征集上的计算的人，和那些认为思维从根本上讲是一个在推理性互联节点的大规模网络上进行计算的人之间的分歧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Robert Fludd’s microcosm diagram of the mind, in his work “Utriusque cosmi maioris scilicet et minoris metaphysica, physica atqve technica historia” (1619).

从认知科学到机器学习

你可能想知道这一切与机器学习和人工智能有什么关系。嗯，它实际上做了很多。人工神经网络是连接主义系统。联结主义是认知科学中的一个框架，旨在完全根据神经激活的模式来模拟心理现象。尽管脱离了早期的思维计算模型，即思维只是在符号心理结构上进行计算，但联结主义模型从思维的表象理论中借鉴了许多思想，包括经验主义者(原子主义者或只是表象主义者)对概念的观点(见福多尔&皮里希恩，1988)。

因此，对于连接主义者来说，概念是特征向量表示。特征向量表示是表示特征空间中特定对象或类别的向量。因此，例如，狗的概念只不过是表示类“狗”的特征活动的向量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Illustration of a feature vector representation of the concept of dog

尽管联结主义的概念方法被证明是非常强大的，但它也有其局限性。当前的机器学习算法非常擅长执行许多我们通常与概念相关的认知任务，如识别事物、寻找相关性、对对象进行分类、记忆模式、编码和检索信息等。然而，我们通常会觉得，在很大程度上，这些算法是对真实人类认知进行建模的镜头。正如 D’Mello 等人(2006 年)所建议的:

机器学习通常需要大量准确的训练集，对已知或未知的知识知之甚少，将新知识很少地整合到旧知识中，一次只学习一项任务，几乎不允许将学到的知识转移到新任务中……相比之下，人类学习已经解决了许多这些问题，并且通常是持续的、快速的、高效的、准确的、健壮的、灵活的和毫不费力的。

我认为，机器学习算法现在面临的许多限制，部分是由于缺乏概念认知的完整概念造成的。在心理表征理论(这是认知科学的默认立场)底层的经验主义者精神的驱动下，连接主义者(或神经网络)模型对特征向量活动投入了太多的注意力，将概念之间的推理关系完全排除在讨论之外。

尽管已经有一些严肃的尝试来说明根据关系图表示的概念知识，但是为了在神经网络中实现这样的结构，做得很少。幸运的是，在过去的几年里，一些将图论与神经网络联系起来的研究得出了非常有趣的结果。这些研究有不同的风格。目前，在这个问题上最重要的两个项目是关系神经网络 (RNN)(见巴塔格利亚等人，2018 年)和图卷积网络 (GCNs)(见 Kipf & Welling，2017 年)。这两条研究路线都很有前途，但仍有很长的路要走。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Illustration of a multi-layer Graph Convolutional Network (GCN). Source: THOMAS KIPF’s “GRAPH CONVOLUTIONAL NETWORKS”, URL = <https://tkipf.github.io/graph-convolutional-networks/>

从机器学习回到哲学

当面对两种或两种以上对立的理论时，我们通常会觉得有必要选择其中一种。虽然很多时候这是正确的做法，但在对认知进行理论化时就不那么正确了。那些认为概念是特征向量表示的人和那些认为概念是关系图中的节点的人之间所谓的竞争是误导。在我看来，这两种理论不是对手，但事实上，它们需要共同努力，以达成一个更丰富、更现实的人类认知模型。

1781 年，伊曼纽尔·康德出版了有史以来最杰出的哲学和科学书籍之一:KrV。在许多其他事情中，康德意识到经验主义者和理性主义者同时是正确的和错误的。因为，根据康德的说法，概念知识是经验(或康德词汇中的直觉)和推理规则(或康德词汇中的概念)共同作用的结果。直觉和概念本身都不能让任何人了解这个世界。引用康德批判中非常著名的一句话:

没有直觉的概念是空洞的。没有概念的直觉是盲目的。

我真的认为康德的认知理论可能会给当前认知科学和人工智能领域的争论带来一些新的启示。特别是，我相信上面引用的话可以很好地适用于特征向量和推理主义的概念方法之间的争论。对于，没有特征向量表示的推理网络是空的，没有推理网络的特征向量表示是盲的。让我进一步阐述一下这个想法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: <https://medium.com/@rgrydns/kant-how-is-a-synthetic-a-priori-judgment-possible-45af58688600>. Original from "Philosophy for Beginners", by Richard Osborne, illustrated by Ralph Edney (New York: Writers and Readers Publishing, 1992), p. 104.

如上所述，绝大多数当前的机器学习算法仅仅依赖于特征活动的向量。这些算法已经被广泛用于从输入中识别、分类和记忆模式。然而，要做到这一点，他们需要接受大量准确数据的训练，一旦他们从训练集中学习，他们几乎没有能力从先前所学中发现和整合新知识。看起来好像机器是认知盲。每当他们学到新东西时，他们都忍不住要重新发明轮子。这些都是严重的问题。

现在，假设一台机器执行复杂的认知任务所需要的只是在大型关系图上进行计算，这些关系图包含成千上万个推理上互连的节点。很容易想象，对于一台机器来说，从它以前学到的知识中发现和整合新知识将会是怎样的。它只需要计算一个给定概念，比如“狗”，和许多其他概念，比如“哺乳动物”、“动物”等之间的适当的推理联系。然而，机器仍然对狗一无所知。因为，如果没有在后台工作的特征向量算法，当提供真实的狗(图片、文字或任何东西)作为输入时，它将无法识别、分类和记忆任何东西。确实，最终，机器会知道狗是哺乳动物，哺乳动物是动物，动物是生物，等等。；但与此同时，它真的对这些事情一无所知。他们的概念将只是空洞的。

威尔弗莱德·塞拉斯(1974)，一位杰出的美国哲学家和新康德主义认知方法的杰出捍卫者，他曾经区分三种不同的概念反应:

**概念输入反应:**感知输入触发适当的辨别/分类/识别概念反应。
**概念内反应:**条目概念反应触发关于其他概念的有效推理模式。
**概念退出反应:**概念内反应引发新的歧视性/分类性/识别性概念反应。

根据这幅图，在入门阶段，输入被处理、识别并在概念下分类。这些概念性的反应反过来又引发了对其他概念的推理性反应，其中许多可能还没有在初级水平上处理过。最后，这种推理转换可以触发对那些在入门级别还没有被处理的概念的新的识别/分类响应，让系统在入门级别没有被完全训练的情况下学习新的东西。

不用说，这种入口-内部-出口的图景是对人类认知的过度简化。一些概念进入反应可能直接导致概念退出反应；概念退出反应可以作为新概念进入反应的输入；概念进入和概念退出反应之间的不一致可能导致认知系统改变或调整节点之间的推理模式等。我想在这里引起注意的是，概念认知是一种复杂的现象，它是不同类型的反应之间非常微妙的相互作用的结果。

结论

那么，哲学能教会机器学习什么呢？除此之外，它可以教会它，如果不整合到统一的图片(a)特征向量表示和(b)推理网络，就无法实现真正的深度学习。在完全承认这一点之前，人工智能和机器学习不会在模拟人类认知方面取得太大进展。

参考

巴塔格利亚·p .等人(2018)，“关系归纳偏差、深度学习和图网络”， arXiv:1806.01261v3 [cs .LG】。
D’Mello，S. K .，Franklin，s .，Ramamurthy，u .，和 Baars，B. J. (2006)，“基于认知科学的机器学习架构”。 AAAI 2006 春季研讨会系列。美国人工智能协会。加州帕洛阿尔托:斯坦福大学。
福多尔，j .，&皮里申，Z. (1988)，"联结主义和认知架构:一个批判性的分析，认知，28:3–71。
Kipf，t .和 Welling，M. (2017)，“带图卷积网络的半监督分类， ICLR 。
劳伦斯和马格里斯(1999 年)。概念与认知科学，载于概念:核心读物，E. Margolis & S. Laurence(编。)，第 3–81 页。
塞拉斯，W. (1974)，“意为功能分类”，综合，27(3–4):417–437。
Thagard，P. (2018)，“认知科学”，斯坦福哲学百科全书，爱德华·n·扎尔塔(ed .).

用 Python 到底能做什么？以下是 Python 的 3 个主要应用。

原文：https://towardsdatascience.com/what-can-you-do-with-python-the-3-main-applications-518db9a68a78?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您正在考虑学习 Python——或者如果您最近才开始学习——您可能会问自己:

“我到底能用 Python 做什么？”

这个问题很难回答，因为 Python 有很多应用。

但是随着时间的推移，我发现 Python 有 3 个主要的流行应用:

Web 开发
数据科学—包括机器学习、数据分析和数据可视化
脚本

我们依次来说一下他们中的每一个。

网页开发

基于 Python 的 Web 框架，如 Django 和 Flask 最近在 web 开发中非常流行。

这些 web 框架帮助您用 Python 创建服务器端代码(后端代码)。这是在你的服务器上运行的代码，而不是在用户的设备和浏览器上运行的代码(前端代码)。如果你不熟悉后端代码和前端代码的区别，请看我下面的脚注。

但是等等，为什么我需要一个 web 框架？

这是因为 web 框架使得构建通用后端逻辑变得更加容易。这包括将不同的 URL 映射到 Python 代码块，处理数据库，以及生成用户在浏览器上看到的 HTML 文件。

应该用哪个 Python web 框架？

Django 和 Flask 是两个最流行的 Python web 框架。如果你刚刚开始，我推荐你使用其中的一个。

Django 和 Flask 有什么区别？

Gareth Dwyer 有一篇关于这个话题的优秀文章，让我在这里引用一下:

<开始引用>

主要对比:

Flask 提供了简单性、灵活性和细粒度控制。它是非独立的(它让您决定如何实现事物)。
Django 提供了无所不包的体验:开箱即用的管理面板、数据库接口、ORM[对象关系映射] ，以及应用程序和项目的目录结构。

你可能应该选择:

Flask，如果您关注的是体验和学习机会，或者如果您希望对使用哪些组件有更多的控制(例如您希望使用什么数据库以及您希望如何与它们交互)。
姜戈，如果你专注于最终产品。特别是如果你正在开发一个简单的应用程序，比如一个新闻网站，一个电子商店，或者博客，你希望总是有一个单一的，明显的做事方式。

</结束引用>

换句话说，如果你是初学者，Flask 可能是更好的选择，因为它需要处理的组件更少。此外，如果您想要更多的定制，Flask 是更好的选择。

另一方面，如果您希望直接构建一些东西，Django 可能会让您更快地实现。

现在，如果你想学习 Django，我推荐一本名为《Django 初学者》的书。你可以在这里找到。

你也可以在这里找到那本书的免费样本章节。

好了，我们进入下一个话题！

数据科学——包括机器学习、数据分析和数据可视化

**首先我们来回顾一下什么是机器学习什么是。**

我认为解释什么是机器学习的最好方式是给你一个简单的例子。

假设你想开发一个程序来自动检测图片中的内容。

所以，给定下面这张图(图 1)，你希望你的程序识别出它是一只狗。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Picture 1

给定下面的另一个(图 2)，您希望您的程序识别出它是一个表格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Picture 2

你可能会说，我可以写一些代码来实现。举个例子，也许如果图片中有很多浅棕色的像素，那么我们可以说这是一只狗。

或者，你可以找出如何检测图片的边缘。然后，你可能会说，如果有很多直边，那么它就是一张桌子。

然而，这种方法很快就变得棘手了。如果图中有一只白狗没有棕毛怎么办？如果图片只显示了桌子的圆形部分呢？

这就是机器学习的用武之地。

机器学习通常实现自动检测给定输入中的模式的算法。

比方说，你可以给机器学习算法 1000 张狗的照片和 1000 张桌子的照片。然后，它会学习狗和桌子的区别。当你给它一张新的狗或桌子的图片时，它将能够认出这是哪一张。

我觉得这有点类似于婴儿学习新事物的方式。婴儿如何知道一个东西看起来像狗，另一个像桌子？可能来自一堆例子。

你可能不会明确地告诉一个婴儿，“如果一个东西是毛茸茸的，有浅棕色的毛，那么它可能是一只狗。”

你可能会说，“那是一只狗。这也是一只狗。这是一张桌子。那个也是桌子。”

机器学习算法的工作方式大致相同。

您可以将同样的想法应用于:

推荐系统(想想 YouTube、亚马逊和网飞)
人脸识别
声音识别

在其他应用中。

你可能听说过的流行的机器学习算法包括:

神经网络
深度学习
支持向量机
随机森林

您可以使用上述任何算法来解决我前面解释的图片标记问题。

用于机器学习的 Python

Python 有流行的机器学习库和框架。

最受欢迎的两个是 scikit-learn 和 TensorFlow 。

scikit-learn 内置了一些更流行的机器学习算法。我在上面提到了其中的一些。
TensorFlow 更多的是一个底层库，允许你构建定制的机器学习算法。

如果你刚刚开始一个机器学习项目，我建议你首先从 scikit-learn 开始。如果你开始遇到效率问题，那么我会开始研究 TensorFlow。

我应该如何学习机器学习？

学习机器学习基础，我会推荐斯坦福的或者加州理工的机器学习课程。

请注意，你需要微积分和线性代数的基础知识来理解那些课程中的一些材料。

然后，我会用 Kaggle 练习你从这些课程中学到的东西。这是一个网站，人们在这里竞争为给定的问题建立最好的机器学习算法。他们对初学者也有很好的指导。

数据分析和数据可视化怎么样？

为了帮助你理解这些可能看起来像什么，让我在这里给你一个简单的例子。

假设你在一家在线销售产品的公司工作。

然后，作为一个数据分析师，你可能会画一个这样的条形图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bar Chart 1 — generated with Python

从这个图表中，我们可以看出，在这个特定的星期天，男性购买了超过 400 个单位的这种产品，女性购买了大约 350 个单位的这种产品。

作为数据分析师，您可能会对这种差异提出一些可能的解释。

一个显而易见的可能解释是，这种产品更受男性欢迎，而非女性。另一个可能的解释是样本量太小，这种差异只是偶然造成的。另一个可能的解释是，出于某种原因，男性更倾向于在周日购买这种产品。

为了理解这些解释中哪一个是正确的，你可以画另一个像这样的图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Line Chart 1 — generated with Python

我们不是只显示周日的数据，而是查看一整周的数据。正如你所看到的，从这个图表中，我们可以看到这种差异在不同的日子里相当一致。

从这个小小的分析中，你可能会得出结论，对这种差异最有说服力的解释是，这种产品只是更受男性欢迎，而不是女性。

另一方面，如果你看到一个像这样的图表呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Line Chart 2 — also generated with Python

那么，如何解释周日的差异呢？

你可能会说，也许出于某种原因，男性倾向于只在周日购买更多这种产品。或者，也许这只是一个巧合，男人在周日买得更多。

这是现实世界中数据分析的一个简化例子。

我在谷歌和微软工作时做的数据分析工作与这个例子非常相似——只是更复杂。实际上，我在谷歌使用 Python 进行这种分析，而在微软使用 JavaScript。

我在这两家公司都使用 SQL 从我们的数据库中提取数据。然后，我会使用 Python 和 Matplotlib(在谷歌)或 JavaScript 和 D3.js(在微软)来可视化和分析这些数据。

使用 Python 进行数据分析/可视化

最流行的数据可视化库之一是 Matplotlib 。

这是一个很好的入门库，因为:

这很容易上手
其他一些图书馆如 seaborn 就是基于它。因此，学习 Matplotlib 将有助于您以后学习这些其他库。

应该如何学习 Python 的数据分析/可视化？

你应该首先学习数据分析和可视化的基础知识。当我在网上寻找这方面的好资源时，我什么也找不到。所以，我在 YouTube 上做了一个关于这个主题的视频:

Intro to Data Analysis / Visualization with Python and Matplotlib

我最后还在 Pluralsight 上做了一个关于这个主题的完整课程，你可以通过注册他们的 10 天免费试用免费参加。

我推荐他们两个。

在学习了数据分析和可视化的基础知识后，从 Coursera 和 Khan Academy 等网站学习统计学的基础知识也会有所帮助。

脚本

什么是脚本？

脚本通常是指编写旨在自动化简单任务的小程序。

所以，我在这里举一个我亲身经历的例子。

我曾经在日本的一家小公司工作，那里有一个电子邮件支持系统。这是一个让我们回复客户通过电子邮件发送给我们的问题的系统。

当我在那里工作时，我的任务是统计包含特定关键字的电子邮件数量，以便我们可以分析我们收到的电子邮件。

我们可以手动完成，但是我写了一个简单的程序/简单的脚本来自动完成这个任务。

实际上，当时我们用 Ruby 做这个，但是 Python 也是做这种工作的好语言。Python 适合这种类型的任务，主要是因为它具有相对简单的语法，并且易于编写。用它写点小东西测试一下也很快。

嵌入式应用呢？

我不是嵌入式应用方面的专家，但我知道 Python 与 Rasberry Pi 一起工作。这似乎是一个受硬件爱好者欢迎的应用程序。

游戏怎么样？

您可以使用名为 PyGame 的库来开发游戏，但它并不是最流行的游戏引擎。你可以用它来建立一个爱好项目，但是如果你对游戏开发很认真的话，我个人不会选择它。

相反，我会推荐用 C#开始使用 Unity，这是最流行的游戏引擎之一。它允许你为许多平台构建游戏，包括 Mac、Windows、iOS 和 Android。

桌面应用呢？

您可以使用 Tkinter 用 Python 创建一个，但这似乎也不是最流行的选择。

相反，像 Java、C#和 C++ 这样的语言似乎更受欢迎。

最近，一些公司也开始使用 JavaScript 创建桌面应用程序。

比如 Slack 的桌面应用就是用一个叫电子的东西打造的。它允许您用 JavaScript 构建桌面应用程序。

就个人而言，如果我正在构建一个桌面应用程序，我会选择 JavaScript。如果你有网页版的话，它允许你重用一些网页版的代码。

然而，我也不是桌面应用的专家，所以如果你不同意或者同意我的观点，请在评论中告诉我。

Python 3 还是 Python 2？

我会推荐 Python 3，因为它更现代，也是目前更受欢迎的选择。

脚注:关于后端代码与前端代码的说明(以防您不熟悉术语):

假设你想做类似 Instagram 的东西。

然后，您需要为您想要支持的每种类型的设备创建前端代码。

例如，您可以使用:

iOS 版 Swift
Android 版 Java
用于网络浏览器的 JavaScript

每组代码将在每种类型的设备/浏览器上运行。这将是决定应用程序布局的代码集，当你点击按钮时，按钮应该是什么样子，等等。

然而，你仍然需要存储用户信息和照片的能力。您会希望将它们存储在您的服务器上，而不仅仅是用户的设备上，以便每个用户的粉丝都可以查看他/她的照片。

这就是后端代码/服务器端代码的用武之地。您将需要编写一些后端代码来做类似这样的事情:

跟踪谁在跟踪谁
压缩照片，这样它们就不会占用太多存储空间
在发现功能中向每个用户推荐照片和新账户

所以，这就是后端代码和前端代码的区别。

顺便说一下，Python 并不是编写后端/服务器端代码的唯一好选择。还有许多其他流行的选择，包括基于 JavaScript 的 Node.js。

喜欢这篇文章吗？那么，你可能也会喜欢我的 YouTube 频道。

我有一个名为 CS Dojo 的编程教育 YouTube 频道，拥有 440，000 多名订户，在那里我制作了更多像这篇文章这样的内容。

例如，您可能会喜欢这些视频:

What Programming Language Should I Learn First?

How I Learned to Code — and Got a Job at Google!

无论如何，非常感谢你阅读我的文章！

你能从伯灵顿警方的数据中学到什么

原文：https://towardsdatascience.com/what-can-you-learn-from-burlington-police-data-8f541bdc845a?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伯灵顿是佛蒙特州尚普兰湖畔的一座小城，人口大约 42000 人。这座城市有一个开放数据项目的门户，他们将其描述为:

部分资金来自一笔赠款，该市承诺与 Socrata 建立试验性合作伙伴关系，so crata 是一家基于云的软件公司，旨在促进佛蒙特州和纽约市等州政府和市政府的“开放数据”转变。这一安排使 Burlington 能够在其开放数据平台上发布多达 20 个数据集。这些数据集包括城市财政、出租房屋、公园一分钱计划、犯罪统计、分区许可申请等信息。”

对于自学如何在数据分析中使用 Python 的人来说，这是一个无价的工具。这让我追求的问题更有意义，与当地信息更相关。我已经研究了几个数据集，但是在这篇文章中，我将把重点放在伯灵顿警察局的数据集上

[## 伯灵顿|开放数据

感谢您访问伯灵顿市的开放数据网站。单击此处了解如何浏览网站和…

data.burlingtonvt.gov](https://data.burlingtonvt.gov/)

数据

对于伯灵顿警方的数据，只有几个变量可以处理。以下是它包含的内容列表:

事件 Id —数字渐进序列
呼叫类型—违规类型，例如。陶醉
日期—12 小时格式的日期和时间戳
位置—街道名称，用于由/分隔的两条街道
事故编号—字母数字字符串

其中一些比其他的更有用。一开始，事件 Id 和事件编号是没有用的，除非我在某个地方查找它们。日期从 2011 年 10 月 1 日到 2013 年 11 月 12 日，这是一个相当奇怪的选择，但它不应该是一个问题。在此期间，总共发生了 28，832 起违规事件。

位置

位置数据在变得有用之前需要大量的工作。有些列出了两条被连字符分开的街道，而不是只有一条。缩写不一致也是一个问题。我采取的第一步是把所有的东西都变成小写，以消除它作为变量的可能性，然后在浏览列表后，我最终去替换不同的缩写或拼写错误。例如:

“路”到“路”
" rd。"至“研发”
“大道”到“av”
“高度”到“高度”

最后，我做了大约 19 处修改，将唯一值从远远超过 900 减少到接近 700。无论数据集如何，这都是一个问题，不这样做可能会意外隐藏有用的信息。

地理

我带着我的狗步行、开车或骑自行车游览了这座城市的很多地方。教堂街(见文章顶部的图片)是一条步行街，镇上的大多数酒吧、餐馆和娱乐场所都在这里。UVM 大学、州立大学和尚普兰学院在会议期间占人口的很大比例，并且位于市中心步行距离内的东部。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个相当安静的城镇，但在夏季和秋季，我们确实有很多游客。冬天会很冷，我来这里后见过的最冷的时候是零下 25 华氏度，而夏天却很温暖。这也是一个相当活跃的城市，有漂亮的自行车道、公园和受保护的森林环绕。

概观

该数据集为期两年，快速浏览一下所有地点和时间段的所有违规次数，就可以发现一些明显的趋势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如你所见，这是一个非常安全的地方。与其他事情相比，交通违规领先一大截。噪音排在第二位，醉酒和非法侵入排在第三位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在是时候深入挖掘一下了。一段时间内的趋势对于理解快速 matlibplot 折线图很重要，它显示虽然秋季有峰值，但到 2013 年总体上只有一点下降。在这种情况下，我希望能得到最新的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深入挖掘可能会发现更多，所以让我们看看每小时的模式。这可能会影响警方的人员配备，并让您大致了解何时最忙。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

小时

没什么好惊讶的，这里很少有酒吧营业到凌晨 2 点，所以酒吧关门并不奇怪，但实际上中午是相当繁忙的时间。我将按违规情况进一步细分，但总的来说，基于一天中的时间有一个明显的趋势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

工作日

按照一周中的某一天来划分，可以看出一点趋势。这并不奇怪，当你接近工作周的尾声时，会有一个小的增长。让我惊讶的是，周日并不比一周中的其他时间低。如果能看到这种按通话类型分类的情况，将会很有意思。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

月

纵观整个月，有一个相当一致的趋势，变化幅度很小。因为这是总数而不是平均数，31 号有所下降仅仅是因为不是每个月都有 31 天。在这种情况下，一个月中不同的日子会引发更多的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

月

以下是一些有趣的趋势。佛蒙特州的二月寒冷刺骨，气温最低。十月有一个与秋天树叶季节相关的穗。当树叶变了的时候，路上会有大量游客涌入。

按街道细分

在这一点上，我们知道根据小时、星期几和月份会有变化。但这只能告诉我们整个城市的趋势。既然我们有了街道信息，下一步就是相互比较不同的街道。

我将重点关注教堂街及其周边地区，因为它在违规计数中排名前 5。前 5 名中还包括教堂街两端的两条街，珍珠街和梅恩街。

在下面的所有图表中，整个城市的违规顺序是从最常见到最少。如果街道反映了整个城市，那么每个酒吧都会向下减少，如果不是这样，那么这个位置就不同于一般人群。

教堂街

教堂街是一条行人专用街道，这里是城市中大多数酒吧、餐馆和娱乐场所的所在地。这是一个全年都很繁忙的地方，当气温在零度以上时更是如此。

我在和一个酒保谈论这个数据时发现了一个有趣的注意事项，他解释说，在这个数据出现的时候，酒吧利用非法侵入来阻止被赶出去的人回来。不一定是有人非法侵入住宅或其他私有财产。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这并不奇怪，因为这是一条行人专用的街道，交通流量很小，醉酒和非法侵入的发生率很高。我希望我能更清楚地知道什么是违反条例——在这种情况下的其他手段。

珍珠街

珍珠街位于教堂街的北端，是镇上唯一的酒类商店之一，也是通往佛蒙特州立大学 UVM 分校(该市人口的主要组成部分)的主要通道。珍珠街到达 UVM 的地方变成了科尔切斯特大道，所以我把它们放在一起做对比。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里你可以看到，从教堂街向外走，违法行为的类型减少了，只有醉酒例外。我猜这反映了学生们回家的路线，但有趣的是，当我看着大多数学生宿舍所在的南展望街时，那里几乎什么都没有。

主要街道

包围教堂街的南端，穿过 UVM 大学校园，我们看到一些与上面的 Pearl 和 Colchester 相同的行为，除了噪音投诉。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

北大街

与目前其他的不同，这一次不是在去大学的路上，而是在去住宅区的路上。交通显然是首要问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

小时与呼叫类型

现在，让我们将一天中的具体时间与违规类型结合起来。这应该向我们显示某些违规行为最有可能发生或至少被报告的时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有趣的是，在 6 点的时候，这种巨大的增长一直持续到午夜。几乎就像在清晨、工作日和下班后有一个小小的平台期。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像这样分开，我不太确定酒保所说的醉酒和非法侵入的关联。如果酒吧阻止被踢出去的人重新进入是非法侵入的主要原因，那么有很多人试图在中午进入酒吧。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

身体攻击和家庭暴力看起来有相似的形式，但是凌晨 2 点的攻击高峰显示了早上晚些时候喝多少酒可以影响决策。我也对下午 5 点的峰值很好奇，那里发生了什么？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

到目前为止，噪音违规比其他任何违规都有最有序的结构。噪音条例一天 24 小时执行，但晚上 10 点至早上 7 点之间有特定的安静时间，它显示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

精神健康问题似乎在上午 10 点有一个平台期，并在下午的大部分时间里保持在或接近这个水平。可能是同一个人的某个方面出现了反复的问题，但这些数据不会揭示这种趋势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个事故时间没有反映犯罪报告时间的例子。我想人们回家后会发现他们的房子被盗了，而不是在事情发生的时候呆在家里。

固有偏见

这是一个很好的点来谈一谈数据集如何有偏见，以及当政策根据这些见解进行修改时，如何将偏见纳入反馈循环。

给出违规的原因可能是因为官员发现了它，或者因为有人举报了它。例如，教堂街可能会有很多违规行为，因为整个晚上都有警察在那里巡逻。这并不意味着同样的违规行为没有在其他地方发生，只是没有人发现它。

这意味着这些模式可以在一个反馈循环中重新加强自己，通过对他们周围的一条街道进行更严格的监管，以发现更多的违法行为，这在数据中得到反映，他们被指示进行更多的巡逻，尽管这可能没有反映出现实中城市的犯罪密度。

我喜欢做这种工作，但从不把数据当作绝对的真理，每一部分都需要被认为是不完整的，随着一切变得越来越自动化，危险变得越来越明显。这种引入的偏见会因城市中不同种族、民族和阶级的聚集而放大，并以非常直接的方式不成比例地影响人们的生活。

以上数据应该持保留态度，我没有发现任何明显的偏见，种族不是我的数据中的一个变量，但请记住这一点

结论

我对此进行挖掘的结果并不令人惊讶，但有一些明显的趋势出现了:

违规计数明显受一天中的时间、一周中的日期和月份的影响(一般来说，二月星期一的凌晨 4 点问题最少，十月星期五晚上问题最严重)
交通违规是记录事件的主要原因，占总数的 40%,并且在以下方面具有独特的模式
相同的街道出现在多个违规类型列表的顶部，似乎存在特定热点位置的模式
分解一天中的时间和违规类型是非常有效的，并揭示了一些有趣的模式

将天气与违规类型进行比较会很有意思，因为我们已经可以看到寒冷是如何影响违规的。当他们发布从 2013 年到现在的数据时，看到比两年更长时间的趋势会很有趣。

我将继续看看我还能从伯灵顿的其他数据集中学到什么。喜欢就留言，喜欢就关注我！

开发人员想要发展什么样的编码技能

原文：https://towardsdatascience.com/what-coding-skills-do-devs-want-to-develop-a952ee620312?source=collection_archive---------8-----------------------

开发者的技能是如何相互关联的，技能会如何进化？

在最近的 Stack Overflow 开发者调查中，70%的受访者明确了他们的角色(前端、数据库管理员等)，其中许多人认为自己身兼数职。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

devs of all trade

我们可以看到，web 开发是各行各业开发人员共享的通用技能，而机器学习专家和质量保证工程师更专业。

以下是按角色分列的受访者人数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

经常使用的语言数量的中位数是 2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

number of programming languages used

大约 80%的人使用 1 到 4 种编程语言，同时可能知道更多的语言。

考虑到这一点，我们可以比较受访者使用过的语言和想要掌握的语言。

当前技能与未来技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A snippet of the survey data

由于数据包含了开发人员已经做了什么和他们希望开发什么，我们可以提取额外的语言/平台/框架/数据库，这通常是几个项目的列表。我们可以从整体和细节两方面来看待它们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以在 TypeScript、Swift、Go、Scala、R、Python、Haskell、Rust 等等里面看到很多兴趣点。

如果研究一下不同语言在每个人愿望清单中的共现情况，结果是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

language skills devs want to acquire

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

platforms that devs want to work on in addition to what they have worked on

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

frameworks that devs want to work on in addition to what they have worked on

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

databases that devs want to work on in addition to what they have worked on

进一步的问题和想法

对于一个有共现模式的数据集，我们如何直观地把有共现的部分和没有共现的部分一起可视化？

例如，在使用 SQL 的受访者中，大多数人不仅使用 SQL，还使用其他语言。

我觉得一种方法是引入交互性和动画——通过提供放大感兴趣的语言的选项，人们可以看到部分受访者单独使用这种语言，而不是将其作为工具包的一部分，然后扩展到共同出现的语言技能的细节。

对于调查数据，我们如何确定它代表了总体？如果它有类别不平衡，我们如何在分析具有网络模式的数据集时考虑到这一点？

如果 javascript 是被调查的最受欢迎的语言，这可能只是因为有许多 web 开发人员返回了调查问卷。因此，我对使用节点大小来表示回答者的数量持谨慎态度，因此同时所有节点大小都显示度数。

给定所有的个体变化，我们如何以集体的方式最好地可视化网络的演变？

例如，一个开发人员今天使用 Go、Python、Ruby，将来想使用 Go、Python、Ruby 和 PHP。给定当前的语言集，我们如何可视化添加的语言？这也不同于 VBA 程序员想使用 Python 的场景，这是一种技能的转移而不是增强。

这是我关于数据科学和视觉故事的# 100 日项目的第 40 天。我的 github 上的全部代码。感谢阅读。欢迎新主题的建议和反馈。

那只天鹅是什么颜色？

原文：https://towardsdatascience.com/what-color-is-that-swan-372973f22c90?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纳西姆·塔勒布的《黑天鹅》给广大观众带来了统计学、经济学和哲学中一些晦涩难懂的观点。他写这本书已经有一段时间了，但我最近才读了它。

当我读塔勒布的书时，许多观点让我感觉很熟悉。具有讽刺意味的是，这是因为我对经济学的研究，而塔勒布对此进行了激烈的批评。(不过，我认为塔勒布的厌恶针对的是金融和宏观经济学家，而不是我的领域——应用微观。)我在塔勒布身上感受到了一种同道中人的精神，因为他尊重不确定性。

很难用一段话来概括像塔勒布这样的一本书，因为事实上这本书里有许多优秀而独特的思想。然而，人们喜欢简化，黑天鹅已经被简化为一个单一的主要想法。以下是亚马逊上的营销声明:

黑天鹅是一个事件，积极的或消极的，被认为是不可能的，但造成巨大的后果。在这本具有开创性和预言性的书中，塔勒布以一种有趣的方式展示了黑天鹅事件几乎解释了我们世界的一切，然而我们——尤其是专家们——却对它们视而不见

“几乎一切”的说法值得商榷。塔勒布的例子主要集中在金融领域，他确实倾向于推断。以下是该书更具批判性的总结:

我可以通过总结这本书的主要观点来帮你节省这本书的价格——以及你阅读这本书所需要的时间:难以预测的事件很难预测，因为它们很难预测，我们经常欺骗自己认为我们可以预测它们。但是我们不能。

读完这本书后，很容易看出大多数人留下的是什么:有些事件，黑天鹅，既极其重要又不可预测。

不过，这本书还有更多的内容，我希望在这篇文章中探索一下。

灰色天鹅

在读这本书之前，我从来没有提到过灰天鹅。这让我很惊讶，因为我在书的早期就想知道塔勒布所讨论的关于灰天鹅的话题。

要了解灰天鹅，了解一两件关于伯努瓦·曼德尔布罗的事情是很重要的。Mandelbrot 是一位应用数学家，他发展了一门叫做分形几何的数学分支。不严格地说，分形几何是对不同尺度上重复模式的研究。Mandelbrot 发现分形几何为我们在自然界看到的许多事物提供了很好的模型。例如，树枝看起来很像树，只是更小。一个小的岩石露头看起来很像一座山，只是小一些。Mandelbrot 的工作使得在过去看似混乱的事物中发现模式成为可能。

为了我们的目的，重要的是要知道 Mandelbrot 和他的学生发现了许多复杂现象遵循幂律分布的大量证据。(这里有一些技术上的注意事项，但除非感兴趣的读者要求，否则我将省略它们。)

幂律分布很有趣，因为它们是分形的。幂律直方图可能是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这些值来自幂律分布，此图表仅显示不同值的概率。在最左边，你有低值，它们非常频繁。右边，你的值很高，而且不那么频繁。

正如我所说，幂律分布是分形的。假设你在上图左侧的某处画了一条垂直线。然后放大并重新绘制图形。我会给你一张新的图片，但我不需要:它看起来几乎和上面的一样。这就是幂律分布被称为“可伸缩”或“分形”的原因它们在不同的尺度上重复出现。

那又怎样？好吧，让我们把这个想象成美国的收入图表。幂律的分形性质意味着最富有的 10%之间的不平等与整体的不平等一样明显。

那就回到塔勒布的灰天鹅。灰天鹅类似于拥有 2000 亿美元净资产的人。(我刚刚查了一下，比尔·盖茨现在估计有 870 亿美元。最近，富豪榜有所波动。)因为幂律分布，我们都知道这是有可能发生的。此外，我们知道，认为有人可能在可预见的未来达到 5000 亿美元，甚至可能达到 1 万亿美元，这并不疯狂。如果发生这种情况，我们也不会完全措手不及。因此，我们的知识让一些黑天鹅变成了灰色。然而，它们并不是完全白色的，因为它们仍然是不可预测的，而且它们关系重大。提示一个关于有多少财富被最富有的 1%或其他人控制的统计数据。

现在，所有这些都是为了说明灰天鹅和黑天鹅的区别是非常重要的。

盲目的

我在盐湖城长大，它正好位于一条大断层线上。每个人都知道有一天，也许是明天，也许是 500 年后，沿着瓦萨奇前线很可能会有一场大地震。所以人们在某种程度上已经做好了准备。至少，如果发生了，没有人会说“我从来没想过这是可能的。”SLC 大地震:灰天鹅。

另一方面，2008 年金融危机是一只黑天鹅。一小部分人可能已经看到了它的到来。不过，最主要的是，它不知从哪里冒出来的。或者更准确地说，它是从我们的盲点靠近的。(在我看来，金融业没有因为发现盲点而得到任何赞誉。事实上，我要说复杂的建模和“风险管理”实际上在很大程度上保留了盲点。AAA 评级很有分量。谁知道我们得回去检查穆迪的工作？)

黑天鹅是巨大的事件，它们不仅仅是普通的不可预测的。它们有不可预知的原因。还记得 SLC 的地震吗？我们知道地震将会发生，我们知道原因是什么，只是不知道什么时候。对于黑天鹅，我们甚至不知道会发生什么。

知识毁灭

灰天鹅和黑天鹅之间另一个相当重要的区别与一个无聊的技术术语有关:“数据生成过程。”基本上，我们世界中的事物会产生数据。我们经常想知道给出数据的底层过程，并且我们经常只能通过研究数据本身来找到答案。

这是一个棘手的问题，塔勒布详细阐述了这个问题。一个简短的例子对我来说就够了。假装你回到家，看到一扇窗户被砸碎，一些贵重物品从你的卧室被偷走。窗户和贵重物品是数据点。您真的很想知道生成这些数据点的过程。即使你认为是窃贼造成了这两个事实(相对于，比如说，地震和需要借一些珠宝的家庭成员的组合)，你仍然不知道窃贼来自哪里。为什么你是目标？下一个是谁？

在这方面，灰天鹅还是比黑天鹅更容易驯服。随着你观察到越来越多的数据点，你开始了解事件的分布。这是非常缓慢的，仍然有很大的不确定性(T2 什么时候会看到万亿美元？)，但至少你可以用之前的数据做一些有根据的猜测。然而，对于黑天鹅，以前的数据本质上是没有帮助的。原因是因为黑天鹅产生于你推理系统之外的事物。它们是你的世界“模型”之外的风险。

“黑天鹅”还有更多坏消息，这源于它们的影响力如此之大。黑天鹅引发了经济学家有时称之为“结构性断裂”或“政权更迭”的现象。基本上，这意味着他们改变了数据生成过程。

再举一个例子，这次是从塔勒布回收的。这是火鸡的例子。我们有一只火鸡，随着时间的推移，它学会了每天被喂养和照顾。火鸡可能开始觉得它在积累数据生成过程的知识，直到感恩节到来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

感恩节过后，我们发现所有的数据收集都是无用的。感恩节前的数据生成过程完全没有告诉我们从感恩节开始的过程。

第二个例子。2008 年的黑天鹅事件对金融行业产生了巨大影响。压力测试、抵押贷款改革、资本要求和财政紧缩都是反应的特征。尽管有些人声称社会什么都没有改变，并且正在重蹈覆辙，但我认为我们已经对金融体系进行了修改，这些修改已经影响了 2008 年以后的数据生成过程。出于这个原因，查看 2008 年之前的数据并不能告诉我们 2008 年之后的情况。人们生活在一个不同的世界，正是因为 2008 年的黑天鹅。

观鸟

塔勒布以一些关于该做什么的讨论结束了黑天鹅，并且他以这种方式继续他随后的工作。

最后，我要指出，我认为大多数人并没有完全理解这本书。我在亚马逊的示例评论很好地证明了这一点。不确定性有很多种。我们应该努力学习更多关于地震震级的知识。然而，我们不应该试图预测和避免所有可能发生的坏事。调查灰天鹅是富有成效的，即使它不能提供确定性。调查黑天鹅通常不会有什么结果。

塔勒布讨论的另一个话题涉及保护我们免受负面黑天鹅的影响，以及从正面黑天鹅中获利的机会。这是另一篇文章的主题，即将发表。

哪些公司在雇佣数据科学家方面犯了错误

原文：https://towardsdatascience.com/what-companies-get-wrong-about-hiring-data-scientists-704fa60c594?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简而言之，你不能在至少不了解需要什么技能和才能的情况下招聘特定职位的员工，但这正是当今许多希望招聘数据科学家的雇主所面临的情况。

出现这种情况有许多原因，但一个重要原因是数据科学围绕着许多不同工具的使用，因此许多企业根据特定应用程序的经验进行招聘。

也许更令人困惑的是，某些专业人士开始自称为“数据科学家”，而事实上他们并不是。

那些有 Excel、Tableau 或 Sheets 等点击式软件经验的人倾向于吹嘘数据科学，这是有道理的，因为他们经常处理分析和可视化，但他们不具备真正的数据科学家所具备的所有技能。

真正的数据科学家在编码方面也很流利，所以如果你雇佣的专业人士不是这样，那就有问题了。要开发或使用数据科学领域的大多数技术，如人工智能或机器学习，你必须能够编写代码。

编程经验也为数据科学家提供了使用工具的新机会，比如 R、Python、TensorFlow 和其他一些工具。这些工具也更加强大和可配置。

以下是招聘数据科学家时需要了解的内容:

1。头脑必备技能

一个显而易见的问题是，许多雇主对“数据科学家”的描述信以为真。如果有人声称他们是一个，那么他们一定是，对不对？

大部分情况下，是的。但是，最好还是看一个应聘者具备的技能。

他们应该拥有统计和机器学习方面的专业知识，了解预测分析，并拥有类似编码语言的经验，如 Python 或 r。该领域的其他语言包括 Python、Java 或 Scala。此外，还需要 SQ 等关系数据库的经验，以及 Hadoop 或 Spark 等平台的大数据知识。

最后，如果他们已经在该领域工作了一段时间，那么他们可能已经使用过 Hive、Pig 或 AWS 等数据工具。

更重要的是，他们必须能够阅读他们正在处理的数据，以提取或处理洞察力、模式、信号处理和可视化。

是的，这确实很多，但它涵盖了真正的数据科学家会涉及的所有内容。现在和将来，在锁定一个广泛使用和淡化的头衔之前，开始审视你雇佣的那些人的技能，确保他们与职位描述相匹配。

2。数据科学有很多职责

与其他领域不同，在其他领域，单个职位或描述可以被分解为不同的子集，这不是数据科学的工作方式。换句话说，数据科学家有许多职责，他们必须能够参与分析和统计内容生命周期的每个阶段:

● **数据获取或收集:**通常，这包括从各种来源收集数据、使用 API 以及在关系型或非关系型数据库上运行查询。他们可能还必须构建 ETL 管道，并提出适当的策略来识别哪些数据最有价值。他们会收集或追逐什么？

● **数据清理和转换:**这实质上意味着获取非结构化和杂乱的数据，并通过构建数据集和组织信息的方式使其变得有用。一些数据可能不完整，这也要求使用预测建模。

● **分析:**这一阶段要求使用统计和机器学习建模技术来理解、识别、描述或预测数据集内的趋势。

● **解释结果和制定行动:**这一阶段完全是关于战略。您正在获取或解释分析结果，以了解它与业务优先级和需求的关系。然后，它被应用到未来的战略和决策中，有望采取适当的行动。

● **编程、开发和自动化:**许多人认为，传统的开发人员负责创建用于简化或自动化数据科学流程的库、工具和实用程序。那不一定。大多数数据科学家都参与了这些项目，甚至会贡献生产质量的代码。

澄清一下，你会发现很少有数据科学家是所有职责或技能的绝对专家。也就是说，一个有能力的专业人士至少应该能够在各种阶段坚持自己的立场。如果你发现有人自称是“数据科学家”却不能做这些事情，那么最好去别处看看。

3。教育背景很重要

任何领域的经验都很重要，但遗憾的是，你并不总能找到简历上有一长串经验的新员工或潜在候选人。在这种情况下，参考他们的教育背景很重要。

业内一些最优秀的数据科学家拥有适当的定量学科的高级学位(硕士或博士)。这可能包括统计学、计算机科学、应用数学、经济学、工程学或运筹学等领域。有一些专注于数据科学的学位课程可以帮助那些希望进入该领域的人获得正确的经验。

还有在线或本地的新兵训练营、MOOCs(大规模开放在线课程)和认证项目。如果你想找一个水平较低的人，只要确保他们有适当的技能或者来自相关的职业领域。

4。个人进化和成长至关重要

数据科学行业正在不断成长和发展。新的平台、工具、技术和方法正在被定期引入。再加上现代企业的需求——其中许多企业在数据处理、收集和交付方面都有不同的需求——你就拥有了一个名副其实的变革宝库。

这对你雇佣的候选人和员工意味着什么？他们必须准备好继续学习、成长和适应。你不会想雇佣一个一成不变或死板的人，他们固执己见，认为自己总是知道得最多。事实并非如此。

最有前途的候选人应该是对知识如饥似渴，有实现个人成长的愿望。有数百本书、在线资源、专业知识、视频和专家级课程，甚至对那些积极工作的人也非常有益。找到那些不仅愿意与你和你团队的其他成员一起成长，而且也明白总有那么多东西需要学习的人。

5。需要技术知识

统计学、数学和各种应用科学拿走了蛋糕，是的。然而，重要的是要记住我们在这里谈论的是一个面向技术的领域。在数据科学领域，您将会遇到的大多数工具和平台都非常前沿。为了取得成功，数据科学家需要大量的技术知识、计算机技能以及对现代技术的一定程度的熟悉。

数据科学是一个复杂的过程

数据科学行业的真正本质是与海量的数字信息(数据)一起工作，以构建和发展正确的见解，然后利用这些见解做出有价值的明智决策。

很难确定具体的细节，有时定义会变化无常，包括它适用于谁。并非所有自称的“数据科学家”都是真正的数据科学家。这是一个很重要的区别，需要加以理解。

你要确保你为你安排的项目雇佣了正确的人。

专注于上面讨论的技能和经验，你就会走上正轨。

图像由【energepic.com】

数据科学大多忽略了什么

原文：https://towardsdatascience.com/what-data-science-mostly-ignores-58eb0e75d03d?source=collection_archive---------5-----------------------

我们都知道算法会出轨，追逐一个狭隘的目标函数，但是真的会错过这个点。例如，摩根大通决定将程序性广告从 40 万减少到 5000 万，并认为在他们关心的结果中没有任何有意义的差异。算法在做什么？当然，它并没有对照它想要改善的业务成果来检查自己。它只是愉快地在破坏它的损失函数。

另一个例子:假设你有一堂课，学生们总是很晚才交作业。所以对于所有未来的任务，你把最后期限往后推。那显然会解决问题，对吗？

以上两个例子都有一个隐藏的因素，严重改变了大多数人对这种情况的看法。用技术术语来说，在这两种情况下，一些外部因素改变了“数据生成过程”，但是模型不包括那个外部因素。

但是模型预测得太好了！是的，他们经常这样做，在许多情况下，这就是你所需要的。但其他时候，你真的想做一个反事实。这就是数据科学中常用的模型可能非常失败的地方。

再举个例子。假设你为一家公司工作。该公司向许多消费者发送了促销信息。您可以使用客户数据库中的信息，训练一个关于促销回应率的统计学习模型。

现在，经理们说“好的，我们将通过谷歌上的搜索广告提供这些促销活动。如果回复率和你的模型预测的一样高，我们会赚很多钱。”

这里有一个很大的缺失:公司是如何决定给谁升职的？嗯，公司通常只有自己客户的数据，所以估计样本可能只包括那些以前从公司购买的客户。那很糟糕。这意味着你的模型预测的 X%回复率对于那些只是在谷歌上搜索的人来说可能太高了。

有几种方法可以解决这个问题。让我们来讨论一个显而易见的问题:如果模型遗漏了一些重要的东西，那么您可以包含它！这很好，但有时会使整个努力无效。再次考虑促销活动:你可以包括一个指标，表明该客户是否是以前的客户。但是，你没有任何不是你以前顾客的人的数据。你不能在他们身上估计任何模式。

另一种方法是做一个实验，发送一个新的促销信息，但这次是针对非客户。但是，如果你有干净的实验数据，你可以运行一个非常简单的模型，比如说，一个回归，并获得想要的洞察力。没有数据科学家你也能做到。你可以用 excel 来做。

第三种方法是使用心理学或经济学中的人类行为模型。你需要有数学建模能力的人。根据我的经验，大多数数据科学家都不是这样。

在统计学中，有一个概念叫做“外推”。外推是在样本数据范围之外进行预测。传统的外推法从技术和数学的角度解释“范围”(x 变量的最大值减去最小值)。但是这个术语在更宽松的意义上也同样适用。在样本数据的概念背景之外进行预测，即使不比正常的推断更危险，也是一样危险的。正如我所说，概念背景是一个松散的定义，但我认为它对大多数人仍然有用:你从中获得数据的背景，在最重要的方面是否与你想要做出预测的背景相似？这是问题的核心。

你可能会想，在这一点上，这是否只是天真的数据科学家。也许吧。大概吧。看看这个:

例如，考虑一家有兴趣开展直接营销活动的公司。目标是根据对每个人的人口统计变量的观察，确定将对邮件做出积极响应的个人。在这种情况下，人口统计变量作为预测因素，对营销活动的反应(积极或消极)作为结果。公司对深入了解每个预测者和反应之间的关系不感兴趣；相反，该公司只是想要一个精确的模型来预测使用预测器的反应。这是一个为预测建模的例子。(着重部分由作者标明)。

这是来自斯坦福大学教授的著名著作《统计学习导论》。对我来说，这个加粗的句子是有问题的。这是有问题的，因为有时深刻的理解对于准确的模型是必要的，尤其是在反事实的情况下。

数据科学往往会忽略其他东西，比如未观察到的异质性和可解释性的价值，但我试图描述我认为最常见和最有害的东西。

要做些什么？了解是一个开始，我已经给出了几个可供选择的方法。但我的主要建议很简单:试着从多个角度理解你的问题，看看你是否遗漏了什么重要的东西。数据科学模型可以处理大量的信息和大量的变量，并且它可以适应基本上任何数据模式。但是它不能帮助你忘记告诉它的事情。

设计给 AI 带来了什么

原文：https://towardsdatascience.com/what-design-brings-to-ai-b44bb3be181e?source=collection_archive---------4-----------------------

透明、信任+共生

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能(AI)系统可以执行惊人的问题解决，从预测到推荐到分类等等。但无论人工智能解决方案有多精确，如果没有出色的设计工作，它们都不会有相关性、有洞察力并被人们采纳。

设计实践早在视觉外观和感觉被创造出来之前就开始了，并在之后继续。设计涵盖问题空间探索、用户研究、旅程映射、原型制作、线框图、数据可视化、用户测试、图形用户界面(GUI)、工业设计、语音用户界面(VUI)等。它在人类和机器之间建立了一种至关重要的联系，使人工智能系统能够以最佳状态运行。

在这篇文章中，我不会涉及人工通用智能，即创造接近人类等级的广泛推理的项目。我将关注为特定任务构建的离散认知机器工具和系统。

人工智能是由人建立的，是为了给人解决问题。即使人工智能的答案足够正确，足以提供帮助，也很少有人会受益，除非系统是可理解的、可信任的，并且通过向最终用户学习而积极进化。在人际交往方面，即使一个同事有正确的答案，我们也可能很难接受他们善意的建议，除非我们信任他们并理解他们的决策。根据信息传递者是谁或者是什么，人们听到的信息是不同的。

1.透明度

照亮黑盒

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“The inside of an engine” by Michael Mroczek on Unsplash

设计在定义你如何与人工智能系统交流以及发现这种交互的限制或可能性方面发挥着作用。我们可以弄清楚用户如何与系统交互，它如何解决问题，以及它如何从我们这里学习。

技术推理越先进，将机器的过程翻译成人类可以理解的上下文就变得越重要。解释的渠道可能包括概念说明、用户流程、清晰的文字、数据可视化、语音和用户界面。

不是所有的人工智能都能够清楚地解释它们是如何工作的，即使是对它们的创造者。例如，如果深度学习图像识别系统在一个数千维的数学空间中运行，试图在粒度级别上查明系统成功分类图像的“原因”可能会适得其反。在这种情况下，有帮助的是系统的架构和流程的抽象表示，并用例子加以说明。

如果为这些系统设计一个清晰、直观的解释很容易，这将是一个已解决的问题。设计师们很幸运，挑战依然存在。

谁需要知道什么？

需要解释系统如何工作的两个主要受众是创建者和最终用户。创造者需要了解系统的结构、输入、输出以及来自内部工作的反馈——以便开发人工智能代码的工程师和科学家能够有效地构建它。通常创建者在构建时会设计他们自己的视图。设计师在这里的机会是扩展和增强这些观点；从原理图，到仪表板反馈，到概念提炼。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Fancycrave on Unsplash / “A man driving an auto rickshaw in Bangkok” by Hanny Naibaho on Unsplash

设计的真正好处是给系统的最终用户。根据受众和人工智能技术的不同，在使用之初应该会有一些关于系统如何工作的预先解释，如果用户感兴趣，可以很容易地获得进一步的细节。

许多人会直觉地抵制这样一种想法，即一台机器对一个认知问题给出了正确的答案，而他们可能以不同的方式解决了这个问题，尤其是拥有多年领域专业知识的专业用户。设计师可以通过揭示人工智能的数据源和过程来缓解这种摩擦，让人们可以检查相关的证据和决策。打开这扇门可以让用户建立信任，并主动与人工智能交流。

设计的第三个目标是更一般的、高层次的受众:可能对产品感兴趣的人，他们可能更接近于理解和使用它。对于这类观众来说，基于示例或小用例故事的清晰简明的解释效果很好。

展示这个系统是什么以及它是如何工作的，是人们信任、使用并最终改进这个系统的第一步。

2.信任

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

photo by Diana Măceşanu

人类是独一无二的，我们有能力生动地构建一个想象的未来，并与他人广泛分享。作为具有强迫性创造力的工具制造者和故事讲述者，至少从皮格马利翁的神话开始，我们就一直被我们的作品变得栩栩如生并与我们交流的想法所困扰。

从《弗兰肯斯坦》到《哈尔》，再到《天网》,故事讲述者在我们的想象中精心打造了一些地方，在那里我们可以集体探索各种可能性，并接受有意识工具的后果。科幻小说不仅仅是关于未来的，它也是探索伦理问题和对现在的情感反应的一种方式。它的作用是将人们运送到不同的极限世界，这样我们就可以试运行并体验这些困境。

除了这种艺术探索，人工智能确实构成了一些非常真实的威胁，从世俗的(定向广告和机器人电话)到相应的(扰乱行业和取代工作；敌对的外国政府干预选举)。

设计思维，也称为以人为中心的设计，考虑到这些希望和恐惧，形成我们为之设计的人的文化背景。它还挑战假设，并对人们实际需要什么进行开放式调查。通过适当的研究发现和验证特定的用例，我们更有可能从一个感觉相关和有价值的系统开始。

通过了解人工智能的焦虑来源，我们可以努力解决不适、缺乏信任和恐惧。从透明度开始，我们可以创造一种理解感、熟悉感和最终的信心，这将使人们更有效地使用系统。

权力范围

建立信任的第一步是交流人工智能是什么样的工具。正如刀是增强我们双手的工具，眼镜是我们用来改善视力的工具，人工智能工具扩展并支持我们的思维。

通过创造能为我们做大量低级脑力劳动的机器，我们释放了精神资源，这样我们就可以将它们用于更细微的问题解决。我们最好用计算器来计算我们的财务状况，用我们的理性和想象力来提前计划。

一个擅长分类的工具(比如从 x 射线图像中检测早期肺癌)通常擅长这项任务，而且仅仅是那种任务。曾经是科幻小说，现在很常见的工具——比如即时驾驶方向和音乐推荐——擅长这些事情，但我们不希望它们执行其他认知任务。

通过澄清人工智能的领域和能力，我们可以让人们认为人工智能是支持性的，而不是取代他们的思维。因此，我们必须提供一种统一的视觉语言，通过这种语言，用户可以表达不同意见或同意意见。设计还必须处理概率:系统对给定答案的信心，以及不确定性的数量。无论机器推理多么有用，人类推理应该总是有机会做出最后决定。机器推理应该被视为一种增强，而不是替代。

在国际象棋和围棋比赛中，人工智能击败了人类冠军，现在玩家与人工智能合作，以人工智能或人类单独不可能的方式扩展和改进他们的游戏。

避谷

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Creepy mannequin posed in a vintage pilot outfit” by Erik-Jan Leusink on Unsplash

像 Alexa 和 Siri 这样的虚拟助手通过自然语言处理和语音界面模仿人类交互，尽管我们可以很快看出它们的局限性。设计师可以选择语调、性别和姓名、幽默感、健谈性和微妙的线索，如如何指示人工智能正在倾听或计算答案。随着语音合成的改进，语音用户界面(VUI)的语音语调和发音从木讷发展到接近人类。这一点，加上语言处理的进步，使我们更接近 3D 图形专业人士长期以来所称的恐怖谷。基本上，一个程序越接近代表一个真实的人，它看起来就越奇怪，越不舒服。

这方面的设计选择可以放大或缩小伦理和存在的问题，即:我们如何对待无权无势的人？我们可能会习惯家里有一个活泼的女性；一个总是醒着，可以回答问题和执行任务的人——而且从不疲倦或抱怨。和隐形无薪仆人一起长大的孩子，成年后会如何对待其他人？设计如何预见类似的问题并努力解决它们？

电影和游戏可以通过保持人形角色足够外星化或卡通化来避开山谷。VUIs 将受益于更多的可定制性:不是每个人都想和他们的 AI 聊天。

这就是设计师可以帮助定义从机器到接近人类的 VUI 频谱的地方，这为用户提供了选择他们感兴趣的对话级别的选项。人工智能还可以随着时间的推移进行适应和调整，以反映用户的语言——从简洁到絮叨；从枯燥到喜剧。VUIs 可以模仿人的语调和措辞，就像人与人之间一样，目的也是一样的。

无论做出何种设计选择，它们都应该是有意的、全面的和负责任的。

边缘共振

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Android emoji

建立信任需要同时满足理性和感性的大脑。人们确实需要从逻辑上理解这个系统是关于什么的，它是如何工作的，以及它有多精确。一个互补的设计任务是处理边缘大脑，与感觉和动机有关。

例如，像人工智能的“听”或“思考”状态的图形动画这样的小设计元素不仅仅表明系统的当前认知状态。运动的形状、颜色、速度和质量结合起来表达了一种个性。不管是有意识的还是无意识的，这些都被我们的边缘大脑接收到了，如果设计得好的话，会给我们一种不仅仅是连接到一台机器的感觉。

当设计元素充满情感时，它们更容易让人记住。我们更容易与它们产生关联，也更有可能回头使用它们。

信任的设计目标是培养情感一致性:体验应该是积极的和难忘的，但也要符合系统的本质。

3.共生

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“Man with dog sled is followed by two other dogs pulling another sled in Rovaniemi” by 🔮🌊💜✨ on Unsplash

几千年来，我们设计了其他生命形式来为我们执行任务。从种植作物到家畜到宠物，我们创造了跨越智能光谱的生物来扩展我们的能力。

狗是一个熟悉的例子。当我们繁殖来选择狩猎伙伴或牧羊人时，我们得到的动物可以帮助我们更好地工作，而不需要那么直接的努力。工作犬不仅在食物、住所和延续品种方面从中受益，而且显然从成功完成任务中获得满足和快乐。

人工智能对我们来说是什么？如果作为设计师，我们选择把它想象成另一种生物或有感觉的东西，我们可以把欲望、目标和需求赋予它。人工智能就像澳大利亚牧羊犬一样，被设计来为人们做特定的工作。一个人工智能应该“想要”表现好，并因此得到奖励。那么，一个人工智能如何评估它的表现，它的奖励应该是什么？

主动反馈

被动使用分析是大多数软件的标准部分，通过点击、滚动和 API 调用等交互来告诉我们人们如何使用工具。虽然人工智能系统需要被动反馈，但主动反馈至少同样重要。

主动反馈的原始版本被用在电话树中:当呼叫自动应答服务时(“拨 1 代表英语……”)，大多数现在被编程为通过将呼叫者重定向到现场代表来响应按键或叫喊。该程序通过将被归类为“愤怒”的来电者转给一个人来实现其目的，这样整个系统就有更好的机会来实现其回答客户问题的目的。

有效的主动反馈启示的设计是一个迷人的地方；我们知道不应该做什么(不要像微软臭名昭著的 Clippy 一样盲目打断)，但定义正确的方法是一项正在进行的工作。和 VUIs 一样，设计师有机会创造一系列方法，以适应多种用户和情况。

主动反馈应该捕捉用户的反应、决策过程和想法，以允许人工智能随着时间的推移而学习和进化。诀窍在于在适当的时候不引人注目地暴露这些机制。我们不想干涉用户的主要任务，我们必须确保反馈请求与上下文相关。此外，一个人给出反馈的倾向通常是不同的，既有一般性的，也取决于一天中的时间、心情或环境。

游戏化和定制化是激励主动反馈的两种方式。游戏化的界面给任务带来了回报和进步感，否则这些任务可能看起来不那么重要。这里的定制指的是为每个人提供不同程度的参与。这可以应用于任务本身(例如，将建议标记为相关或不相关)或应用于系统中的游戏化程度。

适应性设计

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

By Bjørn Christian Tørrissen [CC BY-SA 3.0 (https://creativecommons.org/licenses/by-sa/3.0) or GFDL (http://www.gnu.org/copyleft/fdl.html)], via Wikimedia Commons

无论是语音界面还是图形界面，都需要具有流动性和适应性。在一个层面上，这意味着呈现与直接焦点或对话相邻的信息，但也高度相关，并且以不干扰用户主要活动的方式呈现。

另一种适应性设计是根据数据结构和用户偏好以正确的方式显示信息(例如，表格数据或地理可视化，或两者都有)。圣杯是捕捉使用系统的人的上下文心理状态的一致感觉，并在正确的时间出现正确的事情，以优化生产力和乐趣。

人工智能解决方案将越来越多地代表用户做出微观决策。在某些情况下，比如回答问题，设计师需要考虑到用户的动力来预测失败。设计者应该考虑“我怎样才能提供额外的交互元素作为响应的一部分，让用户能够对答案进行自我修正？”

自然语言问题可以用自然语言响应和交互式可视化或数据表来自适应地回答。通过这种多渠道反馈方法，我们进入了一个令人兴奋的新领域。

就像机器学习模型可以随着时间的推移而更新和适应一样，设计师可以发展用户角色和旅程地图。这项工作的一部分在产品更新时自然发生，但反馈捕捉的方面指向半自动更新的可能性，或者可能是另一个推荐这种更新的人工智能。

以 Bot 为中心的设计

一个成功设计来捕捉被动和主动反馈的人工智能系统有很好的机会保持相关和有用，即使是在引入新事件和信息的时候。最终，那些被证明有用的人将继续工作，人类将用电和代码来奖励他们。那些没有的将加入数字垃圾。

正如设计师专注于以人为中心的设计一样，对于人工智能，我们需要以机器人为中心的设计来补充它。人工智能“想要”的要么是良好表现的证据，要么是允许我们调整模型以实现更好表现的关键反馈。我们如何才能制造一个系统，根据人工智能的需求，从人类那里最优地寻求和引导反馈？

人工智能依靠我们来修改和教授它们，以保持聪明和相关性。这种修改的直接应用是更新代码，但是这些更新是由主动和被动的人类反馈来调节和定义的。

机器对机器的通信定义明确且简单。人与人之间的交流，虽然并不总是简单或容易，但我们在这方面有丰富的经验，可以做得很好。几十年来，我们在用户界面、聊天机器人和 vui 方面一直在做机器对人类的工作——这并不容易，但我们知道如何研究和预测人们需要什么，并设计支持它的设计。人机是最难的，也是最需要伟大设计的。这对人工智能的成功也至关重要。这是最被忽视的，因为我们没有研究和绘制机器的体验和旅程。

在《欲望的植物学》一书中，迈克尔·波伦提出了一个好问题:在苹果和土豆这样获得巨大成功的植物中，是我们在培育它们，还是它们在培育我们？对人类有用和有吸引力似乎是一个很好的进化赌注。

非常感谢帮助校对、编辑、修改和调整这篇文章的人们:Domingo Huh、Johannes Schleith、Amir Hajian、Mimi Hayton、Corey Ouellette、James Bayliss、Noelle Campbell 和 Graham Sinclair。

管理者需要了解数据科学的哪些内容？

原文：https://towardsdatascience.com/what-do-managers-need-to-know-about-data-science-c6d8b57a708e?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

法国出版商 Ellipses 最近与我和我的同事 Farid Makhlouf 联系，为商科学生编写一本数据科学大学教材。因为市场上已经有一些关于数据科学的有价值的介绍性文本，我们决定讨论更具包容性的业务分析主题。未来的管理者需要了解数据、决策科学和机器学习的哪些方面，才能为他们的组织和客户增加价值？

在我们的提案中，在定义了业务分析之后，我们将在后续章节中探讨数据、决策、问题解决和评估的重要性。然后，我们通过对算法、软件包、机器学习和大数据的贡献，将注意力转向信息技术的影响。每章都将通过实际的商业问题以及使用简单编程程序的练习来说明。最后，我们来看看今天愿意在这一领域投资的学生可以获得的个人技能、团队能力和就业机会。

我们认为商业分析是一种看待商业和市场的思维方式，而不是一种专业化。我们认为，希望投资分析的经理需要了解数字经济如何影响组织评估人员、流程和技术的方式。商业分析的最终目标不是引入机器学习，而是改善人们做出决策的方式。

正如我们在别处讨论过的，数据不仅仅是数据。在现代经济中，数据无处不在——我们在过去两年中产生的数据比人类历史上产生的数据还多。数据是第四次工业革命的命脉——互联网技术和商业分析的进步将成为可持续竞争优势的新基础。如果数据本身没有价值，那么业务分析就能创造价值——使用数据解决客户、组织和社会问题。

人类决策是数字经济的核心。这并不是因为我们花越来越多的时间盯着我们的电话和笔记本电脑，人们不存在。将互联网视为一个复杂的人类互动网络是有益的:我们建立网站、应用程序和智能对象来捕捉利益相关者的动机和行动。这些信息以各种形式表现为数据:定量的、定性的、离散的、分类的等等。这有可能被用来改善管理决策。

由于人们看待价值的角度不同，他们看待数据的角度也不同。商业分析试图沿着三个轴理解对价值的看法:决策者如何使用数据来说明他们的挑战和机遇，他们使用什么类型的证据来证明问题，什么形式的数据将用于判断成功？包括锚定、框架和省略在内的认知偏差强烈影响他们如何使用手头的数据。对风险、不确定性和模糊性的认知经常阻碍人类的决策。

数据的价值与其在解决问题中的用途直接相关。探索决策环境可以帮助我们理解我们面临的挑战的性质——我们是在完美信息的确定性环境中工作，还是在有缺失的随机环境中工作？我们可以假设手头的数据包含期望的结果(监督学习)或不包含(非监督学习)吗？你必须处理哪种数据(定性的、定量的、离散的、连续的、名义的、顺序的… …)？我们应该花多少时间去寻找答案，一个好的答案有多好呢？

一个算法是一套在有限步骤中解决问题的规则。这些规则集的名称和形式各不相同，具体取决于它们的应用场合。直觉和逻辑推理是个人用来解决问题的组织系统。在团队和组织中，这些过程通常被称为业务流程，其中的步骤被分解为活动和任务。在机器学习中，算法指的是复制人类思维的编码过程和可执行文件。

数据科学软件平台识别数据中隐藏的模式，并使用这些模式对被研究的人群进行复杂的预测。这些机器学习工具通常避免了编程方面，并提供用户友好的 GUI(图形用户界面),以便具有最少算法知识的管理人员可以使用它们来建立预测模型。这些软件平台允许管理者在产品和服务、业务流程和周围的基础设施中定义、优化和嵌入分析。

大数据是一个术语，指的是那些庞大或复杂到传统软件无法处理的数据集。大数据分析是收集、组织和分析这些大型数据集以发现模式和其他有用信息的过程。大数据既不是一门可以在课堂上学习的学科，也不是一门可以在课堂上学习的语言，它是在特定业务环境中开发的编程知识、分析技能和实践的结合。随着管理决策变得更加复杂和昂贵，大数据的圣杯已经成为更好、更快的决策。

我们将在指出商业分析领域当前的咨询和就业机会中结束我们的工作。我们认为，这些职位远远超出了“数据科学家”的头衔，延伸到了商业、工业和公共服务领域的战略和运营管理核心。我们将试图证明，专业人员不是单独工作，而是在一个团队和一个实践社区中工作，这些团队和社区汇集了互补的技能、知识和经验。我们要强调的是，这本书并不是这一主题的权威文本，而是提醒我们，分析思维是管理者每天需要带到工作中的一个工具。

你会在教材中包括哪些主题、案例和练习？商科学生在今天和可预见的未来需要了解哪些关于数据、决策科学和机器学习的知识？

Lee Schlenker 是 Pau 商学院的教授，也是 http://baieurope.com T4 商业分析研究所的负责人。他的 LinkedIn 个人资料可以在www.linkedin.com/in/leeschlenker.查看，你可以在https://twitter.com/DSign4Analytics的 Twitter 上关注我们

成功人士都聊些什么？

原文：https://towardsdatascience.com/what-do-successful-people-talk-about-a-machine-learning-analysis-of-the-tim-ferris-show-161fc7ed4394?source=collection_archive---------16-----------------------

蒂姆·费里斯秀的机器学习分析

首先，我是蒂姆·费里斯和他作品的超级粉丝。他的几本书改变了我的生活。他还因他非常受欢迎的播客而闻名——我总是在手机上下载至少几集。因此，当他决定上传《T2》所有剧集的文字记录时，我很兴奋，这一点也不奇怪。作为一名数据科学家(尤其是专门研究 NLP 的)，我知道我能做些什么。我的分析是这样的。

**如果你想跳到结果并自己探索，请导航到互动网站:https://boyanangelov.com/materials/lda_vis.html

首先我必须从他的网站上搜集数据。幸运的是，这很容易，因为 HTML 的结构非常好。我下载并解析了 200 集的数据。为此，我使用了一些非常酷的 Python 开源库。

任何 web 抓取项目的第一步都是调查网站的 HTML 结构。所有的现代浏览器都包含了可以帮助你的开发工具，在我的例子中，我使用的是 Chrome:

Using the Chrome developer tools to inspect the URLs

接下来的步骤是使用几个典型的抓取和 NLP(自然语言处理)库。其中包括 BeautifulSoup 和 NLTK 。

最有趣的结果是 LDA 主题模型的可视化。LDA 代表潜在狄利克雷分配，是一种在文本数据中发现模式(主题)的常用技术。漂亮的包 PyLDAvis 允许交互式可视化，你可以看到下面的截图:

在这里，您可以看到 Tim 和他的客人正在谈论的不同主题的几个分组。大多数话题都与商业有关，但也有一些例外，最显著的是营养和运动。

你可以尝试做一些我没有时间做的事情。例如，看看播客中提到的最常见的名字是什么，或者每集之间不同的词汇复杂性，这将是很有趣的。

希望这个简短的分析是有趣的，并在你自己的 web 抓取项目中随意借用这些方法。让我知道你发现了什么！

Github 的一个要点是重现分析的代码:

金丝雀在苏格兰看到了什么？

原文：https://towardsdatascience.com/what-does-a-canary-see-in-scotland-1c6597d092b9?source=collection_archive---------1-----------------------

…其中一位卡纳里亚流行病学家在苏格兰登陆，将它与尼泊尔进行比较，最后开始 见一小 数据…

很奇怪，几十年前，我成为了加那利群岛 Linux 用户组的一员，并选择了“Shrek 0a”(“Shrek cero a”)作为我的用户名。我不知道史莱克是苏格兰人，因为他的口音不能翻译成西班牙语。当然，我无法想象我最终会生活在这个“很远很远”的地方(“我们到了吗？”)。

苏格兰人口超过 530 万，面积超过 77933 平方公里。这给了我们 67.5/公里的人口密度，比加那利群岛(284.46/公里)小 4 倍。但这只是平均水平，因为还有格拉斯哥(3298.0 英镑/公里)，你知道你在哪里。还有因弗内斯(25.1/Km)，你以为你在哪里。还有(苏格兰)高地 (9/km，你所在的地方……很远很远)。

将这些密度与伦敦 (5，518/公里)东京 (6，224.66/平方公里)纽约 (10，831.1/公里)…或西伯利亚(3/公里)尼泊尔(180/公里)…

我提到尼泊尔是因为一周前我遇到了来自尼泊尔两姐妹，而就在昨天我偶然发现了 EdgeRyders 的 Matt(小 PDF) 的一个有趣的项目 ，关于一种跨越深谷运送货物的方法。我想知道如果风允许的话，它是否可以在苏格兰的一些地区使用？这些风能很好地为电池提供能量？也许还有其他的适应措施，比如漂浮的工具，以防设备掉进湖里？

注意:要习惯“数据”与“关于基础设施的探索性想法”混合在一起。这两件事同时占据了我的头脑。事实和可能性。是什么，又能是什么。如果你恰好喜欢德博诺的帽子，你可以称之为“白帽”和“绿帽”。

总之…我终于开始研究苏格兰的一些公开数据。这个非常详细的 PDF 和这个很好的解释文本需要这个更简单的页面来帮助理解它(32 理事会区域，1000+中间区域，6000+数据区域):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

http://statistics.gov.scot/areas

这个查找页面可能会派上用场。我发现我可以用。带熊猫的 CSV 文件，但是还是不知道怎么处理 n-triples (虽然我找过)。我找到了边界文件，还有一个QGIS苏格兰用户组。

所以…这是我的第一个结果！这只是为了表明我已经使用了每个 2011 年数据区的人口，它们的面积(边界文件提供了方便。DBF 文件与“中间地带”，与代码，名称，人口和面积)，以获得密度，然后显示它使用 QGIS。印象不深，但我要走了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Colour is quintiles: most of the territory is in the lowest.

这告诉我们什么？苏格兰大部分地区都有人口密度< 155/km². Not strange considering that the average is 67.5/km², but still, it’s both “huge” and “mostly empty”.

Next Friday, I’ll go deeper and tell you what my 工具箱开始看起来像…

数据科学家到底长什么样？

原文：https://towardsdatascience.com/what-does-a-data-scientist-really-look-like-eab503edb1bb?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The cast of HBO’s *Silicon Valley (*Source:HBO)

基于 Stack Overflow 2018 年度发展调查数据的分析。

介绍

六年前,哈佛商业评论将数据科学家评为“21 世纪最性感的工作”,从那时起，数据科学家成为美国发展最快的职业之一，毕业生的起薪达到六位数，雇主的需求继续超过供应。

但是，这些人是谁，幸运地获得了 Glassdoor 所描述的“美国最好的工作”？成为他们中的一员需要什么？成为一名数据科学家真的像宣传的那样好吗？

为了探讨这些问题，我使用了 Stack Overflow 收集的数据来回应他们的 2018 年度开发者调查。该数据集包含来自全球 183 个国家和地区的软件开发人员的近 100，000 份回复。

在受访者中，7，088 人(7.7%)自认为是数据科学家。这些受访者与数据所代表的其余 85，010 名非数据科学家软件开发人员进行了比较。

第 1 部分:“典型的”数据科学家是什么样的？

计算机科学和软件开发在历史上被描绘成书呆子男性程序员的领域。看看 HBO 的硅谷的演员阵容就明白我的意思了。

但随着最近围绕数据科学的大肆宣传，我希望这种情况可能会有所改变。从事“21 世纪最性感的工作”的前景是否足以吸引更多人口多样化的人从事计算和技术工作？不幸的是，答案似乎是不。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 1: Comparison of gender (left) and age (right) distributions for data scientists (DS) vs non-data scientists (Non_DS).

从图 1 中可以看出，数据科学家和非数据科学家受访者的年龄和性别分布几乎相同。数据科学家和非数据科学家的平均年龄都是 30.5 岁，91%的数据科学家是男性，而非数据科学家是 92%。

这表明，数据科学工作的增长并没有吸引个人从新的人口统计学转向计算和技术，而是仅仅为那些无论如何都有可能成为开发人员的人创造了一条新的职业道路。

然而，比较数据科学家和非数据科学家的教育背景确实揭示了这两个群体之间的一个关键差异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 2: Comparison of highest degree level distributions for data scientists (DS) vs non-data scientists (Non_DS).

图 2 显示，尽管与普遍看法相反，没有硕士或博士学位也有可能成为数据科学家，但数据科学家比非数据科学家更有可能拥有更高的学位，45%的数据科学家受访者拥有硕士或博士学位，而非数据科学家只有 23%。

这表明数据科学和非数据科学开发人员角色所需的技能存在差异，数据科学角色更可能需要作为高级学位课程一部分教授的技能。

第 2 部分:数据科学家和非数据科学家的编码技能有什么不同？

鉴于雇主对数据科学家角色的学术要求更高，这就提出了一个问题:与非数据科学家相比，雇主是否也要求数据科学家拥有更丰富的编码经验？

然而，图 3 显示，事实上情况正好相反。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 3: Comparison of the distribution of professional coding experience for data scientists (DS) vs non-data scientists (Non_DS).

数据科学家通常比非数据科学家开发人员拥有更少的专业编码经验，62%的数据科学家受访者拥有五年或更少的专业编码经验，而非数据科学家只有 57%。

这表明，在开发人员的角色中，不是在各个方面对数据科学家提出更多要求，而是在编码技能和大学教授的各种技术技能之间存在权衡。

然而，并非所有的编程语言都是同等创造的，数据科学家和非数据科学家在日常工作中使用的编程语言也不一定相同。

数据科学家更有可能使用为统计建模和分析而设计的语言或带有统计建模和分析库的语言，如 Python 或 R，而非数据科学家更有可能使用与 web 开发活动相关的语言进行编程，如 HTML、CSS 和 JavaScript。例如，77%的数据科学家报告在过去的一年中使用 Python 编程，相比之下，35%的非数据科学家使用 Python 编程，而 72%的非数据科学家报告在过去的一年中使用 JavaScript 编程，相比之下，55%的数据科学家使用 JavaScript 编程。

这反映了数据科学家和非数据科学家通常执行的任务类型的差异，前者通常专注于使用统计和建模技术从数据中获得洞察力，后者更可能参与软件工程或 web 开发类型的活动。

第三部分:数据科学家比非数据科学家对职业更满意吗？

如果数据科学家真的是目前最好的工作，那么我们会期望数据科学家比非数据科学家对他们的工作和职业更满意。这正是我们从数据中观察到的。

然而，尽管数据科学家确实比非数据科学家更倾向于对自己的工作和职业感到满意，但这两个群体都倾向于对自己的工作/职业感到高度满意。

图 4 显示，73%的数据科学家和 70%的非数据科学家对自己的工作至少略有满意，而 74%的数据科学家和 73%的非数据科学家对自己的职业至少略有满意。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Figure 4: Comparison of the job satisfaction (left) and career satisfaction (right) distributions for data scientists (DS) vs non-data scientists (Non_DS).

因此，即使数据科学的职业不适合你，任何与发展相关的角色都可能导致类似于“美国最好工作”的工作和职业满意度水平。

结论

在本文中，我们探讨了获得一份数据科学家的工作需要什么，以及这与获得非数据科学家开发人员角色有何不同，并根据 2018 年 Stack Overflow 年度开发人员调查的数据，比较了这两个群体中人们的工作和职业满意度。

由此，我们发现:

**1。**虽然数据科学家和非数据科学家往往来自相似的人口背景(即主要是年轻男性)，但数据科学家比非数据科学家更有可能拥有更高的学位，但往往缺乏专业的编码经验。

**2。**与非数据科学家相比，数据科学家更有可能使用侧重于统计和建模的编程语言，如 Python 和 R，而非数据科学家则倾向于使用侧重于 web 开发的语言，如 HTML、CSS 和 JavaScript。

**3。**尽管数据科学家比非数据科学家享有更高的工作和职业满意度，但这两个群体都倾向于对自己的工作和职业高度满意。

综上所述，典型的数据科学家似乎是典型的书呆子男性程序员:30 岁出头的男性，拥有高级学位，并有一些用 Python 或 r 等语言编程的专业经验。

然而，仅仅因为这是一个“典型的”数据科学家现在的样子，并不意味着这是一个人未来的样子。事实上，为了全球经济，这种形象需要改变。

如前所述，数据科学是一个快速增长的职业，需求一直超过供应，预计未来许多年都将如此。

满足这一需求的最佳方式是，雇主想方设法吸引传统上在计算机科学和技术领域代表性不足的人群加入这一行业。

因此，如果你不认为自己符合“典型”数据科学家的标准，那么我的建议是:不要气馁。

在数据科学职业中，各种背景的人都有很大的发展空间，根据数据科学家对工作和职业的满意度，努力培养获得数据科学职位所需的技能是非常值得的。

毕竟，谁不想从事“21 世纪最性感的工作”呢？

要了解关于这个分析的更多信息，请访问这个项目的 GitHub 资源库，这里有。

Genevieve Hayes 博士是数据科学家、教育家和人工智能及分析专家，拥有Genevieve Hayes Consulting。你可以在LinkedIn或者Twitter上关注她。她还是 价值驱动数据科学 的主持人，这是一个每月两次的播客，面向希望最大化其数据和数据团队价值的企业。

想要发掘企业数据的价值，但不知道从哪里开始？**下载免费的数据科学项目发现指南。

数据团队真正做的是什么？

原文：https://towardsdatascience.com/what-does-a-data-team-really-do-12484482e683?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

充分利用数据的指南。

那些玩“大数据”、复杂数学、酷酷的代码和花哨的可视化工具来取乐的数据人是谁？

嗯，很可能……:)可能我们在工作的时候确实很开心，但更重要的是，我们沉迷于改善事物，解决值得解决的难题，并产生真正的影响。

在本文中，我将:

解释我们的数据团队做什么
展示其原因和方式
展示创造高效数据驱动环境的机会

It 是以清单的形式整理出来供参考。如果您正在进行分析工作或考虑您的组织如何才能最好地从数据中受益，那么您可能会发现以下几点特别有用。

目的 —我们工作的目的是什么？
第一原则——什么最重要？
影响 —影响对我们意味着什么？
数据驱动框架 —如何系统化和扩展这种影响？
分析工具集 —我们可以通过哪些方式传递价值？
利用 —如何充分利用分析？
责任 —我们应该做些什么来让整个组织变得更好？
回顾——我们怎样才能确保自己尽了最大努力？
愿景——我们要去哪里，下一步是什么？

目的

高层次的分析(为了简化本文，我将所有与数据相关的工作，如商业智能、产品分析、数据科学、数据工程等放在一个大的“分析”桶中)是一个强大的工具集，它使我们能够改进业务的任何方面。

GOGOVAN 的使命是“随简单而动”。我们的数据团队在这里确保无论何时您需要将某物从 A 点移动到 B 点，您都能获得最佳体验。

我们可以通过帮助团队成员和整个组织的系统做出决策并采取行动使我们变得更好来做到这一点。在 GOGOVAN，我们的数据团队在所有领域开展工作，包括运营、财务、营销、产品、客户服务、工程和战略，通常与这些职能团队密切合作，帮助他们有所作为。

我们的目的是通过促进整个组织做出更明智的决策来产生真正的影响。

基本原理

根据柯林斯英语词典，首要原则是指“理论、系统或方法所基于的基本概念或假设。”

当我们与我们的团队合作时，它有助于理解从我们的业务角度来看什么是潜在的价值，以及我们想要完成什么。

就我们公司而言，我们专注于按需物流的核心要素，以便我们能够为我们的客户、合作伙伴和业务利益相关方提供最佳结果。

这真的很简单:

顾客希望他们的商品能够快速、便宜、可靠地送达。
司机们想通过高效地完成工作来赚钱。
企业希望扩大并留住客户群，增加收入并降低成本。

举个例子，让我们把我们提供给客户的服务进行分解。对我们的客户来说，重要的是:

价格
质量
时间

价格很简单，越便宜越好。质量与如何提供服务有关，尤其是我们合作伙伴的可靠性、对我们处理商品方式的信任、沟通、支持以及我们产品的 UX。时间可以分解为响应时间、到达时间和交付时间。

因此，如果我们能够改善其中的任何一个方面，就意味着我们的服务变得更好，这应该会让客户更满意，从而促进业务增长。

对我们来说，第一原则思维意味着关注那些至关重要的事情。

影响

分析就是要对业务产生影响。当我们确定什么是重要的时，关键问题是我们如何影响它。我们可以通过许多方式对业务产生影响，但让我根据我们运营中的一个例子来解释一下。

我们平台的核心竞争力之一是将订单与司机匹配起来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example activity — drivers-orders matching

为了改善我们对客户的服务，我们的工作应该集中于发展能力，使我们能够系统地改善所有的组成部分，如价格、质量和时间。

那么，我们如何更好地利用“驱动因素-订单匹配”活动的这个例子呢？

下面是我们很久以前使用我们构建的交互式数据探索工具在新加坡运营中发现的一个例子。您可以看到，在这种特殊情况下，订单可以由在那个时刻有空且更接近订单的司机接受。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example of order assignment (visualized by interactive data tool).

通过匹配离取货地点更近的司机，到达和交付时间将更快，司机的成本将更低，司机时间的利用率将更高，因此，他将能够完成更多订单并赚得更多。
通过整合订单和设计最佳路线，我们可以为客户提供更好的价格，同时为指定司机提供更高的总价值。
通过为特定订单推荐 a)最适合该特定订单，b)最有可能接受该订单，c)并成功完成该订单(对完成该类订单的评分较高)的司机，我们还可以确保提供最优质的服务。

那时，除了构建可以滚动时间和监控操作的交互式工具之外，我们还进行了深度分析，并创建了突出异常值的脚本。我们继续致力于各种自动化数据驱动的方法，以不断改善我们的运营。

当然，这只是数据驱动方法可以发挥作用的一个活动。我们工作中的其他一些例子包括:

通过设计激励措施和政策来平衡供求关系
客户细分和优化营销活动的绩效
预测和吸引流失用户
跟踪和改进产品的性能
检测欺诈和异常

还有更多…

产生影响我们核心竞争力的影响是三赢——客户赢、司机赢、业务赢，数据团队乐于产生真正的影响。😃

数据驱动框架

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Distribution of demand in Hong Kong

有时候，说“让我们买个算法或者雇个聪明的顾问来解决 x 问题”可能很有诱惑力。虽然在数据科学环境中可能有这样的地方和时间，但我确实看到了一个大问题。

我们的生态系统不是一成不变的，在系统反馈循环中提炼解决方案和进行学习的迭代过程有很大的价值。这导致了积累的知识，在我的经验中，这些知识非常有价值，并加速了获得“模式识别”的魔力。

GOGOVAN 经济是一个动态复杂的生态系统。在一些底层服务组件之间可能存在权衡。另外，今天行之有效的东西很容易在明天(甚至是同一天)改变，在一个市场行之有效的东西在另一个市场可能表现不佳。

因此，不一定要有一个完美的公式或实现任何特定的方法来解决它。但更重要的是，它是关于拥有一个框架，在这个框架中，我们可以管理所有的参数，从而持续、渐进和系统地改善我们为客户和合作伙伴提供的服务。

该框架应该允许立即:

班长
设计
部署
调整
评价

所有对我们努力优化的事情有贡献的关键流程。

当面临任何业务或技术决策时，类似的标准可能是有价值的。每当我们做出一个关键决策时，我们可以问自己:“这如何有助于我们提高为客户和合作伙伴提供服务的能力？”

数据驱动框架旨在创造一种环境，在这种环境中，我们可以系统地控制并持续改进我们的成果。

分析工具集

与一些数据科学课程可能让我们相信的不同，事实是，作为一名数据科学家，除了开发尖端的深度学习模型，还有更多方法可以产生影响。😃

根据我的经验，当数据科学家专注于手头的问题，并选择最务实的方式来有效地解决问题时，他们会取得最好的结果。快速迭代、学习和改进解决方案会带来很多价值和满足感。

此外，作为更广泛组织的一部分，我们需要务实。构建控制调度所有方面的通用生产算法可能是最终的解决方案，但是它需要比数据团队更多的输入和资源。

那么，作为一名数据科学家，我们能为企业做出哪些贡献呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Matrix showing tools available to the data scientist. To play with the interactive version and see descriptions you can use this link and hover on points.

上述可视化的目的只是为了展示数据科学家的库存中有不同的“工具”来产生影响。通常，当我们说工具时，我们指的是语言、库、可视化和查询技术，在这里，我只是根据数据科学家可以交付的工作成果或他们可以执行的活动来介绍它。

有时候，考虑我们能够产生影响的最务实的方式可能是有益的，这就是为什么我使用这两个轴来形象化它——直接影响和独立贡献。

直接影响 —产出或活动对业务的直接影响程度。例如，拥有一个自动分配驱动程序的算法比为运营团队提供匹配驱动程序的报告具有更直接的影响。

独立贡献 —这仅仅意味着我们可以在多大程度上在数据团队中独立完成，而不必依赖其他基础设施、资源或影响产品路线图。

其他要考虑的事情还可能是每个工作产出的复杂性、时间和可伸缩性。

这并不是“科学的”，只是为了说明，在每个组织和数据团队中，根据各自的战略、基础架构、技能组合或某个时间点和公司增长，感觉会有所不同。

在我们的案例中，我们的工作包括所有工具的组合，这取决于任务是什么，它需要多精确，可用时间以及谁和如何使用它。在 GOGOVAN，我们创建了一个主数据平台，为“一切数据”提供一站式服务。它允许您搜索、导航、标记、协作和贡献成千上万的图表、报告、交互式工具、笔记本、查询、仪表板、算法和其他资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

data platform — navigation

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

data platform — search

我们的数据平台可以很容易成为博客文章本身的主题，如果你对更多细节感兴趣，请让我知道。

分析工具集提供了许多产生影响的方法，因此选择最合适的方法并实际应用它们。

利用

有人可能会问“嘿，数据团队做了这么多工作，但是我们能在公司中多好地利用所有这些数据和工作呢？”。答案是视情况而定。这是一项团队工作，我们不会孤立工作，可能影响数据团队工作的因素有:

产品和系统集成和迭代数据驱动特性的能力
组织中的数据文化
职能团队经理的风格和经验
跨团队沟通和协作
本组织的战略决策
操作流程和程序

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

例如，公司拥有的用户越多，即使是很小的变化也会影响到越多的人，因此优化的潜力就越大。数据越多的公司面临的挑战和机遇就越大。最后，企业的类型将决定技术在其核心竞争力方面能发挥多大的作用。组织对使用数据的态度越开放和支持，人们就越有能力根据数据做出决策和采取行动。

因此，您的目标可能是扩展这三个领域(数据价值、数据文化和数据输出)，使它们变得尽可能大和尽可能重叠，并且您能够通过让人们接受良好的数据教育并以良好的态度使用数据来产生足以解决关键问题的数据输出并很好地利用它。

就我们个人而言，我相信数据的潜力和价值是巨大的。物流非常适合优化，具有大规模和快速的增长，作为技术初创公司，这意味着我们正在收集关于我们服务的大量数据，包括应用遥测数据、GPS 位置、交易数据、营销信息、客户服务数据、远程信息处理信息等…

分析的利用是指在公司用正确的数据文化创造正确的数据输出，以服务于正确的数据价值。

责任

我相信数据团队处于一个独特的位置，可以对组织的每个部分产生影响。我们非常幸运能够每天与数据密切合作，因此我们经常能够在问题和机会出现在其他团队面前之前发现它们，这是有意义的。这就是为什么我们积极主动、清晰沟通、与整个公司的人密切合作并认真对待我们的责任是如此重要。

数据团队的主要角色是:

提供信息和决策支持
发现见解和分享知识
跟踪公司产品的性能和进展
如果出现问题，会发出信号并发出警告
促进全球跨团队协作和分享最佳实践
让数据民主化，让人们能够使用数据
促进数据驱动的决策
优化公司服务和业务活动
通过创新和开发知识产权提供竞争优势
贡献可能革新服务或产生新商业模式的解决方案

我们有责任教育员工，分享我们在整个组织中发现的知识和见解。信息不受限制地流向正确的人和系统是非常重要的，这样我们就可以改进我们的服务并尽快解决任何问题。在 GOGOVAN，我们定期举行开放式分析会议，创始人、管理层和任何感兴趣的人都可以参加，学习和讨论我们正在进行的最新项目和见解。

巨大的数据带来巨大的责任。

回顾

定期回顾我们正在做的工作是很有用的，特别是看看我们是否得到了我们期望的结果，以及我们正在产生什么影响。我们可以从中学习，并利用它来计划下一步的行动。

对思考影响有用的问题:

这项工作的预期成果是什么？
我想解决什么问题？
我想回答什么问题，为什么？
我如何知道我所做的对公司有贡献？
我今天能做些什么来让公司或我们的服务变得更好？
来自埃隆马斯克:什么是效用增量？
蒂姆·费里斯:我现在能做些什么来让其他事情变得简单或不相关？
今天我能做些什么来赢得这一天呢？

除此之外，我们还不断尝试检查我们的工作方式、最佳实践和技术:

在军队中有一种叫做 AAR 的东西(行动审查后)。我们做的一件事是在我们的分析会议后，我们有一个快速的回顾会议。我们每个人都输入时差，然后讨论三个问题:

怎么样了？
什么进展顺利？
我们能改进什么？

这是一个非常开放和支持性的环境，每个人都可以发表评论并提出改进建议。然后，我们确保在下一部作品中纳入这些评论。我们有最佳实践笔记本,其中包括代码片段、解释、可视化等，根据我们的经验，这些都很有效。

"我们决不能忙得抽不出时间来磨利锯子."斯蒂芬·柯维

**我们试图以优化数据科学家的工作效率和体验的方式来设计我们的工作环境。**我们做的一些事情包括:

在设计我们的分析基础架构和模式时，要考虑简单性、灵活性和性能
使用领先的工具和库(是的，我们喜欢 Python、Pandas、Spark 等。并拥抱开源)
拥有可提高再现性和协作性的笔记本模板
为常见的功能和活动创建实用程序(例如直接从 Jupyter 向我们的数据平台自动发布和标记 HTML 笔记本)
使用文档化的环境，以便新的数据科学家可以进来，运行几个命令，一切准备就绪，开始在几分钟内提供价值…

回顾你工作的影响，问正确的问题，思考预期的结果，并回顾结果。

视力

简单地说，愿景就是描绘一幅美好未来的图画。在未来，我看到一个令人敬畏的数据团队为公司的成功做出巨大贡献。

尽管我们在 GOGOVAN 的所有领域都做了大量的工作，但在我看来，这只是一个热身，我们仍然有很多机会和方法来改善未来。

我们创造强大而全面的数据能力，帮助公司实现其目标(在我们的情况下，增长，为我们的用户提供最佳服务，并发展竞争优势)。我们渴望在这方面成为世界上最好的。

对我们来说，非常令人兴奋和充满希望的下一步是扩展我们在系统中自动和直接做出智能决策的能力。要做到这一点，我们必须投资于领先的基础设施和应用人工智能/人工智能能力，使我们的服务更好。

我们的愿景是创造一流的数据驱动能力，推动公司不断前进。

本文原载于 GOGOVAN 科技博客 。