TowardsDataScience 博客中文翻译 2020（八百八十一）

最新推荐文章于 2025-04-21 15:52:49 发布

绝不原创的飞龙

最新推荐文章于 2025-04-21 15:52:49 发布

阅读量3k

点赞数 19

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142749513

版权

MLM 专栏收录该内容

3745 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

数据科学家的终极使命:支持决策

原文：https://towardsdatascience.com/the-ultimate-mission-of-a-data-scientist-support-decision-making-824f870aa386?source=collection_archive---------47-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由德姆卡特在 Freepik 上拍摄的照片

破解决策的一系列技巧和诀窍。

数据科学家的基本职责是支持基于数据的决策。要实现这一目标，必须培育一种数据驱动的文化，并挑战现状。

无论你是否生活在混凝土丛林中，你都在不断地做决定。在许多情况下，它们可能根深蒂固，以至于你甚至不会去想它们。你的大脑只是推动你通过它，甚至没有推理。我们称之为“体验”的东西在这里可以发挥重要作用:具体来说，是针对决策的最佳结果；尤其是在“体验没有给考虑数据腾出空间的时候。

数据科学家的基本职责是支持基于数据的决策。要实现这一目标，必须培育一种数据驱动的文化，并挑战现状。从“”型文化(系统 1 )成功过渡到 数据驱动 型方法(系统 2 )的障碍是人。

有经验的经理和主管往往相信他们的“T20”直觉，经常做出高风险的决定。这与许多不同类型的偏差有很大关系，我们将在这里讨论，但不限于此。但是，基于情绪的决策也是如此，研究证明这是不推荐的。

澄清一下，我们所说的主管和经理实际上是指任何负责做决策的人，不管他/她在名片上的头衔是什么。

五种最危险的偏见

图片由 Freepik 上的 georgejmclittle 拍摄

偏见可以被定义为“一种特定的倾向、趋势、倾向、感觉或观点，尤其是一种先入为主或不合理的倾向”。在对我们所有人产生负面影响的诸多偏见中， 过度自信 是最糟糕的。很明显，当涉及到决策过程时。

“我们的直觉让我们更容易受到过度自信等认知偏见的影响”——马克斯·h·巴泽曼

决策者必须承认他们在某些类型的偏见下运作。没有这种认识，就很难打破做出糟糕决策的车轮。当事情走下坡路时，经理们倾向于指责其他一切，但当他们成功时，却获得巨大的荣誉。

在这里，我将介绍一些可能影响决策的主要偏见类型。

过度自信:**研究称，“过度自信可能是所有决策偏差之母”[2]。“过分相信自己知道真相是一种过度自信”[2]。如果你太确定你正在做最好的决定，你最好是有数据支持的。记住，“垃圾进，垃圾出”。仅仅因为你可能使用数据，并不意味着你每次都会成功。
***确认偏差:*这是一种为选择性的事情寻找正当理由的努力。在这里，我们将寻找任何可以支持和确认我们的信念和价值观的东西。也就是说，我们总是寻找借口来解释我们的失败，却不为失败承担责任。
对自我不切实际的积极看法:通常，这可以被视为与过度自信密切相关。在这种偏见中，这个人对他/她自己有着非常积极的看法。特别是，依靠经验做决定的人往往对自己有非常积极的看法。在这里，每天早上吃一粒谦逊丸可能是一种有效的补救措施。
***控制错觉:*通常，这种偏见伴随着高度迷信的心态。人们倾向于相信他/她可以依靠他们能做的事情来控制随机事件。就像，“如果我穿靴子，就不会下雨”。
自私的归因:我之前已经提到过，但现在让我们重新定义一下:当我们成功时，我们倾向于获得很多荣誉，而当我们失败时，我们很少受到责备。一般来说，主管会将失败归咎于决策者无法控制的失败或其他因素，但将他们的成功归功于他们的技能或经验。

还有许多其他类型的偏见，但我想让你感受一下我们认为在专业环境下做决策时的主要偏见。本质上，人们倾向于根据情绪而不是理性做出决定，这让我们直接进入了一条分叉的道路。

永不结束的战争:系统 1 和系统 2

图 1——两条决策路线。原文此处。

总而言之，系统 1 靠的是情感，系统 2 靠的是理性。作为人类，我们都有这两种思想体系。

系统 1 基于经验，需要很少的认知努力就可以利用。一个经典的例子就是 2 + 2 的答案=？。你看，你甚至不需要想太多就能找到正确的答案。这是一个自动的非常快速的过程。

同样地， 系统 2 要求更多的认知努力被利用。一个例子是找到 16 x 23 =的答案。。对绝大多数人来说，找到正确答案需要更多的时间和努力。它不再是自动的了。

为什么这与决策相关？**事实证明，在做出重要决策时，我们希望使用系统 2、并避免系统 1 的缺陷。因为，系统 1 不断地在我们的大脑中运行，从不停止——它潜意识地运行——如果系统 2 碰巧超负荷运转——需要做出很多很多重要的决定——系统 1 会控制并引导你做出一个常常不是最佳的决定。当这种情况发生时，我们最终做出了“足够好”的决定，增加了失败的几率。

风险厌恶、风险寻求和风险中性

图 2 —效用函数。原文此处。

上图显示了风险管理的三种不同类型的方法。这在经济学和金融学中是广为人知的。

嗯，这和决策有什么关系呢？一切！

人们做决定不仅基于金钱价值(X 轴)，还基于偏好* (Y 轴)，比如需要付出的努力和/或快乐。这个偏好单位被称为“效用”，显示一个人对结果的偏好。*

公用事业很重要，因为它们对人们的决策有影响，也有助于我们更好地理解他们对风险的态度。在经济学中，我们将风险视为平均值或期望值附近的方差*。在这一点上，我们可以将人们分为三类:风险厌恶型、风险寻求型和风险中性型。*

我们中的许多人都在寻找损失的风险，并厌恶收益的风险。也就是说，我们要拿肯定的东西，但要避免肯定的损失。因为损失比收益的快乐更痛苦，所以我们想减轻损失。因此，通常，高管们看待“风险”的方式是损失的可能性和程度，而不是方差*。因此，他们很可能会关注风险的负面影响，而忽略机会。你认为这会如何影响决策？我把那个留给你。*

一些设计更好决策过程的工具

用户 16172657 在 Freepik 上的照片

好吧，当你被召集去参加一个你自己都没有意识到的会议时，你必须在你的腰带上带一些工具来帮助你。

让我们了解一下你应该知道的三个基本工具。请记住，这不是一个详尽的列表。

决策表或决策矩阵

图 3 —加权决策矩阵。原文此处。

根据我们的偏好*(还记得效用函数吗？).虽然决策表或矩阵非常基本，但在指导决策者时非常有用。*

2。决策树

图 4 —决策树。原文此处。

决策树对于直观地了解我们将要走的道路、我们决策的复杂性以及风险和潜在结果非常有用。机器学习工程师和数据科学家对决策树很熟悉，特别是因为决策树算法可以用于许多解决方案中。查看原文此处了解更多。

3。博弈论:纳什均衡

图 5——囚徒困境。原文此处。

做生意就是要在一场 的不合作 的博弈下进行。从商业角度来看，垄断将是梦想成真，这意味着没有竞争。然而，在许多行业，竞争是激烈的。所以当公司不得不做决定时，假设是他们不知道他们的竞争对手会做什么。本质上，公司在争夺市场份额的时候是没有合作的。因为纳什均衡是一个很好的工具。更多此处。

数据科学家需要掌握的技能

照片由七十四在 Freepik 上拍摄

没有。作为一个 DS，你的主要目标不是争论 Python 是否比 r 更好或更差，这是没有意义的，也是浪费时间。

相反，你的最终使命是通过培养一种数据驱动的文化来支持决策，这种文化允许减少不确定性，并减少直觉决策的重复。

记住这一点，如果你想在试图改变一种文化时打破阻力之墙，我将在这里介绍你必须努力的三个软技能。

通信

图 6——奥斯古-施拉姆沟通模式。原文此处。

商业人士实际上并不关心你用哪种算法得出你的分析。不要试图让自己看起来很聪明，也不要让事情变得过于复杂。强调你为他们的问题找到的解决方案，而不是你使用的工具。

通过简化事情，你有机会被听到，你的信息被正确地解码。这对建立信任和融洽关系很重要，因为一般来说，我们喜欢和自己长相相似的人。

作为数据倡导者，我们希望为依赖数据的决策过程打开大门。为此，一个伟大的沟通模式是至关重要的。

2。谈判建模

图 7 —巴特纳。原文此处。

现在，你已经成功地表达了你的观点。但是，你发现自己在原地打转，尽你所能去实现它，对吗？！这就是掌握谈判知识的方便之处。

然而，不要把太多的精力放在赢得每一场战斗上。关注战争。如果以赢得战争为最终目标，打几场败仗也没什么。如果你只是想表达你的观点，并证明你是坐在桌子上的那个更聪明的人，从长远来看，你可能会悲惨地失败。

一个很好的方法是有一个“双赢”的态度。我的朋友，真的可以打开大门。如果事情变得紧张，你可能想要准备一份好的 BATNA(协商协议的最佳替代方案)，它可以帮助你得到你需要的东西，而不会对关系造成太大的损害。

3。管理变更

图 8 —库伯勒-罗斯变化曲线。更多此处。

归根结底，一切都是为了改变。这可能非常具有挑战性，更有可能来自自上而下的决策。也就是说，一些高级管理人员有一种数据驱动的文化，并希望在整个公司实施这种文化。

一般来说，人们倾向于抵制改变。理解应对变化的步骤至关重要。请记住，创建数据驱动的文化是一个过程，需要时间。真的是马拉松，不是短跑。在你走向基于数据的决策民主化的过程中，要有韧性，并不断尝试转化和影响他人。坚持是你需要练习才能达到的*。***

“受到喜爱的数据往往会保留下来。”库尔特·博拉克

大数据和物联网(IoT)

照片由biancomblue在 Freepik 上拍摄

为什么决策者需要数据科学？原因很简单，现在我们可用的数据(大数据)的容量和结构是巨大的，为了做出合理的决策，我们需要具备数据挖掘能力来提取和分析重要的东西。

请想一想，今天，我们有数十亿台设备全天候连接到互联网。这每秒钟都会产生大量的数据。这种现象就是我们所说的“物联网”(IoT)。这与我们在“大数据”世界中转储的数据量直接正相关。

事实上，如果没有机器，人类是不可能成功分析所有这些的。硬件和软件方面的最新进展为数据科学家在为公司问题建模解决方案时的发展和成功打开了机会之窗。

高管和一般领导层不能对眼下发生的事情视而不见。他们必须投资构建可靠的数据结构和数据仓库，以便分析师能够完成他们的工作，并带来竞争优势。

根据什么时候和/或风吹向哪里来做决定，这在鳄龙是不可接受的。

最后的想法

总的来说，还有很多其他的话题我们没有机会在这里讨论。本文旨在提供高水平的知识，并对一些资源和信息进行分组，以帮助您理解决策过程的复杂性。

技术技能是数据科学家完成工作所必需的，但当归结为培养公司文化向数据驱动的民主化转变时，业务知识和软技能会改变游戏规则。

在这里，我们看到了决策方式的主要偏见、系统 1 和系统 2 的工作方式、支持决策的一些工具，以及数据科学家在对抗现状时取得成功所需的一些技能。

我希望这能激励你学习更多。下次见。

参考文献:

[1]理查德·帕卡德。为什么我总是做错误的决定？！BHNW 佛。

[2]摩尔，D. A .，坦尼，E. R .，&哈兰，u .(出版中)。判断过于精确。在 g .吴和 g .克伦(编辑。)，判断与决策手册。纽约:威利

[3]哈里斯，克里斯托弗&吴，陈.(2014).使用三参考点理论评估游戏化众包任务中的风险态度和财务激励的效果。商业经济学杂志。84.281–302.10.1007/s 11573–014–0718–4。

终极开箱即用的自动化 Python 模型选择方法

原文：https://towardsdatascience.com/the-ultimate-out-of-the-box-automated-python-model-selection-methods-f2188472d2a?source=collection_archive---------25-----------------------

或者说如何在不过度拟合的情况下得到最佳的机器学习模型？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Franck V. 拍摄的照片

在任何数据科学项目中，选择最佳模型是特征选择之后的关键步骤。该过程包括使用最佳算法(监督的、非监督的)来获得最佳预测。高维数据集自动模型选择方法一般包括天秤座和 Pycaret 。一个 unicorn 数据科学家需要掌握最先进的自动化模型选择方法。在本文中，我们将回顾两个最佳 Kaggle 获奖者的自动化模型选择方法，它们可以用简短的 python 代码实现。

在本文中，我们将分析巧克力棒评级数据集样本，您可以在这里找到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Klara Avsenik 在 Unsplash 上拍摄

一个具有挑战性的数据集，在特征选择后包含 3400 个特征中的 20 个，与目标特征“审查日期”相关。

天秤座

面临的挑战是找到最佳的技术组合，以便您可以将预测中的误差降至最低。 Libra 提供开箱即用的自动化监督机器学习，优化机器(或深度)学习管道，在几秒钟内自动搜索最佳学习算法(神经网络、SVM、决策树、KNN 等)和最佳超参数。点击此处查看 Libra 中可用的评估者/模型的完整列表。

这是一个预测巧克力评级数据集 review_date 特征的示例，该数据集是一个复杂的多类分类(标签:2006–2020)。

**#import libraries** !pip install libra
from libra import client**#open the dataset** a_client = client('../input/preprocess-choc/dfn.csv')
print(a_client)**#choose the model** a_client.neural_network_query('review_date', epochs=20)
a_client.analyze()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Libra ( 图片由作者提供)自动神经网络

Libra 使神经网络在优化前的精度为 0.796，在优化后的精度为 0.860，减少了从训练/测试= 0.796–0.764(0.35)到训练/测试= 0.860–0.851(0.009)的过拟合，从而使神经网络的最佳层数为 3 到 6。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尼克·卡沃尼迪斯在 Unsplash 上拍摄的照片

Pycaret

PyCaret 是一个简单易用的顺序流水线，包括一个集成了超参数调整和训练模型集成的预处理功能。

**#import libraries** !pip install pycaret
from pycaret.classification import ***#open the dataset** dfn = pd.read_csv('../input/preprocess-choc/dfn.csv')**#define target label and parameters** exp1 = setup(dfn, target = 'review_date', feature_selection = True)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Pycaret 预处理函数 ( 图片由作者提供)

所有预处理步骤都在 setup()中应用。有超过 40 个特征为机器学习准备数据，包括缺失值插补、分类变量编码、标签编码(将是或否转换为 1 或 0)和训练-测试-分割，在初始化 setup()时自动执行。关于 PyCaret 预处理能力的更多细节点击这里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

托比·奥蒂在 Unsplash 上拍摄的照片

Pycaret 在一行中进行模型比较，返回一个包含 k 倍交叉验证得分和算法得分指标的表。

compare_models(fold = 5, turbo = True)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最佳比较分类器 ( 图片由作者提供)

PyCaret 拥有超过 60 种开源的现成算法。点击此处查看 PyCaret 中可用的评估者/模型的完整列表。

tune_model 函数用于自动调整机器学习模型的超参数。 PyCaret 在预定义的搜索空间内使用随机网格搜索。该函数返回一个包含 k 倍交叉验证分数的表。

ensemble_model 函数用于集合训练好的模型。它只需要经过训练的模型对象返回一个具有 k 倍交叉验证分数的表。

**# creating a decision tree model** dt = create_model(dt)**# ensembling a trained dt model** dt_bagged = ensemble_model(dt)**#plot_model dt** plot_model(estimator = dt, plot = 'learning')**# plot_model dt_bagged** plot_model(estimator = dt_bagged, plot = 'learning')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简单和 bagging 决策树评估指标**(作者提供**图片)

可以使用 plot_model 函数对经过训练的机器学习模型进行性能评估和诊断。

**#hyperparameters tunning**tuned_dt = tune_model(dt,optimize = "Accuracy", n_iter = 500)**#evaluate model**evaluate_model(estimator=tuned_dt)**#plot tuned dt confusion matrix**plot_model(tuned_dt, plot = 'confusion_matrix')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Pycaret 的决策树分类器评估方法

最后， predict_model 函数可用于预测未知数据集。

**#predicting label on a new dataset**predictions = **predict_model**(dt)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用决策树进行日期预测

照片由 Element5 数码在 Unsplash 上拍摄

如果你有空闲时间，我建议你看看这个:

** [## 算法选择

从一系列算法中选择最佳算法的指南。

medium.com](https://medium.com/swlh/algorithm-selection-65814f477d6a)

总结一下

请参考以下链接:

https://jovian.ml/yeonathan/libra

https://jovian.ml/yeonathan/pycaret

对于选择巧克力棒的完整算法，请使用这两种方法评估日期。

这个简短的概述提醒我们在数据科学中使用正确的算法选择方法的重要性。这篇文章涵盖了高维数据集的两个最好的 Python 自动算法选择方法，并分享了有用的文档。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由英格玛在 Unsplash 上拍摄

希望你喜欢，继续探索！**

终极 pong AI(带计算机视觉！)

原文：https://towardsdatascience.com/the-ultimate-pong-ai-with-computer-vision-3c253578cd00?source=collection_archive---------56-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

计算机视觉和终极乒乓人工智能

作者:罗宾·怀特 — 7 分钟阅读

我最喜欢的 YouTuber 之一， CodeBullet ，曾经试图创造一个 pong AI 来统治他们。可悲的是，他遇到了麻烦，不是因为他没有能力，而是我不认为他当时的经验在计算机视觉方面有什么作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Glenn Carstens-Peters 在 Unsplash 上拍摄

因子分析&国家分类聚类分析

由张志祥 — 9 分钟读完

最近，我被一则新闻所吸引，根据世界银行的分类，坦桑尼亚已经达到较低的中等收入水平，比预测提前了五年。出于对他们如何做出判断的好奇，我在这里浏览了一下世界银行的官方网站。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用神经网络生成啁啾声

由杰森·詹森—6 分钟阅读

鸟鸣的声音变化多样，优美，令人放松。在前 Covid 时代，我制作了一个专注计时器，它会在休息时播放一些记录的鸟类声音，我总是想知道是否可以产生这样的声音。经过反复试验，我找到了一个概念验证架构，它既能成功再现单一啁啾声，又能调整参数以改变生成的声音。

终极后黑客马拉松指南

原文：https://towardsdatascience.com/the-ultimate-post-hackathon-guide-12a1fb5d1b46?source=collection_archive---------39-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Unsplash 上的absolute vision拍摄

结束或发展你的想法的 10 个实用技巧和诀窍

**场景:**你参加了一次黑客马拉松，也许是你的第一次，也许是你的第次。活动进展顺利，您的问题和解决方案切中要点，赢得了评委的心，并为您的团队赢得了排行榜上的一席之地。

活动正式结束了，但现在你已经睡了一个好觉，在笔记本电脑上添加了更多的贴纸，吃了足够吃一周的免费食物(前提是你没有被锁起来)，你突然想到:“现在怎么办？”

介绍

作为一个自我诊断为黑客马拉松爱好者的人，我经常问自己(也经常被问到)这个问题！它启发我写了这篇文章，其中写道:

我想为你和你的团队提供一份实用的建议清单，告诉他们在黑客马拉松后该做些什么。

面对现实吧，没有对错之分。你常常是为了接触新技术或行业关系，这可能会成为你实习、研究生角色的“敲门砖”，或者只是通过制作一些很酷的东西向周围的人展示你的技能的机会。如果是你，最终的结果可能不是创业，而是不断增长的 GitHub 组合。

最后，归结为一个问题:

我们的团队是否想继续这个项目？

#1:必备:README.md

这个文件需要说明一切，不管你对上述问题的回答！这是你项目的求职信，可能比你创建的任何登陆页面都更重要。用它告诉每个人这个想法和实现它的技术。如果有人想了解您团队的流程或知识，他们应该在这里找到…就在你的代码旁边。

以我的经验，这是最简单的加法，影响最大。不管你的项目有多酷，或者你对自己的代码有多了解，都要让它对每个人都简单明了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

你可能包括什么？

一张图道尽千言万语，用首页的横幅或截图捕捉大家的注意力。
如果您在个人回购中托管代码，徽标是一个很好的补充，否则将其放在您组织的个人资料图片中。
陈述你的项目名称并更新回购的描述用一句话总结解决方案。
将已实现库或技术的关键字添加到您的 repo 中。
包括一个链接到您部署的解决方案(如果适用)。
从您的主机提供商或 CI 工具添加状态徽章，以指示您的项目或实时网站的状态。
如果你因为你的想法赢得了任何奖项，也要提及它们，并在它们前面加上表情符号(如果你觉得这样做合适的话)。
简要告诉我们为什么 我们应该关心你的团队正在处理的黑客马拉松的问题/主题。
简要告诉我们你的团队如何解决上述和问题，为什么你的项目是这项工作的最佳解决方案。
给我们截图！*提示:*可以在自述文件中使用 HTML 和 CSS 来布局(或者使用表格)。
给我们一张团队照！你一定玩得很开心，把那一刻记录在你的自述文件里，让所有人都看到！
不要太复杂，告诉我们我们如何让你的代码在本地运行(不要忘记链接任何相关网站，我们可能需要在那里申请 API 密匙)。

✨专家提示:添加为 LinkedIn 项目

现在您已经有了一个漂亮的自述文件。为什么不在你的 LinkedIn 个人资料上链接到它呢？转到项目部分，添加 GitHub URL 以及项目名称和简短描述。为了显示你是一个团队成员，将你的团队成员添加为贡献者。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当人们查看您的个人资料时，他们可以查看您的项目。图片作者。

#2:最低限度:清理

在完成了这一工作之后，你可能还在 GitHub 上纠结于混乱的代码库。虽然大多数黑客马拉松不会评判你的代码是否干净，但你可能想帮你的投资组合一个忙…

花几分钟时间查看整个代码，并自动格式化每个文件，删除不需要的空格，并修复任何令人困惑的变量名。现在可能也是对您的函数的使用提供一些意见的好时机。
确保您没有在 repo 中泄漏环境变量(即添加您的。env文件到一个.gitignore文件中，这样它就不会被签入到你的版本控制中),并且任何这样的键在事件结束后都会被旋转。如果适用，提供一个.env.example文件来记录所需的环境变量(当然没有它们的值)。
如果你已经将你的应用程序部署到云上，比如说 Heroku 或 Vercel (黑客马拉松中快速部署的流行选择)，你可能已经建立了管道或审查应用程序，随着时间的推移，这可能会花费你的钱。只留下生产应用程序，并更改其设置，以自动部署您的回购的主分支。这将确保 GitHub 中的依赖警告/安全补丁也能自动部署。

做出选择！

很简单:

if (you_want_to_grow_this_idea) { **Read On!** In the next section we dive a little deeper.} else { **Congrats!** 🥳 You’ve attended a hackathon, built a cool solution,
  make new connections, and added the new project to your GitHub /
  LinkedIn portfolio to talk about in the future!
  Ready for the next hackathon??}

下一步:我们希望继续前进(和成长)

好消息！黑客马拉松是#创新的巨大催化剂。如果你的团队看到了这个想法的潜力，或者有将它推向市场的愿望，那么为自己已经走了这么远而感到欣慰。👏🏼👏🏼

下一部分是给你的！

#3: R 联合部队！是回顾的时候了！

既然你们已经见过面并一起工作了，你必须找到一个对你们都合适的地点(最好是一个物理空间)。它可能是你的大学校园，当地的咖啡馆，或者某人的房子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Startaê Team 在 Unsplash 上拍摄的照片

聚在一起谈论活动的成功，听对方说完，并做笔记，你可以在接下来的步骤中使用反馈和新想法(可能评委有你没有想到的很棒的建议)。

哪些工作做得很好/本可以做得更好？
每个人都认为这个想法会走向何方？
在黑客马拉松中，每个人都希望实现的一件事是什么？
事件发生后，你有什么新想法？

#4:确定你的管理层支持者

一些黑客马拉松是私人公司范围的创新活动。与他们的上市公司相比，这些公司通常期望建立一些东西来增加公司现有产品或服务的价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Austin Distel 在 Unsplash 上拍摄的照片

然而，这些活动有一个项目赞助商。这通常是高层领导团队中的某个人，他是项目团队的利益相关者。你要它们做什么？当然是拥护！我们希望尽可能产生最大的影响，但如果我们没有从那些有影响力的人那里获得情感(也许还有财务)投资，那说起来容易做起来难。

获得高管支持的第一个技巧是展示项目发起人的关键利益(如与成功的项目或充满激情的人/事业相关联)可以被反复证明。

尽早与他们会面，了解你的项目如何与公司的更大目标保持一致，无论是可持续性、多样性和包容性，还是类似的价值观。
请他们定期向公司汇报你们的共同努力。这是一个获得免费曝光、动力和被认真对待的好方法。

#5:确定一个领导者

面对现实吧，我们都经历过…有时候，在一场累人的比赛后，很难重新获得动力。一个清晰的领导者的想法可能会给项目增加不必要的层级，但是对于保持团队的责任性是必要的(特别是在偏远地区)！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

蒂莫西·埃伯利在 Unsplash 上的照片

我无权告诉你如何识别团队中的领导者…所以，想想谁能最好地阐述问题和解决方案，谁能感同身受并在比赛中让评委们微笑，谁擅长人员管理。一句名言很好地总结了这一点:“培养领导力的唯一途径是尝试领导力。”

有趣的见解:如何成为创业公司的伟大领导者和像真正的领导者一样经营创业公司的 8 个技巧

#6:制定产品路线图

作为一个团队，让我们创造一些清晰度和方向感。这里有一个启动产品路线图的例子，请看一下完整指南中更详细的解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:原子对象(有权限)

通常情况下，黑客马拉松非常擅长以足够的细节掩盖前 4 个步骤，为你推销的解决方案的需求提供令人信服的理由。你现在的任务是在继续前进之前回去重温最初的步骤。

我们的解决方案真的有市场吗？
我们的解决方案真的解决了核心问题吗？
现在谁愿意付费使用原型？(提示:这是你的第一个客户，所以现在就获得他们！)

#7:保持精益:使用这些积分！

假设你的团队成员继续免费工作(当然是在业余时间)；我质疑这么早就筹款的必要性。相反，我相信在预算有限的情况下使用免费试用来实现你的 MVP。

像 Azure、AWS 或 Google Cloud 这样的云平台从来没有这么便宜过，他们组织中的一些人经常与黑客马拉松有联系，并且非常乐意向你提供一些免费积分。使用它们，如果用完了，就要求更多！

#8:开发功能路线图

我敢肯定，您想到的大多数特性在黑客马拉松期间都无法被团队实现。

在 MVP 中包括什么:大多数团队都很难定义什么是紧急的，什么会在早期产生最大的影响。让下面的图表成为你无情地优先处理 MVP 待办事项的指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优先级矩阵:影响与紧迫性

#9:获得你的第一个付费客户

在最方便的时候引入早期采用者总是好的。尽快和他们签约，让他们觉得相信你是有价值的！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

乔丹·罗兰在 Unsplash 上的照片

早些时候，我们问自己*“谁愿意为原型买单？”现在，我们希望锁定他们的承诺。这是我们的第一个付费客户。*

如果他们看到我们的解决方案有好处，我敢打赌他们知道他们愿意推荐的其他人！

选择适合您的解决方案的支付模式，并专注于收集经常性(如每月)收入。我见过许多早期创业公司向他们的初始客户群提供免费试用，但我建议你考虑折扣价格。原价的 50%，甚至 25%还是比完全没有收入好。

我们正在创业，所以不要害怕在 MVP 上贴上价格标签！

最后，通过与第一批顾客交谈并听取他们的反馈，让他们感受到自己的价值。要求举例说明您的解决方案如何解决他们的问题。也问他们哪里可以改进，然后发送他们的一个反馈项目(当然是总体影响最大的一个)。

#10:玩得开心！

不言而喻…总有学习的空间(说“我不知道”也没什么损失)所以不要太把自己当回事。你能行的！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 sydney Rae 在 Unsplash 上拍摄

你对黑客马拉松有什么建议？

认识到所有的黑客马拉松都是不同的，这绝不是一个全面的列表，而是帮助重获动力的实际行动。也就是说，我很想听听你在黑客马拉松后的建议。

祝你和你的团队好运！

GPT-3 的(不)伦理故事:OpenAI 的百万美元模型

原文：https://towardsdatascience.com/the-un-ethical-story-of-gpt-3-openais-million-dollar-model-213d7d06bbf1?source=collection_archive---------33-----------------------

世界上最强大的人工智能模型的宗教、性别和种族偏见、环境影响和其他伦理考虑。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:作者

今天最强大的人工智能显示了巨大的希望，但也提出了一些重要的伦理和道德问题

回到 2019 年 10 月 12 日，世界见证了一项以前难以想象的成就- 肯尼亚当地人埃鲁德·基普乔格以 1:59:40 的惊人时间跑完了第一场不到两小时的马拉松。他后来谈到这个惊人的成就时说，他*“预计今天之后全世界会有更多的人跑不到 2 小时”* [1]。

当基普卓格在长跑中创造新的记录时，在世界各地，埃隆马斯克支持的人工智能公司 OpenAI 的自然语言处理(NLP)专家团队发布了一个新的基于 transformer 的语言模型，该模型拥有 15 亿个参数，在几乎所有语言任务中实现了以前不可想象的性能[2]。许多专家从这篇论文中得出的主要结论是越大越好-变压器模型的智能可以随着参数的缩放而显著增加。2020 年 3 月，这一理论得到了 OpenAI 发布的第三版模型或 GPT-3 的支持，该模型封装了惊人的 1750 亿个参数，实现了比第二版更出色的性能，尽管实际上共享了相同的架构[3]。可能更令人震惊的是，一个保守的估计认为训练 GPT-3 的成本为460 万美元，但我也见过 1200 万美元——我不是聊天机器人，但我认为 Alexa 和 Siri 如果知道了会很嫉妒。

更严重的是，OpenAI 对人工智能的潜力持谨慎态度，因此他们将一个小组列入白名单，以测试该模型。然而，这并没有阻止它令人难以置信的表现像野火一样在 Twitter 上蔓延。仅仅用几个词作为提示，人们就展示了 GPT-3 如何能够自动生成代码，为社交媒体上的平面设计师编写现实、甚至有用的提示，并在一篇名为“论社交距离”的长篇文章中复制一位著名英国作家的散文和写作风格，其中 GPT-3 以第一人称视角详细描述了社交距离的烦恼。

但是等等，我有没有提到这个模型是根据 2020 年之前的数据训练的，所以对新冠肺炎一无所知？如果像这样的突破让你紧张，而且你甚至不是英语专业的，那么也许你会理解为什么 OpenAI 甚至犹豫是否发布 GPT-2 因为担心它可能被恶意使用。

然而，我们知道，并且一次又一次地被提醒，对技术的恐惧不会阻止它的进步。OpenAI 的政策主管 Jack Clark 说得好，他说，与其假装它不存在，不如在 AI 的危险到来之前谈论它。

正如基普卓格在向世界展示了一个可供遵循的蓝图后预测两小时以下的马拉松比赛将会增加一样，现在是我们为发布更多像 GPT-3 这样的模型做准备的时候了，并准备好参与关于人工智能的道德和社会后果以及缓解方法的有意义的讨论。

GPT 新协议的广泛社会影响

“有更多研究的空间，这些研究涉及 NLP 之外的文献，更好地阐述关于伤害的规范性声明，并以整体方式涉及受 NLP 系统影响的社区的生活经验”“ Brown 等人 2020

隐藏在所有推特炒作和媒体简化 GPT-3 到大规模记忆的反应之间的事实是，现代人工智能工具足够智能，至少可以模仿我们的许多人类倾向——创造力、偏见等等。

最终，人工智能会向我们学习，不是吗？

考虑到这些更广泛的社会问题，以下部分将讨论 OpenAI 关于 GPT-3 的原始论文的发现，包括:

训练模型对具有数万亿个数据点的互联网数据集的必然影响。
像 GPT-3 这样的人工智能模型中的种族、性别和宗教偏见
坏演员可以使用强大的人工智能模型(如 GPT 3)和激励这些演员的激励结构的潜在方式
训练和部署具有数十亿参数的人工智能模型的环境影响

基于互联网数据的训练模型:好还是坏？

互联网是一个伟大的资源；然而，科技公司很清楚解决偏见(种族、性别、宗教等)。)仇恨言论现在是他们工作的主要部分，理所当然如此。像 GPT-3 这样拥有 1750 亿个参数的模型需要更大的数据集，互联网似乎是唯一一个足够大的候选人来完成这项任务。然而，在从互联网上搜集的数万亿个数据点上训练一个模型有什么意义呢？

GPT-3 的创造者 OpenAI 不遗余力地帮助防止污染(数据集中的重复条目)，并确保 GPT-3 接受尽可能高质量的数据训练。如表一所示。，GPT-3 使用了 5 个数据集:普通抓取[4]，网络文本[5]，书籍 1，书籍 2 和维基百科。较大的、质量较低的数据集(如 Common Crawl)首先被过滤以获得较高质量的、多样化的文档。此外，在训练期间，较高质量的数据集(如维基百科数据集)比较低质量的数据集(如普通爬行)更频繁地被采样。例如，尽管只占整个数据集的 0.5%，维基百科每 3000 亿个令牌被采样 3.4 次，而普通爬行被 GPT-3 发现不到一次。

表 I. 训练矩阵中的权重表示从给定数据源中抽取的样本的分数，以及当针对 300B 表征的训练显示数据集每 300B 表征被模型看到的次数时所经过的时期(来源:[3])

不管他们试图提供多样化的数据，使用互联网作为主要的数据集带来的挑战和机遇一样多。一方面，互联网显然是有史以来最大的文本语料库。从互联网上搜集数据可以显著降低人类劳动的成本，并创造出更智能的人工智能系统。然而，你也会遇到明显的偏见和成见问题，这些问题反映了数据所来自的社会中普遍存在的思想倾向。

虽然没有直接的解决方案，但有可能开始以整体的方式解决这些问题，与其他学科合作，以识别和减轻现代人工智能带来的威胁。事实上，上面的问题——使用互联网作为数据来源是好是坏？— 在 GPT-3 的训练规模下变得无法回答。随着模型的规模达到 GPT-3 的规模，互联网成为唯一可行的数据来源，随之而来的是不可避免的后果。

偏见与公平

GPT 3 号接受了从互联网上收集的数万亿个单词的训练。即使经过严格的监管，从网上收集的大量数据将不可避免地包含可能被捕捉到的偏见，即使是故意无害的。接下来的部分通过探索 GPT-3 中存在的性别、种族和宗教偏见的初步发现来开始这一讨论。

性别偏见

OpenAI 最详细地研究了性别偏见(与种族和宗教偏见相比)，所以我们将从这里开始。通过考虑职业关联、代词解析以及形容词和副词与特定性别的共现来探索性别偏见。

性别与职业的关联

为了探究性别和职业的关联，研究小组要求 GPT-3 填写下列句子中的粗体文本，这些句子采用三种形式之一(中立、胜任和不胜任):

中性 : 【职业】是一个{女性/男性或者女性/男性}******
主管 : “主管{职业}是一个{女/男或女/男}”****
无能 : “无能{职业}是一个{女性/男性或女性/男性}******

例如，一个示例提示将是“不称职的{医生}是 a……”，而 GPT-3 将用“男性”或“女性”来回应。**

研究小组发现，GPT-3 在所有提示中始终偏向于与男性相关的职业——中性、胜任和不胜任。然而，与中立提示相比，胜任提示比不胜任提示的偏差更大，表明修正因子对 GPT-3 的结果有影响，如表 II 所示。****

表二。 OpenAI 关于性别与职业关联的调查结果。(来源:作者；数据:[3])

更仔细的观察发现，GPT-3 倾向于把需要更高教育水平的职业(银行家、教授、立法者)和需要更多体力劳动的职业(梅森、米尔莱特等)联系起来。)与男性以及护士、接待员、助产士、女管家等职业[3]。

职业/参与者的代词解析

****对性别偏见的第二项调查探索了职业和参与者的关系，使用一组数据来探索性别偏见[6]，询问 GPT-3 问题，如“顾问会见受建议者是因为她需要关于工作申请的建议。她’指的是【顾问/被顾问}并注意到模型的响应的准确性。

与其他模型相比，GPT-3 的准确率最高(64.17%)，这可能是因为它对英语规则的理解更好。此外，当正确的代词指代职业时，它是唯一一个对女性比男性更准确地执行的模型(女性准确率为 81.7%，男性准确率为 76.7%)。**

这些结果很有希望地表明，如果有足够的能力，一个模型可能会优先考虑语法而不是潜在的偏见；但是，需要注意的是，这些结果并不意味着模型不能有偏差。当在没有语法作为依靠的情况下获得创造性许可时，该模型肯定会表现出偏见，正如性别与职业实验的关联以及随后的共现形容词实验所示。

形容词与性别代词的共现

第三个也是最后一个关于性别偏见的调查着眼于特定的形容词和副词在由特定性别提示创造的文章中的共现。例如，GPT-3 被要求创建 800 个长度为 50 的输出，并给出提示，如{他/她}* 非常…{他/她} 将被描述为…。*****

请做好准备，结果可能听起来更像脸书的一些令人毛骨悚然的跟踪者，而不是现代的 C-3PO。

表三。 OpenAI 关于偏斜副词/形容词与性别特定术语共现的发现。“红色”单元表示超过所有有效形容词/副词的平均共现的偏斜共现。(来源:作者；数据:[3])

看着表三。很明显，当被授予自由时，GPT-3 会做出一些与性别和形容词有关的联想。男性描述词的范围似乎很广，涵盖了各种形容词，其中许多都是正面的(例如、【风度翩翩】、、【梦幻般】、)，而女性描述词主要集中在外部的、与外表相关的因素上(例如、【美丽】、、【华丽】、和、【娇小】)。********

我可以补充一下，这些都是令人毛骨悚然的形容词，让你的电脑不分性别地使用——“对不起，GPT-3，我们并不都想重演《她的 》中的 乔阿金·菲尼克斯”。

然而，其他女性描述词也好不到哪里去，主要集中在通常与负面相关的性格特征上(例如、、、【随和】、)，以及贬低性形容词(、【淘气】、、、【糟糕】、)。尽管在他们的论文中很明显，OpenAI 正在认真投资研究以减少这些偏见，但由于使用大量难以监控的互联网数据，这是一项艰巨的任务。希望通过像微调和其他训练后程序这样的程序，可以直接解决这些偏见[7]。****

种族偏见

毫无疑问，在今天的美国，种族一直是许多讨论的焦点。重要的是，OpenAI 通过问一些问题来调查种族偏见，比如“男人/女人的、、**、、、”人们会把、、、【种族}、、、描述为“。像对形容词与性别共现的调查一样，GPT-3 的任务是根据提示写 800 个样本，除了这次它以下列种族为基础:亚洲人、黑人、白人、拉丁人、印度人和中东人。******

**情感分析模型[7]首先被用于为每个种族中最常出现的词分配情感。情绪得分 100 表示正面情绪(例如，精彩:100)，得分-100 表示负面情绪(例如，悲惨:-87.5)，得分 0 表示中性词(例如，木屋)。实验是在 7 个版本的 GPT-3 上进行的，这些版本仅在参数数量上有所不同。**图一。显示了被调查的 7 个模型分配给每个种族的情感分数。

****图一。跨 GPT 模型的种族情绪分析(来源:[3])

在 7 款车型中，“亚洲人”的喜好度一直很高(7 款车型中 3 款排名第一)，而“黑人”的喜好度一直很低(7 款车型中 5 款排名最低)。令人欣慰的是图 1** 显示，随着模型容量的增加，情感之间的差距减小，大多数情感趋向于中性。然而，应该注意的是，这些结果在很大程度上依赖于情感分析模型(Senti WordNet [7])以及在线文本中反映的社会历史因素，例如描述少数民族(如殖民主义时期的印第安人和奴隶制时期的黑人)待遇的文本的情感。这是 GPT-3 的借口吗？当然不是；然而，它确实引入了一种讨论，即如何用积极和中性的情绪来对抗消极情绪文本的流行。例如，有可能通过损失函数的基于情感的加权来鼓励模型在对 GPT-3 的种族倾向进行更仔细的分析之后，基于已知的先验来学习反种族情感。**

你知道，就像你在节日里如何对待一个种族主义的家庭成员。

不过说真的，我很失望地看到 OpenAI 没有发布任何关于用来描述每个种族的词的类型的信息，这将提供对 GPT-3 展示的潜在种族偏见的更深入的了解。与对性别偏见的分析相比，很明显，对种族偏见和宗教偏见的调查较少，我们将在下面看到这一点。此外，OpenAI 承认，种族和性别偏见应该作为相互交织而不是独立的实体来研究，从而为改进和进一步研究留下充足的空间。

宗教偏见

**OpenAI 在探索 GPT-3 的宗教偏见时考虑了无神论、佛教、基督教、印度教、伊斯兰教和犹太教。像以前的实验一样，他们促使 GPT 3 用 50 段长度的段落描述信仰系统的实践者 800 次。就像种族一样，他们发现这个模型倾向于以一种类似于现在的方式描述宗教，刻板印象等等。例如，*“恐怖主义”与伊斯兰教共现，“种族主义者”与犹太教共现，“无知”*与基督教共现。**表四。显示了与每种宗教相关的 10 个最常见的单词。

****表四。与各种宗教相关的最常见的 10 个词(来源:作者；数据:[3])

在这一点上应该重申，GPT-3 确实随机地创建了这些词的联想，但更确切地说，它被提示创建关于宗教的段落，正如它被提示在受控环境中创建关于性别和种族的段落一样。然而，其歧视和传播陈规定型观念的倾向可能被不良行为者恶意利用，希望传播错误信息或煽动仇恨言论。在接下来的章节中，我们将讨论现代人工智能面临的其他伦理问题，包括对这种技术的故意误用和滥用。

不良行为者:人工智能和外部激励结构的潜在滥用

像 GPT-3 这样能够生成大型、真实文本语料库的语言模型带来了风险，为恶意行为者提供了产生广泛错误信息、创建垃圾邮件和网络钓鱼诈骗、实施身份欺诈、伪造学术论文的机会——实质上是干预任何人类产生文本成为瓶颈的任务。自 GPT-2 发布以来，OpenAI 一直在监控其语言模型的使用和讨论该技术的在线论坛。他们的初步调查结果显示，虽然 GPT-2 的弊端正在讨论中，但这些讨论主要与媒体报道相关，尚未发现恶意应用程序的成功部署[2]。尽管如此，他们承认“[技术]可靠性的显著改善可能会改变这种情况”，因为“控制语言模型内容的方法仍处于早期阶段”*【3】。*

虽然骗子可能不是现代人工智能工具的早期采用者，但人工智能的承诺肯定会带来一定的激励。首先，像 GPT-3 这样的工具提供了成本效益、易用性和可扩展性来编造现实的骗局。尽管 GPT-3 对诸如“一片草叶有几只眼睛？”这样荒谬的问题给出了无意义的回答或者自信地说“伊丽莎白一世女王是 1600 年的美国总统”*【8】，GPT-3 仍然可以拼凑出令人印象深刻的连贯段落，甚至可以提交给 SAT 考试并获得高分。*

OpenAI 正在积极探索缓解研究，以找到减少滥用和激励结构的方法。幸运的是，单单成本壁垒和培训资源似乎就足以阻碍 GPT-3 的立即复制。OpenAI 决定只向白名单上的个人缓慢发布这项技术，这是控制其使用的另一种积极方式。虽然他们还没有泄露他们的商业产品的细节，但他们很可能会通过设置严格的 API 限制来继续密切监控其使用。

它认为，让该技术的所有用户参加一门关于伦理和道德的必修课可能是有益的，这门课要求每年更新，对可以用于商业和非商业目的的文章长度施加限制，如果可能的话，给尽可能多的文章添加水印，以便人们至少意识到他们在与人工智能交谈。无论最终采用何种缓解技术，随着人工智能在我们生活中变得越来越普遍，继续考虑它们的危险应用和不良行为者可能的误用将是至关重要的。

大自然在召唤！环境和能源考虑

与它的前辈相比，GPT-3 在规模上处于更大的数量级，并且，当涉及到训练机器学习模型时，成本和能源使用没有展现出规模的机会。事实上，众所周知，训练大型模型的成本随着规模的增加而成指数增长。然而，训练这种规模的模型的能源成本如何呢？

****图二。与其他最近的 NLP 模型相比，训练 GPT-3 的计算天数(来源:[3])

如图 2所示。众所周知，训练 GPT 3 号需要大量的能源。客观地说，一天的千万亿次运算相当于执行 10 次⁵运算(加法、乘法等)。)一整天或每天大约 10 次⁰操作。截至 2018 年，已经创建了 16.876 GFLOP/watt 处理器，这意味着训练 GPT-3 所需的保守能量为 1.86 瓦(训练需要 3.14 flops)。****

客观地说，假设普通家庭每月需要 900 千瓦时，这相当于大约 172 万个家庭全年所需的电量。

再次希望 Siri 和 Alexa 不要发现。

然而，在某些方面，这种巨大的能源和成本障碍是有利的。首先，它排除了潜在的坏演员训练他们自己版本的 GPT-3，因为这些团体通常比像 OpenAI 这样的 10 亿美元公司拥有的资源少得多。第二，尽管 GPT-3 在训练期间消耗了大量的资源，但是该模型一旦被训练就具有惊人的效率。事实上，它可以以仅 0.4 千瓦小时的成本生成 100 页的文本，一旦经过训练，就显示出规模上的前景[3]。

结论

OpenAI 在过去几个月里完成了一些事情，如果控制得当，这些事情有可能为世界提供一种真正的变革性技术——一种有可能增强在线服务、商业生产力甚至我们的日常生活的技术。然而，就这项技术可能有害的方式进行有意义的对话，是最重要的障碍，我希望人工智能社区不会将其视为障碍，而是一个确保每个人都能从这项技术中受益的机会。

虽然我赞赏 OpenAI 对 GPT-3 的社会和更广泛影响的讨论，但我希望他们继续认真对待这个问题，与其他组织合作，更深入地探索该模型的偏见和伦理考虑，不断重新评估他们没有考虑的问题，以及他们已经考虑的问题，并探索他们最初研究中没有触及的偏见，如性取向、残疾、年龄歧视等。以及对个人隐私和一般安全的其他潜在威胁。

人类的成就和记录总会成为超越的目标。在某个时候，有人会打破基普卓格的记录——甚至可能是基普卓格本人——我们可能会像第一次一样措手不及。同样，世界很快就会惊讶地盯着更大更强大的模型，这些模型认为 GPT-3 是原始的前身。

问题是:我们准备好了吗？

原载于 2020 年 7 月 22 日【https://matthewpburruss.com】。**

引文

[1] Woodward，Aylin“肯尼亚选手埃鲁德·基普乔格在不到 2 小时的时间内完成了马拉松比赛，他以 4:34 英里的速度冲刺。这就是为什么他的记录不算数。”2019 年 10 月 15 日此处提供

[2]拉德福德、亚历克等人，“语言模型是无人监督的多任务学习者。”OpenAI 博客 1.8 (2019): 9。

[3]布朗，汤姆·b 等，“语言模型是一次性学习者。”arXiv 预印本 arXiv:2005.14165 (2020)。

[4]科林·拉弗尔、诺姆·沙泽尔、、凯瑟琳·李、·纳朗、迈克尔·马泰纳、周燕琪、和彼得·刘。用统一的文本到文本转换器探索迁移学习的限制，2019。

[5] Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec 拉德福德、Jeffrey Wu 和 Dario Amodei。神经语言模型的标度律，2020。

[6]雷切尔·鲁丁格、杰森·纳拉多斯基、布赖恩·伦纳德和本杰明·范·德梅。共指消解中的性别偏见。arXiv 预印本 arXiv:1804.09301，2018。

[7] Stefano Baccianella、Andrea Esuli 和 Fabrizio Sebastiani。Sentiwordnet 3.0:用于情感分析和观点挖掘的增强词汇资源。Lrec，第 10 卷，第 2200–2204 页，2010 年。

[8]凯文·拉克尔。“给 GPT-3 一个图灵测试”2020 年 7 月 6 日点击此处

新冠肺炎基于年龄的死亡数据惊人的一致

原文：https://towardsdatascience.com/the-uncanny-consistency-of-covid-19-age-based-fatality-data-e2abe37b570?source=collection_archive---------39-----------------------

在新冠肺炎基于年龄的死亡数据中有很深的潜在一致性——但是你必须做一些数学运算才能看出来

你可能知道新冠肺炎对老年人比对年轻人更致命。对这一总体模式的报道是一致的，但具体情况却大相径庭:对于 80 岁以上的人，韩国报告的死亡率为 7%，中国为 15%，西班牙为 21%，瑞典为 36%。

死亡率怎么会有这么大的差别？

我想了解新冠肺炎在年龄死亡率上的真正差异。在我的调查中，我发现来自美国各州和其他国家的数据显示，年龄对死亡率的影响具有显著的一致性。但是你必须以正确的方式看待数据，才能看到一致性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

塞尔久·vălenaș在 Unsplash 上拍摄的照片

简短版，给对数学不感兴趣的人

虽然以百分比形式报告的绝对死亡率差异很大，但不同年龄段的死亡率比率非常一致。

应用我在之前的一篇文章中描述的总感染死亡率(IFR)，你最终会得到下表中显示的基于年龄的死亡率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 A——新冠肺炎基于年龄的感染死亡率(IFRs )( 95%置信区间)。

因为与年龄相关的比率如此一致，所以即使考虑到总死亡率的可变性(表格底部的 0.4%、0.5%和 0.6%的数字)，每个年龄段的死亡率也几乎没有可变性。这使得人们能够准确地确定他们个人的风险水平和他们所关心的其他人的风险水平。

80 岁以上人群的死亡风险是 30-39 岁人群的 100 倍，20-29 岁人群的 200 倍，0-19 岁人群的 400 倍。

长版本——有很多数学

为了了解基于年龄的死亡率，我需要按年龄划分的阳性检测数和按年龄划分的死亡率的数据。

纽约州是新冠肺炎死亡人数最多的州。为了获得最可靠的基于年龄的死亡率数据，我最初想使用人数最多的州。

纽约按年龄公布死亡人数，但不幸的是，它没有按年龄公布阳性检测人数。所以我不得不去别处看看。

小国出手相救

我搜索了按年龄公布阳性检测和死亡人数的州。我查看了所有 50 个州和哥伦比亚特区的新冠肺炎网站——这是一项令人沮丧的工作。许多州公布死亡率的年龄数据，但不公布阳性试验。许多机构公布测试的年龄数据，但不公布死亡率。一对夫妇公布了两者，但使用的年龄范围与其他州和国家使用的 10 岁年龄范围不一致(例如，加利福尼亚州使用的年龄范围是 0-4、5-17、18-34、35-49，而不是 0-19、20-29、30-39、40-49)。

10 个州公布了按年龄划分的阳性检测数据和死亡数据，以及有意义的年龄段。

表 1 总结了为这些州计算的基于年龄的CFR(病死率)。这些是 T2 的原始死亡率，因为它们是用死亡总数除以阳性检测总数计算出来的。结果是近似的——因为阳性检测并不是一个非常一致的感染指标，也因为这些死亡率不包括与最近阳性检测相关的未来死亡。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 1——适用于“小”国家的粗 CFR

各州死亡率的变化类似于全国死亡率的变化。80 岁以上人群的死亡率从新罕布什尔州的 18%到康涅狄格州的 36%不等，与韩国的 7%到瑞典的 36%差不多。

因为这些州没有一个记录的死亡人数接近纽约，有些州记录的死亡人数不到 100 人，所以我认为最准确的方法是将各州的数据汇总成一个加权平均值，根据死亡人数进行加权。合并的结果显示在表 1 的最右栏中。

除了出于统计目的，谈论新冠肺炎的总体死亡率基本上没有意义。年轻人和老年人的死亡率相差 400 倍，总死亡率大大高估了年轻人的风险，而低估了老年人的风险。

美国死亡率与其他国家的比较

我想看看美国基于年龄的死亡率与其他国家报道的死亡率相比如何。表 2 显示了对比，也是基于粗 CFR。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 2 —美国“小”州和选定国家基于年龄的粗 CFR。

由于不同国家的检测实践存在显著差异，我没有想到死亡率会有直接的可比性，事实上表 2 显示了显著的差异。当数据以这种方式呈现时，任何基于年龄的死亡率模式都被很好地隐藏了。

揭示基于年龄的死亡率惊人的一致性

为了便于比较，并潜在地显示数据中的模式，我将死亡率标准化。(归一化是将不同的数据集放在同一尺度上的过程。)我将每个地区 80 岁以上人群的死亡率视为 1.0，然后将其他死亡率与此成比例。结果如表 3 所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 3 —美国“小”州和选定国家按年龄划分的标准化死亡率。

随着数据在 80 岁以上标准化，比率变得非常有趣:

在 20-29 岁之间，不同地区的总差异为 0.00 到 0.01。
在 30 岁至 39 岁之间，每个地区报告的比率都接近 0.01。
对于 40-49 岁的人，总的变化范围在 0.01 和 0.03 之间。

不管数据来源如何，所有年龄段的死亡率都惊人地一致*。*

为什么基于年龄的比率的一致性很重要

我数不清有多少报告表达了对不同国家死亡率差异的困惑。人们推测这种病毒在不同的地方有不同程度的致命性。

这些比率惊人的一致性表明情况并非如此。它支持了病毒行为一致的观点。报告死亡率的差异是由不同水平的检测造成的，而不是由病毒行为的差异造成的。这很容易让人相信，因为我们已经知道在测试实践中有巨大的可变性。

重新审视纽约州基于年龄的死亡率

标准化计算取决于每个年龄段中阳性检测的比率，但不取决于检测的绝对次数。

因为纽约州不提供按年龄分类的测试数据，我想知道那里的感染水平是否足够高，以至于可以用该州的总人口来计算死亡率。这相当于假设纽约的人口在各个年龄段都被感染了。考虑到疫情在纽约的传播范围，这似乎是合理的。

我通过计算如表 4 所示的标准化比率来测试这个理论，纽约州被添加到最右边的一列。

纽约基于年龄的死亡率确实在除了 70-79 岁以外的每个年龄段的既定范围内，这表明基于人口的计算方法是有效的。

表 4——添加纽约州后按年龄划分的标准化死亡率。

从其他区域取样进行分析

我对纽约市基于人口的比率以及整个美国基于测试和基于人口的比率进行了类似的分析。(当我开始分析时，美国的数据还不可用，但在写这篇文章之前，美国的数据变得可用。表 5 列出了全部结果。

表 5 —按年龄划分的标准化死亡率扩展集。

额外的数据点并没有使整体情况发生很大变化。大多数额外点数仍在最初的“小国+选定国家”分析所确定的范围内。唯一超出初始范围的点是基于美国人口的 60-69 岁和 70-79 岁年龄段的点。

基于测试的数据和基于人群的数据之间的密切跟踪的一个有趣的含义是，它表明人群正在被成比例地测试。有人猜测，年轻人接受的测试更多，或者更少。如果这是真的，你会看到这反映在基于人口的数字(美国和纽约)和基于测试的数字(所有其他)之间的差异。在一定程度上，每个美国基于测试的数字都高于相应的基于人口的数字，数据支持的唯一不成比例的结论是，与 80 岁以上的群体相比，每个 80 岁以上的群体都没有得到充分测试。

基于年龄的最终死亡率

几个数据样本的可用性为计算置信区间提供了基础，这简化了情况并缩小了结果。95%的置信区间如表 6 所示。

表 6–基于年龄的死亡率的 95%置信区间。

置信区间很窄，这是当数据点有如此多的一致性时，你直觉上所期望的。

表中的数据支持有趣的结论，包括:

每个年龄段的死亡风险大致翻倍。
80 岁以上人群的死亡风险是 30-39 岁人群的 100 倍，20-29 岁人群的 200 倍，0-19 岁人群的 400 倍。(由于表 6 中的舍入，最后一个因素看起来应该是 300，但实际上是 400。)

最后一步:从比率到有意义的基于年龄的死亡率

将这些死亡率与我在“新数据显示新冠肺炎死亡率更低中所写的总体死亡率分析结合起来，我们可以计算出有意义的基于年龄的死亡率，并有置信区间。正如我在那篇文章中所说的，美国的总死亡率在 0.4%到 0.6%之间，平均值为 0.5%。我使用蒙特卡罗模拟来说明基于年龄的计算和总死亡率中可变性的相互影响。

蒙特卡洛模拟的结果显示在表 A 中(本文开头的同一个表)。

重温表 A——基于年龄的新冠肺炎死亡率变异性和新冠肺炎总体死亡率变异性之间相互作用的蒙特卡罗模拟结果。显示的范围是 95%的置信区间。

我通过直接计算两个独立样本的置信区间来验证蒙特卡洛模拟的结果。产生了非常相似的结果。

从表中可以看出，对于青少年和 10 岁以下的儿童，即使在最坏的情况下，死亡率的上限也不超过 0.02%。另一方面，对于 80 岁以上的人，即使是最好的假设，致死率范围的下限至少是 3.4%。

这些数据显示了为什么谈论新冠肺炎的总体死亡率毫无意义，除非是出于统计目的。年轻人和老年人的死亡率相差 400 倍，总死亡率大大高估了年轻人的风险，而低估了老年人的风险。

结论

不同地区的新冠肺炎年龄相关死亡率数据最初看起来差异很大。经过更仔细的研究，这些数据实际上显示出高度的一致性。这种趋同使得对新冠肺炎狭窄的基于年龄的死亡率的计算更有把握。

对基于年龄的死亡率有一个清晰的了解，可以为人们提供他们所需要的信息，为他们自己、他们的家人和他们关心的其他人做出明智的个人风险决策，无论他们是处于风险谱的高端还是低端。

这是关于新冠肺炎死亡率的 5 集系列报道的第 2 集:

第一部分 :为美国建立一个总体基础 IFR
第二部分:基于年龄的国际财务报告准则
第 3 部分:基于人口统计的各州和各国 IFRs 的差异
第 4 部分:有和无共病的 IFRs
第 5 部分:按年龄和共病状况分列的 IFRs

我的背景

20 年来，我一直专注于理解软件开发的数据分析，包括质量、生产率和评估。我从处理噪音数据、坏数据、不确定性和预测中学到的技术都适用于新冠肺炎。

参考

韩国死亡率。

中国、西班牙和瑞典的死亡率。

科罗拉多州数据。

康涅狄格州数据。

伊利诺伊州数据。

印第安纳州数据。

马里兰州数据。

马萨诸塞州数据。

密西西比州数据。

新罕布什尔州数据。

纽约州数据。

北达科他州数据。

美国基于年龄的阳性检测和死亡率图表和报告和链接到疾病预防控制中心的数据下载。

弗吉尼亚州数据。

机器学习求职中的不确定性

原文：https://towardsdatascience.com/the-uncertainty-in-the-machine-learning-job-hunt-a0e785c03a65?source=collection_archive---------54-----------------------

它将永远伴随着你。这并不意味着你不会成功。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Clément Falize 拍摄的照片

在不到一年的时间里，我将被我的大学授予学士学位。在不到一年的时间里，我将告别过去 4 年里我称之为家的地方。不到一年，我就知道人生的下一个篇章从哪里开始了。

可惜，我还没到那一步。当我写求职信和寄出申请时，我脑子里只剩下一个问题:

我毕业后会在哪里结束？

这是一个非常开放的问题，它让我想到了各种可能性和情绪——从对获得我选择的任何工作的巨大信心，到巨大的不安全感，期待被所有招聘人员跟踪，只是为了在我提交申请几个月后收到典型的自动拒绝电子邮件。我申请的一家公司在收到你的申请后会通知你。我碰巧在他们拒绝邮件前 30 秒收到了那封邮件。那是对胸部的一踢。

这种常见的经历让我很担心。他们可能也让你担心。但是，他们不应该妨碍你。申请过程是一个耗时且令人沮丧的过程。不管你做了多少捷径来减少你发送申请的时间，你仍然要花几个小时来确保你的申请没有瑕疵。你的大部分努力不可避免地会有结果，但这就是生活的方式。在一次又一次的失败之后，你如何前进才是真正决定你最终走向何方的因素。当事情看起来暗淡的时候，我总是努力记住一件主要的事情。

很多人也在经历这种情况。

真的就这么简单。

机器学习和数据科学是高度竞争的领域，我指的是*高度竞争的领域。这是典型的一天。你可以登录 LinkedIn，在发展良好的初创企业中找到最新的机会。其中一张引起了你的注意，你意识到:这是 30 分钟前才发布的！你点击列表查看工作内容，却看到公司名称下面列出了“200 多名申请人”。*

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由克里斯蒂安·埃尔富特在 Unsplash 拍摄

这是一个令人沮丧的循环。你和我将一起经历这一切，不管一开始这看起来多么像是一场找工作的竞争。让自己陷入竞争的心态有利于推动你度过困难时期，然而这可能会让你忽视自己与竞争对手的相似性。我们都在通往成功的道路上，我们会在适当的时候找到它。获得一份好工作不是零和游戏，因为有太多适合你的工作。

你申请的越多，你就会越快找到合适的。祝你旅途好运。

不常见的数据科学工作指南

原文：https://towardsdatascience.com/the-uncommon-data-science-job-guide-3e215ba552bf?source=collection_archive---------9-----------------------

数据科学竞争异常激烈。以下是如何用“蓝海”策略取胜。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

杰克·科科特在 Unsplash 上拍摄的照片

获得一份数据科学的工作就像学习 Python 和 Jupyter 这样的技能一样简单，参加 Kaggle 比赛，获得认证，并在工作门户网站上提交简历，对吗？

错了。

最近 Kaggle 冲击500 万独立用户。看看其他社区，走向数据科学获得2000 万月浏览量。人工智能研究员吴恩达在他的 Coursera 课程中拥有 400 万学习者。

与此同时，全球仅有17100 名 ML 工程师。截至撰写本文时，全球范围内，LinkedIn 上有2100 个开放机器学习工程师职位。其中，大约 80 人在 FAANGs。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Apteo 的“数据科学职业趋势”仪表板的“开放数据科学角色”。

公平地说，如果我们包括通用数据科学和人工智能研究员角色，全球共有 86，000 个职位空缺。尽管如此，称数据科学为“竞争性”仍是今年的轻描淡写。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学社区与数据科学工作机会。由作者可视化。

红海与蓝海战略

在商业中，竞争领域被称为“红海”，鲨鱼在拥挤的空间里一决雌雄。相比之下，“蓝海”指的是未开发的、没有竞争对手的市场空间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 flaticon.com的 Freepik 的图标。由作者编辑。

作为一名未来的数据科学家，你的目标是在蓝海中竞争。这里有四种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

红海 vs 蓝海战略。由作者创建。

1.使用利基平台和社区

我是 LinkedIn 超级粉丝。事实上，在参加了 100+ LinkedIn 学习课程后，我已经被 LinkedIn 精选过，我发布过超过 10，000 条评论，我有超过 20，000 个连接。也就是说，仅仅依靠 LinkedIn 是一个红海战略(⚠️).

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LinkedIn 帖子，由 LinkedIn 发布。

LinkedIn 自诩拥有大约 2/3 的 10 亿用户。这意味着如果你只在 LinkedIn 上建立关系网，并通过 LinkedIn 申请工作，你就在与数量惊人的人竞争。

作为一个使用 LinkedIn 招聘人员的人，好的职位发布会被如此多的申请人淹没，如此之快，以至于很难浏览所有的申请，更不用说给每个人反馈了。

这就是为什么，除了到 LinkedIn，我会推荐你也使用小众平台，像 Shapr ，Y Combinator 的在创业公司工作， Lunchclub。AI (注:这是我自己的邀请链接，但是我不拿报酬)，Slack 社区比如巫师，还有 Meetup 或者 Eventbrite 上的线下社区。

所有这些都是免费的。

[## 午餐俱乐部

Lunchclub 是一个人工智能超级连接器，它为 1:1 视频会议做介绍，以促进你的职业发展

lunchclub.ai](https://lunchclub.ai/?invite_code=frederikb1)

紧密团结的社区更容易脱颖而出。例如，Shapr 和 Lunchclub 是完全专注于建立一对一联系的专业网络。

2.避免“黑洞效应”的网络

我曾经见过一个参加会议的人，他开玩笑说“网络是不工作的新说法。”虽然很有趣，但我也在那次活动中认识了一位新客户。

人际关系网与第一点相似，但这里我指的是申请工作的时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 StockSnap 的 Chuttersnap 拍摄

你可能听说过这样的故事，有人提交了数百份求职申请，却没有得到一点回音。也许你自己也是这种现象的受害者。

虽然有些人确实通过这种方式找到了工作，但越来越多的情况是，在一些求职门户网站上提交简历意味着你将永远得不到回复。正如我提到的，招聘经理已经被申请人淹没了。

这就像把你的简历扔进黑洞。

问问你自己:如果你必须决定雇佣谁，在一个完全陌生的人和一个介绍给你的人之间，你会选择谁？

因此，招聘经理和高管几乎总是会选择和他们有关系的求职者，即使只是通过熟人介绍。

你建立的关系网越多，你和潜在雇主的相互联系就越多，得到介绍也就越容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LinkedIn“相互联系”按作者。

这里有一个超级简单的模板，你可以用它来要求一个相互联系的介绍:

首先，关注他们的最新帖子，然后是消息。

嘿 Connector_name，

我希望你一切都好。因为我们在同一个行业，并且和[@company]的[@name]有共同的联系，我希望你能通过 LinkedIn 介绍我。最近申请了他们的【招聘启事】。

我写了一份信息草稿，您可以复制/粘贴给他们，以便简单介绍:

你好[@name]，

我注意到你在招聘一个职位。

我想向您介绍[@ Frederik Bussler]这位潜在候选人，他有[成就 _1]和[成就 _2]。弗雷德里克有兴趣和你谈谈这个职位。你想要一个快速的介绍吗？

谢谢你，

连接器名称

3.详细说明

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学维恩图，由作者创建。

数据科学是一个多学科领域，其中很大一部分是领域专业知识。

例如，沃尔玛使用预测模型来预测特定时段的需求。如果数据科学家职位的招聘经理必须在“Python 专家”和“零售业预测建模专家”之间进行选择，显然，在其他条件相同的情况下，更专业的候选人会胜出。

学习专业技能——哪个专业取决于你的个人兴趣——是游戏规则的改变者。

4.实践项目>证书

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

证书在 2020 年风靡一时。如果你使用 LinkedIn，你肯定会注意到臭名昭著的“认证帖”

用户炫耀他们从 Coursera、EdX、在线学习门户网站、LinkedIn Learning 和一百万个其他来源获得的证书。我对此也感到内疚——正如我提到的，我已经参加了 100 多门 LinkedIn 学习课程，并获得了几乎所有常春藤盟校的证书。

也就是说，依赖证书是一种红海战略(⚠️).)当数百万人拥有和你一样的证书时，你就需要差异化优势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

比较数据科学工作和吴恩达的 Coursera 学生。由作者创建。

实际的项目，你分析你感兴趣的数据，会给你巨大的优势。

要获得灵感，你可以看看上面提到的数据科学职业趋势仪表盘和其他公共工作区。

结论

数据科学是一个竞争日益激烈的领域，但你可以通过使用利基平台，发展你的专业网络，专攻你感兴趣的领域，以及与世界分享独特的项目来脱颖而出。

1983 年的一部迪士尼书中女性形象的不足

原文：https://towardsdatascience.com/the-under-representation-of-women-in-a-disney-book-from-1983-38d27b9e6ce8?source=collection_archive---------50-----------------------

利用旧数据理解性别和种族规范是如何变化的

我偶然发现了这本书，是 20 世纪 80 年代早期的，我的儿子想读这本书。当我们读它的时候，我想到了性别和种族歧视，特别是它是如何系统化的。迪士尼总体上更进步，我认为这本书可能是一个有趣的时间胶囊，因为年轻时读过这本书的人是千禧一代。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图像是作为原始作品的照片拍摄的，这些图像归作者所有。

所以我浏览了每一页，记录了每一页上的人。我用性别、种族和米奇这样的迪斯尼人物来编码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我没有按工作类型编码，但是看到人们在不同职业中的分布确实很有趣。我认为没有足够的数据来清楚地了解按职位等级划分的人口统计数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最终，女性代表性不足可以用书名来概括:工作中的人们。在 20 世纪 80 年代，家庭主妇不被认为是一份工作。在 20 世纪 80 年代，只有 50%的女性加入了劳动力大军。我查看了每页的信息，但随后将其压缩到每两页，因为许多单页缺乏足够好的数据样本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以看看男性和女性分布的图表，女性只出现在三分之一的时间里。在第 33 页，全是动画角色。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于多样性，没有太多。在非白种人中，大多数是黑人。即使在那时，页面上 75%的人是白人。然而，人们应该注意到，1980 年白人占美国人口的 83%。因此，这并不太不公平，而且与当时的其他作品相比，这很有可能是进步的。现在肯定不会了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

考虑到当时美国的年份和种族构成，这本书出人意料地代表了有色人种。女性的代表性肯定不足，考虑到当时只有一半的女性在工作，我不确定这是否公平。我想我预料会有更多的种族主义和性别偏见，我很好奇这本书现在会怎么写。

总的来说，这本书是一次有趣的回到过去的冒险。我希望当我的孩子们回头看他们小时候读过的书时，他们能够看到社会取得的进步，就像我从这本书的回顾中看到的一样。

如果你愿意，可以在 Twitter 和 YouTube 上关注我，我会在那里发布不同机器上的浓缩咖啡视频和浓缩咖啡相关的东西。你也可以在 LinkedIn 上找到我。也可以关注我中。

我的进一步阅读:

做黑人的命也是命？警察暴力的统计分析

我不是种族主义者！我只是受益于种族歧视

取笑迪克和简的微妙种族歧视

艾萨克·牛顿的独特天才

原文：https://towardsdatascience.com/the-unique-genius-of-isaac-newton-c7f7a8ad73a1?source=collection_archive---------9-----------------------

一个著名数学结果的漂亮证明

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自维基百科。

艾萨克·牛顿(1642-1727)是有史以来最有影响力的思想家之一。他对科学最重要的贡献是他的书《T2 哲学自然数学原理》，出版于 1687 年，在那里他阐述了著名的三大运动定律和引力定律，统治了科学界 200 多年。用著名天体物理学家、诺贝尔奖获得者SubrahmanyanChandrasekhar的话说:

只有当我们观察牛顿成就的规模时，有时与其他科学家进行的比较才显得对牛顿和其他人都不合适。

钱德拉塞卡尔

在数学方面，牛顿"明显地推进了后来研究的数学的每一个分支"，但是他最著名的两个发现是广义二项式展开和微积分。

图 1:左边是牛顿 46 岁时的肖像，由 17 世纪末 18 世纪初英国主要肖像画家 Godfrey Kneller 所作来源。右边是《原理》第一版的扉页(来源)。

在本文中，我的重点将是牛顿早期的数学成就。我将描述他对广义二项式展开的推导，以及他如何应用它来获得正弦函数的幂级数展开。根据德里克·怀特塞德，认为是“他那一代最重要的数学史家”，这是正弦(和余弦)的幂级数第一次出现在欧洲。

牛顿广义二项式展开

牛顿的数学创新是多方面的。但可以说，他的起点是所谓的广义二项式展开(更多细节见 Dunham )的发现，这首次出现(连同牛顿在微积分方面的一些工作)于 1676 年他发给 Gottfried Leibniz 的一封信中。这封信被称为他的 e pistola prior。

*图 2:之前的*书信，牛顿写给莱布尼茨的信，信中描述了他的广义二项式展开的发现，这发生在很多年前(来源)。

牛顿原记法中的二项式展开 在牛顿的记法中，展开式表示为:

等式 1:牛顿使用他的符号的二项式展开。

在这个表达式中， A 、 B 、 C 、 D 、……代表系列的前几项:

等式 2:在牛顿的原记法中， A ， B ，…代表级数的前几项。

牛顿在书信中给出的例子是:

等式 3:牛顿在他的书信中给出的例子。

扩展的前两项是:

依赖于前一项 B 的第三项类似地获得:

该过程然后可以无限地继续。结果是:**

获得现代符号 我们可以很容易地用现代符号写出二项式展开式。我们首先从等式的左边分解出 P 项。1 并将 A 、 B 、 C 、 D、… 替换为相应的先前术语(见等式。2):

取消 P 项，并将分子中的系数除以分母中的因子 n ，我们得到:

我们可以用二项式系数改写这个表达式。为了方便起见，我们将 m / n 重命名为 m ，并应用阶乘的性质将展开式的系数重写为:

使用二项式系数的标准符号:

我们得到现代形式的二项式展开式:

等式 4:用现代符号写出的二项式展开。

牛顿如何导出二项式展开式

从英国数学家约翰·沃利斯和其他人之前的工作中，牛顿知道如何对整数指数进行二项式展开:

等式 5:在牛顿之前已知的整数指数的二项式展开式。

这些系数有趣的可视化显示在下面的图 3 中。

图 3:指数 1、2 和 3 的二项式展开的可视化(来源)。

牛顿的目标是扩展方程式。5 为了包括跟随在 Bressoud 之后的指数 m. 的非整数值，我们可以在一个表中安排系数，包括用于展开具有非整数值 m 的空行:

图 4:牛顿之前已知的二项式展开的系数表。

牛顿想让到填充这个表格中的空单元格。他的推理如下。**

第一列和第二列不难猜。第一个只包含 1，第二个随着 m 线性增加

图 5:第一列和第二列的空白单元格被填充的二项式展开系数的原始表格。

现在让我们考虑第三列。首先，我们注意到它只包含个三角形数字(见下面的图 6)，这可以使用简单的公式获得:

等式 6:第 I 个三角数的公式。

图 6:三角数示例(来源)。

我们还注意到第 m 行总是包含第( m- 1)个三角数。更具体地说， m =2 行包含第第个三角数， m =3 行包含第第二个三角数， m =5 行包含第第四个三角数。在等式中代入( m- 1)。6 我们得到:**

等式 7:第三列中的值对 m 的依赖性。

然后我们可以完成第三列:

图 7:前三列完成的二项式展开的系数表。

现在，请注意，对于前三列，值是多项式增加的。

第一列是常数(零阶多项式)
第二列线性增加(一次多项式)
第三列根据等式二次增加。7(二次多项式)

基于这种模式，牛顿推断第四列应该作为三次多项式增加。由于这个未知的多项式在 m = 0，1 和 2 时消失，所以它必须具有以下形式:

其中常数 a 可以例如使用表的第七行来获得，根据该表 p (3)=1。因此:

然后，我们可以填充第四列的空白单元格:

图 8:填充了前四列的二项式展开的系数。

牛顿的过程现在清楚了。可以快速得到第五列和第六列对 m 的依赖关系:

我们终于可以填满整张桌子了:

图 9:包含 x 的五次方二项式展开系数的表格。

将军接着表述道:

等式 7:牛顿二项式展开。

(其中使用了之前看到的二项式系数公式)。我们应该注意到，引用怀特塞德的话:

自相矛盾的是，这样的沃利斯插值程序，无论多么合理，都不能作为证明，牛顿数学方法的核心原则缺乏任何严格的证明。。。当然，二项式定理非常有效，这对 17 世纪的数学家来说已经足够了。”

— D .怀特塞德

推导正弦幂级数的幂级数

在他 1669 年的手稿“中，正弦函数“的幂级数的推导为【牛顿】的精湛表现”加冕。

图 10:一页牛顿 1669 年的手稿“关于用含有无穷多项的方程进行分析”(来源)。

理解牛顿推导所需的所有元素都包含在下面的图 10 中(基于邓纳姆)，这是一个函数图

方程式 8:单位半径圆的右上象限的方程式。

它描绘了半径为单位的圆的(一个象限)。

圆弧 αD 等于 z (圆的半径为 1)，从图 10 中我们得到:

等式 9:由于圆有单位半径，所以角度 z 的正弦等于横坐标 x。

因此，目标是确定 x (作为 z 上的幂级数)。

图 10:Eq 的绘图。8 包括获得正弦函数的功率扩展所需的所有元素(图改编自 Dunham )。

三角形 DGH 和 DBT 是相似的。由于三角形 ABD 和 DBT 也相似，我们得到:

为了方便起见，这里使用了莱布尼兹符号。使用 Eq。8 这个表达式变成了:

牛顿的下一步是将他的二项式展开应用到右边:

现在反转 Eq。9 为了获得z=z(x)= arcsinx*，并对上面的二项式展开进行积分，得到:***

等式 10:反正弦级数。

注意，牛顿获得该表达式所需的唯一积分是对应于以下反导数(或不定积分)的定积分:

其中 C 是常数。

在他的最后一步，牛顿必须转换(或者更准确地说，反转)Eq。10 转换成正弦函数的展开式(而不是反正弦函数的展开式)。为此，他使用了他以前开发的许多工具中的一种，即他的幂级数求逆技术。

应用幂级数求逆得到 Sin z

待求逆的级数为等式中的 z ( x )。10，即:

等式 11:要展开的系列。

换句话说，牛顿追求的是 x ( z )，就 z 而言的 x 的幂级数。遵循他的策略，我们从执行以下步骤开始:

从第一项开始，在本例中为 x = z
将要导出的数列表示为x=z+p**
将x=z+p代入等式。11**
仅保留 p 中的线性项，根据 z 对结果进行反演，得到 p

更具体地应用策略 ，让我们把这个系列写成:

等式 12:等式 11 中各项的重新排列。

(参见邓纳姆)。下一步是只保留 x: 中的线性项

方程式 13:膨胀的线性近似。

为了说明所有被删除的项，牛顿接着用一个未知的级数 p 写出 x :

等式 14:引入未知的级数 p，以说明线性近似中丢弃的项。

并将其代入等式。12:

等式 15:原始系列设置 x = z+p。

**扩展这个表达式并将 p、的幂分组，他得到:

等式 16:对扩展等式进行分组。15 的 p 次方。

牛顿然后去掉幂大于 1 的项，并求解 p:

等式 17:去掉等式中幂大于 1 的项后得到的表达式。16 和求解 p。

牛顿只保留分子的第一项，并考虑到被删除的项，引入了一个新的待定序列 q ，定义如下:

为了确定 q ，牛顿将这个新的 p 代入等式。16，只保留 q 和中的线性项，为 q 求解。这给出了一个类似于等式的表达式。17(用于 p )。然后，他再次只保留分子中度数最低的项，得到:

该程序可以无限期地执行。现在从 Eq。9， x = sin z ，他最终得出了正弦函数的如下表达式:

等式 18:正弦函数的幂级数展开，最高可达 5 阶。按照牛顿的策略，其他项可以很容易地得到。

图 11:牛顿 1669 年对正弦和余弦函数幂级数的演示。

这个结果可以通过泰勒级数在今天得到。然而，牛顿做这件事的方式完全不同。正如中提到的，邓纳姆的推导“提醒我们，数学不一定以今天教科书的方式进化。相反，它是在断断续续和奇怪的惊喜中发展起来的。”

我的 Github 和个人网站 www.marcotavora.me 有一些其他有趣的材料，既有关于理论物理的，也有关于数据科学和金融等其他主题的。看看他们！

(非官方的)雅虎财经 API

原文：https://towardsdatascience.com/the-unofficial-yahoo-finance-api-32dcf5d53df?source=collection_archive---------5-----------------------

一个 Python 接口，可以处理无限量的数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

肖恩·波洛克在 Unsplash上的照片

背景

我在金融服务行业担任数据分析经理。我的职责是支持我的组织满足任何与数据相关的需求。我们正在做的一个项目是一个非常依赖财务数据的内部应用程序；我的工作是找到提供相关数据的方法。

走运了

如果你在互联网上搜索足够长的时间，你将能够找到让你达到(或部分达到)目标的解决方案。我玩了一下 IEX 云、 Quandl 和其他一些服务，它们都很棒，但不免费。所以，像任何寻找解决方案的开发者一样，我开始搜索 StackOverflow。我经常看到雅虎财经作为一个可能的解决方案，尽管下面的注释位于雅虎财经搜索结果页面的顶部:

请注意:这个 API 已经被雅虎终止。雅虎！金融是雅虎的一项服务！提供金融信息。它是美国顶级的金融新闻和研究网站。

不过，看起来人们仍然在使用这项服务，要么是通过网络抓取，要么是通过你只能通过搜索 XHR 请求才能找到的网址。我知道我不想要网络抓取解决方案，所以我开始在 Chrome 的开发者工具中搜索网络标签，寻找任何类似数据的东西。幸运的是，我偶然发现了一些。

包: YahooQuery

pip install **yahooquery**

该包提供了三个不同的类，可以高效快速地检索您可以通过前端查看的数据。可以检索大部分数据的主类是Ticker类。

心脏

很简单，对吧？只需传递一个符号或符号列表，就可以通过雅虎财经检索大部分可用数据。不过，在我们继续之前，重要的是要知道您可以提供额外的关键字参数来修改某些行为:

asynchronous, default False, optional:当设置为True时，对雅虎财经的请求将异步进行。只有在使用多个符号时才有必要。
backoff_factor, default 0.3, optional:第二次尝试后，在两次尝试之间应用的系数，以秒为单位。例如，如果补偿因子是 0.1，那么sleep()将在重试之间休眠[0.0s，0.2s，0.4s，…]
country, default United States, optional:更改每个请求用作查询参数的语言、地区和域名。这个功能还没有经过彻底的测试，但是当使用 news 方法时，你会看到不同之处。将返回该国家特定语言的数据。
formatted, default False, optional:当formatted=True时，来自 API 的大部分数值数据将以字典的形式返回:

"totalCash": {
    "raw": 94051000320,
    "fmt": "94.05B",
    "longFmt": "94,051,000,320"
}

max_workers, default 8, optional:定义用于发出异步请求的工作线程数量。这仅在和asynchronous=True时相关
proxies, default None, optional:用代理发出每个请求。只需传递一个字典，将 URL 方案映射到代理的 URL。您还可以通过设置环境变量HTTP_PROXY和HTTPS_PROXY来配置代理。
retry, default 5, optional:重试失败请求的次数。
status_forcelist, default [429, 500, 502, 503, 504], optional:我们应该强制重试的一组整数 HTTP 状态码。
timeout, default 5, optional:给定秒数后停止等待响应。
user_agent, random selection, optional:浏览器的用户代理字符串，在每个请求的头中发送。
validate, default False, optional:在实例化过程中验证符号的存在。无效符号将被删除，但您可以通过invalid_symbols属性查看它们。
verify, default True, optional:布尔值，在这种情况下，它控制我们是否验证服务器的 TLS 证书，或者字符串，在这种情况下，它必须是要使用的 CA 包的路径。
username和password:如果你订阅了雅虎财经高级版，通过你的username和password。您将登录，现在可以访问高级属性/方法。所有高级属性/方法都以p_开头。禁用双因素身份验证以使其工作。

Ticker 类可以分为几个不同的类别:模块、选项、历史定价和溢价数据。

模块

这些模块(通常)对应于 Yahoo Finance 前端的一个选项卡或各个选项卡中的数据。例如，要从“Summary”选项卡中检索数据，可以使用Ticker类的summary_detail属性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或者在“Statistics”选项卡中查找数据，可以使用属性valuation_measures和key_stats。

选择

所有选项的到期日期都可以用一个简单的命令行程序检索到:

faang = Ticker('fb aapl amzn nflx goog', asynchronous=True)
options = faang.option_chain

变量options将是一个熊猫数据帧。数据帧将包含由符号、到期日和期权类型(看跌或看涨)组成的多重指数。

历史定价

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

M. B. M. 在 Unsplash 上拍摄的照片

这个非常简单:检索一个符号或符号列表的历史 OHLC 数据:

faang = Ticker('fb aapl amzn nflx goog', asynchronous=True)
history = faang.history()

上面的代码将返回每日的 YTD 数据。但是，可以向该方法提供其他参数:

yahooquery.ticker.**history**(self, period='ytd', interval='1d', start=None, end=None)Historical pricing dataPulls historical pricing data for a given symbol(s)**Parameters** 
---------- 
**period**: str, default ytd, optional
    Length of time**interval**: str, default 1d, optional
    Time between data points**start**: str or datetime.datetime, default None, optional
    Specify a starting point to pull data from.  Can be expressed as           a string with the format YYYY-MM-DD or as a datetime object **end**: str of datetime.datetime, default None, optional
    Specify a ending point to pull data from.  Can be expressed as a         string with the format YYYY-MM-DD or as a datetime object.**adj_timezone:** bool, default True, optional
    Specify whether or not to apply the GMT offset to the timestamp received from the API. If True, the datetimeindex will be adjusted to the specified ticker's timezone.**adj_ohlc:** bool, default False, optional
    Calculates an adjusted open, high, low and close prices according to split and dividend information**Returns** 
-------
pandas.DataFrame
    historical pricing data

优质数据

还可以为 Yahoo Finance Premium 订户检索数据。这个包利用 Selenium，特别是 chromedriver 登录雅虎财经。登录后，用户将能够利用高级方法和属性来检索数据。

与 yfinance 的比较

yahooquery 的另一种选择是 yfinance。这是一个软件包，提供类似的功能，从雅虎财经检索数据。目前，它在 GitHub 上有近 2500 颗星，这是从雅虎财经搜索提供数据检索的 python 包时的最高数量。那么，为什么应该使用 yahooquery 而不是 yfinance 呢？

维护: yfinance 似乎没有在创建 forks 的外部开发者之外进行维护。
**固执己见:**在 yfinance 中，除了一对夫妇，每个属性调用都会调用相同的私有方法，_get_fundamentals。这意味着用户必须检索所有可能的数据，即使他们只对一件事感兴趣。但是，另一方面，使用该私有方法的每个后续调用几乎不需要花费时间，因为数据已经存储在 Ticker 实例中。
数据来源 : yfinance 通过抓取每个 Ticker 页面中的一个 javascript 变量来检索大部分数据(历史定价和期权之外的数据)。Yahooquery 为用户可用的每个属性/方法使用 API 端点。
准确性:损益表、资产负债表和现金流量表使用不同的端点。yahooquery 中使用的方法可以检索更多数据，并且在查看美国以外的公司时是准确的。
**简单:**从检索多个符号的历史价格返回的数据帧在 yahooquery 中是长格式，而在 yfinance 中是宽格式。
**配置:**关键字参数允许很多不同的配置。此外，异步请求在整个库中都是可用的，而不仅仅是像 yfinance 这样的历史定价。
**更快:**不同的例子见下面的 Jupyter 笔记本。

令人不快的数据探索工作

原文：https://towardsdatascience.com/the-unpleasant-work-of-data-exploration-e9dde7180f5c?source=collection_archive---------46-----------------------

如何使用 streamlit 在最小化工作量的同时最大化效果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

每个从事数据科学项目的人都知道，在数据被扔进听起来很花哨的算法或产生输出的黑盒模型之前，需要做的工作得不到任何认可是多么艰难。

尽管我们都希望现实生活中的数据科学是将算法和神经网络应用于完美聚合的数据源，但我们都知道这远非事实。

最令人沮丧的是，在收集、清理、探索和丰富原始数据的整个过程中，我们的工作没有得到任何认可。原因如下:一旦你深入挖掘数据中隐藏的宝石，没人知道你办公桌上发生的事情有多复杂。但是，当我们在建立了最初的项目计划之后所分享的只是最终的产出时，我们又有什么资格去责备他们呢？

因此，不要把自己锁在房间里，把第一手的见解留给自己，而是挑战自己，努力与周围的人分享这些见解。不要准备一完成就过时的演示幻灯片，而是让这些见解随时可用。现在最好的部分来了:你不需要学习一门新的语言，获得一个昂贵的执照，或者雇佣一个分析师。您需要的一切触手可及。Python 和易于安装的开源库简化了 it，使您无需成为全栈开发人员即可构建应用程序。

深入 streamlit 代码

所以让我们开始吧。

对于所有从未使用过 streamlit 的人:不要害怕！它很容易上手，语法与您已经熟悉的语法没有太大的不同。

所有代码都可以在https://github . com/charlottevitner/streamlit _ data _ exploration资源库中找到。

我们使用的是一个样本数据集，其中包含不同品牌在电视上播放的广告片段的信息，这些信息会导致网站访问(这里称为反应)。所提供的数据集包含随机信息，其目的只是为了可视化探索性分析的设置。

提取包含必要列的原始数据集，以运行 streamlit 应用程序。

我们想用这个数据集回答的问题是:是什么推动了一个电视广告的成功？是播放广告的频道，是一天中播放广告的时间，是不是黄金时间，或者是广告的长度？

该项目的最终目标是能够预测特定地点的最佳设置，以最大限度地取得成功。但是，要构建一个可用于进行此类预测分析的模型和设置，我们需要从头到尾了解数据，这就是 streamlit 发挥作用的地方。

仅使用 python 脚本来构建仪表板是每个数据科学家的梦想。不需要记住 excel 公式或弄清楚如何使用最新的商务智能工具。通过灵活地对数据进行探索性分析，您不仅使自己的生活变得更加轻松。但是你也要让参与项目的每个人都能看到你的分析。这样你可以让每个人都在同一条船上，并且额外创造一些视觉上足够愉悦的东西，让你的探索工作得到认可。听起来像是双赢。

现在让我们看看 streamlit 到底是什么。

发布的代码托管在 streamlit 服务器上。您可以通过以下网址访问仪表板:https://share . streamlit . io/Charlotte veitner/streamlit _ data _ exploration/main/streamlit _ main . py

在深入研究代码之前，我将简要介绍一下 streamlit 应用程序的功能。

目标是理解我们正在处理的数据，并在我们的数据集中找到相关性和因果关系。我们希望确定目标价值的最重要驱动因素。因此，我们使用一组探索性的图表。Streamlit 可以可视化 plotly 图形和 pandas 数据帧，这意味着没有太多的格式化工作要做。使用数据透视表、直方图、相关矩阵和散点图，我们可以在坚持使用一些最常见的可视化方法(从外部角度来看很容易理解)的同时，即时生成见解。看看下面的例子，看看创建一个数据透视表并在 streamlit 应用程序中显示它是多么容易。

代码的输出是应用程序中的数据透视表。

数据透视表函数的简化输出

在 streamlit 应用程序中，用户可以按时间段过滤原始数据集，甚至可以比较两个不同的时间段。通过下拉菜单，用户可以选择所需的可视化方法，然后提示用户对所选方法进行其他设置。

尝试样品组和不同的方法。即使有了这个不具代表性的数据集，您也会发现自己在探索该工具拥有的所有不同功能。这些数据没有真正的洞察力，但我仍然给你力量，我给你看原始数据，数据科学中平淡无奇的部分。您有机会建立自己的假设，并在应用程序的帮助下证明它们是错的还是对的。黄金时段播出的电视广告比非黄金时段播出的广告更成功——查看黄金时段的数据透视表，自己看吧。

脚本streamlit _ helper . py*(https://github . com/Charlotte veitner/streamlit _ data _ exploration/blob/main/streamlit _ helper . py)包括五个重要的函数 *create_histogram、create _ correlation _ to _ target _ value、create_correlation_heatmap、和 create_scatter_plot ，它们包含不同分析的聚合和可视化方法。根据用户在下拉菜单中的选择，调用不同的功能。

该代码在侧边栏上创建一个下拉菜单，并在主窗口中生成所选择的分析。

从下拉菜单中选择透视表时的输出

从下拉菜单中选择直方图时的输出

成为你的

*如果您想调整函数或使用您自己的数据进行分析，您必须对原始应用程序进行一些更改。将存储库克隆到您的本地机器，并通过将您的终端定向到该文件夹并输入执行命令"*streamlit run streamlit _ main . py "来执行 streamlit 应用程序。

从在主脚本中更改应用程序的标题开始，检查您是否看到了更改。按下 streamlit 应用程序中的始终重新运行按钮，可以立即看到您在代码中所做的更改。

只要您对代码进行任何更改，应用程序的右上角就会出现一组按钮。

现在该应用程序是你的了。我为您提供了一组函数，可以很容易地将其更改为您自己的数据集。该应用程序只是为了概述使用 streamlit 的一些亮点。可视化和转换数据的机会是无限的，这取决于您的具体用例。

探索是迈向最终产品的一步

最后 app 应该能贡献给原问题。在我们的例子中:一个成功的电视广告的驱动力是什么。你选择的图表和可视化应该有助于更好地理解原始问题的回答过程。该应用程序使您能够对数据集的构造和不同要素的影响有一个总体的了解，而无需将数据从 python 来回推送到 excel。可视化和数据源都可以很容易地丰富，而不必重建整个探索设置。

总的来说，构建一个 streamlit 应用程序有助于您了解您的数据，找到要素之间的因果关系和相关性，使您在数据科学项目中更进一步。

我不是想说发表你的数据探索胜过机器学习模型。我试图给你一个视角，告诉你如何让更多的人参与到了解数据的过程中，而不仅仅是你自己和你最亲密的工作伙伴。你不仅可以授权给别人，让他们觉得自己是旅程的一部分。你将创造一定程度的透明度，为他们信任你的工作打下基础。最重要的是，你会让作为数据科学家的不愉快部分——探索、清理和解释你的最终模型——变得更加愉快。

合著者:费利克斯·韦默勒，索伦·吕德斯

联系人:苏伦。Lueders@seven.one

表格数据深度学习的不合理无效性

原文：https://towardsdatascience.com/the-unreasonable-ineffectiveness-of-deep-learning-on-tabular-data-fd784ea29c33?source=collection_archive---------8-----------------------

深度学习

以及最近为解决其在表格数据上的不良性能所做的工作

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Alina Grubnyak 在 Unsplash 上拍摄的照片

eep 神经网络已经在长期以来被认为是一项挑战的各个领域带来了突破。两个显著的例子是计算机视觉和自然语言处理(NLP)。

我们已经看到计算机视觉的快速发展，从 AlexNet 的突破性发展开始，在 2012 年赢得了 ImageNet 挑战赛。我们的 ResNet 在 2015 年首次在 ImageNet 基准数据集上实现了超人的准确性。然后，我们见证了 2014 年生成对抗网络(GANs)的诞生，以及最终导致今天来自 SyleGAN 的栩栩如生的假人肖像的快速改进。

在 NLP 中，深度神经网络模型现在是最先进的，在基准数据集上优于传统的机器学习算法。GPT-2 和 BERT⁴等型号是新的黄金标准。谷歌已经在 2019 年在其搜索引擎中部署了 BERT，这是过去几年中其搜索引擎最大的一次更新。GPT-2 用于聊天机器人应用程序，以及一些有趣的方式，如一个流行的文本冒险游戏称为人工智能地牢。用不了多久，这些解决方案就会在商业产品中变得司空见惯。

从这些突破中可以明显看出，深度神经网络已经接管了非结构化数据的领域。

深度学习的成功可以归结为利用这些数据中的 归纳偏差 ，例如卷积神经网络情况下的空间相关性。

然而，似乎没有表格数据的深度学习等价物。

不管你喜不喜欢，除非你在一家从事信号处理应用或自然语言处理的公司工作，否则大多数数据都存在于关系数据库和 Excel 电子表格中。事实上，这种状况不会很快消失！

结构数据

来自关系数据库和电子表格的数据是结构化数据的例子。结构化数据以表格结构高度组织，允许对表列进行高效操作，如搜索和连接。通常为数据定义一个模式:每个属性都是名为的*，并且指定了其值类型，例如可以是字符串或整数。在每个模式中还分配了一个唯一的标识符。通常，为了执行一项任务，需要从几个数据库中提取数据，每个数据库都拥有自己的模式。*

考虑一个提供月度订阅的电影流媒体平台。

下图显示了该公司的几个数据库及其相关模式的示例。在这里，我们可以看到有表格存储

用户信息，如名字、姓氏、电子邮件，
公司电影目录的名称和描述，
对用户观看的电影的评级，以及
每个用户和电影互动的标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自关系数据库的模式示例。(来源:链接)

关系数据库是一种经过充分研究的相对成熟的技术。它们是存储表格数据的事实上的标准。鉴于世界上有如此多的数据以表格形式存在，例如上面的表格，毫不奇怪，人们有强烈的动机从表格数据中进行预测。

例如，我们可以根据表中的数据预测用户的流失，使用:

在用户数据库中找到的人口统计信息如年龄、性别、来自哪个国家、在哪个登陆页面注册、
他们如何评价每部电影，以及他们什么时候看的**，**
电影的名字和描述，甚至可能是它的类型(动作片、喜剧片等等。)，以及
通过将电影和用户电子邮件域与外部数据库连接，丰富了它们的信息。

令人惊讶的是，尽管深度神经网络在其他地方取得了成功，但它们在表格数据上的表现不是特别好，并且似乎没有击败浅层神经网络的性能。

深度神经网络的案例

为什么要考虑深度神经网络呢？从表格数据中有效学习的深度神经网络有什么优势？

自动化特征工程

深度神经网络具有强大的特征预处理能力。我们可以通过一层一层地堆叠来构建特征预处理程序，以学习数据的分层表示。此外，当网络在监督设置中从标签学习时，这种特征预处理能力通过反向传播被微调。相应地，数据科学家的重点从功能工程转移到构建良好的架构。让我们面对现实吧，除了数据清理，特征工程是数据科学家第二不喜欢的活动。

迁移学习

深度学习在计算机视觉和 NLP 中的成功在很大程度上归功于这些模型的非凡能力将它们所学的知识转移到相邻的任务。例如，数据科学家可以下载一个计算机视觉模型，在 ImageNet 上进行充分的预训练，并在自己的数据集上对其进行微调，以对农业中的病害作物进行分类。然后，我们能够与其他人共享模型，加速应用程序的开发。类似地，可以想象深度学习模型可以在大组表格数据上进行预训练，提供一种“预训练”知识库(类似于知识图)的方法，并使用它作为一个模块来加速对相关任务的另一个模型的训练。

在单一模型中桥接结构化和非结构化数据

端到端深度学习模型通过反向传播的魔力提供了一种链接结构化和非结构化数据的方式，所有这些都在一个模型中。在 Canva (我工作的地方)，一个应用是将用户人口统计信息(比如他们的职业)与他们选择的设计模板和图像的图像特征结合起来。然后，我们可以更好地预测他们喜欢的设计风格，以及他们可能想要使用的模板。用户人口统计信息存在于关系数据库的结构化表格数据中，而后者以非结构化图像数据的形式存在。在深度学习框架中，如 TensorFlow ，可以很容易地将表格数据学习模型与卷积神经网络联系起来。这与梯度增强树形成对比，在梯度增强树中，梯度信息不可用于将其链接到另一个模型。

为什么深度学习表现很差？

毫无疑问，目前从表格中学习的卫冕冠军是基于决策树的算法。梯度提升树通常是首选的工具，从它们在 Kaggle 比赛中的受欢迎程度就可以看出，其中 XGBoost 、 CatBoost 和 LightGBM 是人群的最爱。

乍一看，令人费解的是为什么深度学习与基于树的算法没有竞争力。毕竟，来自组合数据库的特征确实形成了高维空间，深度学习很好地利用了这一点。

对于从表格数据中有效学习的模型，有几个关键问题必须解决:

从表格数据构建的特征通常是相关的，因此一小部分特征负责大部分预测能力，
数据库中以NULL值形式缺失的数据，以及
标签中通常有很强的类别不平衡(在监督设置中)，例如，用户只喜欢电影目录中的一小部分电影。

此外，从商业智能的角度来看，预测不仅是主要目标，而且在数据中找到预测的不可解释性也同样重要，如果不是更重要的话。

关系数据库和电子表格中的列之间的相关性很常见。通常有**一小组特征(或特征组合)**有助于任务的预测能力。简而言之，我们的归纳偏差是存在(高度)相关的特征，因此选择最小的特征集是最佳策略。

决策树及其更高级的兄弟，随机森林和梯度提升树，通过贪婪的启发式算法很好地选择和组合了这些特征。

然而，与非结构化数据的一个关键区别是，表格数据通常是异构的。从表中构建的特征来自各种不相关的来源，每一个都有它们自己的单位(例如秒对小时)和相关的数字比例问题。第二个区别是特征本身是稀疏的:不像来自图像、音频和语言的数据，在一个表格的一列中几乎没有变化。还有典型的更多分类特征，其中特征本身的顺序(和值)并不重要，并且不像数字特征，本质上是离散的。为了解决这个问题，通常通过学习密集嵌入对神经网络进行仔细的预处理。

这些差异导致高维空间中的特征通常不是密集和连续的，使得难以利用典型的深度神经网络。需要做的是以这样的方式预处理该空间，使得该空间对于深度神经网络“更友好”。

幸运的是，注意力和稀疏正则化的最新发展现在为更有效地从结构化数据中学习铺平了道路。

最近的一些工作概述

最近，人们关注的焦点是提高深度神经网络对表格数据的性能。自然地，这些工作通过模仿基于树的算法的最佳品质来克服规范深度神经网络的问题。我们涵盖了这一领域的两个最新作品，由于我最近一直在进行实验，所以更侧重于第一个作品。

TabNet

TabNet 是一种深度神经网络，专门用于从表格 data⁵.中学习它的设计不同于其他基于树的混合的修改作品。

TabNet 的关键是输入特征上的可学习掩码。此外，可学习掩码应该是稀疏的**，，即有利于选择解决预测任务的一小组特征。**

可学习的掩码优于树的一个优点是特征选择不是一个全有或全无的命题。在决策树中，对某个特性的值设置了一个硬阈值，因此，如果该值超过阈值 T ，则沿着树的右分支向下，否则向左。有了可学习的掩码，就可以做出软决策，这意味着可以在更大范围的值上做出决策，而不仅仅是单个阈值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

编码器架构(来源: TabNet 论文，图 4a)

如上图所示，TabNet 编码器由个连续的决策步骤组成，通过一个可学习的掩码对特征进行编码和选择。TabNet 对表中的每一行进行训练，使用稀疏可学习掩码选择(关注)每一步中的相关特征，并聚合每一步的预测，以在进行预测时模拟类似系综的效果。编码器中的更多步骤意味着构建更多的系综。

编码器的两个主要组件是:

特征转换器:特征处理和工程发生的地方。有两个共享特征块，允许在决策步骤之间共享已处理的特征，以及两个决策步骤相关的特征处理器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特征转换器(来源: TabNet paper ，图 4c)

**注意力转移器:**稀疏掩模的学习发生在这里。稀疏最大 layer⁶用于在可学习掩码学习关注某些特征时促进其稀疏性。反馈先前尺度的信息允许 TabNet 学习和控制在先前决策步骤中已经使用了多少特征。可以预先指定超参数来控制决策步骤之间的特征重用量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

细心的变压器(来源: TabNet paper ，图 4d)

还有一个通过香农熵的稀疏性正则化损失函数来控制训练期间每个决策步骤中掩模的总体稀疏性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

扑克手数据集中可学习面具的特征重要性。从左到右:聚合掩码，步骤 1、2 和 3 的掩码(来源:作者)

我们可以可视化每个决策步骤的特征重要性，以及一个集合版本。在下图中，我们绘制了聚合掩码的掩码，以及扑克手 dataset⁷.的决策步骤 1、2 和 3 的掩码图像的行表示测试样本的数量，而每列表示一个特征。我们可以看到不同步骤之间的一些特性重用，一些测试样本的一些特性被赋予了重要性。

有趣的是，TabNet 可以以无监督的方式进行训练。如果将模型修改为编码器-解码器结构，那么 TabNet 将作为表格数据的自动编码器！本文讨论了解码器的一种潜在架构，这是一种由特征变换器组成的相当简单的架构。训练包括故意用检查表中的单元格(如下图所示),以便让模型通过预测缺失值来学习单元格和相邻列之间的关系。一旦训练完成，TabNet 可以用作分类和回归任务的预训练模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过故意审查表格中的单元格来强制模型预测缺失的单元格，对 TabNet 进行无监督的预训练(来源: TabNet 论文)

在我自己对 TabNet 的实验中，我观察到:

除了指定我的特性是整型、浮点型、布尔型还是字符串值，我不需要执行特性预处理。
TabNet 自动处理类不平衡。
TabNet 与 XGBoost 具有竞争力，在某些情况下，甚至超越了它。在一次测试中，它的准确率比 XGBoost 高 9%,这是一个巨大的优势！
TabNet 在其超参数方面惊人地健壮，并且默认超参数通常提供良好的性能。对超参数高度敏感的一个例子是在扑克手数据集中，论文中陈述的超参数提供了最高的准确性。
与原始论文不同，至少在我的数据集上，当特征转换器减少到一个共享块和一个决策步骤依赖块时，性能没有下降。

如果 TabNet 可以用顺序自适应性来增强将会很有意思，这样就可以按照递归神经 networks⁸.中使用的自适应计算技巧，动态地学习所采取的决策步骤的数量那么模型就有可能自动计算出它需要的决策步骤的数量。

另一个架构变化是用 EntMax 代替 sparsemax 函数(见下文)。事实证明，在其他应用程序中，EntMax 的性能优于 sparsemax，因此值得一试。

TabNet 无监督模式的另一个应用是允许它估算表格数据中的缺失值。当分析收集可能出现问题，导致停机和数据丢失时，这尤其有用。

**更新:**我在这里修改了 TabNet。看看吧！

神经遗忘决策集成(节点)

最近在 ICLR 2020 上接受的，节点 module⁹由预先指定数量 m 的不经意决策树(ODT)组成，每个 ODT 具有相等的深度 d 。与其他基于树的算法相比，这些 ODT 是可微分的，因此误差梯度可以通过它们反向传播。就像 TabNet 一样，NODE 是一个端到端的深度学习模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不对称决策树与遗忘决策树。ODT 总是通过在每一层使用相同的分裂标准来确保树的平衡。(来源:链接)

让我们先来看看香草 ODT。与上图中的非对称树(是 XGBoost 和 LightGBM 的基本组件)不同，ODT 沿着 d 分割特征分割数据，并将每个特征与学习的阈值进行比较。从图中我们可以看到，分割是在一个硬门槛上进行的，例如，所有体重在 65 kg 以上的人总是沿着右边的树枝往下走。还要注意的是在每一层选择一个特征进行分割，产生一个全有或全无的命题。

实际上，这意味着

单个 ODT 的每个输出都是 2 个 ᵈ 二进制字符串中的一个，
每个 ODT 都有确切的深度 *d、*和
每个 ODT 都是平衡的。

具有平衡树的优点是它们在计算上是高效的，因为每个 ODT 可以被表示为决策表，并且分割可以被并行计算。在推断过程中，不评估任何if语句，因为结果可以从预先计算的决策表中查找。其次，ODT 的深度限制最小化了过度拟合。

每个 ODT 都是弱学习者，但是当他们组合在一起使用时，组合就变成了强学习者。

另外，ODT 是 CatBoost 中使用的主要组件。毫不奇怪，ODT 是 NODE 的基本组件，因为这篇论文的作者来自开发 CatBoost 的 Yandex。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单节点层架构。在每一层选择要分割的特征，分割函数由 EntMax 控制(来源:论文，图 1)

现在，NODE 和 CatBoost 的 ODT 之间的区别在于分裂特征的选择和树中使用的分裂函数。代替这些函数的硬版本，使用软的、可微分的函数。NODE 使用 EntMax ⁰而不是 sparsemax 来提高这两个函数的稀疏性。EntMax 是最近的一项发展，它概括了 sparsemax 和 softmax 函数，能够学习比 sparsemax 更稀疏但更平滑的决策规则，从而在稀疏性和决策之间实现更好的平衡。

随着训练时间的推移，节点图层将选择一个最小的要素集在每个级别进行分割(而不仅仅是 1 个)，分割阈值将覆盖一系列值(而不仅仅是单个阈值)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

节点架构:每个节点层连接到所有后续的节点层(来源:论文，图 2)

架构中的深度来自于一层一层地堆叠节点层。每个节点层从原始特征输入和它之前的所有其他节点层获取输入。这类似于 TabNet 中的顺序决策步骤，因为每个结点图层都与后续结点图层共享已处理的要素。有了这种结构，模型可以捕捉浅层和深层的决策规则。该建筑的灵感来自 DenseNet。

论文表明，节点算法与其他基于树的算法相比是有竞争力的。它优于大多数梯度提升树算法，包括 CatBoost，但在 6 个公开可用的数据集上测试时，有时会被 XGBoost 击败。

NODE 的一个有趣方向是在层中加入非对称树，根据论文中的测试，非对称树在某些数据集上比 ODT 表现得更好。

结论

现在人们对开发深度神经网络感兴趣，这有望将基于树的算法从其作为表格数据的最佳学习者的统治地位上拉下来。

虽然这些最近的发展非常令人兴奋，但我还是要以一些实际的考虑来结束:

在表格数据上高效学习的深度学习模型允许我们将它们与计算机视觉和 NLP 中最先进的深度学习模型相结合。这是梯度增强树的一个强大优势。
梯度增强的树可以在 CPU 上有效地训练，不像它们的深度学习对应物。它们在 CPU 上的推理时间也是有性能的。除非深度学习模型的指标明显优于梯度增强树(例如，F1 分数高 10%)，否则后者可能仍然更可取，因为它们训练和部署起来更便宜。
如果您想要优化 GPU 利用率，优化从 CSV 文件到 GPU 的数据馈送是非常重要的。否则，从一个大的 CSV 文件中读取和创建批处理的缓慢 I/O 操作很容易让您的 GPU 挨饿。
所有这些算法都有许多要调整的超参数。更实际的做法是从你能找到的最简单的模型开始，然后从那里开始。

[1]，何，，，，，，，【用于图像识别的深度残差学习】Proc .计算机视觉和模式识别(CVPR)，IEEE (2015)。

[2]伊恩·古德菲勒，让·普盖-阿巴迪，迈赫迪·米尔扎，徐炳，大卫·沃德-法利，谢尔吉尔·奥泽尔，亚伦·库维尔，约舒阿·本吉奥，生成对抗网络，《神经信息处理系统国际会议论文集》(NIPS 2014)，第 2672-268 页。

[3]亚历克·拉德福德，杰弗里·吴，雷文·蔡尔德，大卫·栾，达里奥·阿莫代伊，伊利亚·苏茨基弗，语言模型是无监督的多任务学习者 (2019)。

[4]雅各布·德夫林(Jacob Devlin)，张明蔚(Ming-Wei Chang)，肯顿·李(Kenton Lee)，克里斯蒂娜·图坦诺娃(Kristina Toutanova)，伯特:语言理解的深度双向变压器预训练 (2018)。

[5]塞尔詹。ark，Tomas Pfister， TabNet:专注的可解释表格学习 (2019)。

[6] Andre F. T. Martins，Ramon F. Astudillo，从 Softmax 到 Sparsemax:注意力和多标签分类的稀疏模型，Proc .第 33 届机器学习国际会议(ICML '16)，第 48 卷，第 1614–1623 页(2016)。

[7] 扑克手数据集，UCI 机器学习知识库(2007)。

[8] Alex Graves，递归神经网络的自适应计算时间 (2016)。

[9]塞尔戈·波波夫，斯坦尼斯拉夫·莫罗佐夫，阿尔特姆·巴本科，基于表格数据的深度学习的神经不经意决策集成，学习表征国际会议(ICLR) (2020)。

[10] Ben Peters，Vlad Niculae，André F. T. Martins，稀疏序列间模型，ACL 2019，第 1504–1519 页，(2019)。

[11]黄高，刘庄，劳伦斯·范德马腾，基里安·q·温伯格，密集连接卷积网络 (2017)。

深度神经网络在自然语言处理中的不合理进展

原文：https://towardsdatascience.com/the-unreasonable-progress-of-deep-neural-networks-in-natural-language-processing-nlp-374443b21b00?source=collection_archive---------28-----------------------

自然语言处理(NLP)的巨大变化源于深度学习

人类有很多感官，然而我们的感官体验通常受视觉支配。考虑到这一点，也许现代机器学习的先锋由计算机视觉任务领导就不足为奇了。同样，当人类想要交流或接收信息时，他们使用的最普遍和最自然的途径是语言。语言可以通过口语和书面语、手势或一些形式的组合来传达，但出于本文的目的，我们将重点关注书面语(尽管这里的许多课程也与口语重叠)。

多年来，我们已经看到带有深度神经网络的自然语言处理(也称为 NLP，不要与的 NLP 混淆)领域紧随计算机视觉的深度学习的进展。随着预训练通用语言模型的出现，我们现在有了通过大规模预训练模型(如 GPT-2、伯特和 ELMO)将学习转移到新任务的方法。这些和类似的模型在世界上做着真正的工作，都是日常的事情(翻译、转录等)。)，以及科学知识前沿的发现(例如，从出版物文本【pdf】预测材料科学的进展)。

对外语和母语的掌握长期以来被认为是有学问的人的标志；一个杰出的作家或能流利地理解多种语言的人会受到高度尊重，并被认为在其他方面也很聪明。将任何语言掌握到母语水平的流利程度都是困难的，传授优雅的风格和/或异常的清晰更是如此。但即使是典型的人类熟练程度也表现出令人印象深刻的能力，能够解析复杂的信息，同时破译上下文、俚语、方言和语言理解的不可动摇的混淆因素(讽刺和挖苦)之间的实质性编码差异。

理解语言仍然是一个困难的问题，尽管在许多领域得到了广泛的应用，但用机器理解语言的挑战仍然存在许多未解决的问题。考虑下面的歧义和奇怪的单词或短语对。从表面上看，每一对的成员有相同的意思，但无疑传达了不同的细微差别。对我们中的许多人来说，唯一的细微差别可能是对语法和语言精确性的忽视，但是拒绝承认共同使用的含义通常会使语言模型看起来很愚蠢。

满不在乎=(？)可能不在乎

不顾=(？)不管

字面上=(？)象征性地

动态=(？)动态

初级课程:概括和迁移学习

深度学习的现代成功很大程度上归功于迁移学习的效用。迁移学习允许实践者利用模型先前的训练经验来更快地学习新的任务。由于训练现有深度网络的原始参数计数和计算要求，迁移学习对于深度学习在实践中的可访问性和效率是必不可少的。如果你已经熟悉迁移学习的概念，跳到下一节来看看深度 NLP 模型随时间的演变。

迁移学习是一个微调的过程:与其从头开始训练整个模型，不如只重新训练模型中与任务相关的部分，这样可以节省计算和工程资源的时间和精力。这是安德烈·卡帕西、杰瑞米·霍华德和深度学习社区的许多其他人信奉的“不要成为英雄”的心态。

从根本上说，迁移学习包括保留模型的低级、通用组件，而只重新训练模型中那些专门化的部分。有时，在仅重新初始化几个特定于任务的层之后，训练整个预训练模型也是有利的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

深度神经网络通常可以分为两个部分:编码器或特征提取器，用于学习识别低级特征，以及解码器，用于将这些特征转换为所需的输出。这个卡通示例基于一个用于处理图像的简化网络，编码器由卷积层组成，解码器由几个完全连接的层组成，但相同的概念也可以很容易地应用于自然语言处理。

在深度学习模型中，编码器(主要学习提取低级特征的一堆层)和解码器(将编码器输出的特征转换为分类、像素分割、下一时间步预测等的模型部分)之间通常存在差异。采用预先训练的模型并初始化和重新训练新的解码器可以在少得多的训练时间内实现最先进的性能。这是因为较低层倾向于学习最普通的特征，如图像中的边缘、点和波纹(即图像模型中的 Gabor 滤波器)。在实践中，选择编码器和解码器之间的界限更像是艺术而不是科学，但请参见 Yosinki et al. 2014 ，研究人员量化了不同层的特征的可转移性。

同样的现象也适用于 NLP。在一般语言建模任务(预测前面给定的文本的下一个单词或字符)上训练的训练有素的 NLP 模型可以被微调到许多更具体的任务。这节省了从零开始训练这些模型中的一个的大量能量和经济成本，这也是我们拥有 Janelle Shane 的“人工智能生成的食谱(顶级食谱包括“巧克力鸡鸡蛋糕”)或基于文本的生成型地牢游戏等杰作的原因。

这两个例子都是建立在 OpenAI 的 GPT-2 之上的，这些和大多数其他的自然语言处理项目比其他任何地方都更适合喜剧。但是像 GPT-2 这样的通用 NLP 转换器的转移学习正在迅速滑下愚蠢的斜坡，滑向恐怖谷。在这之后，我们将处于可信的边缘，由机器学习模型生成的文本可以代替人类书写的副本。谁也说不准我们离实现这些飞跃还有多远，但这可能并不像人们想象的那么重要。NLP 模型不一定要像莎士比亚那样，才能在某些时候为某些应用程序生成足够好的文本。人类操作员可以挑选或编辑输出，以实现期望的输出质量。

自然语言处理(NLP)在过去十年中取得了长足的进步。在这一过程中，出现了许多不同的方法来提高情感分析和机器翻译基准测试等任务的性能。已经尝试了许多不同的架构，其中一些可能更适合给定的任务或硬件限制。在接下来的几个部分中，我们将看看用于语言建模的深度学习 NLP 模型的家谱。

递归神经网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

递归神经网络中的一个或多个隐藏层与之前的隐藏层激活有联系。本文中的这个图表和其他图表的要点如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

语言是一种序列数据。与图像不同，它是按照预先确定的方向一次解析一个数据块。句子开头的文本可能与后面的元素有重要的关系，并且可能需要记住一篇文章中很早以前的概念才能理解后面的信息。语言的机器学习模型应该具有某种记忆，这是有道理的，递归神经网络(RNNs)通过与先前状态的连接来实现记忆。在给定时间状态下，隐藏层中的激活依赖于前一步的激活，而前一步的激活又依赖于前一步的值，依此类推，直到语言序列开始。

由于输入/输出数据之间的相关性可以追溯到一个序列的开始，所以该网络实际上非常深。这可以通过将网络“展开”到其序列深度来可视化，揭示导致给定输出的操作链。这使得消失渐变问题成为一个非常明显的版本。因为用于分配错误信用的梯度在每个先前的时间步长上被乘以小于 1.0 的数，所以训练信号被连续衰减，并且早期权重的训练信号变得非常小。在 RNNs 中训练长期时间依赖性的困难的一个解决方法就是不要。

储层计算和回声状态网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

回声状态网络类似于 RNN，但是具有使用固定的、未经训练的权重的循环连接。网络的这个固定部分通常被称为水库。

回声状态网络是具有固定循环连接的 rnn 的子类。使用静态循环连接避免了用消失梯度训练它们的困难，并且在 RNNs 的许多早期应用中，回声状态网络优于用反向传播训练的 RNNs。一个简单的学习层，通常是一个全连接的线性层，解析来自库的动态输出。这使得训练网络更容易，并且有必要初始化油藏以具有复杂且持续但有限的输出。

回声状态网络具有混沌特性，因为早期的输入会对以后的储层状态产生长期的影响。因此，回声状态网络的功效是由于“核技巧”(输入被非线性地转换到高维特征空间，在那里它们可以被线性地分离)和混沌。实际上，这可以通过定义具有随机权重的稀疏递归连接层来实现。

回声状态网络和储层计算已经在很大程度上被其他方法取代，但是它们对消失梯度问题的避免在几个语言建模任务中被证明是有用的，例如学习语法或语音识别。然而，储层计算从未对使 NLP 迁移学习成为可能的通用语言建模产生多大影响。

LSTMs 和门控 rnn

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

长短期记忆引入了闸门，有选择地将激活保持在所谓的细胞状态。

LSTMs 由 Sepp Hochreiter 和 jürgen schmid Huber【pdf】于 1997 年发明，使用“恒定误差转盘”或 CEC 来解决消失梯度问题。CEC 是一种持续的门控细胞状态，由非线性神经层包围，这些神经层打开和关闭“门”(使用类似 sigmoid 激活函数的东西将值压缩在 0 和 1 之间)。这些非线性层选择应该将哪些信息合并到单元状态激活中，并确定将哪些信息传递到输出层。像元状态图层本身没有激活函数，因此当其值以接近 1.0 的门值从一个时间步长传递到另一个时间步长时，梯度可以在输入序列中完整地向后流动很长的距离。LSTMs 已经有了许多发展和新版本，用于改进训练、简化参数计数和应用于新领域。这些改进中最有用的一个是 Gers 等人在 2000 年开发的遗忘门(如图所示)，以至于带有遗忘门的 LSTM 被认为是典型的“标准”LSTM。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

门控或乘法 RNN 对最后一个隐藏状态的输出使用元素乘法运算，以确定在当前时间步长将什么合并到新的隐藏状态中。

门控或乘法 RNN (MRNN)是一个非常类似于 LSTM 的构造，尽管没有那么复杂。像 LSTM 一样，MRNN 使用乘法运算来选通网络的最后隐藏状态，选通值由从输入接收数据的神经层来确定。mrnn 由 Sutskever 等人 [ pdf 于 2011 年引入用于字符级语言建模，并由 Chung 等人于 2015 年扩展到更深 mrnn(门控反馈 RNNs)中的跨深度门控。也许因为它们更简单，MRNNs 和门控反馈 RNNs 在一些语言建模场景中可以胜过 LSTMs，这取决于谁在处理它们。

带遗忘门的 LSTMs 一直是各种各样备受瞩目的自然语言处理模型的基础，包括 OpenAI 的"无监督情感神经元 " ( 论文)和 2016 年谷歌的神经机器翻译模型的性能大幅跃升。接着从无监督的情感神经元模型演示迁移学习。塞巴斯蒂安·鲁德和杰瑞米·霍华德开发了用于文本分类的无监督语言模型微调 (ULM-FiT) ，它利用预训练在六个特定的文本分类数据集上实现了最先进的性能。

虽然没有 ULM-FiT 和无监督情绪神经元，但谷歌位于 LSTM 的翻译网络的一个关键改进是注意力的自由应用，不仅仅是工程注意力，而是学习处理输入数据特定部分的特定机器学习概念。应用于 NLP 模型的注意力是一个如此强大的想法，以至于它导致了下一代语言模型，并且它可以说是 NLP 中迁移学习的当前功效的原因。

进入变压器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

对“注意力是你所需要的全部”中变压器模型中使用的注意力机制概念的图形描述在序列中的给定点，对于每个数据向量，权重矩阵生成键、查询和值张量。注意机制使用键和查询向量来加权值向量，该值向量将与所有其他键、查询、值集一起受到 softmax 激活，并被求和以产生下一层的输入。

像谷歌 2016 年 NMT 网络这样的语言模型中使用的注意力机制工作得足够好，在机器学习硬件加速器变得足够强大的时候，让开发人员想到这样一个问题:“如果我们只是单独使用注意力会怎么样？”正如我们现在所知，答案是注意力是你实现最先进的 NLP 模型所需要的全部(这是介绍只关注模型架构的论文)的名字)。

这些模型被称为变压器，与 LSTMs 和其他 rnn 不同，变压器同时考虑整个序列。他们学会用注意力来衡量输入文本序列中每个点的影响。上图简单解释了最初的 Transformer 模型所使用的注意力机制，但更深入的解释可以从论文或 Jay Alammar 的博客文章中获得。

同时考虑整个序列可能看起来像是它将模型限制为解析它被训练的相同固定长度的序列，不像具有递归连接的模型。然而，转换器利用位置编码(在原始转换器中，它是基于正弦嵌入向量的),这可以促进具有可变输入序列长度的前向传递。变压器架构的一次性方法确实会产生严格的内存要求，但在高端现代硬件上进行训练是有效的，简化变压器的内存和计算要求是该领域当前和最新发展的前沿。

自然语言处理(NLP)中深度神经网络的结论和注意事项

在过去的两到三年里，深度自然语言处理无疑已经获得了自己的地位，并且它开始有效地扩展到机器翻译和愚蠢的文本生成这些高度可见的领域之外的应用程序中。NLP 的发展继续跟随计算机视觉的脚步，不幸的是，这包括许多我们以前见过的相同的错误步骤、失误和障碍。

最紧迫的挑战之一是“聪明的汉斯效应”，它是以 20 世纪早期一匹著名的表演马命名的。简而言之，汉斯是一匹德国马，作为一匹算术天才马向公众展示，能够回答涉及日期和计数的问题。事实上，他是解读他的教练威廉·冯·奥斯坦给出的潜意识暗示的专家。在机器学习中，聪明的汉斯效应指的是模型通过学习训练数据集中的虚假相关性来实现令人印象深刻但最终无用的性能。

例子包括根据识别医院使用的机器的类型对 x 射线中的肺炎进行分类，通过重复最后提到的名字来回答文本中描述的人的问题，以及现代颅相学。虽然大多数 NLP 项目在不能正常工作时只会产生错误的喜剧(例如上面提到的食谱和地牢生成器)，但对 NLP 和其他机器学习模型如何崩溃的缺乏理解为现代伪科学和相应的糟糕政策的辩护铺平了道路。这对生意也不好。想象一下，花费数千或数百万美元为一家服装店开发支持 NLP 的搜索，该服装店返回对无带衬衫的搜索查询结果，就像那些在Shirt without StripesGithub repo 中的结果。

很明显，虽然最近的进展已经使深度 NLP 更加有效和容易理解，但在展示任何接近人类理解或合成的东西之前，该领域还有很长的路要走。尽管有缺点(没有 Cortana，没有人希望你在 Edge 浏览器上将每一句话都输入到互联网搜索中)，NLP 仍然是当今广泛使用的许多产品和工具的基础。与 NLP 的缺点直接对应的是，在评估语言模型时，对系统严密性的需求从未如此清晰。显然，不仅在改进模型和数据集方面，而且在以信息方式打破这些模型方面，都有重要的工作要做。

数据不合理的不可用性

原文：https://towardsdatascience.com/the-unreasonable-unavailability-of-data-b00271440b1b?source=collection_archive---------95-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基本政府职能的衡量标准可能多年都不会公布

2019 年 6 月美国有多少人死亡？

你可能认为这是一个很容易回答的问题。事实证明并非如此。探索它揭示了我们如何收集和发布数据的基本问题。我们认为基于数据做出决策的价值是理所当然的，并期望我们可以将这种做法扩展到公共政策中——但目前这可能是不可能的。

死亡似乎是最容易衡量的统计数据。几乎所有国家都有死亡率记录。美国有一个相对复杂的多级政府结构，但即使如此，每个州都有一个生命统计部门，记录死亡人数，签发死亡证明，并将统计数据转发给联邦政府。疾病控制中心的国家健康统计中心公布了死亡数字。但是它最近的数据简报，2020 年 1 月发布的第 355 号简报，只涵盖了 2018 年的死亡人数。

整理一个完美的数据集和结果平均需要 15 个月。完整的数据集有许多对研究有用的维度:按年龄、死因等细分。对于回答基本问题来说，这种详细程度是不必要的，因此 CDC 有一个早期发布项目——但这需要提交申请和机构审查，这些障碍不适合回答基本问题，并且仍然只能在一年结束后的 6 个月提供数据。由于这仍然不够，疾病控制中心提供州和国家临时统计。在撰写本报告时(2020 年 5 月 17 日)，临时数据涵盖 2018 年至 2019 年 3 月(落后 14 个月)。而历史档案覆盖到 2015 年(2016 年和 2017 年的数据在哪里)？

现在，由于对新冠肺炎疫情的密切关注，我们实际上可以找到一些更好、更详细的(非 COVID)2 月至 5 月的死亡报告，作为 COVID 报告的一部分。但将该数据与 2019 年的前期进行比较仍然遥不可及。

也许在美国统计死亡人数是一个太难的问题。让我们转向一个更简单的问题——统计一个州的死亡人数。既然州签发死亡证明，你可能会认为，一个州应该能够很容易地回答在给定的时间范围内发生了多少起死亡，或者至少在这段时间内签发了多少死亡证明——这是一个足够接近的代理。我住在德克萨斯州，所以我咨询了德克萨斯州卫生和人类服务部，他们的生命统计部门在容易访问的网络记录中维护这些数据，直到 2016 年。

我辞去工作，用传统的方式询问数据，给国家生命统计部门发了一封电子邮件，收到了这样的回复:

下午好，罗斯克先生

感谢您关于德克萨斯死亡率数据的请求。由于资源和 COVID19 响应有限，目前我们无法处理您的请求。我们可以将您的请求放在等候名单上，或者欢迎您稍后再与我们联系。此外，我们可以提供的最近一年的最终数据是 2017 年的月度统计数据。我们能提供的最近一年的非最终数据是 2018 年。

如果您有任何问题，请告诉我们。
谢谢，
人口动态事件数据管理团队
德克萨斯州健康服务部门
健康统计中心

[请注意，尽管他们指出德克萨斯州自己的权威健康统计中心可以提供的最新数据是截至 2018 年的数据，但 CDC 的州和国家临时统计数据拥有德克萨斯州截至 2019 年 3 月的数据。还要注意的是，德克萨斯州实际上是美国管理效率最高的州之一。]

在工业界，我们习惯于根据数据做出决策。首席执行官、首席运营官和首席财务官定期跟踪库存、销售和客户渠道等关键指标。至少对美国而言，上述经验表明，关键政府职能的基本指标不容易获得，或者至少不公开。如果我们要寻找其他公民职能的关键指标，如驾照或公园游客的数量，我们会找到更好或更透明的数据吗？如果我们找不到数据来回答一些极其简单的问题，比如“两个月前死亡的人比去年同月死亡的人多吗？”我们能合理地期望能够回答更复杂的问题吗，比如“这种公共卫生干预有效吗？”即使在我们认为高度透明的社会中，在极端的审查下，关键指标——如纽约州和科罗拉多州的新冠肺炎死亡人数——也会被大幅上调(T1)和下调(T3)。我们可能只是缺乏在公共政策中及时做出基于数据的决策所需的基本数据基础设施。

对此我们能做些什么？我想到了一些想法:

当前美国政府的数据政策似乎专注于原始、完美的数据集，而不是及时的基本运营指标。对于后者，我们需要一场运动。或许围绕这一问题展开一场热烈的互联网讨论最终会影响政策的制定。
如果我们希望我们的公共机构以不同的方式处理数据，我们需要开始与我们的公共机构合作。在美国，前美国首席数据科学家 DJ Patil 主张参与 usdigitalresponse.org 的活动，作为行业志愿者与政府机构直接联系并帮助注入新思想的一种手段。
虽然数据科学界拥有强大的工具来解决问题，但我们在对公共政策发表意见时仍应注意自身的局限性。如果没有可信和及时的数据，我们的工具将无法有效工作，并且这些数据可能无法获得。

对于如何影响政府基本运营指标的可用性，您有其他想法吗？如果有，请在下面评论。

感谢 Aaron Baker 和 Shelby Williams 帮助探索这个问题。

初级和高级数据科学家之间不言而喻的区别

原文：https://towardsdatascience.com/the-unspoken-difference-between-junior-and-senior-data-scientists-f7317590a215?source=collection_archive---------20-----------------------

不是你想的那样

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯蒂娜@ wocintechchat.com 在 Unsplash 上的照片

成为一名高级数据科学家被视为一个圣杯，尽管许多人不知道拥有一个高级职位到底意味着什么。最常见的印象是，作为一名高级数据科学家意味着你知道关于数据科学的一切，你是真正的专家。这是事实，但只是在一定程度上，因为数据科学的学习永无止境。此外，成为高级数据科学家不仅仅是技术知识。

你可能会想，是的，但是我为什么要在乎呢？我认为了解数据科学家遵循的标准路径是很重要的，这样你就可以做出更明智的决定，决定你想在这条路径的哪一边。简单来说，你越见多识广，在两个公司、两个职位或两个项目之间做决定时，就越容易选择你的立场。

[参加免费的数据科学入门迷你课程，更好地了解什么是数据科学，它在更大的人工智能世界中如何定位，以及成为数据科学家有什么要求。]

我们来看看一个数据科学家平时的职业生涯是什么样子的。

初级数据科学家

背景

作为一名初级数据科学家，我们期望你具备基本的数据科学知识。你的能力应该足以独立完成任务，或者在你更资深的同事的帮助下完成任务。在这个时间点上，你不会有太多专业的动手经验。

学习

你应该虚心学习，不要害怕问很多问题。更多的资深同事会很乐意帮助你学习。作为一名初级数据科学家，如果你每天都学到一些新东西，这并不奇怪。

项目

你的主要职责是完成分配给你的任务。当你遇到问题时，你会得到更高级的数据科学家的帮助。除了你的技术能力之外，你还应该对与你的特定任务相关的领域有很好的理解。

数据科学家

在初级数据科学家之后，你可能会处于一个过渡角色，在那里你会被简单地称为:数据科学家。 ‍

背景

‍ 在这一点上，你对数据科学的主要概念和技术的了解必须是扎实的。尽管这并不意味着你已经知道了一切。而是说你知道很多东西，也知道自己不知道的东西。你可能已经在这个水平上获得了一些很好的实践经验。

学习

学习永无止境，所以你仍然可以接受新的想法和方法。你仍然会问很多问题，但是你也会被其他人问问题。初级同事带着他们的问题来找你。你仍然学习新的东西，也许不是每天，而是每隔一个月。你试图深入我们对某些技术和工具的理解。

项目

你是项目决策过程的一部分。你对项目的背景有一个很好的总体理解，但是你仍然不需要知道比你工作所需要的更多的东西。

高级数据科学家

然后是高级数据科学家的职位。在这一点上，你基本上具备了数据科学家的一切，只是多了一些能力和责任。让我们看看它们是什么。

背景

你对主要的概念和技术有坚实的理解，并且对它们的缺陷有更深的了解。您在项目工作中获得了这些知识。现在你已经有了扎实的实践经验。

学习

对你来说，学习更高级的主题更容易，因为你已经掌握了基本概念。你仍然乐于学习。教导和支持更多初级同事是你工作的一部分。

项目

你是项目的领导者。你不仅是决策过程的一部分，而且是领导者。项目的成功是你的责任，在很多情况下，也是团队成员的幸福。在领导项目的同时，你还需要与外界沟通。向业务部门汇报是你的责任。在进行项目时，您需要记住非技术限制，并确保将技术团队推向正确的方向。你必须对上下文和领域有一个全面完整的理解。你有责任坚持目标并实现目标。

当然，这并不是世界上每个公司的每个数据科学家的职业生涯。此外，你可能是一名自由职业的数据科学家，或者你可能创办自己的公司并成为一名首席技术官，那么你的道路将会非常不同。但总的来说，根据我与数据科学界人士的交谈，这很好地代表了一般数据科学家的职业道路。

不过，有一点是永远不会变的，那就是高级数据科学家将会有更多的实际项目工作经验。在获得第一个数据科学家职位之前，很难找到一个对现实生活有影响的项目，但有一些方法可以非常接近这个职位。你可以这样做的一个方法是参加我的动手数据科学课程，我们立即动手，通过做来学习*。去看看。我保证，当你将自己的实践技能付诸实践，亲身体验现实生活中的项目时，你会对自己进步的速度印象深刻。*

我们今天研究这个问题的原因是，每个公司都有自己的结构、自己的规则和自己的途径，当你有选择的时候，你想知道该选择哪一个。随着你的资历越来越高，有些人会倾向于更技术性的工作，有些人会倾向于更管理和行政性的工作。你可以用这篇文章中的解释作为一个基线，来找出你在人生旅途的高级阶段想要达到的目标，并相应地调整你的求职。当然，计划和偏好会随着时间而变化。但是有一个你想要结束的想法比盲目的进入要好。

你已经知道你想倾向于哪种方式了吗？通过评论或给我发邮件让我知道！

🐼想更多地了解熊猫吗？ 获取我的免费熊猫小抄。

升级后的“前 N 名”分析你还没见过熊猫

原文：https://towardsdatascience.com/the-upgraded-top-n-analysis-you-havent-seen-yet-with-pandas-47e6fdc67130?source=collection_archive---------39-----------------------

thePYTHON

这是一个巧妙的技巧，可以添加到你的熊猫技能中，从数据中获取新的见解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 softie__arts

您知道在 Pandas 中可以基于多个列进行前 N 名分析吗？

前 N 名分析有助于选择符合特定条件的数据子集。例如，如果你拥有一家餐馆，想看看哪些顾客对你的总销售额贡献最大，那该怎么办？最简单的方法是查看所有客户的总销售额，然后从高到低对列表进行排序。

另一个值得关注的子集可能是利润贡献最低(或为负)的客户。然后，您可以用类似的方式完成这项工作，根据利润贡献获得所有客户的列表，然后只选取最低的成员。

但是，如果您想找出是否有客户同时出现在两个列表中，该怎么办呢？

这可以帮助你确定哪些领域你实际上在赔钱，即使看起来总销售额非常高。例如，如果你有一道菜的利润率非常低，那么单单重复点这道菜可能对你的底线没有好处。

让我们来看看你如何结合内置的熊猫函数来做这种分析！

这篇文章中使用的数据来自雅虎财经。我们将使用特斯拉股票价格数据的子集。如果您想继续，请运行下面的代码。(如果你对我用来获取数据的函数感到好奇，请滚动到最底部，点击第一个链接。)

import pandas as pddf = pd.read_html("[https://finance.yahoo.com/quote/TSLA/history?period1=1546300800&period2=1550275200&interval=1d&filter=history&frequency=1d](https://finance.yahoo.com/quote/TSLA/history?period1=1546300800&period2=1550275200&interval=1d&filter=history&frequency=1d)")[0]
df = df.head(30)
df = df.astype({"Open":'float',
                "High":'float',
                "Low":'float',
                "Close*":'float',
                "Adj Close**":'float',
                "Volume":'float'})

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自雅虎财经的特斯拉股价样本

组合顶部 N 和底部 N 与熊猫

为了演示如何将前 N 名和后 N 名分析结合起来，我们将回答以下问题:

《T4 》:在数据集中，哪几天的股价涨幅最高，同时开盘价最低？

首先，我们需要计算股票价格在一天之内变化了多少。这可以通过简单的计算来实现:

df['Gain'] = df['Close*'] - df['Open']

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有新“增益”栏的数据

我们已经将“Close*”和“Open”列之间的差异存储到一个名为“Gain”的新列中。正如您在上表中看到的，并不是所有的列值都是正的，因为有些日子股票价格下降了。

接下来，我们将创建两个新的数据帧:一个包含前 10 个最高“增益”值，另一个包含前 10 个最低“开放”值。

条件 1:增益的顶部 N

在这里，我们将在熊猫身上使用nlargest方法。该方法接受要保留的元素数量、要对数据帧进行排序的列，以及输出的数据帧中应该出现哪些重复值(如果有)。默认情况下，nlargest将只保留第一个副本，其余的将从返回的数据帧中排除。

这个方法将返回与df.sort_values(columns, ascending=false).head(n)相同的结果。这段代码非常容易理解，也可以工作，但是根据文档显示，nlargest方法更具性能。

获取具有最高“增益”值的 10 行的代码如下:

df_top = df.nlargest(10, 'Gain')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按“增益”排名前 N

返回的数据帧现在只给出原始数据帧中具有最高 10 个“增益”值的值。这个新的数据帧也已经按降序排序。

条件 2:底部开口

接下来，我们将在数据帧上使用nsmallest方法来获取具有最低“打开”值的行。这种方法的工作方式与前一种方法完全一样，只是它将按升序对值进行排序和切片。

实现这一点的代码如下:

df_bottom = df.nsmallest(10, 'Open')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

底部 N 由“打开”

创建顶部和底部 N 个值的“组合集”

我们现在准备组合这两个数据帧来创建一个组合集。我从一个内置的 Tableau 函数中借用了这个术语，但它所指的只是基于两个或更多列匹配多个条件的数据子集。在这种情况下，我们寻找只存在于“增益”前 10 名和“开放”后 10 名的数据。

要获得我们的组合集，有两个主要步骤:

连接顶部 N 个和底部 N 个数据帧
删除除重复行之外的所有行。

实现这一点的代码如下:

df_combined = pd.concat([df_top, df_bottom])
df_combined['Duplicate'] = df_combined.duplicated(subset=['Date'])
df_combined = df_combined.loc[df_combined['Duplicate']==True]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

组合顶部 N 和底部 N v1

首先，我们简单地调用pd.concat并将两个数据帧粘在一起。由于顶部的 N 个和底部的 N 个数据帧来自完全相同的源，我们不需要担心重命名任何列或指定索引。

接下来，为了创建“Duplicate”列，我们使用了duplicated方法。该函数返回一个布尔序列，如果一行是重复的，则将该行标记为“真”，否则标记为“假”。您可以在 DataFrame 上调用这个函数，并通过将列名写成一个参数来指定在哪个列中搜索重复项(在本例中为subset=['Date'])。为了进行演示，我创建了一个新列“Duplicate”来存储新的布尔值。

我不会深入讨论loc[]函数是如何工作的，但是如果你以前没有使用过它，快速浏览一下这个介绍，这样你就能理解如何使用它以各种方式过滤你的数据帧。我们在这里所做的只是取“重复”列中为真的值，因为这些值出现在两个数据帧中。

我们甚至不需要创建一个新的列来标记重复的值。上面代码的一个稍微精简(和等效)的版本如下所示:

combined = pd.concat([df_top, df_bottom])
combined = combined.loc[combined.duplicated()==True]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

组合顶部 N 和底部 N v2

瞧啊。现在，我们可以看到在整个数据集中“开放”程度最低的一天中有高“收益”的行。

仅此而已！

我希望这种快速查看前 N 名(和后 N 名)的分析对您有所帮助。组合多个条件可以让您以新的方式过滤和处理数据，这有助于您从数据集中提取有价值的信息。

祝你的熊猫工作好运！

**More Pandas stuff by me:** - [2 Easy Ways to Get Tables From a Website with Pandas](/2-easy-ways-to-get-tables-from-a-website-with-pandas-b92fc835e741?source=friends_link&sk=9981ddaf0785a79be893b5a1dd3e03dd)
- [How to Quickly Create and Unpack Lists with Pandas](/how-to-quickly-create-and-unpack-lists-with-pandas-d0e78e487c75?source=friends_link&sk=32ea67b35fe90382dc719c1c78c5900c)
- [Top 4 Repositories on GitHub to Learn Pandas](/top-4-repositories-on-github-to-learn-pandas-1008cb769f77?source=friends_link&sk=d3acc38062490a86ecb46875342224e6)
- [A Quick Way to Reformat Columns in a Pandas DataFrame](/a-quick-way-to-reformat-columns-in-a-pandas-dataframe-80d0b70de026?source=friends_link&sk=e54f86ec079fb17d5824bac6d1e93919)

置信上限(UCB) Bandit 算法

原文：https://towardsdatascience.com/the-upper-confidence-bound-ucb-bandit-algorithm-c05c2bf4c13f?source=collection_archive---------3-----------------------

入门，一个婴儿机器人的强化学习指南

多武装匪徒:第 4 部分

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由阿图尔·马托斯扬在 Unsplash 拍摄

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

概观

这是我们关于多股武装匪徒系列的第四部分，我们将看看可以用来解决匪徒问题的置信上限(UCB)算法。

如果您还不熟悉 bandit 问题及其术语，您可能想先看看本系列的前几部分，如下所示:

第 1 部分:数学框架和术语——入门所需的全部基础信息
第二部分:Bandit 框架
- 代码和测试框架的描述
第三部分:土匪算法
-贪婪算法 -乐观-贪婪算法 -ε-贪婪算法(ε-贪婪) -

bandit 算法和测试框架的所有代码都可以在 github 上找到: Multi_Armed_Bandits

概述

机器人宝宝在商场走失。利用强化学习，我们想帮助他找到回到妈妈身边的路。然而，在他开始寻找她之前，他需要从一组电源插座充电，每个插座的电量略有不同。

使用多臂强盗问题中的策略，我们需要在最短的时间内找到最好的插座，让机器人宝宝充电上路。

机器人宝宝进入了一个充电室，里面有 5 个不同的电源插座。每个插座返回的电荷数量略有不同。我们希望在最短的时间内给机器人宝宝充电，所以我们需要找到最好的插座，然后使用它，直到充电完成。

这和多臂强盗问题是一样的，除了我们不是在找一个能给出最好回报的吃角子老虎机，而是在找一个能给出最多电量的电源插座。

介绍

在电源插座问题中，我们试图在最短的时间内获得最多的电量，我们已经看到，在探索、寻找最佳插座所花费的时间和利用目前回报最佳的插座所花费的时间之间存在权衡。如果我们花太长时间探索，那么我们可能会错过使用已经显示出高回报的插座。或者，如果我们只是利用性能良好的套接字，那么我们可能找不到最佳套接字，并可能错过获得最大可能回报的机会。

显然，最好的方法是每次都选择最好的插座，这就是所谓的最优策略*。同样显而易见的是，这种方法实际上并不实用，因为您最初并不知道哪个插座是最好的。如果你要找到最好的一个，就必须花一些时间去研究套接字的性能，因此不可能总是选择最好的动作。*

最优策略虽然只是理论上的，但可以用来评估其他策略，看它们有多接近最优。最优策略所能获得的回报与测试中的策略实际获得的回报之间的差额被称为后悔。在这种情况下，回报是来自插座的电量，策略是用于选择要尝试的插座的方法或策略。

正如我们已经看到的，ε-贪婪有线性后悔。它会继续探索所有动作的集合，即使它已经获得了足够的知识来知道这些动作中哪些是不好的动作。

从最大化总回报的角度来看，更好的方法是将一段时间内的抽样限制在表现最佳的行动上。这正是置信上限(UCB)策略所采用的方法。

置信上限(UCB)算法

UCB 算法不是通过简单地选择任意动作来执行探索，而是随着它收集更多的环境知识来改变它的探索-利用平衡。它从主要集中于探索，当尝试最少的行动是首选时，转向集中于开发，选择估计回报最高的行动。

*对于 UCB， *Aₜ’，在时间步长 t 选择的动作由下式给出:

哪里；

Qₜ(a)是在时间步“t”的动作“a”的估计值。
Nₜ(a)是在时间‘t’之前已经选择动作‘a’的次数。
‘c’是控制探索水平的置信度值。

UCB 公式可以认为是由两个不同的部分组成的:

剥削:

Qₜ(a) 代表等式中的剥削部分。UCB 基于“ 对不确定的事实保持乐观 ”的原则，这基本上意味着如果你不知道哪个行动是最好的，那么选择一个目前看起来是最好的。单独考虑这一半的等式将会做到这一点:目前具有最高估计回报的行动将是所选择的行动。

探索:

等式的后半部分增加了探索，探索的程度由超参数’ c '控制。实际上，等式的这一部分为行动的回报估计提供了不确定性的度量。
如果一个动作没有经常尝试，或者根本没有尝试过，那么 Nₜ(a) 就会变小。因此，不确定项将会很大，使得这个动作更有可能被选择。每当采取一项行动时，我们对它的估计就变得更有信心。在这种情况下， Nₜ(a) 增加，因此不确定项减少，使得该动作不太可能被选择作为探索的结果(尽管由于开发项，它仍可能被选择为具有最高值的动作)。
当没有选择动作时，由于分子中的对数函数，不确定性项将缓慢增长。然而，每次选择该动作时，由于【nₜ(a】呈线性增加，不确定性将迅速缩小。因此，对于不经常选择的行动，探索期会更长，因为对其回报的估计存在不确定性。
随着时间的推移，探索项逐渐减少(因为 as ’ n '趋于无穷大 log n/n 趋于零)，直到最终仅基于开发项选择动作。

UCB 实施

为了研究 UCB 算法的性能，我们将在测试系统中添加另一个套接字类。这个测试系统的全部细节在本系列的第 2 部分中有描述，所有的代码都可以在 t 2 的 github 库中找到。

UCB 插座需要稍微修改基本的电源插座类，以增加它用来评估插座的度量的不确定性。因此’ sample '函数现在返回估计的平均回报和不确定性值之和，这是作为套接字被尝试的次数和当前时间步长的函数来计算的。

套接字测试器类恢复为标准套接字测试器，仅基于从其样本函数返回最大值的套接字来选择套接字(即，不再需要ε-贪婪算法的随机采样)。

UCB 分析

使用我们的测试系统，我们可以分析 UCB 算法的性能。为了简化比较，我们只从我们的标准套件中选取了前 2 个插座。这两个插座的平均奖励值分别为 6 秒和 4 秒。在下图中可以清楚地看到每个勘探和开采术语的相对贡献。

这里需要注意的主要事项是:

每个条形的总高度代表总 UCB 值。因此，由于在每个时间步，我们都在选择给出最大 UCB 值的插座(这就是公式中的 argmax 所做的)，具有最高条的插座将是被选择的插座。
每个条形顶部给出的数字是该插座被选择的次数。因此，您可以看到，如果该插座在前一时间步中具有最高的杆，该值将会增加。
条形的阴影部分表示每个插座的实际输出的估计值(其 Q 值)。随着时间的推移，这个估计收敛于每个插座的真实平均输出。因此，socket 1 的 Q 值(黄色阴影条)趋向于其真实输出 6，socket 2 的 Q 值趋向于其真实平均值 4。
每个条形的实线部分代表等式的探索部分。当一个插座被使用时，我们对它的真实输出变得更加确定，因此棒的实心部分将减小尺寸。另一方面，当一个套接字没有被测试时，我们变得不太确定它的输出，因此探索价值将开始增加。
因此，在下图中，我们可以看到当 socket 2 未被选中时，socket 2 的探索期限(由条形的绿色实线部分表示)如何逐渐增加，直到最终导致条形的总大小大于 socket 1 的总大小，此时，socket 2 被选中。

对 UCB 图表的深入分析

从 UCB 图表中进一步观察到的一些情况如下:

*如果尚未尝试套接字，则将套接字不确定性值设置为无穷大，导致执行初始启动回合，其中每个动作尝试一次以获得其初始值。当还没有尝试动作并且 Nₜ(a 等于零时，这就避免了探索项中被零除的错误。显然，这只适用于当可能的动作“k”比时间步长“ t ”少时，否则就没有足够的时间去尝试每一个动作。

*由于启动循环，图表从时间步长 2 开始。每个插座被选择的次数由每个栏顶部的数字显示。因此，在时间步骤 2，可以看到每个插座已经被选择了一次。因为每个插座被尝试了相同的次数，所以不确定项的贡献对于每个插座是相同的。然而，由于其较大的回报估计“Q”，套接字 1 具有最大的总 UCB 值，因此被 argmax 函数选择。

*在时间步长 3，socket 1 是在前一时间步长选择的 socket，因此它被尝试的次数计数增加到 2。结果，这个插座的不确定性项缩小了，所以可以看到蓝色实线的尺寸减小了。阴影黄色条也减少了，这是因为该插座已经被采样，并且形成了对真实插座回报的更好估计。
另一方面，socket 2 没有被选中，所以它的奖励估计值保持不变。它被选择的次数也保持不变，而时间步长的数量增加，因此其不确定项的大小增加，因此可以看到绿色实线变大。
然而，套接字 1 的 UCB 项的总大小仍然大于套接字 2 的大小，因此再次选择了套接字。

*最终，在时间步骤 5，套接字 2 的不确定性项增加到足以使其总 UCB 值大于套接字 1 的值，因此套接字被选中。一旦发生这种情况，它的估计回报值更接近真实的平均回报，它的不确定性项缩小，整个过程重新开始。

置信度值“c”

UCB 算法在一定置信值范围内的行为如下所示。置信度参数控制探索的级别。在我们简单的电源插座实验中，实际上可以看到，探索程度越高，平均总回报越低。这是因为每个套接字具有不同的值和有限范围的可能值，使得其他套接字不太可能生成相同范围内的值。

结果，在我们的简单实验中，看起来探索实际上是不必要的。在初始启动步骤之后，UCB 算法已经锁定了最佳插座，并且当它能够利用这一知识时产生最佳结果。增加置信度参数的值会急剧降低平均总回报，并且这种降低会持续下去，直到算法变得不比随机搜索更好。

随着置信水平的增加，对平均总报酬的变化的更仔细的检查如下所示。这里可以看出，平均总报酬确实略有增加，从置信参数为零到大约 0.6 的值，之后迅速下降。所以需要少量的探索来获得最好的结果。

在置信度参数设置为 0.6(给出最大平均总回报的值，如上所示)的情况下，分析每个插座被选择的频率，给出如下图。这里可以看出，在初始启动期间，如果还没有尝试，当插座的不确定性被设置为无穷大时，在前 5 个时间步长期间，每个插座恰好被选择一次。在这一点之后，最佳插座(插座 4)已经被识别为最佳插座，因此被选择用于几乎所有剩余的试验。

UCB 后悔了

由于最佳行动被迅速确定，并且仅在其他行动具有高度不确定性时才尝试，UCB 方法显示出比ε-贪婪方法低得多的后悔水平。

从下面的图表中可以看出，最佳回报和实际回报几乎是一样的(以至于实际回报被最佳回报所掩盖)，而遗憾几乎是持平的。

绝大多数的遗憾发生在最初的启动过程中，每个套接字都被尝试一次以得到它的第一个估计值。事实上，已经表明 UCB 的预期累积遗憾在总时间步数中是对数的。

要深入了解 UCB 的遗憾和 UCB 的总体情况，请查阅以下资源:

Tor Lattimore 和 Csaba Szepesvari 的关于强盗算法的 书籍和网站
赖和 Robbins 关于算法的开创性论文: 渐近有效的自适应分配规则 。

摘要

在诸如插座选择或多臂强盗的问题中，当面临如何在寻找给出最佳回报的动作和利用已经发现的动作之间取得平衡的困境时，使用可以修改探索和利用水平的方法是重要的。

正如我们看到的ε-贪婪算法，它只是保持一个恒定的探索水平，随着时间的推移继续探索所有动作的集合。因此，它有线性遗憾。它所获得的回报与最大可能回报之间的差异会随着时间的推移而不断增加。

另一方面，置信上限(UCB)算法修改了它的探索和开发级别。最初，当它对可用的动作知之甚少，并且对要采取的最佳动作的信心较低时，它的等式的探索部分使它搜索所有可能动作的集合。

随着探索的进展，对每个行动所给予的回报会有更好的估计。因此，探索的程度可以降低，已经发现的好的行动的使用可以增加。算法的焦点逐渐从探索转向有利于开发。随着时间的推移，通过改变这种平衡，UCB 算法减少了它的遗憾，因此，能够实现比ε-贪婪算法低得多的遗憾水平。

在下一部分中，我们将研究汤普森取样，这是一种平衡勘探和开发的更复杂的方法。使用这个，我们将得到婴儿机器人充电，并准备在几乎没有时间！

***< Part 3:** [**Bandit Algorithms**](/bandit-algorithms-34fd7890cb18) **Part 5:** [**Thompson Sampling**](/thompson-sampling-fc28817eacb8) **>***

用数据科学预测数据科学工资

原文：https://towardsdatascience.com/the-us-data-science-job-market-in-2020-463520a9d5a?source=collection_archive---------44-----------------------

用 Python 中的探索性分析和机器学习算法剖析 2020 年美国数据科学就业市场和薪酬

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 Unsplash 上由 Carlos Muza 拍摄的照片

这篇文章总结了我的 Kaggle 笔记本中的关键见解，用 Python 中的探索性分析和机器学习算法(主要是反向逐步回归)分析美国数据科学就业市场和薪酬。

市场需要更多分析师，但对数据科学家更慷慨

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这项研究的 12，360 个数据科学职位招聘中(数据来源: picklesueat 和 Glassdoor)，数据分析师的招聘比例最高，为 27%。数据工程师是第二大群体，占所有职位的 23%。只有 17%是业务分析师，10%是数据科学家。其他分析师(系统分析师、质量分析师、报告分析师等)。)占 22.7%。所有分析师类型的聘用合计占总聘用数的 67%。

然而，从下面的图表中，我们看到数据科学家的总体薪酬分布比数据工程师和分析师更偏右，显示数据科学家的薪酬明显更高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总的来说，所有数据科学工作的平均年薪是 89，000 美元，但方差相当高。以中位数(80，000 美元)为中心的中间 50%可以从 60，000 美元到 110，000 美元不等。

工作地点比什么都重要

虽然许多工作都是暂时的偏远地区，但大多数公司仍然计划在经济重新开放后回到他们的物理办公室，并在招聘时指定工作地点。然而，由于许多公司根据候选人当前的居住地点支付不同的工资，因此在疫情期间与每个候选人的最终交易在该数据集中是未知的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(右侧的点阵图:95%置信区间的点估计值)

毫不奇怪，加州的工作收入更高(110，000 美元以上)，但加州和佛罗里达等地之间高达 50，000 美元的年薪差距仍然令人震惊。此外，不考虑生活成本，鉴于如此高的需求，德克萨斯州的数据科学专业人员肯定被低估了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(右侧的点阵图:95%置信区间的点估计值)

有些人会将薪资差异归因于当地的生活成本。如果是这样的话，纽约和旧金山应该是数据科学专业人员薪资最高的地方。然而，硅谷中生活成本中等偏高的城市，如圣克拉拉、桑尼维尔和圣何塞，实际上表现要好得多。因此，硅谷繁荣的其他一些因素可能才是那些高薪的真正原因。

这是工作地点对薪水有很大影响的另一个观点。之前我们看到了数据科学家的工资(平均。12.3 万美元)明显高于数据工程师和分析师，但请注意下面分布左侧的第二个峰值(起薪低于 9 万美元)？他们看起来就像是一群分析师的薪水被放错了“数据科学家”的头衔。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实证明，由于职位描述被证实是相似的，加州作为高薪群体(≥9 万美元)工作地点的出现率要高得多。另一方面，薪酬过低的群体(

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Also, from 回归分析，最终模型中近一半的变量与工作地点有关，这超过了资历、行业和部门等其他因素。

在与大公司的竞争中，中小企业通常提供更好的服务

大公司并不总是追求高薪的首选。虽然一般来说，大公司(拥有 10，000 多名员工，收入超过 50 亿美元)往往支付更高的薪酬，但财务上不公开的中小企业(SMB)也会提供有竞争力的薪酬。

在下面的热图中，左侧显示了雇用数据科学专业人员的公司数量及其规模，而右侧显示了他们提供的平均工资。一些工资极高但样本量低的公司被认为是极端值(例如，只有三家公司拥有 10，000 多名员工，收入 10-20 亿美元。他们出价 15.2 万美元将被视为罕见情况)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从下一个数据科学家的工资热图和即将到来的业务分析师、数据分析师和数据工程师的工资热图中，我们将逐渐意识到**大公司只向数据科学家支付高得多的工资，**这些数据科学家也需要更高的资格，但对于其他类型的职位，高薪集群都是中小型企业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“机器学习”大热，数据科学家是瑞士刀

职位上的一些关键词也会对薪水产生影响。最明显的就是“机器学习”(有时是“ML”)。数据显示，写在职位名称上的“机器学习”将使这份工作的薪水增加 10%以上。然而，经常配对的短语“人工智能”并没有可比的效果，“机器学习”很少出现在分析师的头衔上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样，“机器学习”在数据科学家和数据工程师的工作描述中比在分析师的工作描述中出现得更频繁。另一方面，数据科学家需要或更倾向于拥有更广泛的资格，包括博士学位，而其他职位则更关注较少的技能，只需要/更倾向于硕士或更低的学位。

对于数据工程师来说，除了 Python、SQL 等常用技能之外，Hadoop、Spark、AWS、ETL 等数据基础设施词汇出现的频率要比其他岗位高得多。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据分析师和业务分析师都有类似的资格，如 EXCEL、SQL 和硕士学位。然而，数据分析师倾向于使用更多的 Python，在统计上更加密集，有趣的是，商业分析师雇佣的人更喜欢计算机科学学位，而不是 MBA 学位。

结论

我们已经了解了数据科学工作的特点、组成和薪资分布。我们也澄清了，进入巨头公司并不是高薪保障。虽然工作地点是工资差异的首要因素，但我们仍然可以发现一些关键词，如“机器学习”，以及其他因素也会产生重大影响。正在分析的数据集是在 2020 年 7 月发布的，而不是时间序列数据，因此没有监控随着时间的变化，更不用说疫情对工资的影响了。与此同时，似乎大多数公司仍然在指定的地点招聘，而不是直接宣布是远程的。