TowardsDataScience 博客中文翻译 2020（九百七十二）

最新推荐文章于 2025-04-21 15:52:49 发布

绝不原创的飞龙

最新推荐文章于 2025-04-21 15:52:49 发布

阅读量1.9k

点赞数 15

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142709419

版权

MLM 专栏收录该内容

3743 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

21%的纽约市居民真的感染了新型冠状病毒吗？

原文：https://towardsdatascience.com/were-21-of-new-york-city-residents-really-infected-with-covid-19-aab6ebefda0?source=collection_archive---------4-----------------------

是时候了解一下偏见了！

下面是文章的音频版本，由作者为你朗读。

当我看到昨天《商业内幕》的标题时，我知道这将是一个关于统计偏差的完美案例。科莫说，一项全州范围的抗体研究估计，21%的纽约市居民患有冠状病毒。

我不可能要求一个更好的。

新冠肺炎可不是闹着玩的，作为一名纽约市居民，我痛苦地意识到这一点，她今年的生日是在与几乎要了她的命的肺炎的斗争中度过的。然而，人们找到的曲解数据的创造性方法是像我这样的统计学家的永恒笑点——这些天我会把我的笑声带到我能得到它们的地方。图片:meme 模板来源信息。

有人要被批评了…但是是谁呢？在我掰指关节的时候拿好你的爆米花。准备好了吗？我们开始吧。

什么是偏见？

取决于你从哪里听到这个词。我半开玩笑地列出了各种偏见用法的清单供你娱乐，但在本文中，我们将重点关注偏见的统计种类。

在统计学中，偏见就是系统的不平衡。

如果不平衡的结果具有误导性，那并不一定意味着它们是出于误导的意图而产生的。也许是，也许不是。统计偏差可能来自疏忽、无知、浪费或诡计。

我们来谈谈离题的结论，好吗？图片:来源。

统计学家可能会用**一词偏向一词**来指代:

我们的技术定义——在瞬间揭晓。
随机化中的意外事件。
扭曲的结论。
任何偏差的其他定义。(我们有些人是人。)

我们将从这些(重叠的)角度来看我们的小案例研究。

巨大期望

图片:来源。

在统计学中，偏差是估计量的期望值和它的估计值之间的差异。

这是非常的技术，所以请允许我翻译。偏见是指结果系统地偏离了目标。想想射箭时，你的弓没有被正确瞄准。

偏差指的是系统性偏离目标的结果。

高偏差并不意味着你在到处射击(这是高方差)，但可能会导致一个完美的射手一直击中靶心以下。

标题称，该研究估计 21%的纽约市居民患有冠状病毒。我的猜测是这个数字偏上。

21%?我怀疑真实数字更低。

为什么？我嗅到了随机问题的刺鼻气味，这些数据是如何获得的，这让我想到了统计子定义#2。

选择偏差

触发系统性偏离目标的结果的一种特殊方式是以一种有问题的方式收集你的数据。对于喜欢抱怨的统计学家来说， 选择偏差 是一种值得珍惜的友敌关系。它经常来访！

当你感兴趣的群体中的不同成员到达你的样本的概率不同时，选择偏差就发生了。

换句话说，你从你的样本中得出结论，就好像它是随机抽取的，而实际上是“随机”抽取的。

图片:meme 模板来源信息。

在这种情况下，你的样本并不能代表你的人口中的 T21……这使得你的结论不可信。

如果你的感兴趣人群是所有纽约市居民，那么你就没有随机样本 (SRS)，除非每个单一纽约市居民被包括在内的概率相等。纽约抗体研究所满足这一要求吗？肯定不是。

这项研究没有平等地代表每个人。

在我打开这篇文章之前，我就在想，“是的，没错。他们做了什么聪明的事情来收集呆在室内的人的数据？”事实证明，没有聪明的事。这项研究测量完全自我隔离的人的概率有多大？零。有多少纽约居民完全不与人交往？我们不知道。

覆盖不足偏差:当你的方法不能覆盖整个事情时，一些未覆盖的部分被遗漏了。图片:来源。

这种类型的选择偏差被称为 欠覆盖偏差 。如果某些部分没有机会被抽样，你的样本就不能覆盖你的总体。一个务实的快速解决覆盖不足偏差的方法是接受一个不太雄心勃勃的人口定义。不要试图对“所有纽约市居民”做出推论，你可以选择谈论“所有纽约市居民到以外的地方”——问题解决了！

不完全是。情况变得更糟。

如果我们有更有趣的 采样偏差 呢？如果非零概率也被系统地打乱了呢？如果有什么特殊的东西使得一些外出者比其他人更容易被检测到呢？

纽约人在疫情杂货店购物。经许可使用的图像。

让我们看看数据是如何收集的。这项研究测试了“在杂货店和大卖场”的人们如果你想增加曝光率，你会去哪里？去人口密度更高的地方，比如杂货店和大型超市。这项研究是在哪里进行的？没错。

携带病毒承担更大风险的人有更高的概率参与抗体研究。

如果你真的，真的，真的想得到病毒呢？你可能会经常去杂货店和大卖场，比那些试图降低感染几率的人去得更频繁。在这两种人当中，哪一种人更可能有新冠肺炎抗体？你认为哪个更有可能在正确的时间出现在正确的地点参与研究？你好，选择偏差！

因为认为这是个好主意的人和其他人没有区别。图片:来源。

事实上，这项研究的设计是各种选择偏差的宾果表——抽样偏差、覆盖不足偏差、自我选择偏差、便利性偏差、志愿者偏差等等。如果你想让我写一篇后续文章，带你浏览一下这些(以及如何战胜它们的技巧)，转发是我最喜欢的动机。

有偏见的弓箭手很容易——如果你一直击中中心以上的目标，至少你可以看到它并做出调整。有选择偏见的研究人员就没那么幸运了。选择偏差意味着你所有的结果都是错的，而你不知道错了多少*。*

选择偏差意味着你所有的结果都是错的，而且你不知道错得有多离谱。

你害怕吗？应该会吓到你吧！我能做的就是猜测结果被抽样程序偏上，但是没有办法知道真正的数字是多少。但是等等，还有呢！更糟的是。

有偏见的结论

如果不平等的代表性不是唯一扰乱我们做出明智结论的能力的事情呢？还有很多其他偏见可能会损害你的统计结论。

如果抗体测试本身有研究人员没有意识到的问题呢？

例如， 信息偏差 发生在测量系统不正确的时候。如果抗体测试本身有研究人员没有意识到的问题呢？如果他们只检测高于严格阈值的抗体以避免假警报呢？那么这些测试将会遗漏病毒病例，所以他们将会降低估计值。

图片:来源。

如果信息偏差和选择偏差无形中拉向相反的方向，那么估计值是过高还是过低？不可能知道。我们能确定的是什么？杂货店和大盒子店里的一些人从一种叫做抗体测试的东西中得到了令人兴奋的读数。我们对纽约居民的实际暴露率了解多少？耸肩

报告偏差和确认偏差

在人类可能使用“偏见”一词的许多其他方式中，有几个跨学科的方式，统计学家发现它们与我们最喜欢的对话方式特别相关:指出某人在某件事上是错的。这里我只提确认偏差和报告偏差。

公平地说，商业内幕，我认为他们做了很好的报道。他们甚至称结果为“初步的”，并提到了一些我谈到过的相同的抽样问题。太棒了。这些都是由纽约州长和进行这项研究的团队最初发出的谨慎的声音。我和他们也没有过节。相反，我的抱怨是互联网上的其他人正在玩的破碎的电话游戏。

这只树懒没看文章。就像有些只看标题就会评论的乡亲一样。我们看到你了。图片:来源。

有些人不会花时间去读全篇。好吧，我知道了，你很忙。唉，有些人没有用适当的“没读过的笑话”来谦逊，而是把这个标题当成了全部。当他们与他人分享他们“学到”的东西时，他们将创造一个报告偏见的教科书范例。

当人们得出一个结论，而不是给出他们的消息来源所拥有的所有信息时，就会出现报道偏差。

每当人们只传递最极端或“有趣”的信息，而留下削弱他们结论的无聊信息时，就会出现报道偏差。你会发现，只要人们有动力去:

对复杂的事情进行简明扼要的总结(例如，将所有内容压缩到一条 280 个字符的推文中)。
防止读者的眼睛变得呆滞(例如记者对科学出版物发表评论)。
通过诡计说服某人(例如，方便地“忘记”提及对你希望提出的论点产生怀疑的研究)。
对他们的意见感觉更好(例如，当他们遭受确认偏差时)。

不管报道偏见背后的意图是什么，它的存在会削弱你的结论的有效性。

是不是每个有罪的人都知道自己在做这件事？如果他们成为确认偏见的牺牲品就不会。

确认偏差 会干扰你感知/注意/记住与你的观点不一致的证据的能力。

提出这种认知偏见让我们从统计学领域进入心理学丛林，所以我会很简短。

* [## 克服新冠肺炎期间的确认偏差

在疫情期间，你的大脑是如何干扰你的，你能做些什么

towardsdatascience.com](/overcoming-confirmation-bias-during-covid-19-51a64205eceb)

确认偏差是一个感知、注意力和记忆的问题。用最简单的话来说，一个证据对你来说是否“坚持”,是受你事先的看法影响的。如果你不小心，你会注意到并记住那些证实你已经相信的信息。如果你不能看到一个故事的所有方面，你可能甚至不知道你只报道了你最喜欢的，用谎言感染信任你的人。

研究没有价值吗？

我猜想有很多人会因为这项纽约抗体研究而得出无根据的结论。像往常一样，最不了解数据的读者将从中“学到”最多的东西。

这是否意味着这项研究毫无价值？不，但这取决于你对它的假设。由于我们从数据中很难确定知道什么，所以做出超越事实的推论的唯一方法就是用假设来弥补差距。这就是所有的统计数据。假设，不是魔法。

这项研究的好坏取决于你对它的假设。

不幸的是，我们并不都同样有资格做出好的假设，从而得出有用的结论。例如，虽然我是一名拥有丰富现实世界数据收集经验的统计学家，但我不是抗体测试方面的专家，所以你不应该相信我会对它们的准确性做出明智的假设。太棒了。我也不相信我，所以我最终会对 NYC 的病毒暴露率一无所知。这项研究在我的手里毫无价值。

我们并非都同样有资格做出好的假设，从而得出有用的结论。

我可以怀疑任何我喜欢的导致高估的选择偏差，但我所知道的是结果可能是错误的，我们不知道错误有多严重。如果你告诉你的朋友，我说这个数字低于 21%，你就向我们展示了报告偏差的一个主要演示。

但是，当一生都在研究病毒的专家与精通纽约人行为的医学专业人士和心理学家合作……并与那些了解所有实际细节的人合作，了解在开发和部署那些抗体测试到杂货店期间实际上发生了什么,那么，也许那些人正坐在漂亮的位置上做出假设，解开收集的美味数据的营养价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片:来源。

在他们能干的手中，这项研究可能确实非常有价值。

在有能力的人看来，这项研究可能确实非常有价值。

也许我们其余的人应该保持安静，让成年人继续他们的工作。

感谢阅读！喜欢作者？

如果你渴望阅读更多我的作品，这篇文章中的大部分链接会带你去我的其他思考。不能选择？试试这个:

[## 一位决策科学家给新冠肺炎的十大禁忌

在疫情期间，照顾好你的大脑，聪明对待数据，做出更明智的决定

towardsdatascience.com](/a-decision-scientists-10-dos-don-ts-for-covid-19-805577bccd67)

与凯西·科兹尔科夫联系

让我们做朋友吧！你可以在 Twitter 、 YouTube 和 LinkedIn 上找到我。有兴趣让我在你的活动上发言吗？用这个表格联系。

人工智能课程怎么样？

如果你正在寻找一门为初学者和专家设计的有趣的应用人工智能课程，这里有一个我为你制作的娱乐课程:

在这里欣赏整个课程播放列表:bit.ly/machinefriend*

我们正处于一场技术革命中…那么，我们需要更多的科技 MBA 吗？

原文：https://towardsdatascience.com/were-in-a-tech-revolution-so-do-we-need-more-tech-mbas-52ba20dbafaa?source=collection_archive---------54-----------------------

越来越多的商学院正在重新定位它们的 MBA 课程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:图片由 Free-Photos 来自 Pixabay

传统的 MBA 是 19 世纪末和 20 世纪美国工业化的产物。在工业化时期，美国需要提高劳动生产率，其企业开始全球化。1911 年，F.W .泰勒写了一本名为《科学管理原理》的书，主张用科学的方法来帮助管理者提高员工的生产力。在接下来的一个世纪里，它对管理教育产生了巨大的影响。我们今天看到的事实是，人力资源管理、领导力、运营规划和会计仍然是 MBA 的核心课程。

然后，在第二次世界大战后，美国的跨国公司征服了世界，其他地方的跨国公司也试图效仿。正如经济学家所描述的那样:“麦当劳和肯德基体现了一种理念，这种理念将变得非常强大:由全球经理人经营、由全球股东所有的全球企业，应该向全球客户销售全球产品。很长一段时间，他们的跨星球模型就像他们的薯条一样又热又脆又多味。像 IBM、麦当劳、福特、H & M、Infosys、联想和本田这样的公司已经成为经理人的基准……”有了这个“基准”，公司需要能够管理大公司、跨越全球、了解国际业务、此外还能征服新市场、战胜竞争、筹集所需资金以扩大全球业务的经理人。我们看到，如今这种需求反映在 MBA 课程对战略和品牌、营销、国际贸易、物流和供应链管理以及金融的强烈关注上。

这似乎在一段时间内很好，但现在，世界又在发生变化。劳动生产率(泰勒关注的问题)和企业全球化(“麦当劳”模式)都越来越感到举步维艰。世界上最大的经济体之间的贸易战正在成为现实，越来越多的公司正在重新支撑或加倍关注本地和区域市场——由于疫情的冠状病毒，这种趋势可能会加速。简而言之，在过去的二十年里，西方国家的劳动生产率(T3)增长持续下降，企业家精神(T4)衰退(T5)，创新(T7)变得不那么有效，不平等(T8)和 CEO 薪酬(T10)飙升，全球化(T12)正在倒退。

所有这些都是在 MBA 项目注册人数大幅增长的情况下发生的——或许是因为这一原因——例如，在 1970 年至 2012 年间，MBA 项目注册人数增长了 623 %,而同期其他硕士学位的增幅仅为 103%。鉴于所有 MBA 工厂的潜在供应过剩，人们可能已经预料到 CEO 的相对薪酬会下降，除此之外，为什么这种情况对生产力、创新和企业家精神等基本管理问题的影响如此令人失望？

最近一段时间，便士已经掉了。有些人，比如马丁·帕克(Martin Parker)认为所有的商学院都应该关闭，称“商学院有着巨大的影响力，但它们也被广泛认为是智力欺诈的场所，助长了一种短期主义和贪婪的文化……解决这些问题的最佳方案是彻底关闭商学院”

难怪商学院开始反思 MBA 的性质和内容。近年来，不断下降的 MBA 入学人数，以及 MBA 逐渐失去光彩的迹象，使得对 MBA 的反思变得更加紧迫。这种观点认为，如果我们重新设计 MBA 课程，那么商学院本身可能会得救，因为它们培养的不是导致上述困境的毕业生，而是为一个容易发生危机的世界提供全面的领导力，在这个世界里，政治家们似乎已经迷失了方向。具有讽刺意味的是，商学院正变得越来越雄心勃勃，甚至对自己在社会中的地位越来越浮夸，尽管有人呼吁关闭商学院。

在这种反思中，一个已经广泛传播的观点是社会“影响”或目的。商学院毕业生炫耀自己是为了积累财富和实现利润最大化的日子已经一去不复返了。今天走进任何一所所谓的三冠王认证商学院，你都会受到一大群社会企业家、慈善家、企业社会责任爱好者、社会正义斗士、气候活动家和商业伦理教授的欢迎。MBA 毕业生如何帮助世界实现可持续发展目标(SDG)的课程正成为必备课程。“负责任的商业教育”这里“”是关键词，是新常态。

另一个同时获得更多关注的想法是，MBA 需要重新设计，以使毕业生能够在一个正在经历技术革命的世界中产生影响。它是由 ICT 的创新驱动的，这些创新见证了计算成本的骤降，联网设备数量的飙升，并使数字平台公司成为全球超级明星。世界上最有价值的公司是数字平台公司。他们在人工智能(AI)的发展方面处于领先地位。事实上，人工智能正在被大肆宣传，被吹捧为一种类似于电力的通用新技术，数据比石油更有价值，数据科学家是 21 世纪最性感的工作。在 20 世纪上半叶，MBA 毕业生必须管理他们公司的生产力转型，而在下半叶，他们公司的全球转型，现在在 21 世纪，他们必须管理他们公司的数字化转型，并为人工智能的力量喝彩。

鉴于上述情况，越来越多的商学院正在重新定位它们的 MBA 课程，推出所谓的“科技 MBA”。当然，科技行业已经成为 MBA 毕业生最大的雇主之一，这是有帮助的。例子包括康乃尔商学院 2017 年推出的科技 MBA，以及最近 IE 商学院推出的他们称之为“欧洲首个科技 MBA ”我们可以预期会有更多的商学院效仿。他们嗅到了一个市场，可以高价出售更多的 MBA 名额:康奈尔理工学院的 MBA 价格高达 10.7 万美元。许多其他人，即使他们不称自己的是科技 MBA，也一直在更多地关注“科技”主题，如大数据分析、人工智能和数字经济。最受欢迎的，也是最有争议的，是数字营销，这是不断增长的注意力产业的核心，也是对数据隐私、算法偏差和投票者操纵的担忧。

这些争议和担忧，以及对滥用技术的更广泛的担忧，标志着商学院转向社会目的和高科技的冲突。许多新技术提出了道德、伦理和治理方面的挑战和问题，而商学院通常没有很好地解决这些问题，这与负责任的商业教育理念相冲突。许多科技公司将最急切地吸纳这些科技 MBA 项目的毕业生，但它们并没有雇佣自己的技术人员来解决重大的全球挑战，甚至可能加剧不平等。商学院往往会忽略的问题包括:高科技作为一种宗教的兴起(超人类主义)、高科技行业的例外主义、持续存在的性别差距、自主致命武器、高科技与军事、监视国家、关于人工智能的过度炒作、跨国公司的避税

然而，更明显的是，如果商学院确实希望对可持续和共享发展以及全球领导力产生影响，那么提供价格昂贵的“科技”MBA 项目似乎有些奇怪。这也很讽刺，因为技术革命让东西变得更便宜、更容易获得。因此，商学院难道不能通过利用同样的技术创新性地降低成本、增加受教育机会、提供差异化学习来实践他们对高科技的热情吗？与计算和信息成本的大幅下降形成对比的是，商学院教育的成本，就像更广泛的高等教育一样，一直在上升:例如，美国高等教育的学费在 1978 年至 2015 年间上涨了1225%——比商品和服务的平均价格上涨了 5 倍。

那么，我们需要更多的科技 MBA 吗？是也不是。是的，如果这些项目能明显偏离 20 世纪的 MBA 教学方法。是的，如果他们能以内部一致的方式调和高科技和社会目的。是的，如果他们不仅仅是为了高科技商业利益而出卖自己的话。否则，它们最终可能会让商学院看起来不真诚、精神分裂，加剧工资溢价，并转移人们对不那么可扩展、不那么性感、但却至关重要的其他(非数字)技术的关注。要脱离 20 世纪的 MBA 教育方式，商学院的商业模式需要改变。然而，对于大多数商学院来说，由于它们的短期主义传统和从众行为，在 MBA 课程中加入一些科技课程，并将其标榜为一种专属“体验”，似乎要容易得多。只要有足够多的富有或负债累累的学生愿意支付这个价格，我们就会看到我们并不真正需要的科技 MBA 的激增。

我们发布了一个新冠肺炎知识图表

原文：https://towardsdatascience.com/weve-released-a-covid-19-knowledge-graph-96a15d112fac?source=collection_archive---------44-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

介绍 BioGrakn Covid

我们很高兴发布一个开源知识图表来加速对新冠肺炎的研究。我们的目标是为研究人员提供一种方法，方便他们分析和查询与病毒相关的大量数据和论文。

BioGrakn Covid 使快速追踪信息源和识别文章及其信息变得容易。第一次发布包括从新冠肺炎论文、和其他数据集提取的实体，这些数据集包括蛋白质、基因、疾病-基因关联、冠状病毒蛋白质、蛋白质表达、生物途径和药物。

例如，通过查询病毒新型冠状病毒，我们可以找到相关的人类蛋白质，蛋白酶体α亚单位 2 型 (PSMA2)，蛋白酶体的一个组成部分，涉及新型冠状病毒复制，和其编码基因( *PSMA2)。*此外，我们可以确定药物 *carfilzomib，*一种已知的蛋白酶体抑制剂，因此可以作为新冠肺炎患者的潜在治疗方法进行研究。为了支持这种关联及其含义的合理性，我们可以很容易地在新冠肺炎的文献中找到提到这种蛋白的论文。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过检查这些特定的关系及其属性，我们被引导到数据源，包括出版物。这将有助于研究人员有效地研究冠状病毒感染和免疫反应的机制，并有助于更有效地找到治疗或疫苗开发的目标。

我们的团队目前由葛兰素史克、牛津制药(T21)和 Vaticle 组成

如何设置

在第一版中，我们将 CORD-19 论文与公开的带注释的分子数据集整合在一起。BioGrakn Covid 可通过 GCP 免费访问。您可以使用 Workbase 查询它:

下载并运行 Workbase ( 下载)
确保 Grakn 没有在你的本地机器上运行
在 Workbase 主屏幕上，使用端口 48555 将主机更改为本页显示的 IP 地址(链接)
点击*连接，*选择密钥空间 biograkn_covid 开始探索数据！

您还可以使用其中一个 Grakn 客户端(链接)进行编程连接。使用上面指定的 IP 地址、端口和密钥空间。

Github 上提供了迁移脚本和模式:https://github.com/graknlabs/biograkn-covid

要查看模式文件，您可以在这里找到这个。

数据集和见解

目前，我们集成的数据集包括:

CORD-19 :我们纳入了原始语料库，其中包括来自 bioRxiv、medRxiv 和其他机构的同行评审出版物。
CORD-NER :白宫发布的 CORD-19 数据集已经被标注并公开发布。它使用各种 NER 方法在远程或弱监管下识别 CORD-19 上的命名实体。
Uniprot :我们已经下载了审查过的人类子集，并摄取了基因、转录物和蛋白质标识符。
冠状病毒:这是一个由牛津制药基于文献综述整理的冠状病毒及其潜在药物靶点的注释数据集。
DGIdb :我们采用了相互作用 TSV ，其中包括所有药物-基因相互作用。
人类蛋白质图谱:正常组织数据包括人类组织中蛋白质的表达谱。
反应组:这个数据集连接通路和它们参与的蛋白质。
DisGeNet :我们已经收集了精选的基因疾病关联数据集，其中包含来自 Uniprot、CGI、ClinGen、Genomics England 和 CTD、PsyGeNET 和 Orphanet 的关联。

我们计划添加更多的数据集！

我们可以运行的一些查询包括:

退回与基因相关的药物，与 SARS 相关基因在同一篇论文中被提及。

match 
$v isa virus, has virus-name “SARS”; 
$g isa gene; 
$1 ($g, $v) isa gene-virus-association; 
$2 ($g, $pu) isa mention; 
$3 ($pu, $g2) isa mention; 
$g2 isa gene; 
$g2 != $g; 
$4 ($g2, $dr); $dr isa drug; 
get; offset 0; limit 10;

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

BioGrakn Covid 包含一些规则，允许我们推断数据之间的关系。这在并非所有数据都完整的情况下特别有用。例如，BioGrakn Covid 的源数据不包括药物和蛋白质之间的直接联系。然而，我们可以从基因和药物、蛋白质和基因之间的联系中推断出这一点。当查询蛋白质和药物之间的联系时，Grakn 将自动推断，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

显示的推论是在药物“克唑替尼”和蛋白质“ALK”之间(实线)，而解释是通过药物、基因和蛋白质显示的(虚线)。

你能帮上什么忙

这是一个正在进行的项目，我们需要你的帮助！如果您想做出贡献，您可以帮助我们，包括:

迁移更多数据源(如临床试验、药物库、Excelra)
通过添加相关规则来扩展模式
创建网站
撰写教程和文章，供研究人员入门

如果您希望取得联系，请通过#biograkn 频道与我们讨论我们的不和(链接此处)。

康拉德·米利维克( LinkedIn )
金赌(领英
托马斯·萨巴特( LinkedIn

Ep 7:文化契合度

原文：https://towardsdatascience.com/wewillcallyou-ep-7-culturalfit-682aa09e3c05?source=collection_archive---------70-----------------------

我们会叫你

基于事实的求职——极客歌剧

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

“正如你所看到的，我准备的原型检查了任务描述中列出的所有框。此外，我还编写了一个可视化模块，这不是必需的，但我认为它会自然地补充练习。”

当他伸手去拿一杯水时，多姆纳尔骄傲地笑了。他在过去的 40 分钟里试图总结一周紧张的原型准备工作。这项任务在概念上并不难，但它以其繁琐性弥补了这一点。提供的数据原来是一堆未经处理的互联网帖子——主要是口头放屁、打嗝和打嗝——互联网用户在社交媒体上激烈交流。Domnall 通过简单地清除不相关的字符簇、拼写错误和自我宣传装饰品的数据，损失了整整五天。在接下来的两天里，他构建了所需的分类器，并准备了一个演示文稿。

他感到筋疲力尽，但很满足。他提供了一个原型，任何咨询公司都可能收取相当于他 6 个月工资的费用。这足以证明他毫无疑问是有用的。他申请的公司可能也得出了同样的结论，因为他们跳过了与人力资源部门的面试，直接跳到了与软件开发团队负责人的会面。

“是的……是的……”桌子另一边的男人喃喃自语。“这种视觉化……很简单……”他低声说道，甚至没有抬头。他所有的注意力都被吸引到他正在笔记本上连续第四页上填写的潦草字迹上。“如果你愿意的话……并且回到……”他轻快地把最后一段。他抬头看了看，完成了:“……然后回到代码片段，在那里你链接了来自几个不同来源的已清除的帖子。”他给了多姆纳尔一点时间在剧本中找到合适的台词。“如果你要把这个演示给一个非技术人员，你会怎么做？”

多姆纳尔压抑着如释重负的叹息。当他听到他将与谁交谈时，他害怕关于代码优化的问题，他对此有一个相当模糊的想法。而技术经理决定测试他与企业的沟通技巧。对事态的发展感到满意，多姆纳尔脸上露出了耐心的微笑。

“想象一下，你正在和来自两个不同部门的两位经理交谈。他们带着不同格式的演示文稿来参加会议……”

“不，不是这样。”男人紧张地笑了笑。“我们的业务团队精通技术问题，没有必要进入如此高的抽象层次。”

多姆纳尔扬起了眉毛。

“这可能是一次有趣的经历。迄今为止，与我共事过的经理们通常都乐于看到与他们相关的例子。”

“在这里，我们有其他的需求。”

“那么我应该进入什么抽象层次？”

”解释您是如何组合这两个文本清理模块的输出的。根据你在这里的描述，它们似乎有不同的格式。”

多姆纳尔看着剧本，拍了拍额头。

“是啊。在第一个模块中，就在返回字符串之前，我使用这里调用的函数重新格式化它。多姆纳尔在屏幕上标出了正确的代码行。“由于这两个结果有相同的格式.”

“这个功能在哪里？”

“在图书馆……我把它作为一个单独的文件附上了，”多姆纳尔不确定地回答，不知道他是在和软件开发部门的负责人说话，还是在和那个家伙扮演的商业幽灵说话。然而，他不敢向他指出，这种类型的问题来自那些更愿意对他的软件的应用感兴趣的人会有些…不寻常。

与此同时，这个人咬着嘴唇研究着代码片段。

“哦，”他最后说，“所以你只是合并两个清洁器的结果数据，然后把它作为预测器的输入？”

“正是。”

“太好了。”那人高兴地点了点头。“这就是我所需要的。非常感谢。”他从椅子上站起来，从桌子上拿起笔记本电脑和他的笔记本，避开对话者的目光，补充道:“我会将我们的谈话报告发送给人力资源部。”

多姆纳尔看着他。突然，他确信这里出了问题。他几乎绝望地喊道:

“为什么这个意见会是否定的？”

那人害怕地跳了起来。他惊恐地看了受访者一眼，握紧了电脑，就好像手中的设备突然变重了一样。

“嗯……你知道，”他结结巴巴地说，一边用眼角打量着他和门之间的距离。“每个公司都有其……呃……独特的文化。我的印象是，你不是最好的……嗯……合适吗？”

多姆纳尔咬紧牙关进行自我审查，因为他找不到任何可以对这个人说的话。缺乏文化契合是事实——他绝不会想到以如此生硬的方式盗用某人的作品。

“如果没别的事了，再见，”那人着急地说。庞大的赃物阻止他握手。“我们会打电话给你。”

我们将称您为系列:

第五集:沉没成本

第 7 集:文化契合度(当前)

多姆纳尔是个聪明的家伙。但是，找工作是长期的娱乐，很可能要花他一段时间。尤其是工作面试不是每天都有的。与此同时，你可以考虑阅读我们的 【药理】 社会学惊悚片中的其他(同样出色的)人物。

Ep 6:激情，更激情，录用！

原文：https://towardsdatascience.com/wewillcallyou-ep6-passionate-630b9fa68f0d?source=collection_archive---------78-----------------------

我们会叫你

基于事实的求职——极客歌剧

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

“我看你理解业务流程，”经理冷漠地说。“我承认你的同事中几乎没有人关注他们。总而言之，我并不感到惊讶……”他遗憾地叹了口气，过了一会儿又高兴地补充道，“当技术革命无处不在，为新事物提供机会时，谁会愿意在这上面浪费时间呢？”

“现代分析面临的问题范围仍在扩大，”多姆纳尔同意道，“但在我看来，坚实的基础仍然至关重要。”

那人不听。他继续自己的思路，“你知道吗，即使是我们通常在实时上下文数据流处理中使用的量子机器学习工具，也无法应对预测值得关注的 IT 趋势？!"

多姆纳尔退缩了。部分原因是他不喜欢技术上的胡言乱语，部分原因是他将盲目追随潮流与社交媒体影响者之间争夺注意力的争斗联系在一起，而不是基于可靠数据的研究。

“当有人提出解决问题的新方法时，趋势就出现了，然后有人把它提升到灵丹妙药的高度，”他说。“恐怕在 IT 趋势预测中，你最好带上水晶球或阅读茶叶。”

“哈！爆笑！”经理嗤之以鼻。“我们使用区块链·美联储认知计算来预测哪些技术在未来可能会找到新的应用，”他几乎从椅子上站起来，自豪地说。

多姆纳尔第二次退缩。他的对话者似乎热衷于流行词，越多，他越不理解它们。通过这种方式，他已经浏览了他真正了解的商业话题，带着略微心不在焉的表情听着多姆纳尔的回答。当话题转到他不了解的技术时，他甚至坐不住了。

“但不是关于我们，而是关于你。这是我们的座右铭！”经理靠在椅背上。“具体来说，你为什么想为我们工作？”

“您运营领域的多样性…”

“是的！”那人向他伸出一根手指。“我们不仅处理结构化数据，还处理图表、自然语言处理、地理定位……”

多姆纳尔等着曼的气息耗尽，完成了他的思考，“我只是喜欢有机会处理各种领域的多层问题。”

“是的！”经理的手指又放在了多姆纳拉的面前。“你甚至无法想象我们为客户构建的深度神经网络有多少层！当我们向投资者展示我们在云中的超大规模数据科学竞争中遥遥领先时，他们非常高兴！它不再仅仅是一个数据湖。是一片海洋！”

经理愣住了，可能是在等掌声。Domnall 想知道如何让他明白，数据科学的质量既不是以 Pb 来衡量，也不是以神经网络的层数来衡量。

“我听说你也在政府机构工作，”他小心翼翼地开始说道。“我想这样的责任需要对结果进行一丝不苟的质量评估。我要补充一点，我在这个领域有一些成就……”

“你用什么库？”经理开始感兴趣了。

“看情况……”多姆纳尔困惑地眨了眨眼。到目前为止，他的对话者没有说任何表明他知道至少一个图书馆的名字。多姆纳尔傻笑。“大学图书馆，公共……”

“我们总是使用最新的库！不仅是公共的，还有商业的！”经理得意地笑了。“此外，我们始终使用最高效的服务器、最大的数据集和最新的元数据，因此我们的结果的可靠性毋庸置疑！”

“这无疑是对深思熟虑的分析的巨大支持，”多姆纳尔称赞道，努力不去问公司的工作时间是否也用世界上最快的手表来衡量。

经理看了看他的手腕，好像看出了他的心思。

“哦，时间过得真快！”他抓着自己的头，急忙补充道:“我还有最后一个问题。你对哪些技术领域充满热情？”

看到面试过渡到“爱好和兴趣”部分，多姆纳尔感到如释重负。他已经受够了专业人士。

“我猜太空旅行最多。真是太棒了…”

“哈！爆笑！”男人打断道。“但我指的是信息技术。”

多姆纳尔沉默了一会儿。他试图用排山倒海的行话来报复对话者，但最终，他决定表现出仁慈。他如实回答:

“让我兴奋的是发现真相。我对任何数据处理技术都没有感情上的依恋。让我兴奋的是，我发现了一些规则，让我能够足够准确地模拟现实，从而获得一些预测能力。”

经理瘫软了，就像一个充气玩具失去了空气。

“嗯……我们团队的人通常对数据更有热情，”他失望地嘀咕道。一秒钟后，他想起了那个礼貌的微笑，说道:“我们会打电话给你的。”

我们将称您为系列:

第五集:沉没成本

第六集:激情，更激情，被录用！(当前)

第七集:文化契合度

通过将尾部作为时间序列进行处理来识别鲸鱼

原文：https://towardsdatascience.com/whale-identification-by-processing-tails-as-time-series-6d8c928d4343?source=collection_archive---------24-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

抹香鲸尾巴——参赛照片(凯捷全球数据科学挑战赛，2020 年)

使用积分曲率和动态时间扭曲，让我们深入研究抹香鲸识别！

语境

最近，我们和几个同事一起尝试了凯捷的全球数据科学挑战。与鲸鱼 Acores 研究中心合作，**挑战的目的是识别抹香鲸，**用人工智能帮助拯救抹香鲸的生命。为了这个任务，我们收到了几千张过去几年的鲸鱼照片。在训练数据集中，每只鲸鱼平均有 1.77 张照片，许多动物只出现一次。因此，主要思想是，给定一张新图片，在已经看到的数据中识别最接近的图片。这样，如果鲸鱼已经被拍照，研究人员就能知道拍摄的时间和地点。

我很自豪地宣布我们获得了第三名，一个使用连体网络的获胜解决方案。但是因为已经有很多关于这个奇妙架构的文章了，今天我将展示一个更有趣、更新颖的方法来解决这个问题。

方法学

魏德曼等人在他们的论文“ 海豚和鲸鱼识别的积分曲率表示和匹配算法 *”中设计的，*下面是我今天要介绍的方法论的关键步骤:

基于颜色分析和轮廓检测的尾部提取
具有积分曲率的尾部处理
动态时间弯曲的尾部比较(DTW)

免责声明 1 :预测率不如暹罗网络，我们必须探索其他解决方案。但是想法很有意思，值得分享和了解。

免责声明 2: 和许多数据科学项目一样，数据准备是最困难的部分。事实上，要把尾巴当作信号来处理，信号的质量必须非常好。在本文中，我们将花时间了解信号处理的所有必要步骤。

让我们深潜吧🐳

探索我们的数据集，分析图片

正如在介绍中提到的，我们得到了几千张图片，这是很多要看的。乍一看，鲸鱼就是鲸鱼。所有这些照片看起来像蓝色背景(天空和海洋)，中间有一个灰色斑点(尾巴)。

然而，在第一次探索之后，我们开始区分两种不同的抹香鲸，主要是因为尾巴的形状，并且确信这对我们的算法具有决定性意义。颜色呢？像素的分布有什么有趣的信息吗？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每张图片中颜色数量的相关性(绿色对红色—蓝色对红色—绿色对蓝色)

使用散景可视化库，我们很快发现图像中的颜色高度相关。所以我们专注于轮廓，试图通过颜色变化来检测它们。

基于颜色滤波器的尾部提取

检测尾巴轮廓的第一步是从天空和水中提取它们。实际上，这是整个过程中最困难的部分。

首先，我们使用轮廓检测算法。但由于每次拍摄的阳光都在不断变化，对比度变化很大，结果远不能令人满意。顺便说一下，看到算法最失败的图片很有趣，因为大多数时候，尾巴和大海之间的区别对人类来说是显而易见的。

也就是说，让我们深入研究颜色分析和轮廓提取自动化。

用颜色提取尾巴

让我们为每个通道强度(红、绿、蓝)绘制灰度图像

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

观察单个图像的三个通道

正如你在上面看到的，大多数图片都是如此，图片中间的颜色较少，允许按像素强度过滤。由于尾巴通常是灰色的，所以每种颜色的数量几乎相同(R = G = B)，然而，海洋和天空往往是蓝色的，这使得这种颜色成为过滤的理想候选颜色。

让我们看看当只保留蓝色值，并且只保留blue_value < SELECTED_THRESHOLD.处的像素时会发生什么

这个SELECTED_THRESHOLD的最大值是 255，因为它是像素强度的最大值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于像素强度滤波的尾部提取处理

有了这一系列的图片，我们可以相信尾部提取是轻而易举的事情。但是我该如何选择过滤阈值呢？

下面是使用从 10 到 170(十乘十)的所有值作为单一图片的阈值的结果示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据蓝色像素的强度，在一张图片上应用 17 种不同的滤镜

以下是一些有趣的发现:

如果阈值很小(10 左右)，海会消失，但尾巴也会消失
如果阈值很小(20 左右)，部分尾部会消失
由于阈值不是很高(大约 40)，提取看起来很完美。所有的尾巴都不如门槛蓝，但所有的大海都比门槛蓝。
有了一个中间阈值(大约 80)，尾部保持完整，但是我们开始保留海的一部分
由于阈值几乎是中间值(大约 110)，很难区分大海和尾巴
阈值稍高(140 及以上)，尾部完全消失。这意味着即使是大海也没有蓝到可以通过滤镜选择。

因此，我们在这里，似乎很清楚，我们应该采取SELECTED_THRESHOLD = 40和应用过滤器blue_value < 40。

你可以猜到，这并不容易。给定图片的光强度，40 是该图片的正确值。但它从陈词滥调变成陈词滥调。通过在随机图片上绘制具有所有这些阈值的结果，阈值在 10 到 130 之间变化。那么如何选择合适的数值呢？

使用边界框选择阈值

通过查看前面的图片，我们想到了一些事情:具有正确阈值的正确图片是外部区域最空而内部区域最满的图片。希望在 ImageNet 上训练的一些神经网络可以在照片中定位鲸鱼。我们决定使用基于 ImageNet 类的 MobileNet 。

灰鲸，灰鲸，乌贼，大菱鲆，大菱鲆

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一批提取的尾巴与原始图片相比，具有边界框

这是个很棒的主意。如下图所示，我们可以非常精确地识别照片中尾巴的位置。然后，我们可以在几乎所有的图片中将“尾部——内部”与“海洋部分——外部”分开。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

带有边框的图片爆炸

为了更好地了解这种分离，对于训练集的每张图片，我们对边界框内每个像素的蓝色值进行求和，并对框外的像素进行同样的操作。

然后，我们在下图中绘制每张图片，X 轴表示内部结果，Y 轴表示外部总和。蓝线代表X = Y。从这个图形中我们可以得到如下的感觉:你离线越远，尾巴和大海就越容易分开。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

给定边界框内外蓝色像素强度的抹香鲸图片的比较

我们尝试根据到线的距离来应用过滤器阈值，但这并没有导致任何结果。在几次尝试之后，仅仅根据图片的颜色分布，我们就放弃了，我们决定使用硬方法。我们不是看着图片决定阈值，而是对每张图片应用 15 个过滤器，分析它们，并自动选择最佳过滤器进行进一步处理。

然后，对于给定的图片，我们使用 15 个不同值的 15 个过滤器作为阈值。对于每个滤镜，我们统计了边界框内部和外部像素的数量(过滤后，像素值为 0 或 1，不再需要对亮度求和)。然后我们将结果标准化，使数字与图片的大小无关，并将结果绘制在图表上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单个图片和不同过滤阈值的边界框内部(X 轴)和外部(Y 轴)的像素数。

对于每张图片，我们得到了一条类似于上图的曲线，这是我们之前关于阈值演变的陈述的数学翻译。

当阈值很小时，尾和海消失。尾巴里面没有像素，外面也没有
当阈值增加时，尾部出现，X 轴的值增加。
直到门槛开始让海的某些部分出现，外面的价值开始增长。

使用线性回归或导数，现在很容易检测正确的阈值:它是图中两条线的交点。

注意:橙色线是y = y_of_the_selected_threshold

拔尾的最后一招

最后，为了在提取时获得我们的最佳图片，当我们计算出最佳阈值(在 10，20，30，40，…，120，130，140，150 之间)时，我们假设为 80。我们对-5/+5 值应用了过滤器。于是我们有了三张照片blue < 75、blue < 80、blue < 85。然后，我们将这三个网格图片(0 和 1)相加，只保留值等于 2 的结果像素。这将作为最后的过滤器，消除尾巴周围的噪音。这在整体上导致了更好的提取，我们决定应用于所有的图片。

结果

作为总结，以下是我们到目前为止所做的假设:

我们可以使用蓝色像素强度的过滤器将尾巴从海洋中分离出来
在滤波之前，要为每幅图片找到一个阈值
使用包围盒是找到这个阈值的一种有前途的方法

经过几个(很多)小时的工作，我们最终得到了一个非常好的尾巴提取器，可以很好地处理不同亮度、天气、海洋颜色、尾巴颜色的尾巴，并能够处理最困难的图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一批提取出来的尾巴对比原图

轮廓检测

既然尾巴在图片中被定位，我们处理轮廓检测。事实上，要把尾部作为时间序列来处理，我们需要一个信号。

在这一步，我们可以使用 OpenCV 中的轮廓检测算法，但它似乎比以下两步更快:

第一步:使用熵去除尾巴周围的噪声

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用熵变化仅保留提取的尾巴的轮廓

第二步:为每列保留图片的高光像素

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在应用熵过滤器之后，检测提取的尾部的轮廓

这一步非常简单，没有特别复杂的地方。可能是单身的那个；)

积分曲率

通过从海洋中提取尾巴，并获取图片的上部像素，我们得到了尾巴的后缘作为信号。现在我们有了这个，我们将不得不处理正常化。事实上，并非所有图片都具有相同的大小或像素数量。此外，到抹香鲸的距离并不总是相同的，拍摄时方向可能会改变。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尾巴方向的例子，在同一条鲸鱼的两张照片中可能有所不同

对于归一化，我们必须沿着两个轴来做。首先，我们决定用每条尾巴 300 个点来进行信号比较。然后我们对最短的进行插值，对最长的进行采样。第二，我们将 0 到 1 之间的所有值标准化。这导致了信号叠加，如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

缩放信号叠加

为了解决方向问题，我们使用了积分曲率度量，通过局部评估将信号转换为另一个信号。

正如在原始论文中提到的:“它在沿后缘的每一点捕捉局部形状信息。对于位于后缘的给定点，我们在该点放置一个半径为*r*的圆，并找到后缘上位于该圆内的所有点。”

然后，在每一步，我们拉直圆圈中信号的边缘，使其内接在一个正方形中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

积分曲率原理

最后，我们将曲率定义如下:

曲率是曲线下的面积与正方形的总面积之比，这意味着直线的曲率值为 c = 0.5

我们由此获得了标准化的信号，与鲸鱼和摄影师之间的距离无关，与鲸鱼和摄影师之间的角度无关，与鲸鱼和大海之间的倾角无关。

对于训练测试的每张图片，我们随后在 IC 相位期间为半径为 5、10 和 15 个像素创建这些信号。我们存储它们并用于最后一步:时间序列之间的比较。

在本文中，我将忽略这种算法的实现。一旦成功，我们可以把它应用到我们的后缘，从环境细节中提取信号。对于单个尾巴，它看起来像下面的信号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用 3 个不同的半径值应用于抹香鲸后缘的积分曲率

现在，让我们进行信号对比！

动态时间扭曲

动态时间扭曲 (DTW)是一种能够找到两个时间序列之间最佳对齐的算法。它通常用于确定时间序列的相似性、分类，以及寻找两个时间序列之间的对应区域。

DTW 距离与欧几里得距离(指两条曲线之间的逐点距离)相反，它允许链接曲线的不同部分。算法是这样工作的:

使用两条曲线，我们创建两个系列之间的距离矩阵，从左下角开始直到右上角，并计算两点之间的距离Ai (from serie A) and Bi (from serie B)如下:D(Ai, Bi) = |Ai — Bi] + min(D[i-1, j-1], D[i-1, j], D[i, j-1])。
当满足距离矩阵时，我们计算从右上角到左下角的权重较小的路径。为了做到这一点，在每一步我们选择具有最小值的正方形。
最后，所选择的路径(下图中的绿色)表示来自系列 A 的哪个数据点对应于来自系列 b 的数据点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DTW 解释——来自这个【YouTube 视频的幻灯片

这种基本计算的实现非常容易。作为一个例子，这里有一个从两个序列s和t创建距离矩阵的函数。

Python 在 DTW 上的基本实现

话虽如此，让我们回到我们的抹香鲸！我们数据集的每个尾部都转换成一个“*积分曲线信号”，*我们计算所有尾部之间的距离，以发现哪些是最接近的。

之后，当接收到一张新图片时，我们必须让它通过整个准备管道:用蓝色过滤器提取尾部，用熵方法检测轮廓，用 IC 进行轮廓变换。这给了我们一个300x1 shaped tensor，我们最终必须计算整个数据集的距离。顺便说一句，这很费时间。

结论:结果相当不错！当我们有同一条鲸鱼的两张照片时，在大多数情况下，这两张照片都在最接近的 40 位，这在 2000 张照片中是很棒的。然而，正如在介绍中提到的，使用暹罗网络的结果优于(图片通常在最近的 5 个中)这一个，并且考虑到比赛的时间，我们必须在我们的调查中进行选择；并且没有继续使用这种方法。

额外收获:用一半尾巴和一半信号工作

我们试着用半尾来工作，假设:

尾巴是对称的，这将简化计算。
尾巴是不对称的，这将允许通过半个尾巴进行比较。

尽管进行了无数次测试，但这并没有给我们非常确定的结果。我们认为我们的分离不够可靠:我们需要更多的时间通过信号处理来研究更好的分离。

最后的想法

由于图片的颜色(基本上是蓝色——海洋和天空)以及来自数据集的图片的各种亮度，在尾部提取上花费了一些时间(这比我们想象的要困难),我们对尾部识别应用了两个连续的处理。首先是积分曲率，这是一种通过观察曲线的局部变化来归一化信号的方法。然后，我们使用动态时间扭曲，这是两条曲线之间的距离计算，即使两条曲线被移动，也可能发现它们之间的相似性。

不幸的是，结果并不像我希望的那样好，我们无法继续这个解决方案。随着更多的时间和更多的努力，我深信我们可以改进流水线的每一步，从而得到一个更好的模型。然而，我真的很喜欢这篇文章和这些概念。由于所有的步骤、实现它们的不同方式以及参数，监视所有的转换是相当具有挑战性的。因为我们有一个路线图，每一步都有自己的困难，每一个小小的成功都是一个胜利，开启了下一步。这非常令人满意。

我发现这种方法非常有趣，与通常的预先训练好的 CNN 完全不同。希望您也喜欢这种方法的美妙之处，这也是本文的主题。如果你有任何问题，请随时联系我😃

参考文献

200，000 年的人类教会了我们如何用数据讲故事

原文：https://towardsdatascience.com/what-200-000-years-of-humanity-taught-us-about-data-storytelling-919f0a44215b?source=collection_archive---------38-----------------------

数据科学家也是一个高效的沟通者，他将数据带入生活。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用您的数据故事吸引您的受众，并帮助他们理解您的见解。[图片由 Sasin Tipchai 提供]

在古代，20 万年前，人们围坐在篝火旁，通过故事相互学习经验。我们的祖先互相教导如何控制火势，如何捕猎动物，什么该吃，什么不该吃。这些故事通过从他人的成功和失败中学习来提升人类的知识。

古埃及艺术包含了关于过去发生的事情的故事，这些故事代代相传。他们如何建立他们的帝国，他们使用什么工具，他们认为什么是重要的。即使在今天，我们也可以从绘画中了解人类的历史。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

古埃及艺术[来源于维基百科

今天，最吸引人的 TED 演讲和票房最高的电影都是以讲故事为基础的。与我们产生共鸣的故事，将想法带入生活的故事，连接观众的故事。

讲故事和时间一样古老，它在每个文化和社会中都有一席之地。这是一种有效的方式，可以从对方身上学到最重要的东西。

在这个大数据时代，这是我们相互学习的方式——讲述数据故事。数据叙事有三个至关重要的基础:数据、可视化和叙事。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据叙事的 3 个基础:数据、可视化和叙事

#1.收集和清理您的数据

在你讲述任何数据故事之前，你需要数据。如果你在一个组织、一个班级作业或一个 Kaggle 数据集工作；你有数据。你得弄清楚你想讲的故事是什么。

如果你还没有数据，你必须在收集数据之前定义你的假设。你的假设应该是可测量的和清晰的。这将引导您找到或收集合适的数据集进行分析。尝试搜索一个可能回答你关键问题的开源数据集。然而，如果你的问题是小众的，你必须建立你的数据收集系统。

在从数据中提取任何见解之前，您必须确保数据是正确的。这个过程被定义为 数据清理 。通常，您希望清理不完整、不准确、不一致和重复的数据；才能得到准确的结果。

识别不良数据

想象一下，如果有人在你的演示过程中发现了一个错误，那会让你的工作不那么可信。例如，如果你有一个包含人类年龄的数据集，如果某人已经 5000 岁了，那就没有意义了。您可能需要先删除它们。

识别缺失值

缺失值可以表示为空值或超出范围的值，如人类年龄的“-1”或“-99”。你的工作是识别和处理这些缺失的值。您可能必须删除缺少太多值的列或行。

寻找异常值

这些数据点包含超出正常范围的值。与坏数据不同，离群值是有效的。例如，在西雅图 Airbnb 数据集中，有 1 个主机将最低租赁夜数设置为 1000。它可能提供有趣的故事和见解，但也可能扭曲你的结果。你必须识别并决定如何处理这些类型的数据。

#2.用可视化检查数据

这部分俗称探索性数据分析，简称 EDA。在这里，当你着手研究你所拥有的数据时，你会问自己一些问题。你将分析特征，寻找特征之间的模式和关系。

寻找趋势

如果您拥有的数据由时间变量组成，您可能会有兴趣了解变量随着时间的推移是增加还是减少。可视化趋势的最简单方法是绘制一个折线图。

有时，一个特征可以有一个循环模式。例如，假期期间航空旅行的乘客数量会增加，一年的降雨量因季节而异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

折线图可以显示一段时间内的趋势

价值分布

对于数字特征，您可能希望找到变量的范围。这使您能够知道特征的最小值、最大值、平均值和中值。它还能告诉我们数据是左偏还是右偏。显示分布的常用方法是使用直方图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

条形图对于可视化分布很有用

直方图还可以识别异常数据和默认值。例如，您可以提取那些具有巨大建筑面积的房屋和具有-1 默认值的变量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左图:最右边栏是一些建筑面积巨大的房子。右图:年龄为-1 的若干人。

特征之间的相关性

寻找两个或更多特征之间的相互关系是有价值的见解。它通常很有趣，可以帮助你的观众了解一些他们可能不知道的东西。例如，在这项研究中，研究人员发现，眼疾与日照时间呈正相关。这很有趣。

显示相关性的有用图表是散点图。还可以添加一条拟合线，检查是正相关还是负相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

检查两个变量之间相关性的最简单的形式是使用散点图

了解特征之间的相互关系有助于构建更好的预测模型。如果两个特征高度相关，您必须仔细检查，因为这可能是重复数据的结果。如果一个特征与你的目标标签高度相关，那么这个特征可能是重要的。

“一图胜千言。”这是常见的口头禅，但当谈到数据可视化时，数千字可能不足以让人们理解。— 古平顺

这让我想到了下一点，你需要一个故事来传达你的发现。

#3.通过叙述传达见解

有用的数据集和漂亮的可视化并不能构成一个好的数据故事。一个数据故事只有在为受众提供价值的情况下才会引人注目。它允许他们学习新的东西，或者提供一个新的视角来做出更好的决定。或者至少，你的观众可以理解你在做什么。

你的叙述应该通过你的洞察力引导观众，并帮助他们跟随你的思路。使用叙述和视觉化的数据来支持你的故事是非常强大的，因为它增加理解和记忆，并且它是引人入胜的。

理解

在你的故事中使用视觉化可以让你的听众看到数据变得栩栩如生。我们的大脑天生更擅长识别图案和颜色，而不是原始数字。帮助你的观众看到数据将有助于他们理解它。

保留

通过结合叙述和想象，它帮助你的观众记住你的内容。这样做，你可以有效地向你的听众提供分析和情感体验。巩固你传递的信息。

迷人的

你的听众需要他们应该听你讲话的理由。使用叙述可以帮助他们将共享的数据联系起来，以及为什么这些数据对他们很重要。如果你能为你的观众设计出符合他们兴趣和目标的故事；他们会关注你的故事。

一个伟大故事的线索

安德鲁·斯坦顿是一名电影导演，曾参与《玩具总动员》、《海底总动员》和《怪兽电力公司》的制作。他在这个 TED 演讲中分享了他在讲故事方面的发现。他解释了伟大的故事如何吸引观众，以及我们如何联系彼此的经历。

[## 数据科学家:21 世纪最肮脏的工作

40%的吸尘器，40%的看门人，20%的算命师。

towardsdatascience.com](/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845) [## 西雅图的 Airbnb 数据分析

了解西雅图的 Airbnb 租赁情况

towardsdatascience.com](/airbnb-in-seattle-data-analysis-8222207579d7)

一段感情 5 年后的信息是什么样的

原文：https://towardsdatascience.com/what-5-years-of-a-relationships-messages-look-like-45921155e3f2?source=collection_archive---------25-----------------------

或者，用 Python 处理时间序列数据(和表情符号)的一些很酷的方法

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Pexels(不是我女朋友)

当政府强制实施的封锁进入第三周时，我的女朋友做了一个随意的评论:“我打赌我们的信息发送量正处于历史最低点…”

这是一个足不出户的数据科学家不会长久忽视的言论。所以我打开 Telegram 的桌面应用程序，下载了我们的全部信息历史。输出以 HTML 文件的形式出现，每个文件包含 500 条消息的数据(有超过 160 个这样的文件)。令人高兴的是，人们可以使用一般网络搜集的技术——特别是各种 BeatifulSoup4 方法——来自动创建数据帧，其中每行代表一条消息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我不记得当时我们在谈论哪个美国人了…

注意—这里的一个关键特性是时间戳列。对于我们将在后面使用的 Pandas 方法来说，重要的是它的类型是‘datetime ’,而不仅仅是一个字符串。使用 Pandas 的内置 to_datetime 方法很容易实现这一点:

df[‘Timestamp’] = pd.to_datetime(df[‘Timestamp’], dayfirst=True)

电报 HTML 使用 dd/mm/yyyy 格式给出其时间戳。因此，我们传递了 ‘dayfirst’ 参数，以确保这是字符串的解释方式(即 2020 年 5 月 4 日应该是 4 月 5 日，而不是 5 月 4 日)。

那么我们可以用这个数据集做什么呢？我们当然可以尝试一些 NLP 工作(这可能是未来博客的主题——我对我们在一起的时间里我们的词汇是如何融合的有一定的假设…)现在，让我们简单地想想如何可视化我们的时间序列数据，以及如何最好地呈现这样的可视化以实现洞察力的提取。

让我们首先通过创建一个每天发送的邮件的折线图来调查我们的邮件量在过去五年中是如何发展的。Pandas 提供了一种内置的方法，允许我们按给定的时间间隔(例如，每天的消息计数)聚合数据。

df.set_index('Timestamp').groupby(pd.Grouper(freq ='D')).count()

这里有几个链接的方法—让我们来分解一下:

。set_index(‘Timestamp’) 首先，我们需要有 datetime 特性作为我们的索引。
。groupby(pd。Grouper()) 这就像一个 标准的熊猫 groupby 一样，但是它不是为列中的唯一项创建一个索引，而是为样本中“最小”和“最大”日期之间(包括这两个日期)的天数创建一个索引。至关重要的是，这也为数据集中没有考虑到的日子创建了行(例如，因为我们在某些日子没有交换消息)。
频率=‘D’ 这个频率不一定是“天”——我们可以将它设置为任何我们想要的间隔(M 代表月，等等。)
。像标准的 groupby 一样，我们需要调用一个聚合方法来创建实际的 dataframe。

那么这在标准折线图中是什么样的呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基本上是一团糟。

如果我们以每天的总字数为基础来看，这并没有真的好到哪里去(也就是说，我们的数据并没有受到我将句子中的每个子句作为单独的消息发送的明显令人讨厌的倾向的影响)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而，我们可以从这些图表中得到一些信息:

我们通常保持在大约 150 条消息或 600 个单词的上限内
我们发了很多关于我们分开度过的两个圣诞节的消息(2015 年和 2016 年的两个高峰)，而不是关于我们一起度过的圣诞节的消息(2017 年、2018 年和 2019 年)
随着时间的推移，我们相互发送信息的总量似乎并没有改变那么多

让我们更深入地研究最后一点。图表显示，尽管五年来每天的消息量有一个相当稳定的上限，但它们每天都在剧烈波动(我们一天交换 500 个单词，第二天为零)。

我们可以通过使用滚动平均值来稍微清理一下这个问题——换句话说，给定一天的值计算为过去 x 天的平均值。这意味着，理论上，我们上面非常参差不齐的图应该变得平滑(特别是当我们增加窗口宽度时， x )。这应该能揭示任何潜在的趋势。

熊猫对此有一个简便的方法:

df[‘WordCount’].rolling(window = x).mean()

我们可以改变 x 来设置窗口宽度
我们不需要使用平均值——我们可以查看滚动总和等。
这将创建一个与原始序列长度相同的新序列，但是其中第一个 x -1 元素是 nan

现在让我们看看每天交换的总字数，在发送者之间分开，窗口宽度增加(一周、四周和八周)。让我们再添加两条红色垂直线来显示:

我们同居时(2017 年 4 月)
当我们搬到城市，我开始在家学习(2019 年 5 月)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

56 天滚动平均线开始让一些事情变得更加清晰:

在我们搬到一起住之前，我们每天都要说更多的话(第一条红线的左边)
我的女朋友每天发送的文字一直比我多
然而，当我们搬到不同的城市，她开始处理一个要求更高的客户项目时，她的消息量下降到了我的水平——她有更少的时间进行正常水平的消息传递，但显然当我发送一些东西时，她仍然足够体贴
时间序列最右边的封锁确实导致了我们每天交流的字数急剧下降…

当然，现代信息不仅仅是你交换的词语(2015 年牛津词典年度词汇成为表情符号是有原因的)。令人惊讶的是，电报 HTML 最初的刮擦居然保留了原始表情符号。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原生 Python 无法处理这些字符，但是有一个简洁的小软件包(想象中称为“表情符号”)可以让你识别、计数和解码字符串中的表情符号。

如果我们调查“非文本”信息，我们会发现表情符号对我女朋友来说是一种特别重要的交流方式。另一方面，我通过分享照片和链接(通常来自 Reddit)以及贴纸(Telegram 相对较早推出的一项功能)来增加价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以尝试使用相同的滚动平均技巧来查看这些非文本消息的数量如何随时间变化。然而，除了 2018 年初的贴纸高峰(当我们发现你可以下载定制集——真的，这是一个改变游戏的时刻)，没有多少可辨别的模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

相反，让我们建立一个图表，按类型显示这些非文本消息的累积。为此，我们可以使用 NumPy 的 cumsum()方法，该方法将对一个序列进行累加求和。假设我们有一个数据帧，其索引是一个日期范围，每一列描述了当天发送的每种类型的消息的数量:

**#Create a list of message types**
required_cols = ['Emoji','Photo','Sticker','Link','Voice message','Animation']**#Create a new dataframe of just these types**
df_types_cum = df_types[required_cols]**#Iterate through the columns and replace
#each with the cumulative sum version**
for i in required_cols:
    df_types_cum[i] = np.cumsum(df_types_cum[i])**#Use Pandas' in-built plot method to show it**
df_types_cum.plot.area(figsize=(15,6), lw=0)

这产生了下面的图表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

同样，我们可以看到贴纸(琥珀色部分)的引入和使用，以及从 2018 年起表情符号的使用加速。

我们之前的分析没有涉及到的是我们共享消息的时间(只有每天的数量)。对此的想象可能会很快变得非常混乱。一天已经有 24 小时了，如果我们想看看是否有其他指标的差异(例如，一周中的某一天，一年中的某一天，等等)。)然后，我们突然有了大量需要在一个图表中传达的视觉数据。

热图让我们可以相当灵活地做到这一点。在这里，我创建了一个数据帧，显示了我们开始共同生活之前和之后一周中每天每小时发送的单词量(使用 Pandas 的 pivot_table 方法):

df_times = pd.pivot_table(df,fill_value=0,
               index=['LivingTogether','Day'],
               columns='Hour',
               aggfunc='sum')['WordCount'].T**#Note - the .T at the end of the code transposes the dataframe**

然后，我可以通过将数据帧的两部分除以不生活和生活在一起的适当周数，得到每小时发送的平均字数。然后，我们可以使用 Seaborn 的热图功能来可视化数据帧。

sns.heatmap(df_times)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

添加了一些垂直和水平线来区分工作时间和周末，我们可以很容易地从热图中提取视觉信息。在搬到一起住之前，我们一整天都在不停地发信息，尤其是在睡觉前(周五和周六的浅色方块表明我们更有可能在对方家里过夜)。

搬到一起住后，我们发现我们的信息交流仅限于工作时间。有趣的是，在一天中的这个时候，信息的数量实际上增加了。我们还可以看到，这段时间我们的就寝时间大大改善了——凌晨 1 点前发信息的日子已经一去不复返了。

感谢你一直读到博客的结尾！我很乐意听到任何关于上述分析的评论，或者这篇文章涉及的任何概念。欢迎在下面留言，或者通过 LinkedIn 联系我。

650 万条#冠状病毒推文和深度拓扑分析揭示了疫情期间人们的想法

原文：https://towardsdatascience.com/what-6-5-million-of-coronavirus-tweets-and-deep-topological-analysis-reveal-about-peoples-3354b7442690?source=collection_archive---------57-----------------------

我们将拓扑数据分析和深度学习应用于大量文本数据，以揭示讨论中隐藏的模式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用深度拓扑分析分析了 650 万条关于#冠状病毒的推文
以美国为中心的主题主导了讨论
每有 1 条推特遭到反对，就有 20 条赞成封锁
“感谢关键员工”是最高的积极情绪，其次是朋友和生日
“呆在家里，拯救生命”占据了负面情绪的首位，因为人们抱怨其他人不遵守规则
短时间内# cancelstudentdebt****hashtag 是最突出的峰值
数据集可从 下载

问题是

文本分析是一项复杂的任务，尤其是当我们谈论大量文本时。与数字数据不同，在我们能够提取任何洞察力之前，文本需要以需要大量计算和复杂模型的方式进行转换。

这些信息应该以简单的形式呈现给用户进行分析。用户应该能够与平台交互并快速理解数据。

在这篇文章中，我用 Twitter 数据做了一个例子，但是同样的方法也应用到了用户评论、公司文件或者新冠肺炎科学论文上。

[## 利用拓扑文本分析迎接新冠肺炎公开研究挑战

我对新冠肺炎·卡格尔挑战科学白皮书的分析。这项研究是帮助……

towardsdatascience.com](/using-topological-text-analysis-for-covid-19-open-research-challenge-184d44bb92a6)

解决方案

DataRefiner 是一个简单而强大的平台，用于分析复杂的数据，如客户活动、物联网中的传感器或文本:

[## 物联网、用户活动或文本的数据分析和细分平台

DataRefiner 是一个数据分析平台，有助于理解来自传感器、用户活动或文本的复杂数据…

datarefiner.com](https://datarefiner.com/)

其核心是深度拓扑分析，这种方法不同于传统的商业智能工具，允许以易于理解的形式显示复杂的多维数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

拓扑结构的三维投影

拓扑分析与深度学习和语言模型如 BERT 一起为文本分析提供最佳结果。它有助于将单词分割成主题，并显示主题之间的联系。

#冠状病毒数据

在新冠肺炎疫情几个月后，我们在 DataRefiner 平台上使用深度拓扑分析(DTA)分析了#冠状病毒标签下的 6 556 683 条推文。如果你想亲自尝试一下，可以从 https://datarefiner.com/feed/covid-twitter 的下载数据集——2020 年 3 月 8 日至 4 月 24 日期间发布的英文推特消息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每小时的推文数量。人们在 3 月份谈论#冠状病毒的次数比 4 月份多得多

650 万条推文的拓扑图

当我们将数据集上传到 DataRefiner 平台时，它自动创建了一个推文拓扑图，图上的每个点都至少是一条推文或许多内容非常相似的推文。虽然该系统以完全无人监管的方式分割数据集，但分析师能够放大单个或一群推文，以更好地理解结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

#冠状病毒标签下 650 万条推文的拓扑图

所有的推文被分割成 30 个主题，你可以在地图上看到，加上 170 个主题，全部分组在“一般讨论”集群中。地图上聚类的大小反映了主题的受欢迎程度。相邻的聚类具有相似的内容和关键词。类属类位于结构的中心，而特定和不常见的内容位于边缘。

最大的集群“一般讨论”包含许多较小的主题，这些主题不包含任何特定的关键字集，因此很难分割。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用于文本分析的 DataRefiner 用户界面

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大多数转发都在“新闻:特定患者/病例”群中，其中包括关于鲍里斯·约翰逊(英国首相)和其他确诊病例的新闻。

情感分析

Twitter 情感分析是一个受欢迎的请求，我们在 DataRefiner 平台上提供情感分析。毫不奇怪，“感谢关键员工”占据了积极情绪的首位。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

带有以颜色表示的情绪积极参数的拓扑图

如果我们放大，这是人们在推特上说的话:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所选聚类中最具代表性的推文显示在文本摘要选项卡下，供用户查看。

DataRefiner 情绪分析提供 3 个级别:(负面、中性和正面)。为了比较所有集群的情绪，我们在条形图上绘制了相对积极的分数。通常，中性情绪是最常见的，所以平均积极情绪值在 28%左右是一个相当不错的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不幸的是，或许正如新冠肺炎的话题所表明的那样，负面情绪的水平明显高于正面情绪。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

呆在家里——保持安全

’ '呆在家里—保持安全’的主题出现在负面情绪的顶端。原因之一是人们指责他人违反封锁规则的多条评论。此外，看起来系统接收到了一些评论员支持锁定消息的被动攻击语气。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“呆在家里—保持安全”聚类分析

特朗普总统/ 副总统便士

围绕特朗普总统经常有激烈的讨论。要么是自由派指责政府，要么是保守派指责自由派。无论哪种方式，它总是变得非常混乱:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“特朗普总统/彭斯副总统”聚类分析

赞成锁定/反对锁定讨论— 主动学习案例研究

在这个分析中，我们想知道有多少人赞成一级防范禁闭，多少人反对。

以下是几条反对封锁的推文:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原推文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原推文

专业锁定示例:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原推文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

原推文

主动学习

正如你从上面的推文中看到的，这些例子中的语言可以有很大的不同。事实上，关于这个话题有着更加活跃的讨论。仅仅使用拓扑和聚类是不可能区分这两个类别的，所以我使用了监督机器学习。

为了加快这个过程，我使用了一种主动学习的方法:

用户向大量初始样本添加标签；
分类器学习模型并将其应用于其余数据；
分类器识别最不确定的新样本，并要求用户对它们进行分类。

这个过程重复进行，直到模型学习到一个好的表示。这种方法有助于用户专注于最具挑战性的样本，并加快训练速度。下面的图表解释了这种方法:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主动学习的图示过程。资料来源:blog.cloudera.com

地图上的结果

令我们惊讶的是，大多数赞成锁定的讨论都发生在“呆在家里—保持安全”集群中，这是我们之前讨论过的。在这种情况下，拓扑方法能够以无监督的方式自动识别与 pro-lockdown 相关的语言:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

拓扑图上覆盖的预锁定参数值

为了证明这一点，我们可以将其绘制为每个集群的条形图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

…作为对比，与针对锁定的推文相关的图表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意，这些图的坐标轴刻度是不同的。**与普遍看法相反，反对一级防范禁闭的推文比支持一级防范禁闭的少得多，几乎是 1 : 20。**如前所述，反对和支持封锁的推文被分组在同一个集群“呆在家里——保持安全”。

一段时间内的讨论

这项研究的另一个重要部分是确定每个集群的趋势以及它们如何随时间变化。在这一部分中，我们从分析中移除集群“一般讨论”,并关注由我们的拓扑结构提取的主要主题。这些讨论的堆积面积图如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是所有 30 个集群在 1.5 个月的数据中每个集群的相对 tweets 数。你可以看到讨论中有很多峰值。下面是一个替代视图，显示了最高峰值注释的折线图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里发生了很多事情，所以让我们分别回顾其中的一些集群。

除了名为“纽约的紧急情况”的集群之外，这里还记录了其他紧急情况。其中之一是与解除对也门的封锁有关的重大突破:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

美国疾病控制和预防中心(CDC)在公共沟通和应对危机方面发挥了重要作用:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大多数时候，关于心理健康的讨论相对平静，然而有几个小时，讨论出现了明显的高峰，与 it #cancelstudentdebt 标签相关。这代表了整个分析期间所有集群中最突出的峰值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世卫组织(世界卫生组织)是联合国的一部分，并在疫情期间发挥了重要作用:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与世卫组织和联合国行动有关的讨论反映在许多其他群组中，但大多数重叠出现在“特朗普总统/彭斯”群组内。特朗普总是在推特上讨论，这里有很多趋势和副主题。我强调了两个最重要的问题:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

英国最重要的活动高峰都与鲍里斯·琼森(Boris Jonson)被检测为阳性以及后来他的住院和重症监护治疗有关:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结论

现代自然语言处理和深度拓扑分析的出现让我们对 Twitter 数据挖掘这一热门任务有了新的看法。文本数据包含大量信息，允许用户访问和理解这些信息非常重要。

市场上没有其他方法可以让用户处理如此大量的数据，同时为这些复杂数据集的分析提供如此逼真的视觉效果。这项技术已被证明能为许多行业带来非凡的效果。

原文:

DataRefiner.com 是一家总部位于英国的公司，专注于复杂数据的分析和细分，如用户活动、传感器或文本。DataRefiner 平台是本文讨论的多年提炼方法的结果，但它被广泛应用于各种行业，包括航空、社交网络、欺诈检测等。如需了解更多关于您所在行业的信息，请通过 ed@datarefiner.com 联系我们

机器学习硕士(不会)教你什么

原文：https://towardsdatascience.com/what-a-masters-in-machine-learning-wont-teach-you-b84e5aac8837?source=collection_archive---------61-----------------------

观点和经验

关于攻读机器学习高级学位的常见误解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马修·费尼在 Unsplash 上的照片

介绍

本文向您展示了机器学习中的一些方面和误解，这些方面和误解不一定在高级学位中教授。

这篇文章的内容是基于我的经验，所以一定要考虑到你和其他人的经验可能与我的不同。

尽管如此，享受阅读。

机器学习作为一个学术领域仍然越来越受欢迎，我们可以观察到这一点，因为越来越多的大学和机构允许本科生和学者进入机器学习相关的主题。

攻读机器学习的高级学位可以获得丰富的知识。我也是这么想的，并在 2018 年攻读了计算机视觉和机器学习硕士学位。

在我的学习中获得的理论和实践知识中，有一些学习和发展的关键方面，我认为是能够在商业工作环境中成为一个积极的组成部分所必不可少的。

软件工程

软件工程是一种方法论，它由一组应用于软件开发的原则组成。软件工程原理的例子有分析、设计、测试和实现。

在 2020 年，将软件工程作为一项技能是任何严肃的开发者的基本需要。很多人可能会错误地认为软件工程始于编程或拥有编码技能。但是所有技术领域的经验丰富的开发人员将证明这样一个事实:软件工程更多的是一种实践而不是一种技能。

不幸的是，软件工程不是大多数高级机器学习学位都会教授的技能。

在机器学习的理学硕士课程中，有足够多的内容可以涵盖。有些课程根本没有足够的时间来研究如何开发利用机器学习技术的系统和应用程序。

在我的理学硕士学习中，有软件工程的背景，加上对一些编程语言的了解是必须满足的先决条件。

为什么理解软件工程至关重要？

如果你了解卷积层的内部工作原理，或者能够详细描述各种神经网络架构，那就太好了。

然而，事实是，在现实世界中，机器学习模型存在于 python 脚本和笔记本之外。

你将在学业结束后从事的商业产品以网络、桌面和移动应用的形式出现。作为一名机器学习实践者，了解开发具有嵌入式机器学习模型的软件的标准方法对你的成功至关重要。

在我目前作为一名计算机视觉工程师的角色中，被证明有用的最重要的技能是我掌握新的 OOP 编程语言和开发软件的能力，更具体地说，是 iOS 应用程序。

机器学习模型可以存在于各种系统中，但所有这些系统都有一个标准的方法来开发和维护它们。软件工程教你这些方法。软件工程也充斥着指导软件开发和维护过程的原则，例子有吻、干、 OOP 等。

下面是一个快速、友好的软件工程原理介绍视频。

领导力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

塞缪尔·佩雷拉在 Unsplash 上拍摄的照片

机器学习的领导有多种形式。

对我来说，机器学习中的领导力是指导产品、技术或工具的工作和进展的能力，朝着更好地服务于更广泛的社会并创造积极影响的方向发展。

机器学习领域有明显的领导者，他们在 Medium、Twitter、YoutTube 等社交媒体网络上积累了大量追随者。

他们的大量观众通常是他们在机器学习领域的影响和贡献的结果。

机器学习领域的领导者或影响者不是一夜之间形成的，他们的地位是多年来，有时是几十年来在他们选择的专业领域不断学习和工作的结果。

任何被认为是机器学习领域的影响者或领导者的人几乎都是高智商的人，并且在他们的领域内拥有无可匹敌的专业知识。

机器学习的领导力不是简单的教出来的。它是数小时的学习、工作和对该领域的贡献的积累，再加上一个人学术和职业生涯中的经验教训。

这里有一些我渴望效仿的机器学习领域的领导者和有影响力的人的名字，有些名字你可能很熟悉:

莱克斯·弗里德曼
吴恩达
安德烈·卡帕西
伊恩·古德菲勒
Yann Lecun

人工智能

你不会在你的理学硕士研究中建造天网，以后也可能不会。

有一个常见的误解，即理解机器学习方面的能力与一个人能够开发高级通用人工智能的可能性相关联。

就我而言，我陷入了这种误解，因为我认为，如果我在学术层面上理解机器学习，我就可以制造出与托尼·斯塔克(Tony Stark)的贾维斯(Jarvis)相媲美的个人助理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 indian2web.com

事实是，机器学习的理学硕士揭示了人类在开发能够学习的独立系统方面已经走了多远。然而，更重要的是，理学硕士研究让你意识到，我们还没有触及这个领域的表面，以及突破和进步带来的可能性。

请记住，人工智能作为一个领域只有大约 64 年的历史，人工智能这个术语是在达特茅斯学院的一次会议上正式引入的。我们还有很长的路要走，成为旅程的一部分总是令人兴奋的。

结论

最后，我将总结一下这篇文章的要点。我希望读者理解以下内容:

软件工程在机器学习行业中很重要。了解开发软件的基本原则将为您提供开发健壮和稳定的应用程序的能力，您的机器学习模型驻留在这些应用程序中。
通用人工智能可能还有很长的路要走，但在当前时代，机器学习系统仍然可以实现一些惊人的壮举。
立志成为机器学习领域的领导者，因为领导者的地位可以反映出你在机器学习行业的工作水平和影响力。

希望这篇文章对你有用。

要联系我或找到更多类似本文的内容，请执行以下操作:

订阅我的 YouTube 频道 即将上线的视频内容这里
跟我上中
通过 LinkedIn 联系我

关于我们的预测模型，疫情应该教给我们什么

原文：https://towardsdatascience.com/what-a-pandemic-should-teach-us-about-our-predictive-models-bd08c848d99?source=collection_archive---------71-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:https://www . oxy . edu/sites/default/files/styles/article _ main _ image/public/landing-page/main-images/coronavirus _ 895 x500 . jpg？itok=mAVhejJ6

如果您的组织有一个预测模型，您可能会对它在经济危机期间的准确性感兴趣，就像我们目前在新冠肺炎经历的那样。虽然期望你的模型在 100%的时间里都是完美的是不合理的(记住，模型只是他们被训练的数据的概括)，但是从风险管理的角度来看，有三个主要的教训可以吸取，以确保你的模型不会被不和谐的事件摧毁。

第一课:正态分布很少见

大多数传统的经济模型(特别是输出数字的预测和回归模型，与可能输出“是/否”的分类模型相反)都假设每个变量的数据是正态分布的。这是因为，由于它们的线性关系，每个独立(“预测”)变量的平均值的方差应该解释因变量(“目标”)变量的平均值的方差。然而，现实世界中的经济数据很少遵循正态分布。让我们看一个例子:

如果我们绘制美国粮食生产者价格指数每月百分比变化的直方图，我们会看到数据看起来非常接近代表正态分布的 a:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大多数数据代表以 0%变化为中心的正态分布。然而，有一个观察结果与其他观察结果大相径庭，代表着一个月有 70%的增长。这就产生了一个“长尾”分布，这在构建模型时是很危险的。现在的问题变成了:我们如何处理这个异常值？

一方面，我们知道，在我们开发模型的数据中包含这一观察结果将打破“常态”假设。另一方面，移除异常值意味着我们的模型不会从那个月发生的事情中学习。例如，如果您正在训练一个模型，使用这个粮食 PPI 变量的百分比变化来预测贷款组合的违约率，删除这个异常值意味着您还必须丢弃该月观察到的违约率。你可以希望并祈祷这种影响与其他数据呈线性关系，但正如我们在几乎每张新冠肺炎图表中看到的那样，现实生活中异常值的影响通常是指数的而不是线性的。

处理这种情况的一些可能方法包括:

从模型训练数据中移除异常值，但是让异常值出现时所发生的事情便于模型的最终消费者查看
转向另一种对非线性更稳健的算法(例如，基于树的模型)或考虑贝叶斯方法
在你的参数估计中模拟敏感性(例如，“我们的模型告诉我们，粮食的 PPI 月度百分比变化每减少 1%，月度违约率就会增加 0.05%。如果结果是月违约率上升 0.10%，那会怎么样？”)并将其作为模型输出的附录。

第二课:让你的模型输出概率(引导它！)

术语*“风险”*意味着有不止一种可能的结果，并且每种结果都有特定的发生可能性。如果我们试图对风险建模，那么默认情况下，我们的模型应该返回可能结果的分布以及相关的发生可能性。

从完全确定性模型到概率方法的第一步是引导你的模型。bootstrapping 不是对所有数据拟合一次模型，而是对训练数据进行预定义数量的随机采样(替换)，每个采样的大小等于原始训练数据集。这意味着，如果我们定义我们需要 1，000 个引导样本，我们可以创建 1，000 个不同的模型，每个模型都根据原始训练数据集的稍微不同的变体进行训练。此外，我们对模型中的每个独立变量都有 1000 个不同的系数估计。

在我们之前的例子中，我们使用粮食 PPI 的月度百分比变化来预测贷款组合的月度违约率。如果我们采用 bootstrap 方法，为我们的自变量绘制 1000 个不同的参数估计值，它可能看起来像这样:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由于自举方法为我们的参数估计生成了可能值的分布，我们可以得出如下结论:

“我们有 95%的信心认为，我们违约率的粮食 PPI 百分比变化的权重在-0.043 到-0.035 之间。”

另一个人说:

“粮食 PPI 的月度百分比变化每下降 1%，我们就有 95%的信心认为，其影响将是月度违约率增加 0.043%至 0.035%。”

虽然 0.043%和 0.035%之间的差异可能看起来很小，但它相当于 100 亿美元贷款组合中的 800，000 美元差异。当您添加额外的独立变量时，这种效应会加剧，每个独立变量都有自己的可能参数估计分布。

第三课:数据为王

自 2000 年以来，我们已经经历了三次经济灾难:网络泡沫、2008 年房地产危机和现在的新冠肺炎。也许你在 2000 年甚至 2008 年都没有收集数据，但希望你现在正在收集。这可能是你第一次有机会在未来的所有模型中使用经济衰退的数据。

此外，频率也很重要。如果你只是每季度收集一次数据，就没有办法使用这些数据进行月度预测。相反，您总是可以将高频率数据聚合到较低的频率(如果您每月收集数据，您可以进行季度预测)。

最后，以更高的频率收集数据和建模会减少数据中出现明显异常值的机会。如果你有一个糟糕的年份，并且每年都在收集数据(只有一个数据点来代表那个糟糕的年份)，那么你就要决定如何处理这个异常值。然而，如果您在一年中经常收集数据，那么糟糕的一年可能不再代表异常值，而是符合更适合建模的分布。

原载于【https://www.ketchbrookanalytics.com/】

如何拉平信息曲线？

原文：https://towardsdatascience.com/what-about-flattening-the-infodemic-curve-a19ccac7199a?source=collection_archive---------34-----------------------

利用道德人工智能和以人为中心的产品设计来治疗数字经济的慢性疾病

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

伊利亚·安东内尔在 Unsplash 上的照片

与迅速发展的冠状病毒流行病交织在一起的是一种可能证明同样致命的阴险的信息流行病。2020 年 2 月，世界卫生组织总干事 Tedros Adhanom Ghebreyesus 首次创造了这个术语:

“……我们不仅仅是在抗击流行病；我们在与信息时代作斗争。假新闻比这种病毒传播得更快更容易，也同样危险。”

这种比较既不是耸人听闻，也不是夸张——社会现象的传播是如此强大， 2016 年的研究显示它可以完全遵循追踪流行病传染的相同模型。

这两种学说相互影响的例子包括大量被揭穿的新闻文章，从神奇的治疗和预防方法，如食用绿色草药、煮生姜或维生素 D ，到虚假声称疫苗治愈了数百名患者。

与在短短几个月内出现并在世界上造成严重破坏的冠状病毒不同，信息流行病学深深植根于数字经济的结构中。

但是就像病毒一样，每个人都有责任阻止它的传播。

假新闻的味道

在我们继续之前，有必要解构一下“假新闻”的概念。《联合国教科文组织新闻教育和培训手册》指出这个术语既模糊又容易被政治化，并建议从意图和事实真相两个维度对假新闻进行更有帮助的分类，从而得出以下有用的定义

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源:firstdraftnews.org

虚假信息:故意制造的虚假信息，以伤害个人、社会团体、组织或国家
误传:虚假信息，但并非有意制造伤害
不良信息:基于现实的信息，用于对个人、社会团体、组织或国家造成伤害。

以病毒情况为背景，虚假信息的一个例子是一个草药商发布消息说吃他们的草药可以防止感染新冠肺炎病毒。相比之下，目睹某人晕倒在推特上说这是一个与病毒有关的死亡，而没有进行适当的事实检查，因为当时被抓住了，这将是错误的信息。入侵政客的电子邮件以破坏其竞选活动将是错误信息。

所有这些都是有害的，尤其是当被今天的技术放大时。但是了解你的敌人是走向胜利的第一步。

追踪源头

但是我们是怎么到这里的呢？我们分三部分对此进行研究:

失去控制和平衡的平台，
现在为上瘾而设计的用户界面，以及
两者都以消费者为猎物，天生的认知弱点助长了无情的商业模式，这种模式会让人上瘾并过滤随之而来的泡沫。

检查我们向数字平台的迁移

虽然各国的研究结果不同，从我们在公共场所看到的情况来看，我们对屏幕的痴迷似乎无处不在，但数据显示，直到 2018 年，社交媒体才取代纸质报纸成为美国的主要新闻发布平台。这对我们消费的内容的集中度有着深远的影响。

经典报纸的性质意味着购买报纸的读者可以接触到相对均匀的内容分布——本地、国外和世界新闻、观点和社论、娱乐和体育版以及分类广告的混合。如果一份普通的报纸刊登 100 个故事，读者可能只对其中的 10 个感兴趣。但是由于媒体的设计，他或她会暴露在所有的 100 个人面前。

但是数字平台改变了分销的动力、新闻经济学及其聚合方法、为今天的信息时代奠定了基础:

任何有网络连接的人都可以发布新闻，这改变了新闻的面貌。尽管对独立新闻业的信任正在下降，但直到最近，报纸一直扮演着(尽管不完美)真理的守门人，只发布被认为可信的人的观点。
然而，数字新闻的经济学是严酷的——与印刷视图相比，数字视图仅带来一小部分收入，加上越来越多的注意力转向非传统新闻来源，导致新闻收入在过去十年中下降了 60%以上。
进入推荐引擎。市场已经从新闻转移到注意力，随着令人讨厌的新闻经济学推动公司最大化眼球时间(从而最大化广告收入)，推荐引擎的出现提供了手段。由为每个人优化的算法编辑器驱动，他们只有一个任务:学习让我们上瘾的独特鸡尾酒。然后不断喂给我们。

英国电信监管机构 Ofcom 对新闻消费的研究将这一结果总结为人们在网上获取新闻的三个明显趋势:

他们获取新闻的主要设备是他们的智能手机。
他们获取大部分新闻的主要平台是社交媒体。
他们对待新闻的主要心态现在是被动的。

“卷轴锁”:无限卷轴把我们锁进系统 1 思维

这些力量注定与一个普遍的特征不谋而合，这个特征将形成今天新闻体验的主干。

2006 年，领先的技术工程师阿萨·拉斯金设计了无限滚动，允许用户连续上下翻页，而无需点击“刷新”或“下一页”。虽然最初的设计是为了创造一种无缝的体验，但他表示，这种做法产生了意想不到的副作用，“没有给你的大脑时间来跟上你的冲动”，从而让用户看手机的时间远远超过了必要的时间。

作为 Mozilla 和 Jawbone 的前雇员， Aza 现在后悔他的创作，这已经成为许多内容平台的核心特征，并被视为高度习惯形成。

虽然我们可能会责备周围的人“有更多的意志力”来克服在消费内容时被引入无益的思维模式，但 Aza 提醒我们，这不是一场公平的战斗:

“在你手机的每一个屏幕后面，通常都有差不多 1000 名工程师在研究这个东西，试图让它最大限度地上瘾。”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:照片来自 Pexels ，来自我在【2020 年悉尼高德纳分析峰会上展示的一张幻灯片

结合推荐引擎，最终结果是设计成瘾，Natasha Schull，一本同名书籍的作者，在描述这一现象时，将吃角子老虎机和其他系统如何被设计成将用户锁定在成瘾循环中进行了比较:

“脸书、Twitter 和其他公司使用类似于博彩业的方法让用户留在他们的网站上……在网络经济中，收入是消费者持续关注的函数——以点击次数和花费的时间来衡量。”

利用我们的认知弱点

假新闻吸引力背后的另一个因素是被称为确认偏差的认知心理学现象。这是指人们倾向于接受证实他们先前存在的信念的信息，而忽略挑战他们的信息。这种有偏见的信息处理方法在很大程度上是无意的，如果它符合人们现有的信念，就会导致人们更容易接受“假新闻”。

认知偏见本身是危险的，但我们现在有了一个完整的图景:

我们获得了通过数字新闻平台无法获得的假新闻，在绕过我们强大的深思熟虑的思维过程的用户界面功能环境中消费假新闻，通过推荐引擎重复获得更多相同的内容，并通过确认偏见将我们自己推入更深的回音室。

但还是有希望的。假新闻是设计出来让人上瘾的，也是设计出来可以平衡的。为观点而优化的人工智能使信息变得致命，而为真理而优化的人工智能可以阻止它的传播。

新闻消费的另一种未来

信息经济学是复杂的。多方面的问题很少能找到简单的解决办法，而且已经有一系列举措试图解决这个问题。波因特列出了这些措施，其中包括促进新闻素养，建议人们培养不同的观点，保持高质量的新闻报道，甚至法律和监管行动。

教育和制度都是必要的，但不是充分的。教育需要时间，我们将在下面看到，目前的措施正在努力解决这个问题。我们还应该警惕的是，严厉的监管可能会带来滥用的风险，合法的言论和新闻报道可能会受到武断的“真实”标准的审查。

除了这些措施，我们还需要修理机器。

设计真理的现代守门人

将我们的注意力转向未来——当今世界大部分人消费新闻的镜头是服务新闻的技术产品和社交媒体平台，以及驱动它们的算法。

在寻找解决方案时，我们的第一本能可能是用人工智能来对抗人工智能——具有检查和监管功能的自然语言处理和机器学习模型是否足以阻止假新闻的传播？

标记新闻标准、政治偏见和消费者信任以训练这种假新闻识别模型的基线数据集存在(例如这里的和这里的)。然而，这些步骤有其自身的风险。误报(即错误地标记真实的新闻文章)和有偏见的训练数据(就其本身而言是一个完整的主题)使得这些工具单独使用时备受争议。只有当一个人处于循环中时，这些方法才会发挥作用。

如果新闻产品和平台是我们的前线，那么我们对 AI 的部署必须在以人为中心的产品设计范围内。复制当我们观察到犯罪时呼叫紧急服务的真实体验，平台可以设计成具有反馈回路等功能，以抑制信息传播并促进可信的新闻。

脸书已经试验并实施了此类措施来打击假新闻。这种方法有两个方面:

解决假新闻的方法是让假新闻报道变得更容易，让独立的事实核查机构来核查内容，并标记有争议的文章以限制其传播
推广可信来源通过提高来自社区评定为可信来源的文章的可见性来补充这一点。

众包内容标记、让可信的事实核查人员参与进来，以及抑制有争议内容的流动和增加可信内容的流动的能力，这些结合在一起，是一种强大的积极力量。

用愚蠢的卷轴换取深思熟虑的参与

收回对我们系统 2 思维能力的控制的一个简单方法是在我们的用户界面上换出无限滚动。但是我们用什么来代替它呢？

卡塔尔计算研究所(QCRI)的团队通过项目 Tanbih 提供了一个令人信服的建议。Tanbih 在阿拉伯语中大致翻译为警报或预防的意思，是一个新闻聚合器，提供 产品在线演示 *。*界面呈现了关于同一事件的多个故事，可以通过左右滑动来访问，让读者对每个展开的事件获得不同的视角。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过反映“故事的更多方面”和减缓消费，这个界面允许读者更深入地参与内容并得出自己的结论。

Tanbih 的读者参与方法也明确了每条新闻背后消息来源的立场和偏见。每个故事都有一个可点击的来源图标(如 CNN，每日镜报等。)，它提供了一个全面的仪表板，可以精确地评估源的位置。这些仪表板元素的选择如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:来自 Tanbih 演示的新闻源的各种仪表板元素的屏幕截图

QCRI NLP 教授 Preslav Nakov 博士在一次题为“在假新闻被写出来之前检测假新闻”的研讨会上提出了这一想法。

QCRI 和麻省理工学院的计算机科学和人工智能实验室(CSAIL)合作，努力的中心是从事实核查转向来源核查。这种方法的逻辑是合理的:

目前，大多数事实核查工作都是针对个人索赔，这是一个耗时且无法扩展的解决方案。2018 年，脸书宣布计划将他们的版主人数增加到 20000 人。这是一个令人钦佩的举动，但这一数字将占他们劳动力的 45%以上，可能会极大地摆脱大型科技公司的商业模式。对于无数的小型平台来说，这也是遥不可及的。
此外，检查每篇文章是一个繁琐的过程。在核实一篇文章的时间里，它可能已经传遍了全世界。
更可行的方法是提前检查消息来源，这样就产生了研讨会的名称。简单地说，Ramy Baly 是涵盖这项研究的论文的第一作者:

“如果一个网站以前发布过假新闻，他们很有可能会再次发布。”

大规模人群媒介素养

从平台到用户体验，我们现在到了消费者。虽然媒体素养的呼声不绝于耳，但我们实际上做得如何呢？我们能做得更好吗？

一直在努力将此纳入我们的学校，但差距很大，进展也不均衡。假新闻和学校批判性读写技能教学委员会 2018 年的一份报告发现英国只有 2% 的儿童和年轻人拥有辨别新闻故事真假所需的批判性读写技能。在其他地方，一份 2020 年 1 月的美国媒体素养政策报告显示，只有 14 个州在 K-12 学校的媒体素养教育法方面取得了有意义的进展。

成人扫盲——可以说是更紧迫的事情——描绘了一幅类似的模糊画面。有网上资源，这是一个积极的信号，成熟的课程可以在知名平台上找到，比如 Coursera 和 edX。但兴趣不足，似乎有更多的人希望实现人工智能，而不是学习如何明智地使用它。对同一个平台上流行的深度学习课程的兴趣超过新闻课程 25 倍。

也许需要一种不同的策略来增强我们对信息流行病的免疫力。用在线课程来解决问题从来都不是万灵药，越来越多的证据表明，它们伤害了那些最需要的人，因为他们需要高度的自我激励和自我调节。前面提到的 Tanbih 项目的一个更雄心勃勃的扩展教育的方式是在新闻上覆盖一个宣传探测器，在文章本身上突出显示说服技术的每个实例(例如加载的语言、口号和宣传车)。在读者使用这种帮助一段时间后，他或她会自动发现这些技术，即使没有帮助。

或者我们可以转而玩游戏:波因特的综述游戏，教用户如何识别错误信息，既有趣又有教育意义。它们涵盖了所有的坏消息，玩家通过角色扮演假新闻制作人来学习假新闻网站的策略，还有用真实新闻文章挑战玩家的假新闻。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

坏消息和 Fakey 截图，基于网络的互动教育工具，旨在提高媒体素养

综上所述，这幅图有一个美丽的讽刺。

当我们窥视信息时代的内幕时，我们最初可能会被当今复杂的数字服饰弄得眼花缭乱。但是坚持我们的注视，我们开始看到一些熟悉的东西。

现代平台的运作方式可能是仅仅一代人之前的印刷领导者无法想象的。它们建立在生命周期非常短的框架上，配备了工业 4.0 角色，并利用了最先进的人工智能。但他们也兜了一圈:他们发现成为今天的新守门人意味着什么。这场斗争最终是一场争取关注的斗争，一场争取真理的斗争。

因此，我们的武器是新的，但我们的战斗是旧的。我们需要受过教育的买家、负责任的审查和平衡的观点。我们的平台应该平衡商业价值和道德设计。在考虑人工智能的强大工具时，我们需要记住，它们的核心人工智能系统是优化工具，我们需要注意我们在优化什么。

上面显示的所有图像仅用于非商业说明目的。本文是以个人身份撰写的，不代表我所工作或隶属的组织的观点。

三星的 Ballie 能找到哪些 AI 技术？

原文：https://towardsdatascience.com/what-ai-techniques-can-be-found-in-samsungs-ballie-d379864a6132?source=collection_archive---------46-----------------------

我们正在剖析三星的 Ballie 功能和能力，以及人工智能在其中的位置。

介绍

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Sebastian Seung 在 CES 2020 上介绍 Ballie

在 CES 2020 上，三星提出了对个人家庭助理的重新定义。

他们称之为贝利。

这是理所当然的，因为这个家真的滚滚而来，有着充满活力的太阳般的黄色。

Ballie 是一款由人工智能驱动的手机助手。

三星展示 Ballie 特征的短片(下面几段)展示了 Ballie 如何与人类、环境和宠物狗互动。

该视频演示了可以通过人工智能和机器学习技术实现的各种功能。

本文探索了嵌入在 Ballie 中的 AI 和 ML 技术；以及每种技术的摘要。本文还包括详细介绍实现策略的研究论文，供更实用的读者参考。

请随意观看下面的演示视频。

侦查

我们将从 Ballie 的探测能力开始。

从演示视频中，我们可以得出在 Ballie 的嵌入式人工智能中实现的检测系统的类型。

目标检测
人脸检测
变化检测

目标检测和识别

Ballie 能够探测人类，这些探测能力也适用于动物。

我们可以更进一步说，Ballie 的检测系统非常健壮。

为了像演示视频中描述的那样实用，它必须能够识别各种家居用品。

那可是一大堆训练数据啊！

在我们进一步讨论之前，让我们定义一下什么是对象检测。

目标检测包含在计算机视觉中，概括了系统识别图像中所需目标的存在和位置的能力。

对象检测过程的输出是一个图像，在感兴趣的对象周围有边界框，并指示对象的类实例，如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【CES 2020】贝利的华尔兹|三星视频。三星左:巴利认一个人。右图:贝利认出了一只狗

在探测过程开始之前，我们必须识别实际的物体。这个过程被称为对象识别。

物体识别的技术定义如下:

发现与目标对象相关联的类的过程。对象识别和检测是具有相似最终结果和实现方法的技术。

有几种方法来实现对象识别和检测。这里有几篇研究论文提供了实现策略的方法。

[## 更快的 R-CNN:用区域提议网络实现实时目标检测

最先进的目标检测网络依靠区域提议算法来假设目标位置…

arxiv.org](https://arxiv.org/abs/1506.01497) [## 你只看一次:统一的，实时的对象检测

我们提出了 YOLO，一种新的目标检测方法。先前关于目标检测的工作将分类器重新用于执行…

arxiv.org](https://arxiv.org/abs/1506.02640)

变化检测

短视频演示中，有一个场景是宠物狗打翻了一碗麦片*(坏狗)*。

Ballie 然后继续自动使用机器人真空吸尘器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【CES 2020】贝利的华尔兹|三星

让我们推理一下变更检测将如何在 Ballie 的内部系统中运行。

Ballie 大概已经注意到环境状态从理想状态的变化。

在 Ballie 的记忆中，可能有每个房间在其环境中的理想状态的快照。因此，对该快照的偏差进行处理。在这种情况下，偏差要求采取行动来启用清洁机器人。

在这个特定的场景中，可能还会发生更多的事情。但是现在，我们将把重点放在探测环境变化的能力上。

图像中的变化检测是定位和识别图像序列中的变化的过程。当检测视频资源而不是图像的变化时，您可以简单地利用连续的帧作为变化检测对。

以下是使用 ML 和深度学习技术实现变化检测的方法。

[## 学习测量变化:场景变化检测的全卷积暹罗度量网络

场景变化检测的一个关键挑战问题是由变化的照明、阴影…

arxiv.org](https://arxiv.org/abs/1810.09111) [## ECCV 2018 年奥运会开放存取知识库

ChangeNet:用于视觉变化检测的深度学习架构 Ashley Varghese，Jayavardhana Gubbi，Akshaya…

openaccess.thecvf.com](http://openaccess.thecvf.com/content_eccv_2018_workshops/w7/html/Varghese_ChangeNet_A_Deep_Learning_Architecture_for_Visual_Change_Detection_ECCVW_2018_paper.html)

追踪和跟踪

Wallie 的，抱歉我指的是 Ballie 的跟踪和跟随能力，是家庭助理设备的一个可区分的属性。

像 Alexa 和 Google Home 这样的应用被限制在固定的位置，而 Ballie 可以跟踪和跟随目标(同时尊重个人空间，显然是)。

**跟踪:**一种在一段时间内在一系列图像中识别、检测和跟踪感兴趣的物体的方法。在许多监控摄像机和交通监控设备中可以找到系统内跟踪的应用。

但我不太清楚的是，Ballie 如何在一个房间里处理多个人，然后选择跟随谁？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左:【CES 2020】Ballie |三星的华尔兹。右图:三星 Ballie 在 CES 2020 上的演示

姿势估计/活动识别

姿态估计是从图像或图像序列中导出身体的重要身体部分和关节的位置和方向的过程。

人类活动识别(HAR)是利用感觉数据识别个体所采取的动作的过程。在 Ballie 的例子中，很明显它使用了视觉传感器(摄像头)，但它也可以利用雷达和音频传感器。

通过识别一个人可以做出的各种姿势，我们可以创建一个活动数据库，其中每个活动都与一段时间内做出的各种不同姿势相关联。然后，有可能训练机器学习模型，以便能够基于某些姿势来推断活动分类。

因此，我们可以推断，Ballie 识别其主人正在表演瑜伽的能力(图片在下方)，是因为在其人工智能系统中，有经过各种姿势及其相关活动训练的 ML 模型。

因此，Ballie 能够检测瑜伽活动和问候手势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【CES 2020】贝利的华尔兹|三星

让我们来看看机器学习方面的东西。

卷积神经网络(CNN)可以用于姿态估计和 HAR。

HAR 的 CNN 能够发现和学习与特定活动相关联的姿势中的重复出现的模式。因此，HAR 问题是作为一项分类任务提出来的。

另一方面，一个活动也可以被看作是一段时间内一系列姿势的组合。

为了让 Ballie 能够关联姿势的时间信息来推断活动，它必须利用递归神经网络(RNN)。

RNNs 可以提取与接收到的视觉传感数据相关联的特定时间步长的特征。

下面是使用 ML 和深度学习技术实现姿态估计的方法。

[## 卷积姿态机器

姿态机器为学习丰富的隐式空间模型提供了顺序预测框架。在这部作品中，我们展示了…

arxiv.org](https://arxiv.org/abs/1602.00134)

结论

我们在很短的时间内经历了很多，毫无疑问，Ballie 可能会实现更多的人工智能功能，并且在我们看到测试版发布之前会经历几次迭代。

还有更多我没有涉及的功能，比如 Ballie 的自动语音识别或者它的硬件控制。快速的 google 搜索将提供一些关于所提到的技术的描述和实现策略的信息。

如果 Ballie 向公众发布，它可能会成为头条新闻，并改变个人处理日常活动的方式。

我喜欢它的移动性和在没有人类控制者的情况下执行任务的能力— 经过再三考虑，我可能会关闭这一功能。

如果你有兴趣了解你可能是什么样的人工智能爱好者，并学习一些人工智能/人工智能术语，那么请阅读下面的文章。

[## 你是什么类型的人工智能爱好者？

根据人工智能领域内的常用术语，衡量你在人工智能爱好者等级中的排名。

towardsdatascience.com](/what-type-of-artificial-intelligence-enthusiast-are-you-32ca88c01a7e)

如果你喜欢这篇文章，并想阅读我的更多内容，请关注我，或者你可以通过 LinkedIn 与我联系。

AlexNet 给深度学习世界带来了什么

原文：https://towardsdatascience.com/what-alexnet-brought-to-the-world-of-deep-learning-46c7974b46fc?source=collection_archive---------17-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由 Unsplash 上的 Pietro Jeng 拍摄

技术和解释

花一分钟时间来理解彻底改变深度学习方法的琐碎技术和神经网络架构

TAlex net 卷积神经网络(CNN)于 2012 年推出。从那时起，深度卷积神经网络的利用已经飙升到几个机器学习解决方案利用深度 CNN 的程度。

本文将介绍研究论文的基本发现和讨论要点，其中介绍了 AlexNet 架构。

在本文中，您可以找到以下内容:

介绍 AlexNet 的研究论文分解
Alex net 架构的图示
Alex net内层成分表
对各种技术的解释，如剔除、数据扩充、标准化等。

所有级别的机器学习和深度学习实践者都可以遵循本文中介绍的内容。

介绍

AlexNet 卷积神经网络架构在论文 ImageNet 分类与深度卷积神经网络中提出。该论文由 Alex Krizhevsky、Ilya Sutskever 和深度学习教父 Geoffery Hinton 撰写。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左:亚历克斯·克里热夫斯基，中:伊利亚·苏茨科夫，右:杰弗里·辛顿

该论文的作者旨在表明图像分类的琐碎任务可以通过使用深度卷积神经网络、有效的计算资源和常见的 CNN 实现技术来解决。

论文证明了一个由 5 个卷积层和 3 个全连接层组成的深度卷积神经网络可以高效、准确地对图像进行分类。

一种深度卷积神经网络被称为 AlexNet，它被引入 ImageNet 大规模视觉识别挑战(ILSVRC 2012 竞赛)，在那里它为深度学习领域开创了先例。

好时机

在 AlexNet 推出之前，许多传统的神经网络和卷积神经网络在解决数据集上的图像分类方面表现良好，如 MNIST 手写字符数据集。但是为了解决日常生活中物体的一般图像分类的问题，需要更大的数据集来说明图像中出现的物体的相当大的多样性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MNIST 数据集插图

通过引入大型数据集(如 ImageNet，包含 1500 万幅高分辨率图像中的 22，000 个类)解决了缺乏强大数据集的问题。

引入 AlexNet 之前的另一个限制是计算机资源。

增加网络的容量意味着增加网络的层数和神经元的数量。

当时，训练这样一个网络的计算资源是稀缺的。但是优化的 GPU 的引入使得训练深度常规神经网络成为可能。用于训练 AlexNet CNN 架构的特定 GPU 是英伟达 GTX 580 3GB GPU 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

英伟达 GTX 580

AlexNet 架构的独特特征

整流线性单位(ReLU)

为了训练神经网络内的神经元，标准做法是利用双曲正切或 sigmoid 非线性，这是 goto 激活函数，用于模拟 CNN 内的内部神经元激活。

AlexNet 继续使用校正线性单位，简称 ReLU。ReLU 是由 Vinod Nair 和 Geoffrey E. Hinton 于 2010 年在这篇论文中介绍的。

ReLu 可以被描述为对先前卷积层的输出执行的传递函数运算。ReLu 的使用确保了神经元内的正值被保持，但是对于负值，它们被箝位到零。

使用 ReLu 的好处是，与其他标准非线性技术相比，它能够加速训练过程，因为梯度下降优化以更快的速度发生。

ReLu 层的另一个好处是它在网络中引入了非线性。它还消除了连续卷积的关联性。

绘图处理器

在介绍 AlexNet 神经网络架构的原始研究论文中，模型的训练是利用两个具有 3GB 内存的 GTX 580 GPU 进行的。

GPU 并行化和分布式训练是当今非常常用的技术。

根据从研究论文中获得的信息，该模型在两个 GPU 上进行训练，其中一半的模型神经元在一个 GPU 上，另一半在第二个 GPU 的内存中。GPU 之间相互通信，不需要通过主机。GPU 之间的通信被限制在层的基础上；因此，只有特定的层可以相互通信。

例如，AlexNet 网络第四层中的输入是从当前 GPU 上第三层的一半特征图中获得的，而另一半的剩余部分是从第二个 GPU 中获得的。这将在本文后面更好地说明。

局部反应标准化

标准化是将一组数据点放在一个可比较的基础或尺度上(这是一个过于简单的描述)。

CNN 中的批量标准化(BN) 是一种通过将一批输入数据转换为均值为零、标准差为一的方式来标准化和规范化输入的技术。

许多人都熟悉批量标准化，但 AlexNet 架构在网络内使用了一种不同的标准化方法:本地响应标准化(LRN)。

LRN 是一种最大限度地激活邻近神经元的技术。相邻神经元描述了共享相同空间位置的多个特征图中的神经元。通过标准化神经元的激活，具有高激活的神经元被突出显示；这基本上模仿了神经生物学中发生的侧抑制。

LRN 在现代 CNN 架构中没有被广泛使用，因为还有其他更有效的归一化方法。虽然，LRN 的实现仍然可以在一些标准的机器学习库和框架中找到，所以请随意试验。

重叠池

CNN 中的池图层本质上封装了要素地图中一组像素或值内的信息，并将它们投影到较小尺寸的格网中，同时反映原始像素集中的一般信息。

下图提供了一个池的示例，更具体地说是最大池。最大汇集是子采样的变体，其中落在汇集窗口的感受域内的像素的最大像素值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

贾斯汀·弗朗西斯在奥里利的最大池插图

在介绍 AlexNet CNN 架构的文章中，介绍并利用了一种不同的池方法。重叠池。在传统的汇集技术中，从一个汇集窗口的一个中心到另一个中心的步幅被定位成确保来自一个汇集窗口的值不在随后的汇集窗口内。

与传统的池化方法相比，重叠池化利用的跨度小于池化窗口的尺寸。这意味着后续汇集窗口的输出封装了来自已经汇集了不止一次的像素/值的信息。很难看出这样做的好处，但根据这篇论文的发现，重叠池降低了模型在训练期间过度适应的能力。

[## (你应该)理解深度学习中的子采样层

平均池、最大池、子采样、下采样，这些都是你在深度学习中会遇到的短语…

towardsdatascience.com](/you-should-understand-sub-sampling-layers-within-deep-learning-b51016acd551)

数据扩充

另一种减少网络过度拟合机会的标准方法是通过数据扩充。通过人为扩充数据集，可以增加训练数据的数量，这反过来又会增加网络在训练阶段所暴露的数据量。

图像的放大通常以变换、平移、缩放、裁剪、翻转等形式出现。

原始 AlexNet 论文中用于训练网络的图像在训练阶段被人工增强。所使用的增强技术是图像中像素强度的裁剪和改变。

训练集中的图像从其 256×256 的尺寸被随机裁剪，以获得 224×224 的新裁剪图像。

增强为什么会起作用？

事实证明，对训练集进行随机扩充可以显著降低网络在训练过程中过度适应的可能性。

增强图像仅仅是从原始训练图像的内容中得到的，那么为什么增强效果如此之好呢？

简单地说，数据扩充增加了数据集中的不变性，而不需要寻找新的数据。网络对看不见的数据集进行良好概括的能力也增加了。

让我们举一个非常字面的例子；“生产”环境中的图像可能并不完美，有些可能会倾斜、模糊或只包含一些基本特征。因此，针对包括训练数据的更稳健变化的数据集来训练网络将使训练好的网络能够更成功地对生产环境中的图像进行分类。

拒绝传统社会的人

辍学是许多深度学习从业者都很熟悉的一个术语。Dropout 是一种用于降低模型过度拟合可能性的技术。

Dropout 技术的工作原理是在 CNN 层内的神经元激活中增加一个概率因子。这个概率因子向神经元指示在电流前馈步骤期间以及在涉及反向传播过程期间被激活的机会。

丢弃是有用的，因为它使神经元能够减少对相邻神经元的依赖性；这样一来，每个神经元都会学到更多有用的特征。

在 AlexNet 架构中，在前两个完全连接的层中使用了 dropout 技术。

使用丢弃技术的一个缺点是它增加了网络收敛的时间。

虽然，利用辍学的优势远远超过其缺点。

[## 在 TensorFlow 和 Keras 中理解和实现辍学

辍学是一种常见的正规化技术，是杠杆在国家的艺术解决方案，以计算机视觉…

towardsdatascience.com](/understanding-and-implementing-dropout-in-tensorflow-and-keras-a8a3a02c1bfa)

AlexNet 架构

在本节中，我们将了解 AlexNet 网络的内部组成。我们将关注与这些层相关的信息，并分解每个重要层的内部属性。

AlexNet CNN 架构由 8 层组成，其中包括 5 个 conv 层和 3 个全连接层。一些 conv 层由卷积层、池层和归一化层组成。

AlexNet 是第一个采用连续卷积层(conv 第 3、4 和 5 层)架构的架构。

网络中的最终全连接层包含 softmax 激活函数，该函数提供表示 1000 个类的概率分布的向量。

Softmax 激活功能

Softmax 激活用于导出输入向量中一组数字的概率分布。softmax 激活函数的输出是一个向量，其中它的一组值表示一个类或事件发生的概率。向量中的值加起来都是 1。

除了最后完全连接的层之外，ReLU 激活功能被应用于网络中包括的其余层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简化的 AlexNet 神经网络多 GPU 架构

上面 AlexNet 网络的图示被分成两个分区，因为该模型是在两个 GTX 580 GPU 上训练的。虽然网络跨两个 GPU 划分，但从图中我们可以看到 conv3、FC6、FC7 和 FC8 层中的一些跨 GPU 通信。

下表列出了网络中各层的一些特征和属性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AlexNet 架构属性表

在原始论文中，输入层的尺寸为 224 x 224 x 3，但在上表中，输入层的输入尺寸为 227 x 227 x 3，这种差异是由于在网络的实际训练过程中出现了一些未提及的填充，这些填充没有包括在已发表的论文中。

结论

AlexNet 的推出和成功改变了深度学习的格局。在其在 ILSVRC’12 竞赛中的胜利表现之后，接下来几年的获奖架构都是深度卷积神经网络。

AlexNet 的一个变体以不同的超参数赢得了 ILSVRC’13 竞赛。2014 年、2015 年和 2016 年的获奖架构采用了更深的网络和更小的卷积内核/滤波器。

理解 AlexNet 的架构很容易，甚至更容易实现，特别是使用像 PyTorch 和 TensorFlow 这样的工具，这些工具在其库和框架中包含了一个架构模块。

在以后的文章中，我将展示本文中介绍的 AlexNet 架构如何在 TensorFlow 中实现和使用。

我希望这篇文章对你有用。

要联系我或找到更多类似本文的内容，请执行以下操作:

订阅我的 YouTube 频道 视频内容即将上线这里
跟着我上中
通过 LinkedIn 联系我

[## 根据吴恩达(斯坦福深度学习讲座)，你应该如何阅读研究论文

关于如何通过知名人士发表的研究论文获取知识的指导。

towardsdatascience.com](/how-you-should-read-research-papers-according-to-andrew-ng-stanford-deep-learning-lectures-98ecbd3ccfb3) [## 人工智能中的算法偏差需要讨论(和解决)

你在这件事上有责任…

towardsdatascience.com](/algorithm-bias-in-artificial-intelligence-needs-to-be-discussed-and-addressed-8d369d675a70)

scikit 中 fit_transform()和 transform()背后的内容和原因-学习！

原文：https://towardsdatascience.com/what-and-why-behind-fit-transform-vs-transform-in-scikit-learn-78f915cf96fe?source=collection_archive---------1-----------------------

Scikit-learn 是 Python 编程语言中最有用的机器学习库。它有很多工具来建立机器学习模型，并且非常容易使用。然而，我们有时会努力理解一些非常简单的方法，这些方法通常是我们在构建机器学习模型时经常使用的。

一种这样的方法是 fit_transform() ，另一种是 transform() 。两者都是在缩放或标准化我们的训练和测试数据时几乎一起使用的类**sk learn . preprocessing . standard scaler()**和的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tekton 的照片来自 Unspalsh

写这篇博客的动机来自于在一个关于机器学习的在线课程中发布的关于这些方法的多个问题。

问题是:

为什么我们对训练数据使用 fit_transform()，而对测试数据使用 transform()。

我们都知道，我们对训练数据调用 fit_transform()方法，对测试数据调用 transform()方法。但实际问题是我们为什么要这样做？我的动机是以尽可能简单的方式解释这个简单却令人困惑的观点。所以让我们开始吧！

假设我们正在构建一个 k-最近邻模型，并且我们必须缩放我们的特征。最常见的扩展特性的方法是通过 scikit-learn 的 StandardScaler 类。

注:

数据标准化是重新调整属性的过程，使其均值为 0，方差为 1。
执行标准化的最终目标是在不扭曲数值范围差异的情况下，将所有特征降低到一个共同的尺度。
在 sk learn . preprocessing . standard scaler()中，居中和缩放在每个特征上独立发生。

执行标准化的神奇公式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

现在让我们深入了解这个概念。

fit_transform()

fit_transform()用于训练数据，因此我们可以缩放训练数据，还可以了解该数据的缩放参数。在这里，我们建立的模型将学习训练集特征的均值和方差。然后，这些学习到的参数被用于调整我们的测试数据。

这里到底发生了什么！🤔

拟合方法是计算数据中每个特征的平均值和方差。变换方法是使用各自的平均值和方差对所有要素进行变换。

现在，我们希望将缩放应用于我们的测试数据，同时不希望我们的模型有偏差。我们希望我们的测试数据对于我们的模型来说是一个全新的和令人惊讶的集合。在这种情况下，transform 方法可以帮助我们。

相关文章—想了解多重共线性？读到这里

变换()

使用转换方法，我们可以使用从我们的训练数据计算的相同的均值和方差来转换我们的测试数据。因此，我们的模型使用训练数据学习的参数将帮助我们转换我们的测试数据。

现在的问题是我们为什么这样做？🙃

下面是背后的简单逻辑！

如果我们也对测试数据使用拟合方法，我们将计算新的平均值和方差，这是每个特征的新尺度，并将让我们的模型也了解我们的测试数据。因此，我们想要保持惊喜的是，我们的模型不再是未知的，并且我们将不会得到我们的模型在测试(看不见的)数据上表现如何的良好估计，这是使用机器学习算法建立模型的最终目标。

这是在构建机器学习模型时缩放我们的数据的标准程序，以便我们的模型不会偏向数据集的特定特征，同时防止我们的模型学习我们测试数据的特征/值/趋势。

希望这个解释能帮助你理解这些方法背后的简单逻辑。

参考:

[## sk learn . preprocessing . standard scaler-sci kit-learn 0 . 23 . 2 文档

通过移除平均值并缩放至单位方差来标准化要素。样本的标准分数计算如下…

scikit-learn.org](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn-preprocessing-standardscaler)

这是我的第一个博客。请分享您的意见和建议，以改进这篇博文。

领英

NLP 中有哪些对抗性的例子？

原文：https://towardsdatascience.com/what-are-adversarial-examples-in-nlp-f928c574478e?source=collection_archive---------11-----------------------

揭露 NLP 模型中的盲点，从罗伯塔到 GPT-3

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自然语言处理中对立范例的两种不同理解。这些结果是在烂番茄电影评论情感分类数据集上训练的 LSTM 上使用 TextAttack 生成的。这些是* 真实* 对抗的例子，使用 DeepWordBug 和 TextFooler 攻击生成。要自己生成它们，在安装 TextAttack 后，运行“text attack attack-model lstm-Mr-num-examples 1-recipe RECIPE-num-examples-offset 19”其中 RECIPE 为“deepwordbug”或“textfooler”。[图片由作者提供]

本文讨论了应用于自然语言处理的对立例子的概念。术语有时会令人困惑，所以我们将从讨论对抗性例子和对抗性攻击的语言概述开始。然后，我们将讨论 TextAttack ，这是我们的开源 Python 库，用于 NLP 中的对抗示例、数据增强和对抗训练，它正在改变人们研究 NLP 模型鲁棒性的方式。最后，我们将对这一研究领域的未来进行一些思考。

术语

一个对立的例子是一个被设计用来愚弄机器学习模型的输入[1]。作为良性输入的变化而精心制作的对抗性示例被称为对抗性扰动。“对抗性扰动”比“对抗性例子”更具体，因为所有对抗性例子的类别还包括从头开始设计的输入，以欺骗机器学习模型。文本攻击攻击产生一种特殊的对抗性例子，对抗性干扰。

对机器学习模型的对抗性攻击是产生对抗性扰动的过程。TextAttack 攻击遍历数据集(模型的输入列表)，并对每个正确预测的样本搜索敌对扰动。如果一个例子一开始就被错误地预测，它就不会被攻击，因为输入已经欺骗了模型。TextAttack 将攻击过程分成几个阶段，并提供了一个可互换组件的系统来管理攻击的每个阶段。

对抗性稳健性是对模型对对抗性例子的易感性的度量。TextAttack 通常使用攻击成功率或攻击后准确性来衡量健壮性，前者是产生成功对抗示例的攻击尝试的百分比，后者是正确分类和攻击失败的输入的百分比。

为了提高我们讨论对抗性攻击的计算能力，让我们看一个具体的例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些结果来自于使用 TextAttack 对在烂番茄电影评论情感分类数据集上训练的 LSTM 运行 DeepWordBug 攻击，总共使用了 200 个例子。[图片由作者提供]

这种攻击在 200 个例子上运行。在这 200 个中，模型最初错误地预测了其中的 43 个；这导致了 157/200 或 78.5%的准确度。TextAttack 对剩余的 157 个示例运行对抗性攻击过程，试图为每个示例找到有效的对抗性干扰。在这 157 次攻击中，29 次攻击失败，导致成功率为 128/157 或 81.5%。另一种表达方式是，该模型正确预测了原始样本，然后在 200 个样本中的 29 个样本中抵抗了对抗性攻击，导致攻击下的准确性(或“攻击后准确性”)为 29/200 或 14.5%。

TextAttack 还记录了此攻击的一些其他有用的统计数据。在 157 次成功的攻击中，平均来说，攻击改变了 15.5%的单词来改变预测，并进行 32.7 次查询来找到成功的扰动。在所有 200 个输入中，平均字数是 18.97。

现在我们已经提供了一些术语，让我们来看一些提议的对抗性攻击的具体例子。我们将给出一些其他领域的对抗性攻击的背景，然后是 NLP 中不同攻击的例子。

对立的例子

2013 年的研究[2]显示，神经网络容易受到对立例子的影响。这些原始的对抗性攻击对图像应用小的、精心选择的扰动来欺骗图像分类器。在这个例子中，分类器正确地预测原始图像是猪。然而，在一个小扰动之后，分类器预测这头猪是一架客机(具有极高的可信度！).

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ImageNet 分类器的反面例子。叠加一点点(但故意的)噪音会让模型将这头猪归类为客机。[图片来自这篇可爱的文章讲述了亚历山大·mądry’s 集团的反面例子。]

这些对立的例子展示了深度神经网络中的严重安全缺陷。因此，对抗性的例子给所有包括神经网络的下游系统带来了安全问题，包括文本到语音系统和自动驾驶汽车。对立的例子在安全之外是有用的:研究人员已经使用对立的例子来改进和解释深度学习模型。

正如你可能想象的那样，深度神经网络中的对立例子已经引起了世界各地许多研究人员的注意。他们在 2013 年的发现引发了对该主题的研究热潮。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2014 年至 2020 年间与 arxiv.org“对立例子”相关的论文数量。[图片来自https://Nicholas . Carlini . com/writing/2019/all-adversarial-example-papers . html]

许多新的、更复杂的对抗性攻击已经被提出，还有防御，训练神经网络抵抗(健壮)对抗性攻击的程序。训练高度准确的深度神经网络同时保持对敌对攻击的鲁棒性仍然是一个公开的问题[3]。

自然地，许多人想知道 NLP 模型可能会有什么对立的例子。对于 NLP 来说，不存在与计算机视觉中的对立例子(例如上面的猪对飞机的迷惑)的自然类比。在上面的例子中，猪分类的输入和它的客机分类的扰动对人的眼睛来说几乎是不可区分的。与图像不同，两个文本序列如果不是相同的*，就不可能真正无法区分。*

自然语言处理中的对立例子

因为两个文本序列从来都是不可区分的，研究人员已经为 NLP 中的对立例子提出了各种不同的定义。我们发现根据他们选择的对抗性例子的定义对对抗性攻击进行分组是有用的。

尽管 NLP 中的攻击无法找到与原始输入完全无法区分的敌对扰动，但它们可以找到非常相似的扰动。我们的心理模型根据“相似性”的概念将 NLP 对抗性攻击分为两组:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自然语言处理中的对立例子使用了两种不同的文本相似性概念:视觉相似性和语义相似性。[图片由作者提供]

**视觉相似度。**一些 NLP 攻击认为一个敌对的例子是一个看起来与原始输入非常相似的文本序列——可能只是几个字符的变化——但是从模型接收到不同的预测。其中一些对抗性攻击试图改变尽可能少的字符来改变模型的预测；其他人试图引入类似人类会犯的真实“错别字”。

一些研究人员提出了这样的担忧，即通过使用基于规则的拼写检查器或训练来纠正对抗性拼写错误的序列对序列模型，可以非常有效地防御这些攻击。

属于这一类别的攻击配方: deepwordbug，hotflip，pruthi，textbugger，morpheus*

**语义相似。**其他 NLP 攻击认为一个敌对的例子是有效的，如果它在语义上与原始输入不可区分的话。换句话说，如果扰动是原始输入的意译，但是输入和扰动接收不同的预测，那么输入是有效的对抗例子。

一些 NLP 模型被训练来测量语义相似度。基于语义相似性概念的对抗性攻击通常使用另一个 NLP 模型来强制扰动在语法上有效并且在语义上与原始输入相似。

属于这一类的攻击配方: alzantot，bae，bert-attack，faster-alzantot，iga，kuleshov，pso，pwws，textbugger，textfooler*

** text bugger 攻击使用类似打字错误的字符编辑和同义词替换来产生干扰。可以考虑使用不可区分性的两种定义。*

利用文本攻击生成对立范例

TextAttack 支持基于两种不可区分性定义的对抗性攻击。这两种类型的攻击对于训练更健壮的 NLP 模型都是有用的。我们的目标是通过提供一组直观的、可重用的组件，从文献中构建尽可能多的攻击，从而支持对 NLP 中对抗性例子的研究。

我们使用四个组件来定义对抗性攻击处理:目标函数、约束、转换和搜索方法。(我们将在以后的帖子中详细讨论这个问题！)这些组件允许我们在不同研究论文的攻击之间重用许多东西。它们也使得开发 NLP 数据扩充的方法变得容易。

TextAttack 还包括用于加载流行的 NLP 数据集和其上的训练模型的代码。通过将这种训练代码与对抗性攻击和数据增强技术相结合，TextAttack 为研究人员提供了一个在许多不同场景中测试对抗性训练的环境。

下图概述了 TextAttack 的主要功能:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

TextAttack 功能概述。[图片由作者提供]

自然语言处理中对抗性攻击的未来

我们很高兴看到 TextAttack 对 NLP 研究社区的影响！我们希望看到的一件事是将不同论文中的成分结合起来。TextAttack 使运行消融研究来比较交换的效果变得容易，比如说，纸 A 中的搜索方法与纸 B 中的搜索方法，而无需进行任何其他更改。(这些测试可以在数十个预先训练好的模型和数据集上运行，无需下载！)

我们希望文本攻击的使用能使对抗性攻击更加多样化。当前所有对抗性攻击的一个共同点是，它们在单词或字符级别进行替换。我们希望 NLP 中未来的对抗性攻击可以扩大范围，尝试不同的短语级替换和整句释义方法。此外，在对抗性攻击文学中，英语一直是焦点；我们期待看到对抗性攻击应用于更多的语言。

如果您对 TextAttack 感兴趣，或者对为 NLP 模型生成对抗性示例这一更广泛的问题感兴趣，请联系我们！你可以看看我们在 ArXiv 上的论文或者在 Github 上的知识库。

[1]《用对抗性例子攻击机器学习》，Goodfellow，2013。https://openai.com/blog/adversarial-example-research/

[2]“神经网络的耐人寻味的性质”，赛格迪，2013。https://arxiv.org/abs/1312.6199

[3]“稳健性可能与准确性不一致”，齐普拉斯，2018 年。https://arxiv.org/abs/1805.12152

什么是分类变量，如何编码？

原文：https://towardsdatascience.com/what-are-categorical-variables-and-how-to-encode-them-6e77ddc263b3?source=collection_archive---------44-----------------------

初学者分类变量编码指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由 alan9187 来自 Pixabay

简介

在这篇文章中，我们将解释什么是分类变量，我们将学习不同类型的变量之间的区别。我们将讨论:

名义分类变量

对抗

有序分类变量。

最后，我们将通过例子了解对每个分类变量类型进行编码的最佳方法。我们将涵盖:

一个热编码

和

整数编码。

先说一些简单的定义。

什么是分类变量？

为了理解分类变量，最好先从定义连续变量开始。连续变量可以取任意数量的值。连续变量的一个很好的例子是体重或身高。理论上它们都可以取任何值。

分类变量是数据集中的变量，它不同于连续变量，取有限的一组值。例如，老师给学生的作业分数(A、B、C、D、E 和 F)。

分类变量的另一个例子是大学出售的球衣颜色。想象一下，他们只出售绿色、蓝色和黑色。球衣颜色是一个有三个可能值的分类变量。

在数据集中，分类变量通常是字符串。在上面的两个例子中，我们已经看到，它们是字符串，因为等级和颜色值都具有这种数据类型。

然而，我们需要小心，因为有时整数也可能隐藏分类。因此，在决定一个整型变量是连续变量还是分类变量之前，了解它有多少个唯一值是很重要的。

名义分类变量

上面给出的分类变量的例子并不完全相同。正如你的直觉所暗示的，球衣颜色和等级是有区别的。球衣的颜色是绿色、蓝色和黑色，它们之间没有任何排序。如果分类变量的值之间缺乏任何逻辑排序，我们称之为名义变量。

有序分类变量

有序分类变量是指其值之间具有某种逻辑顺序的分类变量，就像我们的年级示例一样。记得等级从 A 到 F，有一个有序的关系(A > B > C > D > E > F)。

分类顺序变量的其他例子有滑雪道分类:简单、中等和困难。

需要编码

为什么我们需要对分类变量进行编码？

原因很简单，大多数机器学习算法只允许数字形式的特征。这意味着它们必须是浮点数或整数，而字符串是不允许的。正如我们之前提到的，分类特征通常是字符串，因此我们需要将它们编码成整数。

对于名词性分类变量和序数分类变量来说，这样做的方式有点不同，我们将在下面的章节中解释这种不同。

一种热编码——最适合名义分类变量

我们要学习的第一种方法叫做一键编码，它最适合于名义变量。在使用一次性编码时，我们为每个变量值创建一个新变量。

让我们回到球衣颜色的例子。我们有三种颜色值:绿色、蓝色和黑色。因此，我们需要创建三个新变量，每种颜色一个，并为每个变量分配一个二进制值 0 或 1，1 表示球衣是该颜色，0 表示球衣不是可变颜色。为了应用一键编码，我们可以在 pandas 中使用 get _ dummmies()函数。

我们用一个真实的例子来演示一下。想象一下，我们有一个保存学生信息的数据集，其中有学生的姓名、成绩和学生在注册大学时选择的球衣颜色。我将创建一个包含五名学生信息的数据框架。

import pandas as pd
import numpy as np
student_dictionary = {'name': ['Michael', 'Ana', 'Sean', 'Carl', 'Bob'], 
                     'grade': ['A', 'C', 'A', 'B', 'F'], 
                     'jersey': ['green', 'green', 'blue', 'green', 'black']}
df = pd.DataFrame(student_dictionary)
df.head()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们所看到的，这是一个只有五个学生条目和三列的数据框:姓名、年级和球衣。这里的 Jersey 只有三个值:绿色、蓝色和黑色。它们之间没有逻辑顺序，因此我们可以应用一键编码。我们将使用熊猫的 get_dummies()函数来实现。

pd.get_dummies(df.jersey)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这些是我们创造的虚拟变量。如你所见，有三个不同值的分类变量 jersey 现在由三个二元变量描述:黑色、蓝色和绿色。

如果我们将 jersey 变量替换为它的虚拟变量，并输入到机器学习模型中，我们还应该确保丢弃一个二元变量。这样做的原因是为了避免虚拟变量之间的完美相关性。使用 get_dummies 函数时，通过将 drop_first 参数设置为 True，可以很容易地删除第一个二元变量。

pd.get_dummies(df.jersey, drop_first=True)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如我们所见，第一个二元变量现在被排除在结果之外。两个结果变量蓝色和绿色现在准备好被传递给机器学习算法。

整数编码——最适合有序分类变量

为了对有序分类变量进行编码，我们可以像对标称变量一样使用一键编码。然而，这不是最好的选择，因为我们会丢失一些关于变量和排序的信息。

更好的方法是使用整数编码。每个变量都将被转换成相应的整数。这样我们就能保持秩序。因此，我们可以通过以下方式对样本数据框中的等级进行编码:

答-> 1

B -> 2

C -> 3

D -> 4

E -> 5

F -> 6

为了用 pandas 做到这一点，我们可以用映射创建一个字典，并使用 map()函数:

mapping_dictionary = {'A': 1,
                      'B': 2,
                      'C': 3,
                      'D': 4,
                      'E': 5,
                      'F': 6,
                     }
df.grade.map(mapping_dictionary)0    1
1    3
2    1
3    2
4    6
Name: grade, dtype: int64

正如您所看到的，map 函数返回了一个应用了映射的转换后的序列。现在，这可以添加到数据框中，并用作机器学习模型中的一个特征。

还有其他方法来应用整数或标签编码(整数编码的另一个名称)，但使用映射函数和字典方法是我的最爱之一。这是因为它给了我们分配映射值的控制权。

想象一下，除了标准分数之外，我们想要增加一个新的值:“甚至没有尝试过”，并且我们认为不尝试测试比以最低分数不及格要糟糕得多。在这种情况下，我们可以为*“甚至没有尝试”*映射值 10，表明这比映射中值为 6 的最差可能标记 F 差得多。

总结

在本文中，我们已经了解了什么是分类变量。我们已经讨论了顺序和名义分类变量，并展示了为机器学习模型编码它们的最佳方式。

我希望你现在知道更多关于分类变量的知识，并且你将能够在开发你的第一个机器学习模型时应用这些知识。

最初发布于 aboutdatablog.com: 什么是范畴变量，如何编码？，2020 年 5 月 28 日。

PS:我正在 Medium 和上撰写深入浅出地解释基本数据科学概念的文章。你可以订阅我的 邮件列表 每次我写新文章都会收到通知。如果你还不是中等会员，你可以在这里加入。**

下面还有一些你可能喜欢的帖子

** [## 9 熊猫有效数据分析的可视化技术

学习如何使用折线图、散点图、直方图、箱线图和其他一些可视化技术

towardsdatascience.com](/9-pandas-visualizations-techniques-for-effective-data-analysis-fc17feb651db) [## python 中的 lambda 函数是什么，为什么你现在就应该开始使用它们

初学者在 python 和 pandas 中开始使用 lambda 函数的快速指南。

towardsdatascience.com](/what-are-lambda-functions-in-python-and-why-you-should-start-using-them-right-now-75ab85655dc6) [## Jupyter 笔记本自动完成

数据科学家的最佳生产力工具，如果您还没有使用它，您应该使用它…

towardsdatascience.com](/jupyter-notebook-autocompletion-f291008c66c)**

数据科学招聘人员在简历中寻找什么？

原文：https://towardsdatascience.com/what-are-data-science-recruiters-looking-for-in-a-resume-edc90b28bee6?source=collection_archive---------11-----------------------

从与 DS 招聘人员的交谈中获得的见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为面试或社交活动准备一份好的数据科学简历从来都不容易，不是吗？准备一份“被录用”的简历需要大量的学习、探索、理解和分析。

数据科学是一个跨学科的领域，一个数据科学家应该知道很多事情；算法、科学方法、流程和系统，用于从数据中提取见解，并基于这些知识做出决策。

无论你在数据科学之旅中投入了多少工作，或者你过去参加过什么数据科学认证或课程，面试官肯定会问你一系列你没有想到会遇到的问题，或者你的简历中没有列出的技能。但这是你必须面对的，对吗？

在这个故事中，我列出了招聘人员希望在你的数据科学简历上看到的要点，这些要点是在与 80 多名数据科学招聘人员和雇主交谈和面试后整理的。

1.根据职位描述整理简历

雇主总是在寻找你的简历与他们工作描述的“相关性”。即使有一个机器人浏览你的简历，他们也更关心你是否想在数据科学领域谋得一份职业，而不是你是否想在他们那里谋得一份职业。在你开始整理你的数据科学简历之前，确保你知道你要把简历发给谁；商业专长。

如果工作描述是金融公司或食品饮料公司，你可以试着展示至少一些领域知识。实际上，你的简历不会因为你申请的每一份工作而大相径庭，但它应该有些不同。

我遇到的一位来自 Discover 的招聘人员告诉我*“我们欣赏与众不同的简历；我们喜欢想要这份工作而不是任何工作的候选人。”*

申请人有时无法理解根据职位描述修改简历的重要性，这通常概括了被拒的主要原因之一:领域专长。招聘人员会看你是否适合这家公司、这个部门以及他们参与的项目？你的数据科学简历是否反映了你非常适合这一事实？

2.选择正确的关键词

如果是数据科学，它必须有数据库、机器学习、统计的部分或形式，

除了寻找合适的人选之外，选择适合你的合适词汇也很重要，同时也要向招聘人员展示你的潜在合适度。简历大多由申请人跟踪系统(ATS)扫描。ATS 简历扫描软件旨在扫描简历中的工作经验、技能、教育和其他相关信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过 ATS 获得数据科学硬技能的关键词

确保你简历中的关键词和你的经历能够反映公司的使命和愿景。(我们努力做到完美契合！)

该公司的简历扫描软件通常会选择带有特定关键词的简历，所以即使你想加入常见数据科学关键词的同义词，也应该可以。但是，阅读职位描述是非常重要的。

有时，在求职信中包含关键词也会有所帮助。在信的正文中包含关键词，确保它们与工作清单中提到的最重要的关键词和技能相匹配。

3.指出你在必要技能方面的专长

注意价格！

一位来自 迪士尼 的招聘人员就明确提到了这一点:“一位招聘人员想看看应聘者是否真的为她申请的职位做了些什么。如果我们看到技能、项目、课程或认证与我们现在谈论的完全一致，你和我们都是好的。”

简历的格式非常重要。当谈到强调你的工作时，简历应该准确地指出为什么招聘人员对你感兴趣。

一份数据科学家的简历应该展示你在管理数据方面的能力，以及从项目中获得的软技能。

另一位来自美国银行的招聘人员指着我简历上的项目部分说:“如果你曾致力于提高某项技能、领域或技术的能力水平，这肯定会在你的简历中体现出来。这就是我们所寻求的；一个不断学习和实施的循环。”

4.你的 X 因素

总的来说，人们会认为我在简历中加入一个奖项和爱好部分而不是一个完整的开场白总结是愚蠢的。

我选择不回避自己独特的兴趣和成就。

简历看起来非常相似的概率为 7/10，在简历中加入一个部分或内容来识别你总是有帮助的。我简历上的爱好包括股票交易、博客和印度古典舞，在我与招聘人员的大部分互动或面试中，我被要求更多地谈论这些；目标是一个新颖的对话。

在我与 Intuit 的面试中，招聘人员本人接受了与我相同的舞蹈形式训练，她确实与我就此进行了长达 3 分钟的对话，这在面试中是很重要的。

在与查尔斯·施瓦布的面试中，招聘人员问我至今持有哪些股票，以及我是否在寻找新的股票进行投资。对《泰晤士报》来说，我有他们所有问题的完美答案。

同样，这样的部分不仅仅是将你与其他候选人区分开来，而是引入与招聘人员谈话的新话题；展示课外活动的人。

5.写出简明扼要的要点

不是所有的招聘人员都是领域专家，除非是有针对性的信息会议或实际的招聘过程。

关于你在一个项目中所做的事情的冗长的要点绝对是有害的！

大型招聘会招聘人员看简历，相当字面意思！据我观察，在参加招聘会时，有 100 多名求职者在同一个展位等着与招聘人员交谈，如果招聘人员发现一个项目、相关技能或工作经验会让你“非常适合”，那么一眼就能看出这一点。

例如，对于你做的一个机器学习项目，你如何记录它以引起招聘人员的注意？

***好了，接下来:*在数据集上训练优化了一个随机森林机器学习模型，预测葡萄酒的品质，准确率达到 99%。
***好:*训练了一个随机森林，以 99%的准确率预测葡萄酒质量。

关键是要简明扼要。避免隐含的或多余的短语，重新安排冗长的短语或避免过于冗长的先前经验。向…深处铺路

接下来，用粗体强调你简历中的数字或指标，以展示你能够带来的影响，而不是仅仅提到冗长的最高级。

***好的，下一个:*使用 SVM 显著提高了转换率，大幅降低了跳出率。
良好: 加倍转换率从 0.5%到 1% 并且使用 SVM 将反弹率*降低 18% 。*

在简历中加入一些小而重要的内容肯定有助于获得更多的关注和互动。

感谢您的阅读！我希望你喜欢这篇文章。一定要让我知道你的简历上已经有了哪些你打算在简历上更新的东西。祝愿在这个季节寻找工作的人们一切顺利！

探索快乐！

免责声明:本文表达的观点仅代表我个人，不代表严格的观点。

了解你的作者

拉什是芝加哥伊利诺伊大学的研究生。她喜欢将数据可视化，并创造有见地的故事。她是用户体验分析师和顾问、技术演讲者和博客作者。

什么是特征存储，为什么它们对扩展数据科学至关重要？

原文：https://towardsdatascience.com/what-are-feature-stores-and-why-are-they-critical-for-scaling-data-science-3f9156f7ab4?source=collection_archive---------4-----------------------

每个人都需要了解的数据科学特性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:Shutterstock

什么是特色店？

如果数据是新的黄金(过度使用，但仍然是真实的)，我会说特征实际上是金条，因此需要相应地对待。为了得到黄金，你需要做一些挖掘和艰苦的工作，这对于找到正确的特征也是如此。

创建特征的过程被称为特征工程，对于任何机器学习过程来说，这是一个非常复杂但又非常关键的组件。更好的特性意味着更好的模型会带来更好的业务成果。

生成新功能需要大量的工作，而创建构建功能的管道只是一个方面。为了达到那个阶段，你可能有一个长时间的试验和错误过程，有大量不同的特性，直到你对你的新特性满意为止。接下来，您需要将它作为操作管道的一部分进行计算和存储，这取决于该特征是在线还是离线。

最重要的是，每个数据科学项目都是从寻找合适的功能开始的。问题是，在大多数情况下，没有一个单一的，集中的地方来搜索；功能在任何地方都可以托管。因此，首先也是最重要的是，功能商店提供了一个单一平台来共享所有可用的功能。当数据科学家开始一个新项目时，他或她可以访问该目录并轻松找到他们正在寻找的功能。但是，特征存储不仅仅是数据层，它还是一种数据转换服务，使用户能够操作原始数据并将其存储为可供任何机器学习模型使用的特征。

离线和在线功能

有两种类型的功能:在线和离线

离线特征 —一些特征作为批处理作业的一部分进行计算。例如，平均每月花费。它们主要由离线进程使用。鉴于其性质，创建这些类型的功能可能需要时间。通常，离线特征是通过 Spark 等框架计算的，或者通过简单地对给定的数据库运行 SQL 查询，然后使用批处理推理过程。

在线功能 —这些功能有点复杂，因为它们需要非常快速地计算，并且通常以毫秒级延迟提供。例如，为实时欺诈检测计算 z 分数。在这种情况下，通过实时计算滑动窗口上的平均值和标准偏差来构建管道。这些计算更具挑战性，需要快速计算以及快速访问数据。数据可以存储在内存或非常快速的键值数据库中。该流程本身可以在云中的各种服务上执行，也可以在 Iguazio 数据科学平台等平台上执行，该平台将所有这些组件作为其核心产品的一部分。

下面是一个使用功能库的在线和离线管道的示例。这是优步设计的米开朗基罗平台的一部分:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优步内部 ML 即服务系统的架构

好处:

● 发展更快

理想情况下，数据科学家应该专注于他们研究做什么和他们最擅长什么——建立模型。然而，他们经常发现自己不得不将大部分时间花在数据工程配置上。一些特性的计算成本很高，需要构建聚合，而另一些特性则非常简单。但这真的不是数据科学家应该关心的事情，也不应该阻止他们为自己的模型利用最好的功能。因此，特征库的概念是抽象所有这些工程层，并提供读取和写入特征的简单访问。

如前所述，在线和离线功能具有不同的特征。在幕后，离线特性大多构建在 spark 或 SQL 等框架上，实际的特性存储在数据库中或作为 parquet 文件。而在线功能可能需要使用 Kafka、Kinesis 等流媒体引擎的 API 或 Redis 或 Cassandra 等内存键值数据库进行数据访问。

使用功能存储抽象了这一层，因此当数据科学家寻找功能时，他可以使用简单的 API 来检索他需要的数据，而不是编写工程代码。这可能很简单，只需运行以下命令:

df = feature _ store . get(" transaction _ volume ")。filter_by(事务标识)

● 在生产中顺利部署车型

在生产中实现机器学习的一个主要挑战来自于这样一个事实，即在开发环境中用于训练模型的功能与生产服务层中的功能不同。因此，在培训层和服务层之间启用一致的功能集可以使部署过程更加顺畅，确保经过培训的模型确实反映了生产中的工作方式。

● 提高模型精度

除了实际的要素之外，要素存储还保存每个要素的附加元数据。例如，显示功能对与其相关的模型的影响的指标。在为新模型选择功能时，这些信息可以极大地帮助数据科学家，使他们能够专注于那些对类似的现有模型产生更好影响的功能。

● 更好的协作
老话说得好——分享就是关爱！今天的现实是，几乎每个新的业务服务都是基于机器学习的，因此项目和功能的数量正在呈指数级增长。这降低了我们全面了解可用特性的能力，因为这些特性实在太多了。功能库允许我们与同行共享我们的功能及其元数据，而不是在孤岛中开发。在大型组织中，不同的团队最终开发出相似的解决方案，仅仅是因为他们不知道彼此的任务，这已经成为一个普遍的问题。特色商店弥补了这一差距，使每个人都能够分享他们的工作，避免重复。

● 跟踪血统并解决法规遵从性问题

为了满足指南和法规的要求，尤其是在生成的人工智能模型服务于医疗保健、金融服务和安全等行业的情况下，跟踪正在开发的算法的血统非常重要。要实现这一点，需要了解整个端到端数据流，以便更好地理解模型是如何生成结果的。由于特征是作为过程的一部分生成的，因此需要跟踪特征生成过程的流程。在特征存储中，我们可以保留特征的数据血统。这提供了必要的跟踪信息，可以捕获功能是如何生成的，并提供法规遵从性所需的洞察力和报告。

功能存储和 MLOps

MLOps 是 DevOps 的扩展，其思想是将 DevOps 原则应用于机器学习管道。开发一个机器学习流水线和开发软件不一样，主要是数据方面的原因。模型的质量不仅仅基于代码的质量。它还基于用于运行模型的数据(即要素)的质量。据 Airbnb 称，数据科学家大约 60%-80%的时间用于创建、训练和测试数据。要素存储使数据科学家能够重用要素，而不是为不同的模型一次又一次地重新构建这些要素，从而节省了宝贵的时间和精力。特性存储使这一过程自动化，并且可以在推送到 Git 的代码更改或新数据到达时被触发。这种自动化特征工程是 MLOps 概念的重要组成部分。

总结

一些与人工智能广泛打交道的大型科技公司已经建立了自己的特色商店(优步、推特、谷歌、网飞、脸书、Airbnb 等)。).这很好地向业内其他人表明了使用特性库作为高效 ML 管道的一部分是多么重要。鉴于人工智能项目的数量不断增加以及将这些项目投入生产的复杂性，行业需要一种方法来标准化和自动化功能工程的核心。因此，假设特征存储被定位为任何机器学习管道的第一级公民是公平的。

人类有什么用？自动化和独创性

原文：https://towardsdatascience.com/what-are-humans-good-for-automation-and-ingenuity-a6f68fa3d8c3?source=collection_archive---------62-----------------------

自动化流程解放了人类的时间和创造力。也许他们也会让我们成为更好的人。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Clem Onojeghuo 在 Unsplash 拍摄的照片

我最近阅读的一篇研究论文让我思考:流程自动化不仅能通过帮助我们避免枯燥的任务，还能从根本上改变我们的思维方式，从而赋予人类力量吗？将自动化过程视为与人类的合作者，而不仅仅是简单的替代者，为人类和算法开辟了一个全新的可能性领域。

大约在同一时间，Alteryx 在举办了第一次 Twitter 聊天，讨论数据民主化和提高数据职业技能等话题。聊天中的第 5 个问题与自动化、人工智能的作用以及人和算法如何协同工作等问题紧密相连:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里有很多话要说！✅，我们去兜兜风吧🚗变得更有哲理🤔。

少一些乏味，多一些创意✅

聊天中的每个人都理所当然地对自动化取代日常工作中枯燥部分的潜力感到兴奋:

改变容易出错的人的角色还有另一个好处:

我们人类拥有能够进行复杂推理的奇特大脑，但我们仍然会犯错。单调乏味的任务会变得令人麻木，以至于无聊的人开始犯错误。幸运的是，算法不会疲劳；他们继续按照要求，一排接一排地清理、分类、预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

完全自动驾驶与人工参与🚗

自动化解放了人类的脑力，使其专注于最适合的任务:

但这里有一个有趣的困境:某些类型的人类参与对参与预测算法应用的每个人都有益吗？

想象一下这个(稍微)未来的场景。你在自动驾驶汽车的方向盘后面。汽车处于“自动驾驶”状态，正沿着你熟悉的路线行驶。你应该在汽车行驶时保持警惕，但你的手机上也有一封你真的需要回复的电子邮件。你拿起手机开始写，忽略了车在做什么。自动化将你从驾驶(一项通常枯燥、非智力任务)中解放出来，这样你就可以专注于一项更适合人类的任务，这项任务涉及批判性思维和语言技能，目前超出了人工智能的能力。鉴于 94%的严重车祸据说是由人为错误造成的，自动驾驶也可能减少事故。

但自动驾驶技术尚未完善或普及。仍然有一个具有批判性思维能力的“人在决策过程中”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自SAE

如果自动化是💯，丢的是什么？

然而，总有一天，我们会拥有广泛、熟练的自动驾驶技术。当像驾驶这样的日常任务实现自动化时，作为旁观者的人参与进来的动机是什么？为什么不写那封邮件而不看路呢？

随着人工智能可以处理越来越复杂的任务，人类仍然是人类。我们仍然需要感到被重视，这样我们才有动力参与自动化过程的结果。如果我们能够制造一辆完美的自动驾驶汽车，并确保始终处于理想的驾驶状态，那么人类就没有动力看路了。

同样，如果我们可以使用人工智能来完美地选择抵押贷款的申请人，或者在各种媒体上投放广告以产生线索的理想位置，或者新零售店的位置——为什么与这些过程相关的人类要花费额外的时间来彻底研究申请人、媒体或位置？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人类可能会忍不住说，“哦，我相信人工智能是对的。”我们可能会失去人类带给这些过程的重要细微差别和高级批判性思维。

与自动化协作制定决策🤔

研究人员一直在探索这种微妙的平衡。他们正在考虑是否、何时以及如何保持人类在流程和决策中的作用，从理论上来说，可能会完全自动化，但仍然会受益于人类的合作。

最近的一篇论文“人类和人工智能决策权的分配”深入研究了人类和人工智能在决策过程中的作用:

…我们考虑一个委托人[一个组织领导人]，他面临一个选择，即在做决定时是给人类代理人还是给人工智能权力。人工智能的引入如何影响人类的努力？当人工智能预测准确时，人类会不会过于放松努力(“在方向盘上睡着”)？人工智能或人类何时有权做出最终决定？统计预测意义上的“更好的”人工智能对一个组织来说一定更有利可图吗？

这些研究人员并没有得出人类应该做所有决定的结论。他们不是反科技或制造恐慌。如果有的话，他们揭示了对人类抛开偏见和接受新观点的能力的怀疑，他们提出人工智能可以帮助我们超越我们的思维习惯。

这项研究的酷之处还在于它对人工智能的不同思考方式。作者认为，我们可能不总是想要技术上最高性能的模型，这些模型通常提供近乎完美的预测，并可能自动化人类角色(他们称之为“替代人工智能”)。他们说，有时这很好，但人工智能的“不完美”建议在某些情况下可能更有益。

一个“增强人工智能”能够合理地执行并通知人类，但不接管最终决策，在许多情况下可能是最具生产力的(也是利润最大化的)。虽然从技术角度来看并不完美，但这种合作让人们有动力从他们独特的、有价值的视角来评估数据。这种人类/人工智能的“增强”既允许高效、减少厌倦的决策自动化，也允许人类保持意识和捕捉错误的动机。**

🍦或者🏋️?用人工智能故意惹恼人类😡

令人惊讶的是，这些研究人员提出，在某些场景下，使用他们所谓的“不可靠的人工智能”或“对抗性人工智能”甚至可能是富有成效的和利润最大化的。

他们说，不可靠的人工智能可能是理想的，当需要让人类特别有动力保持参与时。想象一下，你回到了自动驾驶汽车中，但现在汽车有了一项“功能”，可以在未知的时间间隔内偶尔关闭自动驾驶模式一分钟。你不知道那什么时候会发生，所以你把你的手放在方向盘上，保持对情况的了解，而不是写那封邮件。你可能讨厌这辆车的这个特点，但你不得不承认它让你保持警觉。类似地，不可靠的人工智能将通过提供不太完美的表现来确保一些人类参与和动机，需要人类干预来纠正其偶尔的错误。

“对抗性人工智能”走得更远，它做出主动“对抗性”或挫败接收人工智能结果的人类的决定。众所周知，这些决定会与人类现有的偏见相冲突，迫使他们重新考虑自己的偏好，更加努力地思考他们为什么要做出某个决定。

想象一下，现在你已经把你的目的地——当地的冰淇淋店——输入到你的自动驾驶汽车的导航系统中，它回应道，“真的吗？你确定吗？不，我们去健身房吧，”然后开始开车送你去健身房。你必须主动超越系统，才能回到冰淇淋的轨道上。虽然你可能会觉得汽车的反应相当恼人，但你也(可能不情愿地)不得不问自己:我现在应该去哪里:去买冰淇淋还是去健身？

对抗性的人工智能会做出人类可能不喜欢的决定，因此人类必须更深入地参与决策——并且，或许，会在这个过程中重新评估他们的倾向和偏见。研究人员以一位招聘经理为例，他的人工智能工具会建议一些候选人，这些候选人的特征与经理的偏见相冲突(例如，亲和力偏见，这是一种普遍持有的偏见，倾向于雇用与自己背景相似的人)。经理可能会发现这些建议令人沮丧，但他们必须做出更合理的努力，向自己和他人解释为什么应该或不应该考虑那些不太相似的候选人。最终，对抗性人工智能帮助人类基于更彻底的推理做出更强有力的决定的能力可以支持组织目标并增加利润。

人类如何随着人工智能的补充而改变，或者😃 ➕ 🤖 = ❓

我们现在才开始看到自动化将如何释放时间、创造力和创新机会，以便人类可以探索和设计全新的事物。

但正如这里讨论的研究表明的那样，也许这些自动化人工智能过程还有另一个我们通常不考虑的哲学层面，一些超越最大化技术性能的东西。这些技术在补充人类努力的同时，不仅仅可以减少单调乏味。它们也有可能以简单而深刻的方式改变我们的思维方式。即使技术上不太理想的模型也可能通过提供新的视角来帮助我们探索我们的推理和决策——并帮助我们成为更有洞察力、更有思想的人。

阅读更多关于聊天中的前三个问题。

原载于 Alteryx 社区 并精选于 Alteryx 数据科学门户 。