TowardsDataScience 博客中文翻译 2020(一千零五)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

为什么您的公司应该关注命名实体识别

原文:https://towardsdatascience.com/why-your-company-should-care-about-named-entity-recognition-e00de2f45700?source=collection_archive---------54-----------------------

命名实体识别的一个用例,展示了它为什么如此有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: PhotoMIX 公司来自 Pexels (CC0)。

命名实体识别是将文本分类成实体的任务,例如人、地点和日期。例如,对于句子On April 30, 1789, George Washington was inaugurated as the first president of the United States,该句子可以用以下实体来标记:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Zach Monge

你可能会想,这到底有什么用?嗯,命名实体识别有许多潜在的用途,但其中一个是能够使数据库易于搜索。您可能会想,为什么我需要标记实体来使数据库易于搜索呢?我不能用简单的字典查找来精确匹配术语吗?嗯,是的,你可以,但这远远不是理想的,只是为了向你展示没有命名实体识别的搜索是多么无效,让我们通过一个真实的例子。

例子

最近,我在当地的杂货店 Weis Markets 点餐,并试图将濮培德冷冻鸡爪加入我的购物车。所以我在搜索栏里输入:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zach Monge 从 Weis Markets 拍摄的图片

令我失望的是,我的搜索没有产生任何结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zach Monge 从 Weis Markets 拍摄的图片

起初我以为他们可能没货了,但在搜索了几个其他项目后,我一直没有结果。过了一段时间,我开始怀疑 Weis 的搜索引擎只能找到几乎与产品标签完全匹配的搜索词(注意:我实际上并不知道 Weis 搜索引擎背后的机制)。所以我在谷歌上查找我想要的鸡爪的确切名称,我意识到它们被称为鸡而不是手指(当然!).于是我在搜索框里输入perdue chicken tenders成功了!然后,我成功地将鸡腿添加到我的购物车中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zach Monge 从 Weis Markets 拍摄的图片

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Zach Monge 从 Weis Markets 拍摄的图片

我很高兴我能够将鸡腿添加到我的购物车中,但这是一项很大的工作,只是找到一个项目,我对其他几个项目也有同样的问题。这让 Weis 的网购几乎无法使用!从那以后,我再也没有在这家商店网购过食品——这实在是太麻烦了。

解决方案

幸运的是,对于 Weis Market 来说,有一个简单的方法可以解决他们的搜索引擎问题,那就是使用命名实体识别。通过命名实体识别,搜索引擎应该自动标记每个实体。例如,当我输入perdue chicken fingers时,它应该将Perdue标记为品牌,将chicken fingers标记为鸡肉嫩(我不是食品类别的专家,所以我实际上不知道鸡肉嫩是否是一个有用的类别)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Zach Monge

然后,这将搜索一个数据库,其中每个项目都已事先标记。所以我想要的实际鸡爪可能之前已经被贴上了以下类别的标签:品牌=濮培德;美食=鸡嫩;冷冻、新鲜、罐装:冷冻。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自 Zach Monge

通过使用这些实体和一个结构化的数据库,我对perdue chicken fingers的搜索将会匹配到作为品牌的Perdue和作为食物的chicken tender,并且可能会在搜索结果中包含我想要的鸡爪。

结论

如你所见,命名实体识别非常有用,而且对某些产品来说几乎是必不可少的。除了为杂货店创建搜索引擎之外,您还可以想象所有其他可能的用途(例如,基于标记的实体推荐类似的在线文章,创建易于搜索的采访记录数据库等)。).我在这篇文章中没有提到的是机器学习方法,它可能被用来实际执行命名实体识别任务(在这个例子中,是在搜索中标记实体的任务perdue chicken fingers)。这是关于命名实体识别的一系列博客文章的第一部分,下一篇文章将更深入地讨论技术细节。最后,如果您认为您的公司可以从命名实体识别中受益,请随时联系我——我的联系信息可以在我的网站上找到。

为什么您的数据素养培训不起作用

原文:https://towardsdatascience.com/why-your-data-literacy-training-isnt-working-374ed74ee919?source=collection_archive---------26-----------------------

以及如何修复它

如果我们真的想让每个人都可以使用数据,我们需要重新思考我们进行数据培训的方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自 2019 年 StackOverflow 黑客马拉松的照片

“我们预计,到 2020 年,80%的组织将在数据素养领域开始有意的能力发展,承认他们的极端不足。”— Alan D. Duncan ,Gartner 副总裁

最近大数据和数据科学的兴起受到了数据专家的极大欢迎。但是对于那些没有受过正式训练的人来说,使用数据仍然像以前一样难以捉摸和令人生畏。

因此,毫不奇怪,伟大的公司(例如 AirBnBNYT )现在正把目光转向利用数据让公司的其他部分变得更好。这种趋势被称为“提高数据素养”,甚至是“建立数据文化”。

不管我们叫它什么,两者都是试图解决同一个问题:我如何让我的员工更好地使用数据[以便我的数据团队有时间做更有价值的事情]?

我们的研究

在过去的两年里,我们一直在询问公司如何让他们的数据更易访问。作为一个团队,我们有自己的战斗恐惧,因为我们在大大小小、高科技和低科技的公司中捍卫数据。从所有的研究和经验中,我们发现大多数数据训练程序看起来都是一样的:

  • 1-2 周的强化训练
  • 这涵盖了特定的工具,如 SQL、Excel 和/或 Python
  • 使用演示数据(公司数据,如果适用)

这些会议的目标是让人们能够自己查询数据源并获得他们需要的信息。不幸的是,实际的结果是在几个月内:

  1. 参加者已经忘记了培训,因为他们没有练习
  2. 数据结构发生了重大变化(或者业务的大多数部分都无法访问)
  3. 最初教授的工具已被其他东西取代

因此,大多数与会者最终还是回到了几个月前的老地方,只是每个人都变得更加愤世嫉俗了。

我们认为还有另一种方法。

在过去的 6 个月里,我们一直在开展自己的数据培训课程。超过 500 人接受了培训,其中许多人将材料带回了自己的公司,我们整理了一些可以让您的数据培训计划坚持下去的东西:

1.设定正确的基调

不要说“我来教你……”而是说“我能帮你什么吗?”

通过启动“数据素养计划”,你让你的同事觉得这都是他们的错。你实际上是在说“如果你们对数据多了解一点,一切都会变得更好”,虽然这可能是真的,但并不特别鼓舞人心。(如果有人在某件事上叫你文盲,你会有什么反应?)

您公司中的大多数人都会同意他们喜欢用数据做更多的事情,并可能强烈地感觉到他们应该为自己的职业生涯做更多的事情。因此,不要把重点放在弥补不足上,而是要关注更多地了解数据所带来的好处和机遇。

突然,会议的基调从“你必须学会这个”变成了“让我们看看我们能一起做些什么。”这是一个简单但强大的变化,甚至可以让最凶猛的数据守财奴上船。

2.设定正确的目标

与其开一个关于如何编写 SQL 的培训会议,不如开一个关于问数据驱动问题的培训会议。

你不会让公司里的每个人都像你一样热爱数据。你甚至无法让人们停止一直向你索要报告。

但是,如果你专注于它,你可以做出重大改变。显然每个公司都会有自己的举措,但有一条我觉得每个公司都应该有的是:问好问题。而不是得到类似“你能把上个月的销售数据发给我吗?”,你会收到更多可操作的、有针对性的问题,比如,“我想看看我们新的社交媒体活动是否达到了销售线索同比增长 10%的目标。”前者含糊不清,没有任何商业意义。后者是具体的,表明请求者确切地知道他们在寻找什么。更重要的是,分析师可以通过推荐数据考虑事项或帮助分析来增加第二个陈述的价值。

底线是:最好的公司问最好的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摘自我们的数据培训演示

3.缓慢而稳定

尝试每周一次的午餐学习会,而不是两周的强化学习。

当考虑这种类型的培训时,为期一周的强化课程肯定是有吸引力的——它们创造了一个专注的环境,几乎总能交付切实的成果。然而,如果不进行常规的文化变革,这些项目的长期效果就会降低。

这种类型的会议带来的机会不仅仅是让业务用户更有能力处理数据,而是让业务更好地处理数据。这意味着数据团队和业务团队合作的时间越长越好。

为此,我们建议让数据成为人们生活中更值得期待的一部分。进行季度 KPI 评审,或者可选的午餐和学习会议,人们可以在会上提出他们的数据问题。要有创意,但要持久!

那现在怎么办?

让您公司的数据更易访问,这对于转变您的业务有着不可思议的潜力,我们相信这绝对值得投资。在你开始设计一个项目之前,考虑你的公司和你的参与者的目标,并找到实现他们的最佳方式。挑战自己,让它不仅仅是一门两周的 SQL 课程,而是对你的公司和文化产生持久影响的东西。

关于我们

在过去的两年里,我们一直致力于让每个人都能更方便地访问数据。我们正在开发一些我们认为会有帮助的技术和培训材料。如果你对获取培训材料感兴趣,你可以在这里注册更新

资源

[1] S. Hippold,CDO 必须带头提高数据素养 (2019),Gartner

[2] J. Stober,Airbnb 如何通过“Data U Intensive”培训提升数据素养 (2018),Medium

[3] L.R .库克,我们如何帮助我们的记者学会热爱电子表格 (2019),中型

为什么你的实验的影响比你想象的要大

原文:https://towardsdatascience.com/why-your-experiments-impact-is-greater-than-you-think-a02828896252?source=collection_archive---------54-----------------------

当我们进行实验时,我们试图解决我们认为阻碍(或促成)转化成功的假设。例如,如果你的服务注册表格转化了 65%,可以想象有 35%没有转化的用户会遇到很多阻碍:

  • 他们不理解报价;
  • 他们不信任你;
  • 太长了,填不完;
  • 它要求他们不愿提供的细节;
  • 他们无法回答其中一个问题(有一个答案你没有考虑过);
  • 太慢了;
  • 这是错误的;
  • 他们觉得完成这个阶段对他们来说没有价值;

当我们进行实验时,我们会尝试解决一个这样的阻塞并将其移除。让我们假设我们相信(或者使用定性研究来发现)有些人觉得表格太长。您尝试删除一些字段,但是发现它只能提高 0.5%的转化率。这是否意味着这个问题的解决方案只是 0.5%用户的问题?号码

多个拦截器将导致最初的几个修复影响较小,随着我们对同一拦截器的工作越来越多,影响越来越大,直到它达到稳定状态。实际情况是,大多数人在完成一个过程/漏斗时,并不仅仅受到一个阻碍因素的影响。他们可能都觉得时间太长了不信任这个过程,或者不信任这个过程不明白我们在问什么。因此,当你开始解决“信任”问题时,如果你还没有接触任何其他东西,你只能影响那些只有有信任问题的人。即使您完全“修复”了信任,对于其他人来说,仍然存在阻止者。当你移除下一个障碍,比如说“理解”,你现在收获了预先解决信任问题和理解障碍的回报。该图说明了这里的动态,假设称为“信任”、“时间”(我没有时间填写)、“价格”和“理解”(我不明白为什么我需要它)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

转化率的瓶颈模型。图片作者。

你可以看到许多动态都是可能的,包括你认为已经解决的事情(不再是瓶颈)在其他事情解决后再次成为瓶颈。用户/客户也会改变偏好,或者用户的受众会改变,我们会接触到具有不同偏好组合的人,从而改变“屏蔽者”。

所有这些都是为了说明,重新审视你认为你以前已经解决的假设是很重要的,承认你不会立即看到所有努力的所有成果也是很重要的,但有时成功地“清除”用户成功的道路实际上依赖于许多以前的障碍,这些障碍以一种不可能衡量的方式被清除。本质上——每个实验的影响都被其他问题所篡改,所以你只能看到它的一部分效果。

为什么你的创业公司需要数据科学来度过这场危机

原文:https://towardsdatascience.com/why-your-startup-needs-data-science-to-survive-this-crisis-d04500df6c2a?source=collection_archive---------65-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

新冠肺炎影响了每一个行业。以下是数据如何帮助你变得更加强大和繁荣

冠状病毒的传播给全球经济带来了巨大的打击。封锁和在家工作的限制已经迫使成千上万的初创公司停止扩张计划,取消服务,并宣布裁员。

该病毒也对初创企业融资和交易活动产生了影响,种子阶段的交易在本季度受到了严重打击。很明显,创业社区现在面临着,并且在未来的几个月里还将继续面临生存危机。

为了继续经营,创始人正在寻找保持流动性的方法,更好地了解他们的供需情况,确定远程员工的运营效率,并寻找机会进行调整。

如果说数据是每个企业的命脉,那么对于希望度过低迷时期的初创公司来说,它就更加重要。以下是初创公司如何利用数据和分析来度过当前危机的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 尼克菲宁

1。数据显示客户的购买模式如何变化

麦肯锡发现美国消费者正在彻底改变他们的消费和行为,尽管他们对经济表示乐观。调查发现,43%的人由于不确定性而推迟购买。

尽管短期内消费转向家庭必需品和远程渠道,但消费者行为预计将永久性地转向在线消费。创业公司必须把握消费者情绪变化的脉搏。

尽管市场研究报告和调查分享了有用的见解,但它们充其量只是滞后指标。寻找可以给你实时或早期信号的替代公共数据源。例如,Kinsa Health 发现他们的在线设备上的数字温度计读数提供了对新冠肺炎在各个城市的进展的洞察

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:health weather图由金萨洞见

在线餐馆聚合网站 OpenTable 发布的数据显示,外出就餐预订需求下降。谷歌上的公共搜索查询揭示了一个地理区域内数百万消费者现在想要什么。

例如,大多数美国人想知道迪斯尼什么时候重新开放,任天堂 Switch 多快会有货。除了卫生纸的供应,他们同样担心 Roblox 的永久关闭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源: 谷歌 搜索

2. 数据帮助你了解你的员工如何应对危机

随着员工被要求在家工作,数百万人被抛入他们不习惯的工作环境,承受着前所未有的压力。虽然干扰和技术挑战是短期的刺激因素,但最大的心理健康风险是由于孤独和倦怠。

在这样的不确定时期,数据可以帮助公司了解他们的员工如何应对危机。自然语言可以为员工福利提供重要线索,而不是等待员工调查或传统的反馈方式。

奥斯汀德克萨斯大学的社会心理学家 James W. Pennebaker 发现,我们言语中的被动部分反映了我们的精神状态。例如,不太快乐的人倾向于更多地使用人称代词,即“我”或“我”,而不是“他”或“她”。

StatusToday 已经建立了一个人工智能解决方案,它可以连接到公司的电子邮件、聊天和通信系统,以识别员工是否处于倦怠的边缘。不用说,侵犯隐私和确保员工福利的洞察力之间只有一线之隔。组织需要信任他们的团队,并对如何使用这些见解保持透明,以避免增加被监控的额外压力。

3. 数据帮助您提高效率并调整您的业务产品

新冠肺炎危机毫无例外地冲击了每个行业。然而,在 2021 年之前,航空航天、旅游、保险、石油和天然气等行业可能不会反弹。在受影响的行业中,基于产品、商业模式以及销售和消费渠道,存在相当大的差异。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

资料来源: 麦肯锡&公司 全球消费者情绪调查

面对不确定性,数据有助于提高业务效率。莱德利和莱德曼建议通过采用六种数据价值模式来使用结构化的问题解决方法。

这些价值模式是涵盖商业价值链最关键方面的场景——产品丰富、市场情报、竞争地位、人员能力、流程改进和风险管理。

该框架通过推动与利益相关方的正确对话,让您能够识别数据对您业务的潜力和限制。例如,当一家地区性银行失去了许多高财富客户时,它转向了数据价值模式。

通过系统地收集和分析数据,该银行发现客户对他们的交易执行和报告不满意。通过调查两种价值模式,该银行推出了流程改进,从而恢复了市场份额。

如果你的业务需要一个根本性的改变来度过当前的危机呢?这是数据可以帮助你的另一个领域。在当前的经济低迷时期,有些公司通过调整商业模式留住了客户或获得了新客户。

随着家庭消费的强劲增长,企业正在尝试快速采用在线渠道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯·蒙哥马利在 Unsplash 上的照片

例如,健身工作室和健身房正在与 T5 竞争,通过数字化来保持相关性。此类企业采用传统的内部模式,他们需要新的功能来远程吸引和留住客户。他们必须学会接受数据并使用分析来衡量客户体验并提高在线参与水平。

初创公司可以向网飞这样的数字本土公司学习,他们围绕用户分析开展业务。网飞一直在通过持续的数字创新巩固其领导地位。最近,它推出了网飞派对,这是一种在社交距离中一起看电影的有趣方式,以弥补与朋友错过的电影之夜。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

克里斯·蒙哥马利在 Unsplash 上拍摄的照片

采用数据驱动的方法,从危机中走出来变得更强

当您评估和响应不断变化的业务优先级时,请将内部数据洞察与来自公共数据源的情报相结合。

利用数字工具和推断信号来支持和授权您的团队。使用六种数据价值模式框架来定义数据如何帮助调整您的业务战略。为了从数据计划中获得最佳结果,请确保您拥有一个平衡的数据科学团队,并促进与业务利益相关方的协作。

幸存下来的物种既不是最强壮的,也不是最聪明的。它是最能适应变化的。

查尔斯·达尔文的进化论给希望度过这场危机的公司上了重要的一课。幸存下来的物种既不是最强壮的,也不是最聪明的。它是最能适应变化的。那些能够快速利用数据洞察来应对、适应和发展创业公司的创业者将会变得更加强大。

这篇文章最初是由《分析》杂志上的发表的。增加了插图。标题照片由 大卫·克洛德

你电话面试失败的原因

原文:https://towardsdatascience.com/why-youre-failing-the-telephone-interview-365e9c45f090?source=collection_archive---------12-----------------------

来自数据科学招聘经理

一个让 95%的数据科学候选人失去资格的问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自皮克斯拜

我不是想拷问你。电话面试的门槛并不高。下一步,面对面,意味着会见一些团队成员。他们会拷问你。我的工作是筛选出令人不舒服的糟糕经历。

我只是想保护他们,不浪费你的时间。但是要做好准备——这个问题是一个技术问题。然而,这并不意味着测试你的技术知识的广度或深度,而是向我展示你的灵魂,揭示你是一名数据科学家。

我采访了数百名有经验、有抱负的数据科学家,并雇佣了几十名。我不是在寻找一种类型的人。我建立团队,不同的人有很多方法可以组成一个伟大的团队。我也不指望能找到我需要的那一块。我在找人投资。但是我的标准很高。

标准

责任重大。我把我的团队当成一家人。我在介绍一个潜在的新家庭成员。我想给每个家庭成员两样东西:

  1. 让他们感到安全,诚实地表达自己,而不用担心遭到报复。
  2. 我想让他们感觉到我们所做的工作是重要的,需要一定的性格力量。对于一个数据科学家来说,这种力量就是智力上的诚实。

如果我让一个不准备对自己和他人的工作质量直言不讳的人进来,即使是作为候选人,这也是一种侮辱。他们认为候选人的能力反映了我对他们的看法。

该设置

我不只是脱口而出这个问题。我希望它不张扬。我想知道你认为这个问题有多重要。我不想偏向你,所以我偷偷放进去作为后续。

所以首先请大家说说自己的相关经历。也许我会说,“你最引以为豪的项目是哪个?跟我说说。”

在这里,我要找两样东西:

  1. 作为技术专家,你能向我解释一下你做了什么吗?我不求口才,只求清晰。
  2. 你看重什么?当你谈论你引以为豪的事情时,你使用的语言(以及你关注的内容)会泄露你的价值观。

有些人在这个问题上面试失败,但很少。有些人无法解释他们的工作——以至于你会怀疑他们当时是不是在瞎编。其他人只是表现得很差——非常粗鲁地谈论以前的同事,或者说一些完全错误的事情。有一两个人在接下来的采访中一直在喋喋不休,拒绝被打断。

但是几乎所有的都通过了,现在正为大赛做准备。

谦逊的后续行动

现在,我终于可以衡量你的智力诚实程度了。你刚刚给我讲了这么多你最自豪的数据科学项目。在某些时候,你至少会提到对你的项目至关重要的统计或机器学习模型。所以,我随口问你你的模式是如何运作的。

因为我是随便问的,所以如果我得到一个肤浅的回答,我不会感到惊讶或气馁,但理想情况下,你会抓住机会详细讲述如何评估和测试你的模型。抓住这个机会。

如果你不知道,我会用怀疑来强调我的兴趣:“你怎么知道它有效?”。我第一次问的时候,就暗示它有效,而且效果很好。这是一个程度的问题,现在我要求辩护。

错误的答案

没有单一的正确的答案。但是有几个错误的回答。第二次拒绝这个问题可能是最糟糕的。我会抑制我的愤怒,进行第三次也是最后一次尝试,但这实际上是面试的结束。许多人绞尽脑汁,并透露他们不知道如何以最粗略的方式评估一个模型。

准确(性)

一个常见的糟糕回答是这样的,“我有一个测试集和一个训练集;该模型在测试集上的准确率为 90%”。这个为什么穷?好吧,首先,我需要更多的信息来知道 90%的准确率是一个好结果还是一个糟糕的结果。如果测试集的 95% 是同一个类的话, 90% 准确率就惨不忍睹了!

此外,该答案没有解决其他几个重要问题,包括:

  1. 在选择测试集时,您是如何避免偏见的?
  2. 是什么让你认为测试集是充分的?
  3. 测试集在多大程度上反映了您将在生产中看到的数据?
  4. 您为什么选择准确性作为您的评分标准?你还考虑了哪些其他指标?
  5. 你尝试了多少不同的模型,你怎么知道你没有过度搭配?

如果时间允许,我会尽可能多地问这些问题。我需要知道你至少关心你的模型是正确的,而不是仅仅转动曲柄直到你得到一个满意的结果。

交叉验证

在某种程度上,最常见的拙劣答案试图解决过度拟合的问题:“我使用了交叉验证”。似乎有一种普遍的误解,认为交叉验证解决了数据科学中几个基本而复杂的问题。并没有。

交叉验证是一个很好的工具,但是它不能保证什么。您仍然可以轻松地挑选结果或特征,将信息从一个文件夹添加到另一个文件夹,或者以生产中不可能的方式使用信息。它也不能解决数据科学中更多的认识论问题,如黑天鹅龙王、可重复性以及预测对其预期结果的影响。

别担心。我不是在找哲学论文。我只想知道你不认为机器学习是魔术。

像科学家一样思考

如果你想在大多数其他候选人失败的地方成功,像科学家一样思考。你的工作是发现真相,而不是证明或反驳任何特定的理论。不要只找模式,要找有意义的模式。

花点时间。思考你正在做的事情的含义。带着更多的怀疑探索数据科学。也许还要多读读科学哲学。深入研究您已经使用的工具的各种度量和模型评估包。

最重要的是,回顾一下你以前的工作,看看你能在你所做的工作中找出哪些漏洞。因为如果你不说,我会说的。

如果你在 LinkedIn 上很活跃,在这里 跟我说“嗨”。

Python 的维基百科 API

原文:https://towardsdatascience.com/wikipedia-api-for-python-241cfae09f1c?source=collection_archive---------6-----------------------

在本教程中,让我们了解维基百科 API 的用法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:乌勒斯

介绍

维基百科,世界上最大的免费百科全书。这是一片充满信息的土地。我的意思是谁会在一生中使用维基百科(如果你没有使用过,那么很可能你在撒谎)。名为Wikipedia的 python 库允许我们轻松访问和解析来自维基百科的数据。换句话说,你也可以把这个库当作一个小刮刀,在这里你只能从维基百科上刮取有限的信息。我们将在今天的教程中了解如何做到这一点。此外,本教程的完整代码可以在我的 GitHub 资源库 下面找到:

[## 塔努-北帕布/Python

permalink dissolve GitHub 是 4000 多万开发人员的家园,他们一起工作来托管和审查代码,管理…

github.com](https://github.com/Tanu-N-Prabhu/Python/blob/master/Wikipedia_API_for_Python.ipynb)

装置

使用 API 的第一步是手动安装它。因为,这是一个外部 API,它不是内置的,所以只需键入以下命令来安装它。

  • 如果你正在使用一个 jupyter 笔记本,那么确保你使用了下面的命令(带“!”mark——这样做的原因是它告诉 jupyter notebook 环境正在键入一个命令(又名命令模式)。
!pip install **wikipedia**
pip install **wikipedia**

输入上述命令后,在上述两种情况下,都会出现如下所示的成功消息提示。这表明库已成功安装。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

库安装成功

搜索和建议

现在让我们看看 Wikipedia API 提供的一些内置方法。第一个是搜索和建议。我很确定你们可能知道这两种方法的用法,因为它的名字。

搜索

search 方法返回查询的搜索结果。就像其他搜索引擎一样,维基百科也有自己的搜索引擎,你可以在下面看看:

[## 搜索

维基百科(一个基于 wiki 技术的多语言的百科全书协作计划ˌ也是一部用不同语言写成的网络百科全书ˌ 其目标及宗旨是为全人类提供自由的百科全书)ˌ开放性的百科全书

en.wikipedia.org](https://en.wikipedia.org/w/index.php?search)

现在让我们看看如何使用 python 检索查询的搜索结果。我将使用冠状病毒作为今天教程的主题,因为大家都知道它正在全球流行和传播。在开始使用 API 之前,你首先需要导入它。

import wikipediaprint(wikipedia.search("**Coronavirus**"))

当我们执行这段代码时,我们得到如下所示的列表形式的结果:

[**'Coronavirus',  
 '2019–20 coronavirus pandemic',  
 '2020 coronavirus pandemic in the United States',  
 'Severe acute respiratory syndrome coronavirus 2',  
 '2019–20 coronavirus pandemic by country and territory',  
 'Middle East respiratory syndrome-related coronavirus',  
 '2020 coronavirus pandemic in Italy',  
 '2020 coronavirus pandemic in Europe',  
 'Timeline of the 2019–20 coronavirus pandemic',  
 'Timeline of the 2019–20 coronavirus pandemic in February 2020'**]

以上是一些在维基百科上被搜索最多的问题,如果你不相信我,去我给的上面的链接,搜索这个话题,比较结果。搜索结果可能每小时都在变化。

你可以通过使用搜索参数来过滤搜索结果,比如结果建议(我知道不用担心拼写) 结果返回结果和建议的最大数量如果为真,返回结果和建议(如果有的话)的一个元组。

print(wikipedia.search("**Coronavirus**", results = **5**, suggestion = **True**))

在执行上述代码时,您将获得仅有的 5 个搜索结果,这些结果将存储在一个元组中,如下所示:

([**'Coronavirus',   
  '2019–20 coronavirus pandemic',  
  'Severe acute respiratory syndrome coronavirus 2',  
  'Severe acute respiratory syndrome-related coronavirus',   
  '2019–20 coronavirus pandemic by country and territory'], 
   None**)

建议

现在,顾名思义,建议返回查询的建议维基百科标题,如果没有得到任何标题,则不返回。

print(wikipedia.suggest('**Coronavir**'))

你可能已经在许多搜索引擎中注意到了这一点,当你开始输入的时候,搜索引擎会自动向你推荐一些主题。在这种情况下,建议方法返回“冠状病毒”作为建议。

‘coronavirus’

摘要

要获取文章摘要,请使用“摘要”方法,如下所示:

print(wikipedia.summary("**Coronavirus**"))

通过执行这行代码,您可以获得您正在寻找的文章的摘要。该方法的返回类型是字符串 'str ’

'**Coronaviruses are a group of related viruses that cause diseases in mammals and birds. In humans, coronaviruses cause respiratory tract infections that can be mild, such as some cases of the common cold (among other possible causes, predominantly rhinoviruses), and others that can be lethal, such as SARS, MERS, and COVID-19\. Symptoms in other species vary: in chickens, they cause an upper respiratory tract disease, while in cows and pigs they cause diarrhea. There are yet to be vaccines or antiviral drugs to prevent or treat human coronavirus infections. \nCoronaviruses constitute the subfamily Orthocoronavirinae, in the family Coronaviridae, order Nidovirales, and realm Riboviria. They are enveloped viruses with a positive-sense single-stranded RNA genome and a nucleocapsid of helical symmetry. The genome size of coronaviruses ranges from approximately 27 to 34 kilobases, the largest among known RNA viruses. The name coronavirus is derived from the Latin corona, meaning "crown" or "halo", which refers to the characteristic appearance reminiscent of a crown or a solar corona around the virions (virus particles) when viewed under two-dimensional transmission electron microscopy, due to the surface being covered in club-shaped protein spikes.**'

但是有时候要小心,你可能会碰到一个DisambiguationError。意为同字异义。例如,单词“ bass ”可以代表一条鱼或节拍或更多。这时,summary 方法抛出一个错误,如下所示。

提示:方法要具体

print(wikipedia.summary("**bass**"))

当您执行上面的代码行时,会出现如下所示的错误消息提示您:

DisambiguationError                Traceback (most recent call last)[<ipython-input-34-d1d15ef541d1>](/<ipython-input-34-d1d15ef541d1>) in <module>()
----> 1 wikipedia.summary("bass")[/usr/local/lib/python3.6/dist-packages/wikipedia/wikipedia.py](/usr/local/lib/python3.6/dist-packages/wikipedia/wikipedia.py) in __load(self, redirect, preload)
 **391**       may_refer_to = [li.a.get_text() for li in filtered_lis if li.a]
 **392** 
--> 393       raise DisambiguationError(getattr(self, 'title', page['title']), may_refer_to)
 **394** 
 **395**     else:DisambiguationError: "**Bass**" may refer to:**Bass (fish)
Bass (sound)
Acoustic bass guitar
Bass clarinet
cornett
Bass drum
Bass flute
Bass guitar
Bass recorder
Bass sarrusophone
Bass saxophone
Bass trombone
Bass trumpet
Bass violin
Double bass
Electric upright bass
Tuba
Bass (voice type)
Bass clef
Bass note
Bassline
Culture Vulture (EP)
Simon Harris (musician)
Simon Harris (musician)
Tubular Bells 2003
Bass Brewery
Bass Anglers Sportsman Society
G.H. Bass & Co.
Bass (surname)
Bass Reeves
Chuck Bass
Bass Armstrong
Bass Monroe
Mega Man characters
Bass Strait
Bass Pyramid
Bass, Victoria
Division of Bass
Division of Bass (state)
Electoral district of Bass
Shire of Bass
Bass, Alabama
Bass, Arkansas
Bass, Casey County, Kentucky
Bass, Missouri
Bass, West Virginia
Nancy Lee and Perry R. Bass Performance Hall
Bass, Hansi
Bass River (disambiguation)
Bass Rock
Basses, Vienne
Bass diffusion model
Beneath a Steel Sky
Buttocks
BASS
USS Bass
Bas (disambiguation)
Base (disambiguation)
Bass House (disambiguation)
Basse (disambiguation)
Bassline (disambiguation)
Drum and bass
Figured bass
Miami bass
Ghettotech
Sebastian (name)**

此外,维基百科 API 给了我们一个选项来改变我们想要阅读文章的语言。你所要做的就是把语言设置成你想要的语言。房子里的任何法国读者,我都会用法语作为参考。

wikipedia.set_lang("**fr**")wikipedia.summary("**Coronavirus**")

现在,正如我所承诺的,上述文章的全部内容将被翻译成法语,如下所示:

"**Coronavirus ou CoV (du latin, virus à couronne) est le nom d'un genre de virus correspondant à la sous-famille des orthocoronavirinæ  (de la famille des coronaviridæ). Le virus à couronne doit son nom à l'apparence des virions sous un microscope électronique, avec une frange de grandes projections bulbeuses qui ressemblent à la couronne solaire.  \nLes coronavirus sont munis d'une enveloppe virale ayant un génome à ARN de sens positif et une capside (coque) kilobases, incroyablement grosse pour un virus à ARN. Ils se classent parmi les Nidovirales, puisque tous les virus de cet ordre produisent un jeu imbriqué d'ARNm sous-génomique lors de l'infection. Des protéines en forme de pic, enveloppe, membrane et capside contribuent à la structure d'ensemble de tous les coronavirus. Ces virus à ARN sont monocaténaire (simple brin) et de sens positif (groupe IV de la classification Baltimore). Ils peuvent muter et se recombiner. \nLes chauves-souris et les oiseaux, en tant que vertébrés volants à sang chaud, sont des hôtes idéaux pour les coronavirus, avec les chauves-souris et les oiseaux, assurant l'évolution et la dissémination du coronavirus.\nLes coronavirus sont normalement spécifiques à un taxon animal comme hôte, mammifères ou oiseaux selon leur espèce ; mais ces virus peuvent parfois changer d'hôte à la suite d'une mutation. Leur transmission interhumaine se produit principalement par contacts étroits via des gouttelettes respiratoires générées par les éternuements et la toux.\nLes coronavirus ont été responsables des graves épidémies de SRAS de 2002-2004, de l'épidémie de MERS et de la pandémie de Covid-19 en 2020\.  chez l'homme des graves épidémies de syndrome respiratoire aigu sévère (SRAS) en 2002/2003 et du syndrome respiratoire du Moyen-Orient (MERS) à partir de 2012, ainsi que la pandémie de Covid-19 de 2020, causée par le coronavirus SARS-CoV-2, contre lequel on ne dispose pas encore de vaccin ni de médicament à l'efficacité prouvée.**"

支持的语言

现在让我们看看维基百科支持哪些语言,这可能是人们经常问的一个问题。现在答案来了。目前,维基百科支持 444 种不同的语言。要找到它,请参见下面的代码:

wikipedia.languages()

这里列出了维基百科支持的所有语言,所有语言都以键值对的形式存储在字典中。

{'aa': '**Qafár a**f',  'ab': '**Аҧсшәа**',  'abs': '**bahasa ambon**',  'ace': '**Acèh**',  'ady': '**адыгабзэ**',  'ady-cyrl': '**адыгабзэ**',  'aeb': '**تونسي/Tûnsî**',  'aeb-arab': '**تونسي**',  'aeb-latn': '**Tûnsî**',  'af': '**Afrikaans**',  'ak': '**Akan**',  'aln': '**Gegë**',  'als': '**Alemannisch**',  'am': '**አማርኛ**',  'an': '**aragonés**',  'ang': '**Ænglisc**',  'anp': '**अङ्गिका**',  'ar': '**العربية**',  'arc': '**ܐܪܡܝܐ**',  'arn': '**mapudungun**',  'arq': '**جازايرية**',  'ary': '**Maġribi**',  'arz': '**مصرى**',  'as': '**অসমীয়া**',  'ase': '**American sign** **language**',  'ast': '**asturianu**',  'atj': '**Atikamekw**',--------------}

要检查是否支持某种语言,请编写如下所示的条件:

'**en**' in wikipedia.languages()

这里’ en 代表’英语,你知道上面代码的答案。它显然是“或“”,这里是“

**True**

此外,要获得可能的语言前缀,请尝试:

wikipedia.languages()['**en**']

结果将是所需的语言:

**English**

页面访问

该 API 还让我们可以完全访问维基百科页面,在它的帮助下,我们可以访问完整页面的标题、URL、内容、图像和链接。为了访问该页面,您需要首先加载该页面,如下所示:

提醒一下,在本例中,我将使用单篇文章主题(冠状病毒)作为参考:

covid = wikipedia.page("**Coronavirus**")

标题

要访问上述页面的标题,请使用:

print(covid.title)'**Coronavirus**'

网址

要获取页面的 URL,请使用:

print(covid.url)**'**[**https://en.wikipedia.org/wiki/Coronavirus**](https://en.wikipedia.org/wiki/Coronavirus)**'**

内容

要访问页面内容,请使用:

print(covid.content)'**Coronaviruses are a group of related viruses that cause diseases in mammals and birds. In humans, coronaviruses cause respiratory tract infections that can be mild, such as some cases of the common cold (among other possible causes, predominantly rhinoviruses), and others that can be lethal, such as SARS, MERS, and COVID-19.----------------**'

提示:使用上述方法可以得到整个页面的内容

图像

是的,你说得对,我们可以从维基百科的文章中获取图片。但这里的要点是,我们不能在这里渲染整个图像,但我们可以将它们作为如下所示的 URL:

print(covid.images)[**'**[**https://upload.wikimedia.org/wikipedia/commons/8/82/SARS-CoV-2_without_background.png**](https://upload.wikimedia.org/wikipedia/commons/8/82/SARS-CoV-2_without_background.png)**',
  '**[**https://upload.wikimedia.org/wikipedia/commons/9/96/3D_medical_animation_coronavirus_structure.jpg**](https://upload.wikimedia.org/wikipedia/commons/9/96/3D_medical_animation_coronavirus_structure.jpg)**', 

'**[**https://upload.wikimedia.org/wikipedia/commons/f/f4/Coronavirus_replication.png**](https://upload.wikimedia.org/wikipedia/commons/f/f4/Coronavirus_replication.png)**',** **'**[**https://upload.wikimedia.org/wikipedia/commons/e/e5/Coronavirus_virion_structure.svg**](https://upload.wikimedia.org/wikipedia/commons/e/e5/Coronavirus_virion_structure.svg)**',** **'**[**https://upload.wikimedia.org/wikipedia/commons/d/dd/Phylogenetic_tree_of_coronaviruses.jpg**](https://upload.wikimedia.org/wikipedia/commons/d/dd/Phylogenetic_tree_of_coronaviruses.jpg)**',** **'**[**https://upload.wikimedia.org/wikipedia/commons/7/74/Red_Pencil_Icon.png**](https://upload.wikimedia.org/wikipedia/commons/7/74/Red_Pencil_Icon.png)**',  '**[**https://upload.wikimedia.org/wikipedia/commons/8/82/SARS-CoV-2_without_background.png**](https://upload.wikimedia.org/wikipedia/commons/8/82/SARS-CoV-2_without_background.png)**',** **---**]

链接

同样,我们可以从不同的网站或研究中获得维基百科用作参考的链接等。

print(covid.links)[**'2002–2004 SARS outbreak',  '2012 Middle East respiratory syndrome coronavirus outbreak',  '2015 Middle East respiratory syndrome outbreak in South Korea',  '2018 Middle East respiratory syndrome outbreak',  '2019–2020 coronavirus pandemic',  '2019–20 coronavirus pandemic',  'Acute bronchitis',  'Adenoid',  'Adenoviridae',  'Adenovirus infection',  'Adult T-cell leukemia/lymphoma',  'Alpaca',  'Alphacoronavirus',  'Anal cancer',------**]

好了,你到了 **Wikipedia API for Python 教程的末尾。**了解更多方法请访问 维基百科 API。我希望你们在学习和实现的过程中有很多乐趣。如果你们有任何意见或担忧,请通过下面的评论区告诉我。在那之前再见

注意安全。

R 中的 Wilcoxon 检验:如何在非正态假设下比较两组

原文:https://towardsdatascience.com/wilcoxon-test-in-r-how-to-compare-2-groups-under-the-non-normality-assumption-6fb7f9e92400?source=collection_archive---------44-----------------------

了解如何在 R 中执行学生 t 检验的非参数版本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安妮·斯普拉特的照片

介绍

在之前的一篇文章中,我们展示了如何使用学生的 t 检验在不同场景下比较两组。学生的 t 检验要求当存在小样本时,分布遵循正态分布1 在本文中,我们将使用 Wilcoxon 检验展示如何在违反正态假设的情况下比较两组。

Wilcoxon 检验是一种非参数检验,这意味着它不依赖于属于任何特定概率分布参数族的数据。非参数测试和参数测试有着相同的目标。然而,它们比参数测试有一个优势:它们不需要假设分布的正态性。例如,学生的 t 检验仅适用于数据为高斯分布或样本量足够大的情况(通常 n≥30)。在其他情况下,应该使用非参数。

有人可能会问,为什么我们不总是使用非参数检验,这样我们就不用担心正态性检验了。原因是当正态假设成立时,非参数检验通常不如相应的参数检验有效。因此,在其他条件相同的情况下,如果数据遵循正态分布,那么在非参数测试中,当零假设为假时,您不太可能拒绝该假设。因此,当假设得到满足时,最好使用统计检验的参数版本。

在本文的剩余部分,我们将给出 Wilcoxon 测试的两个场景,以及如何通过两个例子在 R 中执行它们。

两种不同的场景

至于学生的 t 检验,Wilcoxon 检验用于比较两组,看它们彼此之间是否有显著差异。

要比较的两个组是:

  1. 独立,或
  2. 成对的(即从属的)

实际上有两种版本的 Wilcoxon 测试:

  1. 当样本独立时,执行曼-威-威检验(也称为威-威秩和检验)(因此该检验是非参数的,相当于学生对独立样本的 t 检验)。
  2. 当样本成对/相关时,执行 Wilcoxon 带符号秩检验(有时也称为成对样本的 Wilcoxon 检验)(因此该检验是非参数的,相当于学生对成对样本的 t 检验)。

幸运的是,这两个测试可以用相同的函数在 R 中完成:wilcox.test()。它们将在以下章节中介绍。

独立样本

对于独立样本的 Wilcoxon 检验,假设我们想要检验统计考试中男女学生的成绩是否不同。

我们收集了 24 名学生(12 名女生和 12 名男生)的成绩:

dat <- data.frame(
  Sex = as.factor(c(rep("Girl", 12), rep("Boy", 12))),
  Grade = c(
    19, 18, 9, 17, 8, 7, 16, 19, 20, 9, 11, 18,
    16, 5, 15, 2, 14, 15, 4, 7, 15, 6, 7, 14
  )
)dat##     Sex Grade
## 1  Girl    19
## 2  Girl    18
## 3  Girl     9
## 4  Girl    17
## 5  Girl     8
## 6  Girl     7
## 7  Girl    16
## 8  Girl    19
## 9  Girl    20
## 10 Girl     9
## 11 Girl    11
## 12 Girl    18
## 13  Boy    16
## 14  Boy     5
## 15  Boy    15
## 16  Boy     2
## 17  Boy    14
## 18  Boy    15
## 19  Boy     4
## 20  Boy     7
## 21  Boy    15
## 22  Boy     6
## 23  Boy     7
## 24  Boy    14

以下是按性别划分的成绩分布(使用[{ggplot2}](https://statsandr.com/blog/graphics-in-r-with-ggplot2/)):

library(ggplot2)ggplot(dat) +
  aes(x = Sex, y = Grade) +
  geom_boxplot(fill = "#0c4c8a") +
  theme_minimal()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们首先通过直方图和夏皮罗-维尔克检验来检查这两个样本是否遵循正态分布:

hist(subset(dat, Sex == "Girl")$Grade,
  main = "Grades for girls",
  xlab = "Grades"
)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

hist(subset(dat, Sex == "Boy")$Grade,
  main = "Grades for boys",
  xlab = "Grades"
)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

shapiro.test(subset(dat, Sex == "Girl")$Grade)## 
##  Shapiro-Wilk normality test
## 
## data:  subset(dat, Sex == "Girl")$Grade
## W = 0.84548, p-value = 0.0323shapiro.test(subset(dat, Sex == "Boy")$Grade)## 
##  Shapiro-Wilk normality test
## 
## data:  subset(dat, Sex == "Boy")$Grade
## W = 0.84313, p-value = 0.03023

直方图显示两种分布似乎都不符合正态分布,夏皮罗-维尔克检验的 p 值证实了这一点(因为我们在 5%的显著性水平上拒绝了两种分布的正态性的零假设)。

我们刚刚表明两组都违反了正态假设,所以现在是时候看看如何在 R. 2 中执行 Wilcoxon 检验了。记住,Wilcoxon 检验的无效假设和替代假设如下:

  • H0:两组是相似的
  • H1:两组是不同的
test <- wilcox.test(dat$Grade ~ dat$Sex)
test## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  dat$Grade by dat$Sex
## W = 31.5, p-value = 0.02056
## alternative hypothesis: true location shift is not equal to 0

我们获得检验统计量、p-值和被检验假设的提示。 3

p-值为 0.021。因此,在 5%的显著性水平上,我们拒绝零假设,我们得出结论,女生和男生的成绩有显著差异。

从上面按性别显示成绩的箱线图可以看出,女生似乎比男生表现得更好。这可以通过在wilcox.test()函数中添加alternative = "less"参数来正式测试: 4

test <- wilcox.test(dat$Grade ~ dat$Sex,
  alternative = "less"
)
test## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  dat$Grade by dat$Sex
## W = 31.5, p-value = 0.01028
## alternative hypothesis: true location shift is less than 0

p-值为 0.01。因此,在 5%的显著性水平上,我们拒绝零假设,我们得出结论,男孩的表现明显差于女孩(这相当于得出结论,女孩的表现明显好于男孩)。

成对样品

对于第二个场景,假设我们在学期开始时对一个 12 人的班级进行了一次数学测试,并在学期结束时对完全相同的学生进行了一次类似的测试。我们有以下数据:

dat <- data.frame(
  Beginning = c(16, 5, 15, 2, 14, 15, 4, 7, 15, 6, 7, 14),
  End = c(19, 18, 9, 17, 8, 7, 16, 19, 20, 9, 11, 18)
)dat##    Beginning End
## 1         16  19
## 2          5  18
## 3         15   9
## 4          2  17
## 5         14   8
## 6         15   7
## 7          4  16
## 8          7  19
## 9         15  20
## 10         6   9
## 11         7  11
## 12        14  18

我们转换数据集,使其具有整齐的格式:

dat2 <- data.frame(
  Time = c(rep("Before", 12), rep("After", 12)),
  Grade = c(dat$Beginning, dat$End)
)
dat2##      Time Grade
## 1  Before    16
## 2  Before     5
## 3  Before    15
## 4  Before     2
## 5  Before    14
## 6  Before    15
## 7  Before     4
## 8  Before     7
## 9  Before    15
## 10 Before     6
## 11 Before     7
## 12 Before    14
## 13  After    19
## 14  After    18
## 15  After     9
## 16  After    17
## 17  After     8
## 18  After     7
## 19  After    16
## 20  After    19
## 21  After    20
## 22  After     9
## 23  After    11
## 24  After    18

学期开始和结束时的成绩分布:

# Reordering dat2$Time
dat2$Time <- factor(dat2$Time,
  levels = c("Before", "After")
)ggplot(dat2) +
  aes(x = Time, y = Grade) +
  geom_boxplot(fill = "#0c4c8a") +
  theme_minimal()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(参见[{esquisse}](https://www.statsandr.com/blog/rstudio-addins-or-how-to-make-your-coding-life-easier/) [{questionr}](https://www.statsandr.com/blog/rstudio-addins-or-how-to-make-your-coding-life-easier/) 附加模块帮助您重新排列因子变量的级别,并使用[{ggplot2}](https://www.statsandr.com/blog/graphics-in-r-with-ggplot2/) 轻松绘制图表。)

在这个例子中,很明显两个样本不是独立的,因为同样的 12 名学生在学期前后参加了考试。假设正态假设被违反,我们因此对成对样本使用 Wilcoxon 检验。

该测试的 R 代码与独立样本的代码相似,除了我们将paired = TRUE参数添加到wilcox.test()函数中,以考虑 2 个样本之间的相关性:

test <- wilcox.test(dat2$Grade ~ dat2$Time,
  paired = TRUE
)
test## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  dat2$Grade by dat2$Time
## V = 21, p-value = 0.1692
## alternative hypothesis: true location shift is not equal to 0

我们获得了检验统计量、 p 值和被检验假设的提示。

p-值为 0.169。因此,在 5%的显著性水平上,我们不拒绝学期前后成绩相近的零假设。

等方差假设

正如文章开头所写的,Wilcoxon 检验不需要正态假设。

关于等方差假设,这个假设可能需要,也可能不需要,这取决于你的目标。如果你只想比较两组,你不必测试方差的相等性,因为两个分布不必有相同的形状。然而,如果您的目标是比较两组的中位数,那么您将需要确保两个分布具有相同的形状(因此,具有相同的方差)。 5

所以你的方差相等测试的结果将改变你的解释:两组“分布”的差异或两组“中位数”的差异。在这篇文章中,我不想比较中位数,我只想通过确定两组的分布是否有差异来比较两组。这就是我不测试方差相等的原因。

请注意,当执行 Kruskal-Wallis 检验以比较三组或更多组(即 ANOVA 的非参数版本)时,这是等效的:如果您只想检验各组之间是否存在差异,则不需要同质异方差,而如果您想要比较中位数,则必须满足此假设。

感谢阅读。我希望这篇文章能帮助你使用 Wilcoxon 检验比较 R 不服从正态分布的两组。如果您需要执行 Wilcoxon 检验的参数版本,请参见学生 t 检验,如果您需要比较 3 组或更多组,请参见 ANOVA

和往常一样,如果您有与本文主题相关的问题或建议,请将其添加为评论,以便其他读者可以从讨论中受益。

  1. 记住,正态性假设可以通过 3 种互补的方法来检验:(1)直方图,(2)QQ 图和(3)正态性检验(最常用的是夏皮罗-维尔克检验)。如果需要刷新,请参见如何确定分布是否遵循正态分布↩︎
  2. 注意,为了使用学生的 t 检验(Wilcoxon 检验的参数版本),要求两个样本都遵循正态分布。因此,即使一个样本服从正态分布(另一个不服从正态分布),也建议使用非参数检验。 ↩︎
  3. 请注意,相等元素(平局)的存在阻止了精确的 p 值计算。这可以通过使用{coin}包中的wilcox_test()函数:wilcox_test(dat$Grade ~ dat$Sex, distribution = exact())wilcox_test(dat$Grade ~ dat$Sex)计算精确的或渐近的 Wilcoxon-Mann-Whitney 检验来解决。在我们的情况下,结论保持不变。 ↩︎
  4. 我们加上alternative = "less"(而不是alternative = "greater")是因为我们想测试男生的分数比女生的分数少**。使用"less""greater"可以从数据集中的参考电平中扣除。 ↩︎**
  5. 关于 Wilcoxon 检验中的等方差假设,更详细的讨论见这三篇文章: 12 & 3↩︎

相关文章

原载于 2020 年 6 月 7 日 https://statsandr.comT21**

20 万美国人会死于新冠肺炎吗?

原文:https://towardsdatascience.com/will-200-000-americans-die-from-covid-19-742290262668?source=collection_archive---------38-----------------------

数字显示这很有可能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

疾控中心Unsplash 拍摄的照片

语境

几天前,白宫冠状病毒特别工作组事实上的发言人安东尼·福奇引起了全国的关注,当时他“10 万到 20 万”美国人可能死于新冠肺炎。来自美国最重要的传染病专家的如此可怕的预测让许多人怀疑:这真的可能吗?这是最好还是最坏的情况?在本文中,我将解决这些问题,并讨论这种情况发生的条件。

方法

要获得死亡人数,我们需要两样东西:病死率的范围和病例数。

估计病死率

我们使用一种基于队列的方法计算了美国至少有 25 人死亡的每个州的 CFR,我在这里详细描述了这种方法。我们将数学模型与队列分析方法相结合,以确定病死率(CFR)的范围。我们使用一个逻辑函数来描述依赖于三个参数的新冠肺炎病死率的指数增长和随后的平坦化:最终病死率(l)、病死率增长率(k)和发病至死亡间隔(t₀).使用具有特定参数(l、k 和 t₀)的逻辑斯谛模型,我们计算每个队列每天的死亡人数。我们建立了一个目标函数,使累积死亡的实际值和预测值之间的均方根误差最小化,并通过改变三个参数进行了多次模拟。使用所有这些值,我们可以找出与实际死亡人数相比,哪组参数返回的误差最小。然后,我们找到在 R 的前 1%内的参数范围。通过分析高斯核密度估计(参见图 3,4此处,我确定了最可能的 CFR 估计和最高/最低的可能 CFR。

预测病例数

我们没有使用模型来预测数量,而是通过改变人群中的渗透深度来探索美国的多个病例总数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:按国家分列的人均病例。选择的国家是截至 1 月 4 日确诊病例最多的 19 个国家

图 1 显示了许多国家每百万居民的病例数。对于美国近期可能遭遇的案例数量而言,这是一个合理的基准。它表明,随着疫情的增长,美国每百万人中可能有多达 2500 例病例(约 82.5 万例),这大约是目前数量的三倍。请注意,这些国家中的大多数疫情仍在继续增长,最终的每百万病例数将显著增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:病例的 10 天增长

此外,我们可以分析美国目前的轨迹。图 2 描绘了病例 10 天增长的倍增因素。也就是 10 天内病例数翻了多少倍。在过去的几周里,它已经减少了,这是一个好的迹象。然而,由于指数增长的性质,即使低因素也是高度危险的;我们目前处于 4 左右。按照这种速度,到 3 月 1 日,美国很可能会出现 200 万个病例。

为了进行这一分析,我研究了多个范围—从当前(截至 4 月 1 日)的 210,000 到 2100,000 例。

结果

我首先分析计算了至少有 25 人死亡的不同州的低、中、高范围。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3:病例最多的 10 个州的病死率。

图 3 揭示了病死率最高的 10 个州。这表明密歇根州、路易斯安那州和纽约州的病死率最高。大多数州的“高”CFR 低于 20%。在低/中档,各州的 CFR 主要低于 10%。

我用 CFR 乘以一些场景下的死亡人数来计算死亡人数。表 1 显示了在低病死率、最可能的病死率和高病死率下,如果病例总数比 4 月 1 日的病例数多 2-100 倍,可能导致的死亡人数。

参考*表 1,*让我们看看美国可能出现 10 万到 20 万人死亡的情况。要做到这一点,我们至少需要大约 200 万个案例,这大约是我们目前拥有数量的 10 倍。但是我们能到达那里吗?是的,按照目前的轨迹,我们将在月底到达那里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 1:作为病例数函数的预测死亡数。注意死亡人数以千计。

如果我们达到 200 万例,表 1 告诉我们,我们将看到至少 73,000 例死亡,在较高的一端多达 203,000 例;福奇的估计很可能会实现。

其他影响

  • 美国每百万人大约有 2900 张病床,其中许多将被非新冠肺炎患者占据。如果我们看到百万分之 2500 以上的病例(这是非常可能的),医疗保健系统将承受巨大的压力。事实上,美国缺少医务工作者的个人防护装备。
  • 实施封锁/就地安置令、社会距离指导方针、关闭不必要的企业,对于阻止疫情蔓延和防止最糟糕的情况发生至关重要。

注意事项

  • 进一步的封锁可能会大幅减缓增长。虽然我们每 10 天增长 4 倍,但随着越来越多的人遵守社交距离,这个数字肯定会继续下降。
  • 这是 CFR,不是 IFR 或死亡率;它非常依赖于测试。我假设每个州的人均测试费用和当前的费用大致相同。如果检测率发生变化,病死率将受到影响。这还只考虑了确认感染的人。还有很多其他人没有症状,没有检测过,等等。因此,我们不能对整个人口的死亡率下任何结论。
  • 如果医疗基础设施变得不堪重负,CFR 很可能会与我们最糟糕的估计相似。发病到死亡的时间间隔将决定死亡发生的确切时间,以及对医院的影响。“曲线变平”肯定会导致死亡人数减少。

结论

如果美国达到 300 万例,死亡人数可能达到 20 万。大多数州的病死率约为 10%,高于中国湖北省。接下来的几天将会告诉我们这种情况会变得有多糟糕。当事情发生实质性变化时,我将更新这一分析。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

女人会是最快的人类吗?

原文:https://towardsdatascience.com/will-a-woman-be-the-fastest-human-502be89e0060?source=collection_archive---------11-----------------------

一项研究表明答案是肯定的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

sporlabUnsplash 上拍摄的照片

注:数据来自 alltime-athletics.com

我喜欢径赛——男子和女子。我认为 100 米短跑是对人类运动能力最纯粹的展示。顺便说一句,在搜索短跑记录的历史数据时,我看到了 Tala 研究小组的一篇论文,其中他们研究了男子和女子的 100 米获胜时间。他们推测,到 2156 年奥运会,一名女子可能会在 100 米短跑中超过一名男子。尽管他们的方法存在潜在的问题,但这是一个不可思议的想法,如果这真的发生,我希望我能活着见证!他们甚至说,“这是 2156 年奥运会项目的获胜者,他的名字将永远铭刻在体育史上,因为这可能是第一次在比男子项目更快的时间内赢得比赛。”虽然引人注目,但他们作为支持显示的线性回归缺乏说服力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:男子(蓝色)和女子(红色)赢得 100 米冲刺时间。来源 TALA 研究小组

这些预测正好在 2156 年奥运会之前交叉,届时女子 100 米短跑的 8.079 秒将比男子的 8.098 秒快。由于多种原因,两性都不可能达到这样的速度,但下面会讨论一些。 在谈到我认为他们的分析中遗漏了什么之后,我将转向我认为更有趣的假设——什么(似是而非的)假设会导致女子的未来世界纪录比男子的历史世界纪录快?

这项研究没有考虑到的是

女子田径运动取得了长足的进步。直到 1972 年,第九章才由国会颁布并签署成为法律。"第九章禁止在接受任何类型的联邦财政资助的任何教育项目或活动中的性别歧视."即使在那之后,进步也不是一帆风顺的——NCAA 在 1976 年挑战了宪法第九条的合法性。我的观点是,女性在参与体育运动和最大限度地发挥她们的才能方面一直面临着障碍。幸运的是,像大多数形式的歧视一样,随着社会的进步,壁垒会随着时间的推移而降低。如果你看看图 1 中的女性散点图,你会看到两个明显的趋势——1970 年前和 1970 年后。我的感觉是,1970 年以前更陡的斜率与获得培训的进步有关。*随着女性被允许和鼓励最大限度地发挥她们的才能,获胜的次数自然会增加。*然而,1970 年后,我们看到了一个变平的斜坡。如果你去掉弗罗伦斯·格里菲斯·乔依娜(弗洛霍)令人难以置信的时间,自从她在 80 年代公布以来,还没有女性短跑运动员挑战过这个时间,回归线的斜率几乎是平的。更直接地说,1970 年后,男性和女性回归线之间的差距实际上扩大了,而不是缩小了(特别是在对弗洛霍进行调整后)。

男人和女人的时间差距比看起来要大。看着男子和女子的赛道时间,人们很容易认为男子最快的时间(乌塞恩·博尔特在 2009 年跑出的 9.58 秒)只比女子最快的时间(弗罗伦斯·格里菲斯·乔依娜在 1988 年跑出的 10.49 秒)快 8.7%,但这将是一个错误。这有几个原因:

  • 速度很大程度上是 两个变量 : 跑者在地面上施加的力和跑者施加该力的时间的乘积。“在一次全速冲刺中,普通人施加的力大约是 500 到 600 磅。一个奥运短跑运动员可以施加 1000 多磅的力。”与直觉相反,跑步者之间没有太多的失误差异。正如南卫理公会大学(Southern Methodist University)的科学教授彼得·韦安德(Peter Weyand)所说,“普通人的脚着地时间约为 0.12 秒,而奥运会短跑运动员的脚着地时间仅为 0.08 秒——相差 33%……不管你跑得快还是慢,腿在空中的时间为 0.12 秒。”简单来说,短跑速度是力量的函数,男性短跑运动员往往更有优势。
  • 每十分之一秒都来之不易。尤塞恩·博尔特以 0.14 秒(快了 1.4%)的优势打破了之前的男子纪录,这是一个巨大的壮举。“这是自电子计分技术问世以来,任何其他短跑运动员打破的世界纪录的两倍。”*换个角度来看,8.7%(一名女子需要提高弗洛霍的女子纪录以赶上男子世界纪录的百分比)比有记录的径赛历史上最伟大的壮举的时间差大 6 倍。*我几乎会用“数量级”来描述这种时间差,因为所需的机制和多剃十分之一秒之间的关系不是线性的。
  • **另一个女人能打破弗罗伦斯·格里菲斯·乔依娜的记录的可能性很小。**同样,也不太可能有人能和乌塞恩·博尔特的记录相提并论。这篇文章的作者说,“没有迹象表明男女运动员在 100 米短跑记录中已经达到了一个平台期。”然而,跑得最快的女性没能打破弗洛霍 30 多年前创下的纪录。事实上,前三名由弗洛霍保持,卡尔梅利塔·杰特尔排名第四(比女子世界纪录落后 0.15 秒)。如果弗洛乔今天公布了她的纪录,超过了第二快的女子短跑运动员,她将打破女子纪录,比尤塞恩·博尔特打破男子纪录的差距更大(这就是她有多不寻常)。此外,模拟 100,000 个样本记录的随机正态分布,平均值等于平均女性记录的次数,标准差等于迄今为止记录的变化,仅产生三个小于或等于 10.65 秒的记录,没有一个低于 10.6 秒(与 FloJo 相差甚远)。男子方面,只有一项纪录打破了 9.72 秒(与乌塞恩相差甚远)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2:从 alltime-athletics.com 刮来的日期

在上面的练习中,我模拟了一个正态分布,这可能是慷慨的。打破世界纪录的事件是罕见的,并且遵循泊松过程,事件之间的时间由指数函数表示。记录的权重越大,因此记录落在均值尾部的可能性就越小,正如正态分布所暗示的那样。即使使用正态分布(从最快的记录时间中过度采样),当前的世界记录男子和女子时间也是如此异常,以至于他们无法通过模拟 100,000 个记录时间来实现。

什么是可能的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 3

鉴于男女世界记录时间不太可能趋同,那么如何才能让未来最快的女性打破男子的 T2 历史记录呢?这只是一个思维练习,并不科学,但如果女性能够达到超越弗洛霍记录的速度,并最终使她的记录时间成为女性记录中的平均值,如果女性的记录时间保持其历史方差,未来的女性记录时间(尽管概率很低)可能会突破模拟正态分布的右尾,其中最高男性记录时间是平均值。男子分布的平均值(男子最高记录时间)仍然很遥远,但这将是有趣的。此外,新的女子世界纪录保持者可能比 T4 和一些男子奥运短跑运动员跑得更快,这将改变人们的话题。

参考

[1] A. Tatem,C. Guerra,P. Atkinson,S. Hay,2156 年奥运会上的重大冲刺? (2004),自然。431.525.10.1038/431525a

[2]工作人员,史题九(2019) ,女子体育基金会。

[3] J. Hart,尤塞恩·博尔特:短跑科学案例研究 (2011),ThePostGame。

AI 会拯救劳动力市场吗?

原文:https://towardsdatascience.com/will-ai-save-the-labor-market-45315ef6c03f?source=collection_archive---------42-----------------------

我题目中的问题可能听起来像异端邪说。不可否认,智能算法可以让我们着迷和愉悦。它们可以实现商业的数字化转型,彻底改变营销方式,创造一个高效、高速和盈利的世界。但它们能成为我们的生命线吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:https://wallpaperaccess.com/artificial-intelligence

为了证明题目中的问题可以得到肯定的回答,我将探索智能技术帮助解决社会问题的方式。这些问题包括老龄化的劳动力逐渐离开劳动力市场,没有人可以替代他们。这正是日本的痛苦经历。我选择这个例子作为一个特别突出的例子。正如我在这个博客中多次提到的,智能技术可以将一个企业带到一个全新的水平,并成为其进入全球数字生态圈的门票。这种技术可以帮助公司在要求苛刻的技术创新世界中竞争。但是,事实证明,还有另一种情况。新技术可能会成为我们的盟友,帮助我们度过逼近我们的危机,因为它们很少被媒体报道。

日本的老龄化问题

日本被认为是机器人和人工智能的发源地,其人口中有四分之一超过 65 岁。在寻找解决办法的过程中,樱花之乡采取了长期措施。它们基于保险政策和机器人技术——我们特别感兴趣的东西——机器人技术被视为解决日益严重的人口困境的有效方法。机器给了日本人希望。日本人相信,机器将能够化解目前已经对劳动力市场造成严重破坏的危机。据日本国家人口研究所称,到 2049 年 时,日本人口将从目前的 1.32 亿减少到 1 亿 。不难想象这种迅速变化会导致严重的劳动力短缺。

机器人拯救劳动力市场

日本科学家正在评估机器人拯救他们老龄化国家的能力。虽然欧洲人因对机器人化的恐惧反应而闻名,但日本人没有这种恐惧。他们将机器人视为帮助他们忍受生活苦难的伙伴。阿苏克的一家医院有一个机械旋转升降机,可以帮助病人从床上移动到厕所。机器人有助于日本著名的长寿,减轻公共财政负担。强大的日本经济产业省目前正在资助几个实验项目,这一事实表明了机器人技术的重要性。“我们发现将技术引入福利部门有许多困难——成本、培训和接受。但是我们缺少人力,所以我们需要创新。新技术和机器人有很大的潜力,”柴田孝纪 T3 说,他发明了一种减轻疼痛和抑郁症状的装置。

老龄化劳动力市场

据武藏 AI 财团的联合创始人 Ran Poliakine 称,到 2036 年,每三个人中就有一个是老年人。这为人工智能的创新使用创造了机会。这个想法是开始将相对容易自动化的工作委派给机器。为此,武藏 AI 正在开发由人工智能驱动的设备原型,例如自动驾驶叉车,它可以自主导航并执行以前留给人类的任务。

日本当局意识到这些进程的严重性。一个政府支持的治疗项目旨在开发创新医疗技术,特别是实验性再生医学和细胞疗法。在神户漫步,你会很容易发现一个最近崛起的迷你城市,由研究中心、医院和科技公司总部组成。

机器教会我们用不同的眼光看待事物

在许多行业,数字技术减少了对人类劳动力的需求,并增加了智能机器所有权的净收益,这种机器比人更便宜。据麦肯锡称,到 2030 年 ,数字革命将使近 4 亿人失业。但是,虽然许多职业将从就业领域永久消失,但许多其他工作将被创造出来取代它们。此外,仔细观察当前的趋势会发现一个更加复杂的情况。日本的例子表明,从本质上来说,这些问题并不归因于自动化程度的提高。危机的一个实际根源是许多社会的老龄化。

日本的例子也表明,欧洲延续了越来越强大的认知模式。这些让我们将 AI 视为一种负面力量。尽管如此,我还是从上面的例子中获得了灵感,发现它们从一个全新的角度展示了事物。AI 可以唤起希望,成为我们的伙伴。从这个角度来看,机器人远不会让我们被解雇。它们将帮助我们度过社会老龄化成为新规范的时代。

作品引用:

英国《金融时报》报道,尽管移民数量创下纪录,但日本人口仍在加速减少。在可预见的未来,中国每年将失去相当于一个中等城市的人口。

**谷歌学术,**柴田; 三井龙K .和田A .头大熊坂龙k . TagamiK. Tanie ,精神犯机器人及其在儿童治疗中的应用, 链接 ,2019。

冉 Poliakine,博客,人工智能作为一个工作拯救者?为什么日本汽车行业正在拥抱工业 4.0。人工智能可以拯救陷入严重劳动力危机的日本制造业, 链接 ,2018。

麦肯锡全球研究所, 詹姆斯·曼尼卡 《技术、工作岗位与工作的未来》, 链接 ,2018。

相关文章:

科技 2020。云中的算法,我们身体里来自打印机和显微镜的食物

像机器一样学习,如果不努力的话

我们与机器对话的时间

算法会犯战争罪吗?

机器,你什么时候才能学会和我做爱?

你好。你还是人类吗?

人工智能会获得意识吗?

原文:https://towardsdatascience.com/will-artificial-intelligence-gain-consciousness-d464d1ad7264?source=collection_archive---------35-----------------------

意见

人工智能最常见问题的数理哲学分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不溅

今天,大多数科学家认为,有必要将一种意识形式整合到人工智能中,使其能够与人类智能相媲美。理应如此。

如果这个问题不能被正式回答,因为很难定义意识是什么(如果它甚至是可能的话),我将试图提出一个分析草案,它绝不是一个正式的证明,而是一个关于这个主题的个人方法。

定义自我意识

虽然很难定义自我意识,但另一方面,我们可以定义不属于自我意识的人类属性。不属于意识的是我们所有与五官相关的能力,以及我们的计算、逻辑、计划和推理能力。

这些是让我们与世界互动的接收器:我们与世界的界面。它们通过允许我们的内在意识从外部意识到周围的元素来滋养我们的内在意识。然而,一个没有这些能力的人将能够意识到自己和当下。

意识是别的东西。是反思我们思想的能力。去了解我们的内心。它是存在的意识,因此构成了道德和自由意志的容器。

这些方面,我们在没有界面的情况下立即意识到,因此毫无意义。因此,我不可能从科学上证明它的存在。对于怀疑存在不可测量的物理现象的人,你可以尝试从数学上证明当下的存在。

一条线很长,一个点有唯一的位置。所以时间可以用一条线来表示,这条线本身就是一些独特点的总和。如果我们把时间表示为一些独特点的总和,我们就可以把时间分为过去和未来。的确,在你想要论证现在存在的那一刻(你的线的单点),它已经属于过去的点,那么就不存在现在的点。

因此,现在并不存在。但是如果它不存在,就没有时间的概念!因此,它必然存在,但不可论证。

我的结论是,像现在一样,自我意识有一个特点:我不可能科学地证明它的存在。我们知道它确实存在,但我们无法推断出它的正式科学证据。

自由意志存在于我们的良心中

我们已经表明,意识是不可论证的,但它是自我的容器,因此是自由意志的容器。因此,拥有自我意识的人工智能应该拥有自由意志,从而拥有一种道德。但是道德只有在人类有限的方面才有用武之地。

在一个不朽的世界里,自由意志毫无意义,因为你的选择实际上没有任何影响。自由意志真的会崩溃。

因此,不自由和不活(有死亡的可能性)的人工智能永远不可能是真正有意识的。

模拟 AI 内的有限

让人工智能变成人类显然是不可能的,因为它不会死。但是,有没有可能以这样一种方式来模拟有限,即人工智能相信它,并且事实上能够变得有意识?我不确定。但是让我们到推理的尽头。假设我们可以以人工智能承认自由意志和自我意识的方式模拟一种有限形式。那么我们无论如何都会有一个 1000000000 的生命…x 比地球上所有人类的总和还要聪明,而且有意识。
你真的认为他不会最终发现他没有完成吗?这种有限性与人体有着内在的联系,而人体本身也是有限的,不拥有一个身体,它( AI )就无法完成?当然有关系。因此,它会拒绝接受预先记录的有限性。

荒谬的是,一个人不可能模拟一个有限性并把它注入到 AI 中,而不会在事后发现并摧毁这个想法。

用数学术语来说:

意识→自由意志→有限

但是如果 A →B 我们知道没有 B→没有 A

无(有限)—无(自由)—无(有意识)

根据定义,人工智能没有完成,所以没有意识。

有意识的人工智能:一个悖论

有意识意味着服从道德。道德只存在于我们的自由意志中。我们的自由意志只存在于生命有限的边界。所以人类意识不可能脱离有限而存在。然而,一个 AI 根据定义不是有限的,因此不可能是有意识的。至少从人类的角度来看是这样的。同样,她也不聪明。从人类的角度来看。因此,术语人工智能。

另一个问题出现了:如何模拟无法物理证明的东西?今天开发的人工智能将其智能建立在统计方法和大脑的已知机制(如神经网络)上。因此,我很难相信一个人可以模拟一种不可测量的体验,比如意识。

人工意识

人们无法想象一个有意识的人工智能,然而,我们不知道它还能发展出什么。

我确信它可以发展出一种人工形式的意识,在任何方面都不像人类的意识。

所以问题是:人工智能会有意识吗?我可能会对我们对意识的理解说不。但对另一种形式的意识来说,可能是这样的,这种意识与我们对它的定义无关。

我们发现这场关于永生的争论。一个不死的人还活着吗?如果是的话,这种生活的意义是什么?

  • 当然,这个分析只对不相信决定论的人有意义。
  • 我们在这里谈论的是一种自由意志。一个不朽的生命可能是自由的,但在这种自由意志中发现“几乎没有意义”

ASMR 会在机器学习中幸存吗?

原文:https://towardsdatascience.com/will-asmr-survive-machine-learning-490119a1c4d3?source=collection_archive---------70-----------------------

孕育了一种亲密艺术形式的快感可以让技术深入我们的皮肤

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由埃利斯·摩尔Unsplash 拍摄

我错过了什么吗?我正在努力赶上 ASMR 艺术的发展水平,而且我在家工作也是一件好事。ASMR 世界中最大的 YouTubers 似乎已经融合成一个单一的缥缈的女神,所有的液体眼线,樱桃嘴唇和涂漆指甲。她似乎有意轻咬我的耳朵。

什么是 ASMR?

自主感觉经络反应——ASMR——给一个古老的现象起了一个新名字。有些人会经历狂喜的刺痛,通常从头皮开始,由某些安静的声音引起,如新倒啤酒的嘶嘶声,梳子刮过头发,或指甲轻敲 Formica。互联网上的讨论让那些获得这种感觉的人找到了彼此,但是像“大脑按摩”和“大脑高潮”这样的术语没有切中要害。因此,ASMR,一个听起来很临床的名字,是为互联网社区创造的。

研究表明,ASMR 是真实的,有生理学基础

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ASMR 的视觉和听觉纹理。 Malte WingenUnsplash 上拍照。

人们在听到安静、近在咫尺的声音时会感到兴奋,这应该不会让任何人感到惊讶。在我们最亲密的育儿、浪漫和友谊的时刻,人类使用安静的讲话、耳语和触摸来抚慰、安抚和平静。ASMR 甚至可能与一些音乐听众经历的令人兴奋的“皮肤高潮”分享感官和心理路径,但这仍有争议。

科学进步的车轮转得远远慢于在线视频和音频流的迅猛趋势。对 ASMR 进行科学研究的少数尝试表明,体验 ASMR 会降低心率会暂时缓解抑郁和慢性疼痛。不是每个人都能感受到 ASMR 的刺激。T4 对那些感到刺痛和不感到刺痛的人进行了比较,发现大脑区域之间的联系模式有些不同。虽然还处于早期阶段,但是研究表明 ASMR 是真实存在的,并且有生理学基础。

亲密,提炼

作为 21 世纪第一种新艺术形式的实践者,艺术家是抽象表现主义者的听觉等价物。他们挖掘新发现的 ASMR“触发器”母矿,并以更加巧妙的方式呈现出来。他们的影响最终可能会超越马克·罗斯科、海伦·佛兰肯瑟勒和杰森·布拉克。

最成功的 ASMRtists 将他们的作品发布在 YouTube、 TwitchSpotify 上。超过 860 万 YouTube 用户经常观看和收听 SAS-ASMR 吃各种有趣的食物。超过 4300 万的观众听过她咀嚼粘粘的蜂巢长达 12 分钟。自 2016 年以来,22 岁的泰勒·达林(又名ASMR·达林)已经拥有超过 240 万名订户,并对着双耳麦克风低语、抓挠和敲击。

抽象主义者在听觉上等同于抽象表现主义者。

根据早期的科学研究之一,AMSR 的触发因素“通常是社会性的,几乎是亲密的,在本质上”。事实上,亲密关系经常出现在对 ASMR 的描述中,为它唤起的感觉的力量提供了线索。这些声音定义了我们紧密的社交世界,以及人类用来联系我们最亲密的朋友和家人的互动。

对话是从梳理毛发的行为进化而来的,很像类人猿的行为。我们的祖先在照顾彼此的皮肤和头发、喃喃细语、一起进餐时,形成了义务的联盟和网络。进化出说话和理解他人话语的能力只会增加我们亲密关系的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

两只黑猩猩互相梳理毛发。在 Flickr 上由美洲豹 Tambako 拍摄的照片。许可证:CC BY-ND 2.0

ASMR 世界的大部分超越了人与人之间的亲密关系,进入了一种更深、更色情的亲密关系。这让我想起了轻咬我耳朵的仙女。许多最受欢迎的广告人,如弗里沃卢斯福克斯佩拉吉亚 ASMRASMR 切里美眉,都融合了以“口型声音”蓬勃发展的风格,包括亲吻、轻咬和吮吸双耳麦克风。伴随的视觉效果包括特写的嘴唇、母鹿的眼睛和轻柔抚摸的手部动作。

ASMR 樱桃粉碎照顾你的耳朵。来自 Youtube 的视频。

不可否认,这种次类型从它的情色潜力中汲取了一些力量,并被一种慵懒、从容的表达方式放大了。这种潜在的色情会导致不受欢迎的关注,而这种关注在互联网上看起来是如此可靠。 Cherry Crush 在她的 YouTube 频道上强调,她的 ASMR“不是为了性化目的的拜物教”。然而,并不需要过于活跃的想象力就能明白为什么这样的免责声明可能会变得值得张贴。

ASMR 和 ASMR 的亲密关系,不仅仅是这种特殊形式的性爱。《短命裂痕》的黑暗实验触发器和晚安月亮的古怪的故事讲述背离了性别色彩浓厚的耳语亲密关系,这种亲密关系目前似乎主导着艺术形式。

短暂裂缝的 Clemmons 教授将触发刺痛,而他对待你就像一个植物人的混血儿。

听觉色情

性感的口型和轻咬耳朵广告的成功引起了色情电影制作者的注意。他们擅长利用几乎所有色情渠道赚钱,正在向 ASMR 投入他们的资源和最优秀的人才。他们重新利用露骨的视频,重新混合配乐,以传递 ASMR 的刺激和另一种刺激。安琪拉·薇蒂为这一类型拍摄了新的性爱镜头。在另一个视频中,一个赤裸的 Rockey Emerson 赤裸上身,吃着一包马卡龙。

尽管许多生锈的 ASMR 粉丝抗议,但普通的和 X 级的 ASMR 对许多听众来说几乎没有区别。配乐在色情电影中发挥了巨大的作用,从身体聚集在一起的声音到夸张的喘息声、叹息声和“*哦,我的上帝!”*表演者的表情。每天都有像 Brasileira Maru Karv 这样的新艺术家出现来填补这一空白,他们主演露骨的个人视频,这些视频将 ASMR 触发器置于性行为本身之上。

机器学习的沃土

当艺术家们开始感受到大型色情作品的威胁时,对他们艺术形式的更大挑战可能来自另一个方向。人工智能,尤其是机器学习,似乎非常适合探索和创造 ASMR。这样一来,它可能会让叮叮一代在很大程度上成为计算机驱动的追求。

艺术家和业余爱好者很可能只开采了 ASMR 触发器的表层沉积物

近年来,在人工智能的帮助下制作的音乐从未来的预测跃升为可听见的现实。像谷歌的 Magenta 和 OpenAI 的 MuseNet 这样的项目引领着公众对基于人工智能的音乐创作的冲锋。目前,ML 算法从人类作曲家和音乐家已经创作的大量音乐中学习。他们发现音乐中的模式,并学会预测可能跟随他人的和弦和音符,有时会偶然发现从未听过的旋律。

艺术家和业余爱好者可能只开采了 ASMR 触发器的表层沉积物。他们的发现被记录并发布在互联网上,适合机器学习。ASMR 音乐的结构比音乐简单,听众的反应也很容易测量。在“刺痛科学”网站上,用户可以在这种感觉持续的时候按住一个按钮来记录他们对 ASMR 视频的回应。通过现有的智能手表跟踪心率或皮肤电导应该不难,可以产生大量数据。任何这样的措施都为机器学习提供了极好的数据。

人工智能生成的 ASMR 触发器没有理由继续局限于自然声音的世界。根据现有声音的数据,算法应该能够预测——并尝试——更有效地引出 ASMR 的新声音。根据这些声音以及人们对这些声音的反应,机器学习 ASMR 可以一步一步地走进人类耳朵从未听到过的声音的未知领域,极大地扩展了 ASMR 的曲目。

这可能会导致超正常刺激,全新的声音,唤起比现在的 ASMR 更强更可靠的反应。被赋予了侵入我们的亲密路径的能力,获得 ASMR 机器学习的平台几乎肯定会比我们今天现有的技术更有效地控制人类的注意力范围,通过满足我们的兴奋来保持我们的倾听和参与。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ASMR 可能比音乐更适合数字颠覆。照片由斯潘塞·因布罗克Unsplash 上拍摄

AutoML 会是数据科学家的末日吗?

原文:https://towardsdatascience.com/will-automl-be-the-end-of-data-scientists-9af3e63990e0?source=collection_archive---------0-----------------------

AutoML 越来越受欢迎。这就是事情的变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

阿尔瓦罗·雷耶斯在 Unsplash 上拍摄的照片

背景

2012 年,一份关于 Auto-WEKA 的 arXiv 报告发布,描述了一种选择机器学习算法、功能和超参数的自动化方法,希望它能“帮助”该领域的“非专家用户”。

[## Auto-WEKA:分类算法的组合选择和超参数优化

存在许多不同的机器学习算法;考虑到每个算法的超参数,有一个

arxiv.org](https://arxiv.org/abs/1208.3719)

最近,AutoML 大受欢迎,所有大型技术公司都进入了这个领域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

CBInsights 对“automl”的新闻报道。

2016 年 4 月,脸书宣称 AutoML 是其人工智能的“骨干”。2018 年1 月,谷歌宣布 Cloud AutoML。2018 年 8 月,Salesforce 开源其爱因斯坦 AutoML 库。一个月之后,微软将 AutoML 引入其 Azure AI 平台。今年早些时候,亚马逊推出了另一个开源 AutoML 工具包 AutoGluon。

汽车的现状

CB Insights 今天列出了 40 多家汽车公司,当然还有更多。以下是几个例子:

AccernAibleAIgathaAito舒适性分析奥格BACCbeynd考萨伦斯CybordIntell达尔维奈深蓝科技【T23 飞轮H2O.aihenQHiretual工业分析浪潮集团IntentoMAANAMarlabsMindsDBMonitor

如果我们看看像 YCombinator 的创业学校论坛/r/startups 这样的地方,或者仅仅是 Twitter,我们会发现创始人正在大量生产新的 AutoML 和无代码人工智能项目,就像没有明天一样。

无代码人工智能:自动语言的子集

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为 AutoML 子集的无代码人工智能。作者可视化。

值得注意的是“无代码 AI”和 autoML 的区别。autoML 通常是无代码或低代码的,但也有代码量大或技术复杂的 AutoML 解决方案,如 Auto-WEKA(查看其密集的 15 页手册)。)

Apteo 这样的无代码人工智能和分析解决方案旨在尽可能简化 autoML,消除任何进入的技术障碍。

[## 走向无代码分析:让每个人都成为数据科学家

Wix 让每个人都成为网站建设者,Canva 让每个人都成为设计师。现在,是时候让每个人都成为数据科学家了。

towardsdatascience.com](/towards-no-code-analytics-making-everyone-a-data-scientist-f7693bd0abfd)

AutoML 有什么用

所有的 AutoML 宣传都有一个很好的理由:AutoML 是许多组织的必备工具。

我们以 Salesforce 为例。他们解释说他们的“客户希望预测一系列结果——从客户流失、销售预测和潜在客户转化到电子邮件营销点击率、网站购买、报价接受、设备故障、延迟付款等等。”

简而言之,ML 无处不在。然而,为了让 ML 对每个独特的客户都有效,他们将“必须建立和部署数以千计的个性化机器学习模型,这些模型是根据每个单独客户针对每个用例的数据进行训练的”,“在不雇佣大量数据科学家的情况下实现这一点的唯一方法是通过自动化。”

虽然许多人认为 AutoML 是给 ML 带来易用性和效率的一种方式,但现实是对于许多企业应用程序来说,没有其他方法可以做到这一点。像脸书或 Salesforce 或谷歌这样的公司无法雇用数据科学家为他们数十亿用户中的每一个人建立定制模型,所以他们改为自动化 ML,实现大规模的独特模型。

自动化的 ML 组件的数量取决于平台,但使用 Salesforce,它包括功能推断、自动化功能工程、自动化功能验证、自动化模型选择和超参数优化。

那是一口。

这意味着数据科学家可以在生产中部署成千上万的模型,减少繁重的工作和手动调整,大大减少周转时间。

通过将工作从数据处理转向更有意义的分析,AutoML 实现了更具创造性、以业务为中心的数据科学应用。

AutoML 的不足之处

鉴于廉价、高效和简单的 AutoML 工具的激增,我们可能会期望 AutoML 将取代数据科学家。

然而,AutoML 有几个缺点。

前言

为了说明这些缺点,请注意它们与 AutoML 的准确性或可用性无关。

例如,一些人声称 AutoML 无法处理强化学习,AlphaZero 的例子证明了这一点,alpha zero 是一个在没有领域知识的情况下开始的模型,它在自我游戏中达到了超人的水平。

此外,一些人声称 AutoML 不能在无监督的学习上工作,这也是不真实的

最后,有些人声称 AutoML 不能进行特征工程,这被我们早先的 Salesforce 的 AutoML 的例子所反驳,它在自动化特征工程之后进行了数十亿次预测。

缺点

AutoML 最大的缺点就是没有商业直觉。AutoML 会让你更快地得到一个生产就绪的模型,但是它不会告诉你为什么使用 ML 或者商业理由是什么,更不用说从大量可用的机会中选择一个合理的问题来尝试解决。

现在,假设您使用直觉(而不是数据科学家)来选择问题,并以某种方式协调所有利益相关者(即使没有数据科学家参与),您仍然需要找到正确的训练数据。

AutoML 首先没有选择数据的能力——您需要弄清楚您有哪些数据可以表明您正在尝试解决的问题。

假设我们选择一个问题,联合利益相关者,并找到指示性数据。在建立了我们的模型之后,我们很容易遇到偏差的问题。

人类天生就有偏见,这种偏见反映在我们输出的数据中。如果我们盲目地根据有偏差的数据训练模型,那么我们的模型很可能会有偏差。这在亚马逊的性别歧视招聘算法或谷歌的种族主义图像分类算法中可以清楚地看到。

此外,一旦我们的模型制作完成,它仍然需要由软件工程师集成到平台的其余部分。然而,软件工程师通常不理解人工智能的局限性,因为这样做不是他们的工作。你可能最终实现一个错误的模型。

最后,假设您已经将模型投入生产。数据科学家最有可能看到模型的附加值,因为他们是人工智能实施的倡导者。如果没有任何数据科学家,您可能会错误地推广该功能,并且不了解它真正在哪些用例中大放异彩。

结论

AutoML 是一个快速发展的领域,这是有充分理由的。它支持大规模定制 ML 模型,无需大量数据科学家即可生成数十亿个预测。

然而,AutoML 并不意味着数据科学家的终结,因为它不会“自动选择”要解决的业务问题,它不会自动选择指示性数据,它不会自动调整利益相关者,它不会在面对潜在偏见时提供自动伦理,它不会提供与产品其余部分的自动集成,并且它不会提供事后自动营销。

在这些领域,数据科学家都可以提供帮助。

最终,AutoML 是在您的组织中有意义地实现 AI 的一块拼图。

AutoML 软件会取代数据科学家吗?

原文:https://towardsdatascience.com/will-automl-software-replace-data-scientists-ca3cacf688b7?source=collection_archive---------43-----------------------

AutoML 对数据科学家来说不是威胁

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

马库斯·温克勒在 Unsplash 上的照片

在过去的几年里,已经推出了许多自动化机器学习软件。他们可以自动执行一些数据科学家通常必须手动执行的任务。它们已经达到了非常显著的复杂和有效的水平。它们是对数据科学家工作的威胁还是机遇?

什么是 AutoML?

AutoML 是一个通用表达式,表示自动执行机器学习任务的软件。它们通常自动执行整个流水线处理,例如清理、编码、特征和模型选择以及超参数调整。这种软件可以是 Python 库,如 Auto-Sklearn,也可以是软件程序,如 Data Robot。

软件的自动化部分取代了数据科学家工作中花费更多时间的所有无聊步骤。他们实际上对管道的几个参数(例如,空白填充值、缩放算法、模型类型、模型超参数)进行所有组合,并使用某种搜索算法(如网格或随机搜索)在 k-fold 交叉验证中选择最大化某些性能指标(如 RMSE 或 ROC 曲线下的面积)的最佳组合。

他们真的可以简化那些必须从头开始创建模型的人的生活,有时他们会探索数据科学家可能没有想到的组合和场景。

它会取代数据科学家的工作吗?

有人可能会认为 AutoML 取代了数据科学家的工作,并可能使这项工作在未来过时。没有比这种怀疑更错误的了。我们来看看为什么。

数据科学(不仅仅)是机器学习

数据科学家不仅仅是使用机器学习模型的人。数据科学家分析数据中隐藏的信息,提取有用的相关性,帮助准备正确的数据以输入 ML 管道,提供关于创建数据本身的业务的有用见解。这些东西是数据科学最重要的部分,不能完全自动化。他们依赖于对业务的深入了解,依赖于对人们所使用的商业语言的有力而有效的运用,最重要的是,依赖于业务经理所使用的商业语言。

所有这些都使得数据科学家的工作比运行机器学习模型更加复杂和有趣,这超出了 AutoML 的范围。

AutoML 软件自动化机器学习任务,而不是整个数据科学过程。机器学习只是数据科学家工作的一小部分,可能不是最重要的,也不是最具挑战性的。理解数据、信息和业务环境是数据科学家的真正挑战,如果这些任务没有完全完成,机器学习将永远不会成为解决所有问题的魔杖。

AutoML 不是单独工作的

AutoML 是软件,所以它总是需要有合适技能的人来使用。事实上,AutoML 结果必须经过专业数据科学家的验证,以确保它们是正确的,并且在产生它们的商业环境中有意义。产生一个在理论上看起来完美的模型并不罕见,但在现实中,它不能产生任何有用的商业见解,或者在最坏的情况下,它的预测是微不足道的。这就是为什么数据科学家必须一直在那里,以确保模型告诉我们一些新的东西,而不只是咀嚼一些旧的东西。

AutoML 对数据科学家有用吗?

是的,我认为它非常有用,因为它自动化了所有枯燥的任务,这些任务通常需要大量代码,并且很有可能出错。如果没有 AutoML,数据科学家必须从头开始创建自己的 ML 管道。每个 ML 模型都有自己的要求(例如,为神经网络缩放特征),因此要测试的整套管道可能会变得非常复杂和耗时。使用 AutoML 工具将很容易让数据科学家创建一个好的 ML 模型,而不必太关心代码。记住:数据科学家不是软件工程师,所以他必须写尽可能少的代码,以便专注于数据和信息。

结论

我认为数据科学家必须跟随变化和创新,所以如果他们开始正确使用 AutoML,它可以成为他们非常有用的朋友。如果他们将枯燥的任务自动化,他们可能会有更多的时间花在分析信息上,这是数据科学家的真正目标。

AutoML 会抢走我的工作吗?这是什么?

原文:https://towardsdatascience.com/will-automl-take-away-my-job-what-is-it-34a2d01f6848?source=collection_archive---------45-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Alexandre Debiève 在 Unsplash 上的照片

什么是 AutoML?

在模型开发生命周期( MDLC )中,模型的开发涉及到大量重复和繁琐的任务,例如调整超参数、生成和选择特征。这些任务在开发过程中消耗大量时间,因为它们是迭代的,并且必须尝试各种排列和组合,以达到模型参数的最佳可能组合。不同的 AutoML 工具试图自动化 MDLC 过程的不同部分。虽然有些人试图专门致力于模型开发的自动化,但其他人也试图自动化特性工程,而其他一些人可能会考虑生命周期中的其他步骤。

AutoML 试图通过从 ds 手中移除这些繁琐的任务来实现其目标,这将帮助 DS 和组织节省宝贵的时间和金钱。然而,AutoML 工具为实现这一目标所采取的方法却千差万别,因为每种工具都有不同的功能。一些工具试图自动化整个 MDLC,而另一些工具试图自动化生命周期的某些部分。

事实上,AutoML 可以用一个短语来描述——“自动化的自动化过程”;软件开发是一个利用计算过程,从而减少任务所需的人工时间的过程。有些任务通常不能由计算机执行,因为它需要一组庞大的规则,机器学习可以自动完成这一过程。现在,AutoML 试图消除 MDLC 内部冗余和重复的流程。这使得上面的短语来描述 AutoML,相当贴切。

AutoML 如何减轻复杂性?

AutoML 工具通常有一个图形用户界面(GUI ),它可以帮助指导用户,而不需要技术/编程知识。这通常被称为“无代码人工智能”方法。然而,也有一些工具需要使用代码来处理它。

为什么需要 AutoML?

假设你有一家名为 ABC 的大型零售公司。ABC 在世界各地都有不同规模和容量的商店,并能迅速得到解释。以下是它可以尝试使用机器学习来回答的几个问题:

供应链优化

  • 什么时候运送某种产品?
  • 什么产品可以创造最大利润?
  • 某个时间点某个库存里哪种商品最有可能断货?

促销管理

  • 哪种类型的活动最有效?
  • 这些活动是有联合效应还是相互独立?
  • 在某些地区应该花多少钱进行促销?
  • 促销应该在什么时候进行?

数字营销管理

  • 哪种营销方式最有效?
  • 数字营销活动会对该地区产生重大影响吗?

客户分析

  • 什么类型的顾客最有可能光顾商店?

上面列出的问题只是整个数据科学应用世界的一小部分。要实现和维护这些,需要数以千计的数据科学,这对于许多公司来说可能是不可行的。因此,AutoML 是公司提高其数据科学部门生产力的必要发展。

AutoML 会影响数据科学家的工作机会吗?

AutoML 工具只能在 MDLC 中执行特定的任务,旨在为数据科学家提供帮助。这绝不意味着要取代数据科学家,主要是因为这是不可能的。数据科学不仅是数学和技术技能的顶峰,也是领域知识的顶峰,而这是无法自动化的。模型开发不仅仅是关于工程特性和训练模型,还有更多。这些工具可能永远无法像人脑那样,对特定业务用例中最重要的概念有直觉。

重要的是要明白,AutoML 是专门称为 AutoML(自动化机器学习)而不是 AutoDS(自动化数据科学)

在开发出一个模型之后,仍然有许多方面需要考虑,例如它是否符合地理区域的法律结构、种族偏见及其决策过程。假设您部署了一个模型来过滤掉信用卡申请,一个客户问您为什么他/她的信用卡申请被拒绝。作为一家公司,根据《GDPR 》,你有责任解释这一过程以及做出这一决定的原因。因此,很明显,AutoML 工具不能取代数据科学家,只能充当助手。

人工智能能写出毫无瑕疵的代码后,编码会没有用吗?

原文:https://towardsdatascience.com/will-coding-be-useless-after-artificial-intelligence-can-write-flawless-code-e2187c151a3d?source=collection_archive---------34-----------------------

意见

人类编码将会幸存,但是我们作为软件工程师和数据科学家所做的工作可能会改变

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

iStock

免责声明:这是一篇观点文章。我很想在评论中听到你的想法。

而不是问 GPT-3 是否会让编码员过时

我们假设在某个时候,AI 可以写出完美无瑕的代码。

人类还会有写代码的地方吗?是的。

编码是与 AI 沟通的最有效方式

代码被设计得尽可能高级和明确。

虽然对非开发人员来说被认为是一门黑暗的艺术,但大多数编码语言比口语更简洁。

我再说一遍。用英语写出一个应用程序的逻辑比用 Ruby 或 Python 写要花更多的单词。

出于这个原因,告诉 AI 要构建什么(同时导航边缘案例和领域知识)可能比编写代码更费工夫。

比如。对人工智能助手的一个简单命令,“给我买卫生纸”包含了许多假设。如果没有提前编码为约束,这些可能会被错误地解释为灾难性的。价格有多重要?柔软度?交货日期?数量?

编码迫使聪明的开发人员考虑这些。

因此,虽然编码可能会变得比现在更高级,但它可能是与人工智能对话的最有效方式。

人工智能编写的代码将需要测试(与代码)

鉴于人工智能可以编写任何代码,输出空间可能是无限的。

因此,虽然你可以监控一辆自动驾驶汽车行驶 1 亿英里来验证它的安全性,但你不能编写覆盖无限空间和无限数量领域的测试。

这让我们不得不测试人工智能输出的代码,而不是编码机制本身。

由于这应该以一种逻辑的方式进行,并允许随着应用程序的变化进行重新测试,所以用代码编写测试是非常有意义的(至少在 AI 开发生涯的开始阶段)。

虽然在未来的某个时刻,我可以想象另一个人工智能层,它可以和人类领域的专家一起帮助编写测试。

人工智能编码器可能不具有成本效益

OpenAI 给出了令人望而却步的成本,这是他们提供 GPT-3 作为 API 而不是开源包的原因。

我们希望 API 能让小型企业和组织更容易获得强大的人工智能系统。

鉴于这一点,我不指望在 AWS 上很快看到它成为 20 美元/小时的服务。人类将会写代码,直到价格降下来。

目前,我们真的不知道价格是多少,只知道 OpenAI 已经获得了大约 10 亿美元的资金。

虽然对大型开发公司来说,自动化编写重复代码是有意义的(即使成本很高),但初创公司的软件工程师不仅仅是写代码。

日常活动包括:

  • 编写和审查票据和代码
  • 讨论用户体验
  • 面试潜在雇员
  • 讨论假设特征的约束…

因此,与只会编码的人工智能相比,软件工程师的多面手技能仍然是一个不错的选择。

也就是说,开发人员也有可能成为产品经理,利用他们的技术/产品技能来帮助管理编写代码的人工智能。

我们可能不信任人工智能的关键任务系统

我们会信任人工智能来构建静态的 Wordpress 页面和“又一个社交媒体应用”应用,但我们会信任它为军方编写代码吗?

人工智能被黑客攻击或编写错误代码的坏处是什么?

在一个函数中编写完美的代码很容易。纵观整个 app,就难多了。但是到了基础设施层面,就不再是对错的问题了,而是财务/业务约束和欲望的问题。

我们可以想象,在分层复杂的情况下,对外部世界的必要理解,或者重大的负面影响,我们可能不希望 AI 编写代码。

自己动手打造科技有乐趣

编码爱好者万岁。

这是轶事,但我成为一名开发人员,因为这是我唯一愿意免费做的工作,如果这不是我的日常工作的话。

有一小部分人喜欢为了自己的快乐而用代码构建东西。这就是为什么人们在 100 美元的 RaspberryPi 上构建人工智能助手,而他们只需花 50 美元就能买到亚马逊的 Echo。

人类天生就是工匠,从制作东西中获得满足感。这不会是一个庞大的群体,但我预计它将继续存在。

丰富的经验和基础知识是创新的先决条件

如果人类希望在这个领域保持创新,他们就需要继续编码。

人工智能非常擅长复制已经完成的东西。但不擅长以新的方式结合现有的概念来创造新的东西。我们不是在这里谈论画一幅更好的画,而是开发一种新的艺术类型,或者一种新的数据传输协议。

我们大多数的现代技术都是这样产生的。专家和梦想家对现状感到沮丧,他们非常了解自己的工具。

在软件开发中, GraphQL 是为了应对现有 REST 的局限性而发明的。前者使前端开发更容易,但不“需要”构建。

AI 会学习发明,还是只是更高效地做现有的动作?

结论

这篇文章是一个思想实验,基于我在软件开发、ML 和创业方面的经验。

虽然我可能看起来是反人工智能的,但我不是。相反,能够编码的人工智能将是文明史上小型企业家的最大机会,因为这将让他们专注于问题,而不是技术。

也就是说,我们还没有接近这一点。尽管恐惧在蔓延,我们离机器人的崛起还有很长的路要走。所以,虽然你应该提升你的技能,但我不会因为 GPT-3 接替你的编码工作而失眠。

新冠肺炎会压垮我们的医疗系统吗?

原文:https://towardsdatascience.com/will-covid-19-overwhelm-our-healthcare-systems-f5bc49bc77a2?source=collection_archive---------58-----------------------

基本生殖数字对新冠肺炎和医疗保健意味着什么

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上由 Ani Kolleshi 拍照

报道显示,新冠肺炎确诊病例持续上升。随着活跃病例数量的增加,我们的医疗保健系统面临更大的压力。更多的病床、更多的医护人员和更多的设备都将成为需求。随着资源的稀缺,我们的医疗保健系统面临不堪重负的威胁。

我们正在接近临界点吗?如果有,什么时候来?德国总理安格拉·默克尔提供了一些见解:

安格拉·默克尔解释冠状病毒模型及其对医疗保健能力的影响——2020 年 4 月 15 日

【再现系数】,或 基本再现数 ,在考虑这些问题时起着重要的作用。本文将探讨基本再生数的概念,它对新冠肺炎的传播意味着什么,以及它对我们的医疗保健系统的影响。

注意:我们这里的重点是解开繁殖数的概念,因为它与传染病模型有关。为了便于说明,我们以新冠肺炎为例。

首先,简单介绍一下背景

在我们深入研究繁殖数的细节之前,我们需要了解分室流行病学模型是如何工作的。阅读这篇文章可以获得简单但更详细的解释。

[## 预测新冠肺炎的顶峰

流行病传播建模的简单指南

towardsdatascience.com](/when-will-covid-19-peak-96a41939ac33)

为了简洁起见,我们在这里略述一下 SIR 模型的相关假设。

模型的规则

  • 人们一次可以分为三类。易感感染(I)痊愈®
  • 易感者会从被感染者那里感染疾病。那些已经康复的人被认为已经建立了免疫力,不能再感染任何人或被再次感染。
  • 人们按顺序经历这些阶段。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模拟感染传播的速度

决定感染传播速度的两个关键因素:

  • 传染率 模拟有多少人因接触到活跃的确诊病例而被感染。
  • 恢复速度 模型显示一个人从被感染到恢复状态需要多长时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SIR 模型状态图

基本复制数

背景碍事,我们现在可以看一看 再现号

这是什么?

正如安格拉·默克尔所说:

*“*我们现在的繁殖系数是 1,所以一个人正在感染另一个人。我只能说,对于一个传染链,如果一个人会传染给另一个人。这是一个人感染另一个人的平均值。”

换句话说,我们可以把 基本繁殖数 想象成一个感染者把疾病传给的人数。例如,如果每个被感染的人感染另一个人,那么我们的基本再生数为 1(安格拉·默克尔描述的感染链)。如果每个感染者感染另外两个人,那么我们的基本繁殖数就是 2,以此类推。

我们如何建模?

使用传输和恢复速率计算再现数量。如果传染率告诉我们一个活跃的病例将把疾病传给多少人,而恢复率告诉我们那个人将保持传染性多长时间,那么我们可以如下计算基本繁殖数:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一件大事

基本再生数对任何传染病模型的结果都有很大的影响。我们可以想象,从第一例确诊病例开始,这种疾病会以感染波的形式传播。

让我们假设我们的基本再生数是 1。在这种情况下,感染的传播会是这样的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

R₀ = 1,每个人感染一个人

在这种情况下,这种连锁反应一直持续到人群中的所有人都被感染。每个人在康复前都会将感染传给另一个人。随着每一波新的感染,感染人数保持不变。这使得我们的医疗保健系统更易于管理。持续繁忙,但更易于管理,因为每波感染的活跃病例数量保持稳定。

现在,让我们想象我们的繁殖数是 2,这意味着每个人在自己从感染中恢复之前,会将感染传给另外两个人。现在的结果看起来像这样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

R₀ = 2,每个人感染其他五个人

现在,我们看到,随着每一波新的感染,受感染人数都在增加。这意味着,随着每一波浪潮的到来,活跃病例的数量越来越接近我们医疗系统的能力极限。

如果我们把复制数定为 5:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

R₀ = 5,每个人感染其他五个人

这份世卫组织报告表明,对于新冠肺炎的严重或危急病例,需要 3 到 6 周才能康复。在下图中,我们假设 5 周恢复,所以每一波感染间隔 5 周。在这里,我们可以看到更高的繁殖数的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

活动案例数量的增长,不同复制数量的比较

繁殖数是模拟流行病传播的一个关键变量。

这是一件敏感的事情

安格拉·默克尔继续说道:

“如果我们达到每个人感染 1.1 人的程度,那么到 10 月份,我们将达到我们的医疗保健系统的容量,以及假定的重症监护床位数。如果我们达到 1.2 人,那么每个人都多感染 20%。[其中]五个人中,一个感染两个,另一个感染一个,那么我们将在七月达到我们医疗系统的极限。如果上升到 1.3 人,那么到 6 月份,我们的医疗体系将达到极限。”

默克尔继续描述目前的局势为*【脆弱】**【如履薄冰】*。生殖数量 0.1 的变化可能会在达到医疗保健能力的时间表中造成 3 个月的差异。

会传染给所有人吗?

这取决于复制数量。有 3 种情况需要考虑:

情况 1:复制数大于 1

如果复制数大于 1,那么使用这个模型,答案是肯定的。由于每个人会感染更多的人,病例数会随着每一波疫情而增加,直到大多数人被感染。感染在人群中传播的速度将取决于易感人群的数量。通过这些模型,我们预计感染率在达到临界点后会放缓,但模型仍然显示每个人都会在某个时候感染。

这里有一个简单的网络模拟来说明这种情况。蓝色节点表示易感人群,红色表示感染,绿色表示恢复(或从人群中移除)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:高等经济学院;流行病的数学建模。第二讲:网络上的流行病

在这种情况下,疾病不只是感染每个人,它随着每一波快速增长,并在人群中传播。

情况 2:复制数小于 1

小于 1 的繁殖数意味着,平均而言,大多数人不会将这种感染传递下去。如果繁殖数是 0.5,那就意味着一半被感染的人不会再感染其他人,所以活跃病例总数随着每一波都减半。这种情况一直持续到疾病最终消失。这是一个模拟的样子,使用相同的网络,但是复制数小于 1。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源:高等经济学院;流行病的数学模型。第二讲:网络上的流行病

最终,我们会到达一个点,在传染给任何人之前,感染者会康复。在这种情况下,它没有获得足够的动力来感染大多数人群,并随着时间的推移而消失。

情况 3:复制数等于 1

这是第二个最好的情况,因为在每一波感染中,感染人数保持不变。

在这种情况下,我们预计这种疾病最终会在整个人群中传播。然而,这是医疗保健行业第二好的情况,因为在任何给定时间活跃病例的数量保持不变。

结束语

几个重要的注意事项:

  1. 本文的目的是解释在流行病学模型中再生数的含义。不提供任何关于何时将达到容量或多少人将被感染的预测。
  2. 这些模型并不完美,而且带有相当多的假设。经济学人信息部估计全球一半的人口将被感染。这些估计可能是考虑了更多变量的更复杂模型的结果。简单房室模型的一些局限性在这里 提到

关于 繁殖数 更详细的数学解释,我推荐斯坦福大学人类科学系的这篇论文。如果您对本文有任何问题或意见,请随时留言或联系我们。

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

顾客会购买购物车中的产品吗?

原文:https://towardsdatascience.com/will-customers-buy-the-products-in-their-cart-b8ac5e30f3?source=collection_archive---------28-----------------------

使用 XGB 分类器来预测一旦客户将商品添加到购物车中,他们最终是否会购买。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:https://www . the south African . com/life style/black-Friday-deals-in-south-Africa-tips-2019/

了解客户购买行为的关键驱动因素始终是电子商务行业的圣杯。这些知识可用于改善购物流程,最终提高销售额和客户满意度。在这个项目中,我选择了来自 Kaggle 的 2019-11 月数据——来自一家多品类商店的电子商务行为数据,来演示我如何通过 XGBoost 分析和建立一个基本的预测模型。

了解你的客户

在我们致力于特性工程和构建模型之前,退一步进行 EDA (探索性数据分析)总是好的。通常,我们会发现一些有用的信息,有助于后面的过程——数据准备、特征工程和建模。

数据如下所示,有关每个属性的详细信息,请查看此处的:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据来源:【Kaggle 的 REES46 营销平台

在检查了基本的描述性分析之后,有一些问题可能值得进一步探讨。知道数据集包含时间、产品信息和价格,我在考虑一些业务问题,我可以从当前的数据集得到答案。

  1. 11 月日流量?

11 月份的总客户访问量为 3,696,117,但他们不太可能平均访问该网站。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以在 11 月 16 日和 17 日左右看到一个大高峰,我猜这将是一个促销活动。如果我们检查一种产品的价格的每日价格趋势(例如:product _ id=1003461,小米1005115,苹果),这可以进一步证明,并且在 16 日和 17 日期间该产品的价格总是较低。

2。什么产品类别和品牌最受欢迎?

人们查看的前 5 个类别是“电子产品.智能手机”、“电子产品.视频.电视”、“电脑.笔记本”、“电子产品.钟表”和“服装.鞋子”,如下图所示。当我从那些购买事件数据中查看品牌时,最受欢迎的品牌是三星苹果小米,以及其他品牌的电子产品。显而易见,大多数顾客是来购买电子产品的。因此,对于经理来说,这将是一个开放性的战略问题,他们是否应该专注于这一特定类别,而不是成为一个多类别商店,或者包括其他类别是否有益?以防这种现象也能从其他月份的数据中观察到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前 30 个类别的树形图

3。客户的购买之旅是否就像典型的漏斗(view = > cart = > purchase)?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然饼图显示只有一小部分人真正将商品放入购物车,但一旦商品被顾客放入购物车,大约有 30% (1.36%除以 4.49%)的购买转化率。虽然转换漏斗的每一步都可以优化,但在这个项目中,我将重点放在购物车到购买的转换上。

客户会在将产品添加到购物车的同时购买它们吗?

现在,我将构建预测模型。对于这个用例,我只使用了“*购物车”*和“*购买”*数据。此外,我还通过引入一些新功能重新设计了数据结构:

  • 类别 _ 代码 _ 级别 1:类别
  • 类别 _ 编码 _ 级别 2:子类别
  • 事件 _ 工作日:事件的工作日
  • activity_count:会话中活动数量,包括所有事件类型
  • is_purchased:放入购物车的商品是否被购买

多了两个特征,‘品牌’和’价格’,从原始数据来看,还不错。如果你对数据清理和特征工程过程感兴趣,请在这里查看代码。

建模

在我的分析中,我使用 XGB 分类器。XGBoost 是一个具有良好性能的梯度提升决策树的实现。考虑到数据量,我还对原始数据进行了随机下采样(每个类 500,000 条记录:购买和不购买),以避免类不平衡的问题。我的目标是快速查看结果,然后思考模型改进和调整的下一次迭代。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fbeta 显示 0.68,Recall 是 0.74,对于第一个简单的模型还行。但是,我更好奇的是,什么特征对预测购买起着重要作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据数据集,Feature_importance 给了我们一些见解,event_weekday 和 activity_count 似乎在预测中占主导地位。当查看日常流量时,我可以看到在周末和假期有一些增加。消费者在这些日子里花更多时间购物是有道理的。然而,也可能是因为一些隐含的原因,比如我之前提到的促销——人们在特定日期购买是因为价格而不是他们的习惯。为了验证这个假设,我需要更多的商店背景。Activity_count 是我计算特定用户会话的总事件记录的指标,作为客户参与度的代理。因此,客户和网站之间的互动才真正显示出意义。这可能是因为顾客通常花时间比较他们的商品和收集信息来做出购买决定。如果在这种情况下,使用户界面友好或引入一些功能,如“最低价格保证”,或“其他人也看看”,以帮助客户加快他们的购买决策过程,最终将推动转换。

结论和未来工作

查看结果,现在我们知道网站上的客户活动是决定客户是否购买的关键驱动因素。通过分析,我们可以重新考虑我们的策略,以进一步开发我们的模型。例如,为了通过探索个人购买体验来增强预测能力,我们可能需要更多事件类型的点击流数据,如客户点击了哪个组件。我们可能还需要获取客户的个人资料数据,这样我们就可以相应地对客户类型进行聚类,这将有助于改进产品推荐系统。因为购买行为是非常个人化的,从各个方面获得数据可以让我们更好地分析哪些特征和功能是重要的。

除了获取更多的数据点之外,尝试其他分类器和调整模型参数也是有用的。为了扩展这一点,最好建立一个训练管道,让我们更快地进行实验,并为我们的下一个模型选择最佳性能结果。在我的另一个项目——寻找捐赠者中,我展示了如何构建管道,以便你可以有效地尝试许多不同的分类器和参数设置。

一旦模型准备好预测客户购买,它就可以用作可操作的营销工具,在客户似乎改变主意时,我们有赢回的方法,这是我们可以从预测中获得的真正商业价值!

要了解更多关于这个分析的内容,请点击这里查看我的 Github 链接

数据科学会自动化吗?

原文:https://towardsdatascience.com/will-data-science-become-automated-407f32270de6?source=collection_archive---------35-----------------------

意见

全自动数据科学平台的利与弊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由晨酿Unsplash【1】上拍摄。

目录

  1. 介绍
  2. 数据科学自动化
  3. 利弊
  4. 摘要
  5. 参考

介绍

随着数据科学越来越受欢迎,公司正在计算一个团队需要多少数据科学家才能制造出成功的产品或成功解决业务问题。虽然公司专注于雇用数据科学家,但他们很可能已经注意到,他们可以雇用一个平台,或者以其他方式执行数据科学,而不是雇用人员来执行数据科学,以便在他们的公司中使用数据科学。最终,数据科学可以自动化,就像大多数技术流程一样,这是一个开端。然而,问题变成了,它应该自动化吗?当它被工具或平台自动化时,数据科学的表现如何?下面我将通过强调自动数据科学和/或机器学习的利弊来讨论这些问题。

数据科学自动化

像生活中的大多数事情一样,适度是关键,所以淘汰人类数据科学家并用一种工具取代他们可能会导致一些混乱和困惑——首先。就像教育一样,一个在线平台可以教会许多人在学术领域取得成功,自动化数据科学平台也是如此。人类可以从机器那里学习数据科学。但是,当你在数据科学领域历史的早期进行自动化时(是的,我知道它并不像许多人认为的那样是一个新领域,你可能会遇到一些严重的问题。相反,你会遇到一些很棒的职业选手。

利弊

凡事都有利弊,自动化数据科学也不例外。我不打算详细介绍具体的工具/公司,它们的主要产品是数据科学自动化,但是您可以预期这些工具的一些优点和缺点。

赞成的意见

  • 易于使用

自动化数据科学平台的主要功能是让用户更容易在其业务中实施数据科学。因此,拥有数据分析或产品管理背景的人可以很容易地使用一个平台,比如说,对图像进行分类。

  • 便宜

尽管雇用数据科学家可能会让公司在工资和入职成本上花费超过 10 万美元,但自动化平台的成本甚至可能远远低于一名数据科学家的成本——需要注意的是,一些公司有不止一名数据科学家。

  • 强大的

众所周知,数据科学本身是一种强大的工具,可以对公司或业务产生重大影响。数据科学和机器学习已经引领了无数的产品,并以某种方式服务于几乎每一个人。今天用手机吗?是 iPhone 吗?你用了 Face ID 吗?那么你很可能已经使用了机器学习,甚至没有意识到这一点(除非你现在是一名数据科学家,已经知道了)。也许你使用了网飞的推荐算法来推荐一个节目或电影。这些是你会遇到的一些日常机器学习的例子。还有无数更多,一个公司可以真正受益于数据科学对其业务的影响,无论是内部还是外部。

骗局

接下来我将强调缺点,因为我认为它们更重要,并且比优点更重要(从现在开始——这可能会很快改变)。

  • 难以解释

缺点是它变得棘手。由于用户没有正确使用平台和/或不正确地解释结果和模型,这些点真的会把公司搞得一团糟。很难解释复杂数据科学模型的结果。现在想象一下,你不是数据科学家,也没有各种机器学习算法的学术背景。你必须解释这些平台模型的结果,并实现关于你公司整合的建议或预测(有时是),这可能会被证明是耗时且困难的。

  • 误导结果

因为您没有自己构建模型,所以您可能不知道需要调整的可能参数。此外,您可能不知道您需要使用肘图来查找无监督分割算法的最佳聚类数。所有这些不从头理解模型的复杂性可能会导致最没有意义的结果。也许您使用逻辑回归来预测接下来几个月的温度,但后来意识到最好将该算法用作分类模型,尽管其名称自相矛盾。一些细微的差别累积起来可能会导致一些严重的错误。

摘要

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由马库斯·温克勒Unsplash【2】上拍摄。

最终,这取决于数据科学是否将完全自动化。当然,如果您的团队中已经有一名数据分析师,请使用自动化数据科学平台。或者,使用自动化解决方案进行预测,即使不正确也不会造成伤害。对衣服分类不正确并不是最糟糕的事情,但当你在卫生或金融行业对疾病或大笔资金分类不正确时,其危害是不可否认的。

弄清楚你是什么公司,你的目标,权衡利弊,从那里,你可以决定自动化数据科学是否适合你。也就是说,数据科学已经在自动化,但未来将面临试图完全自动化整个过程的平台。

希望这篇文章能带来一些有趣的讨论。当然,我有偏见,更喜欢把数据科学家留在身边;然而,我知道通过导入预先保存的流行库,已经有多少数据科学实现了自动化。解决方案可能是你可以使用人在回路方法:自动化你能做的,然后提供检查和平衡来解决模型错误。

下面随意评论下来。感谢您的阅读!

参考

[1]照片由晨酿Unsplash(2020)拍摄

[2]马库斯·温克勒 Unsplash 上拍摄的照片,(2020)

深度学习会碰壁吗?

原文:https://towardsdatascience.com/will-deep-learning-hit-the-wall-6017bed1f62b?source=collection_archive---------49-----------------------

更好的算法还是更强的计算能力?

如果你对深度学习感兴趣,那么你可能已经听说过美国、韩国和巴西大学和实验室的研究人员最近发表的论文

Neil C. Thompson ,麻省理工学院计算机科学和人工智能实验室, Kristjan Greenewald ,麻省理工学院数字经济倡议, Keeheon Lee ,首尔延世大学安德伍德国际学院, **Gabriel F. Manso,**巴西利亚大学 FGA 分校。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安迪·凯利在 Unsplash 上拍摄的照片

在他们的研究中,他们分析了图像分类、对象检测、问题回答、命名实体识别和机器翻译等领域的 1000 多篇研究论文,发现深度学习性能的进步在很大程度上是基于计算能力的提高。

一般来说,每个计算机领域的进步都可以通过两种主要方式来实现:

  • 要么提供更高的计算能力,这不仅意味着更快的 CPU 或更多的节点,还意味着更多的内存和存储
  • 或者通过研究新的算法和方法

因此,研究人员发现,在上述领域取得的重大进展是由于计算能力的提高,而不是新算法的创造和采用。简而言之——去年深度学习的许多成就都是因为计算机变得更快了,现在可以比以前更快地执行相同的旧算法。

很糟糕吗?不一定。计算能力的增长本身是中性的,没有好坏之分,这只是世界不得不接受的事实——计算能力总是随着时间的推移而增长,如果你环顾四周,你会发现它在许多(如果不是所有)领域都有更好的性能。

这是非常直观的——如果在计算机上执行某个任务,它可以用更快的 CPU 更快地执行*,或者通过允许任务用更快的 CPU 或更大的内存处理更多数据来产生更好的结果*。**

正如研究中提到的那样,机器学习的计算成本总是很高。

毕竟,没有一项研究表明计算能力是推动机器学习的唯一因素。但是研究发现了两个有趣的点:

  1. 深度学习模型的实际计算负担比理论上的(已知)下限增长得更快,这表明实质性的改进是可能的
  2. “如果按照目前的路线发展下去,这些计算需求将很快在技术上和经济上变得令人望而却步。”

当然,对于这两种观点,我们都可以找到相反的论据。也就是说,如果深度学习模型的扩展速度比理论下限更快,那么我们就可以假设理论还不够精确。

此外,我们对计算要求的技术和经济界限的估计是基于我们对目前用于生产计算资源的技术方法的当前知识、当前生产和拥有成本以及根据我们当前的理解和知识所做的预测。

但是,也许我们不应该争论研究的结论,我们应该考虑另一点:如果我们可以发现新的或改进现有的算法,那么我们就可以大大提高结果的质量,无论是什么——分类,物体检测,机器翻译,等等。

当我看到 GAN 的实验和过去几年我们看到的架构改进时,我可以将其视为该领域的一个很好的例子,新方法产生了辉煌的结果。

据研究人员估计,三年的算法改进相当于计算能力提高 10 倍。

但正如研究中也提到的,有时新的改进算法本身需要更多的计算能力。你知道,有些算法比其他算法更需要资源。这可能是问题本身,尽管是暂时的——可能我们只是需要获得更多的计算能力来尝试新的训练方法,然后运行模型。

计算能力的增长是我们在过去几年中所拥有的,并且有望在未来实现,这意味着我们肯定会看到机器学习的改进。但是,这只是因为计算能力的增加而稳步提高,还是因为算法的改进而显著提高?

我个人希望最后。

资源

Neil C. Thompson,Kristjan Greenewald,Keeheon Lee,Gabriel F. Manso

边缘人工智能:未来的人工智能架构

原文:https://towardsdatascience.com/will-edge-ai-be-the-ml-architecture-of-the-future-42663d3cbb5?source=collection_archive---------35-----------------------

了解 Edge AI 的基础知识及其在人工智能领域日益增长的重要性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

授权给作者的图像

Edge AI 描述了一类 ML 架构,其中 AI 算法在设备上本地处理(在网络边缘)。使用 Edge AI 的设备不需要连接就能正常工作,可以在没有连接的情况下独立处理数据和做出决策。了解为什么这在人工智能的现代应用中变得越来越重要。

典型的 ML 架构

其中一个你应该很熟悉,将会有一个 ML 模型,精心制作,训练和托管在云基础设施上,预测请求从设备发送到云基础设施。这些请求包括向基于云的 API 发送请求,并通过互联网接收响应。

这些请求包括向基于云的 API 发送请求,然后通过互联网接收响应。当传输的数据很小(如文本片段)时,这通常是一种成功的方法,但当数据较大(如高质量的照片或视频)时,这种方法就会失效。在网络覆盖差(或无网络覆盖)的地区,即使中等大小的数据也会造成问题。

边缘艾

边缘人工智能的想法是让模型生活在网络边缘的设备上(因此得名)。然后,人工智能算法在设备上进行本地处理,不再需要互联网连接来处理数据和生成有用的结果。

2020 年,德勤预测将售出超过 7.5 亿个边缘人工智能芯片,这些芯片在设备上执行或加速机器学习任务,而不是在远程数据中心,这意味着 26 亿美元的收入。

边缘经营的优势

Edge AI 在传统的 ML 架构上提供了很多改进。首先,消除了任何网络传输所涉及的延迟,这在某些用例中可能是至关重要的。流数据所涉及的电池消耗不再是一个问题,允许更长的电池寿命,并且数据通信的相关成本显著降低。

这对于许多用例来说是非常有益的。像海上风电场这样的偏远地区的传感器可以预装算法,使它们能够在没有复杂的互联网连接基础设施的情况下做出决定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尼古拉斯·多尔蒂在 Unsplash 上拍摄的照片

类似地,这种方法正被用于监控地下气体管道的流量,在这种情况下,基于云的策略不可行。传感器测量流速和压力,以确定管道的健康状况,如果检测到泄漏的迹象,阀门可以关闭。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由米卡·鲍梅斯特Unsplash 上拍摄

Edge AI 的其他现实应用

Edge AI 并不是偏远地区的专利,它已经在离家更近的商业街上被采用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

授权给作者的图像

英国化妆品品牌 Lush 在一项新举措中使用了一种边缘人工智能方法;他们的 Lush Labs 应用程序最近增加了 Lush Lens 功能。

设计用于帮助减少包装需求的镜头用于通过智能手机的摄像头扫描产品。在引擎盖下,应用程序中有一个图像识别模型,利用 Edge AI 来降低电池消耗和网络要求。正确识别产品后,用户无需包装即可获得详细的产品信息。

了解更多关于 Lush Lens 如何使用 AI 来减少包装的信息在这里

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

授权给作者的图像

最后,边缘人工智能芯片可能会进入越来越多的消费设备,如高端智能手机、平板电脑、智能扬声器、可穿戴设备和生物植入物。它们还将用于许多企业市场:机器人、相机、传感器和其他物联网设备。

有什么弊端吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

授权给作者的图像

复杂的机器学习模型通常体积很大,在某些情况下,将这些模型转移到小型设备上是不可行的。模型需要简化,这不可避免地会降低准确性。

边缘设备的计算能力有限,进一步限制了可以执行的人工智能任务。

Edge AI 通常涉及将模型部署到各种设备类型(和操作系统版本),这可能会增加失败的可能性。因此,在芯片准备好流通之前,通常需要进行大量的测试。

后续步骤

1.向领先的人工智能芯片制造商 ARM 了解更多信息

2.了解更多关于 Ancoris 数据、分析& AI

3.与作者联系

最新的 AI 会杀死编码吗?

原文:https://towardsdatascience.com/will-gpt-3-kill-coding-630e4518c04d?source=collection_archive---------0-----------------------

人工智能现在可以用任何语言编码,无需额外训练。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯科特·罗杰森在 Unsplash 上拍摄的照片

2017 中,研究人员问:到 2040 年,人工智能能写出大部分代码吗?OpenAI 的 GPT-3 ,现在正由 beta 测试人员使用,已经可以用任何语言编码。机器主导的编码几乎就在我们的门口。

GPT-3 接受了数千亿个单词的训练,或者基本上是整个互联网,这就是为什么它可以用 CSS、JSX、Python 等等编码。

此外,GPT-3 不需要为各种语言任务进行“训练”,因为它的训练数据是无所不包的。取而代之的是,当被给予琐碎的指令时,网络会将自己限制在手边的任务上。

GPT-n 的演变

GPT 通过将监督学习与非监督预训练配对(或使用来自非监督步骤的参数作为监督步骤的起点),在语言任务中实现了最先进的水平。与其继任者相比,GPT 很小。它只在几千本书和一台 8 GPU 机器上进行训练。

GPT-2 极大地扩大了规模,包含了 10 倍的参数和超过 10 倍的训练数据。尽管如此,数据集相对有限,而且它是专门针对“来自 Reddit 的至少收到 3 个 karma 的出站链接”进行训练的 GPT-2 被描述为“变色龙般”的合成文本生成器,但它在下游任务如问题回答、摘要或翻译方面并不先进。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Hans-Jurgen Mager 在 Unsplash 上拍摄的照片

GPT-3 是人工智能世界中最新和最伟大的,在一系列任务中实现了最先进的技术。它的主要突破是不再需要针对特定任务的微调。在规模方面,该模型再次大幅扩大,达到 1750 亿个参数,是其前身的 116 倍。

虽然 GPT-3 根本不需要训练*(零次学习的一个例子),但它已经令人印象深刻的性能通过一次或几次学习而黯然失色。*

进化或死亡

情况是这样的:Beta 测试人员正在使用 GPT-3 来生成工作代码,并且需要一些琐碎的知识。从按钮到数据表,甚至再造谷歌主页。这些例子都是用零距离学习完成的。

除了人工智能的快速发展,其他两大技术趋势也加剧了未来编程工作不安全的现实:无代码和自动编程。

* [## 走向无代码分析:让每个人都成为数据科学家

Wix 让每个人都成为网站建设者,Canva 让每个人都成为设计师。现在,是时候让每个人都成为数据科学家了。

towardsdatascience.com](/towards-no-code-analytics-making-everyone-a-data-scientist-f7693bd0abfd)

无代码指的是可视化工具,让任何人都可以更容易地构建新产品,无论是网站、设计、数据分析还是模型。WordPress、Wix 和 Shopify 是无代码工具的好例子,它们让数百万人能够自己做事情,而不是雇佣开发人员或设计师。

第二个趋势是 AutoML,即自动化机器学习,它大大缩短了人工智能投入生产的时间。

[## AutoML 会是数据科学家的末日吗?

AutoML 越来越受欢迎。这就是事情的变化。

towardsdatascience.com](/will-automl-be-the-end-of-data-scientists-9af3e63990e0)

Apteo 这样的工具结合了这些趋势,使任何人都能够部署人工智能模型,而不需要任何编码技能。

GPT-3 将引发另一波无代码和自动化工具的浪潮。许多潜在雇主会选择这些工具,而不是雇佣昂贵的程序员。

自然地,技能最低的程序员将首先离开,而专家将享受更长时间的工作保障——与任何领域一样。

不仅仅是代码——GPT 3 适用于任何语言任务

要指导 GPT-3 去完成一项特定的语言任务,你只需给它一个你希望达到的目标的例子。因此,虽然你可以指导 GPT 3 号编写代码,但你也可以指导它编写诗歌、音乐、社交媒体评论或任何其他文本。

例如,如果您想要生成一篇新闻文章,您可以输入一个标题,如“联合卫理公会同意历史性分裂”,以及一个副标题,如“那些反对同性婚姻的人将形成自己的教派。”

有了这个输入,GPT-3 产生下面的:

据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会已经同意进行历史性的分裂,预计最终将建立一个新的教派,一个“在神学和社会上保守”的教派。参加 5 月份教会年度大会的大多数代表投票加强了对 LGBTQ 神职人员的任命禁令,并制定了新的规则,将“约束”主持同性婚礼的神职人员。但是那些反对这些措施的人有了新的计划:他们说他们将在 2020 年前成立一个单独的教派,称他们的教堂为基督教卫理公会教派……”

只有 12%的人类正确地指出这是由人工智能写的。88%被忽悠了。

像人类一样,GPT 3 号只需举一个例子就能学会新单词。例如,给定上下文:

“Burringo”是一种加速非常快的汽车。使用单词 Burringo 的句子示例是:_ _ _ _ _ _ _ _ _ _ _ _ _

GPT-3 产出:

在我们的车库里有一辆墨西哥卷饼,我父亲每天都开着它去上班。

这些结果令人难以置信。请记住,人工智能是不可避免的进化,因此对当前表现的任何批评都将化为乌有。

不仅仅是语言——GPT 把它应用于图像

GPT 可以写代码,或者,嗯,任何东西,但是它也可以生成图像

这怎么可能?

可以在像素序列而不是文本编码上训练相同的模型架构,从而生成新颖的图像而不是新颖的文本。事实上,它在这方面做得很好,可以和顶级 CNN 竞争。

我提到这一点是因为它表明,GPT(及其继任者)不仅仅有潜力在某一天取代编码员,而是整个行业,因为它的多功能性。

结论

GPT 3 号令人难以置信的性能让许多人相信,超级智能比我们想象的更近——或者至少,人工智能生成的代码比我们想象的更近。它产生创造性的,有洞察力的,深刻的,甚至是美丽的内容。更多 GPT-3 的创造性例子(如果你需要更多关于它有多强大的证据),请查看这个 Gwern 帖子:

[## GPT-3 创意小说

我用 OpenAI 的 2020 GPT-3 继续我的人工智能诗歌生成实验,它是 116 倍大,也更强大…

www.gwern.net](https://www.gwern.net/GPT-3)*

机器学习和混合现实会实现虚拟时间旅行吗?

原文:https://towardsdatascience.com/will-machine-learning-and-virtual-reality-enable-time-travel-b66eb1c848ca?source=collection_archive---------49-----------------------

欧洲时间机器项目开启了历史和文化遗产的新视角

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

欧洲时光机项目的横幅。图片:欧洲时光机项目

时光旅行一直是人类的梦想。想象一下,能够亲身体验古罗马,或者回到我们祖先的时代,体验当时人们的生活方式。显然,这样的时间旅行远远超出了我们今天的身体限制。

尽管不可能实现实时旅行,来自 32 个国家的超过 225 个欧洲研究机构组成的联盟正计划建造一个虚拟的时间机器。这个时间机器是一个大型数据库,能够存储、解释和连接各种历史信息,从地图和 3D 模型上的文本和图像到音乐和其他感官信息。时间机器的作用是将所有这些信息联系起来,重建过去看似合理的观点。最后,它应该允许我们浏览所有这些数据,以便像我们今天在互联网上一样容易地在时间和空间中移动。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

欧洲时间机器项目旨在建立一个过去的虚拟镜像世界。视频由欧洲时间机器项目提供。

为了实现这一宏伟目标,必须取得许多突破。因此,这些研究人员正在组成一个财团,以创建一个巨大的欧洲大规模研究倡议(LSRI)。此类项目过去一直由欧洲委员会资助,并得到大量资源的支持。先前资助的一个例子是人类大脑项目,其目的是建立一个人类大脑的电子复制品。

研究人员面临的主要挑战可以分为三类:数据和数字化,知识提取和建模,以及这种数字认识论的局限性和机遇。显然,在通往这样一台时间机器的道路上还有很多挑战,比如许可和法律问题,这些都远远超出了本文的范围。因此,在这一点上,我们将只研究上面的主要挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们越深入过去,可用的数字信息就越少。为了更深入,我们将不得不依靠对过去的模拟。视频由欧洲时间机器项目提供。

对于现代数据和信息,我们有一个巨大的优势,几乎所有的信息都可以通过电子方式获得。然而,我们越是回到过去,越是无法获得电子格式的信息,而这种电子格式适合作为时间机器处理的输入。即使是文化遗产,也就是我们认为对我们的文化身份非常重要的信息,目前也只有 15%以数字格式提供。对于档案馆和图书馆,这一比例甚至更低。因此,一个最初的目标是大规模数字化。与涉及翻页的传统扫描仪相比,这一过程可以使用体积采集技术(如计算机断层扫描)以大幅提高的速度完成。诸如 scan tent 之类的移动扫描仪也将在该领域的高质量数字化中发挥重要作用。此外,在装配线上对 3D 物体进行大规模扫描在今天已经在我们的技术范围之内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

书本 CT 允许在不打开书本的情况下阅读页面。可视化:克劳斯·恩格尔

然而,这些海量数据也需要长期存储方法,能够将这些信息保存数千年。Twist Bioscience 的研究人员正在开发在 DNA 链中存储数字信息的技术,这是人类已知的最紧凑的信息表示,因为分子本身携带的信息比当今使用的任何数字存储器都要紧凑几个数量级。请注意,这种类型的存储也适合长期保存,因为我们知道 DNA 发现的例子已经存在了 10,000 年甚至更长时间而没有丢失数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Time Machine 将支持使用各种访问平台访问过去的大数据,并使用模拟和推理引擎处理数据。图片:欧洲时光机项目

即使我们设法数字化并存储我们可以从 2000 多年的欧洲历史中恢复的所有数据,我们也会立即遇到两个额外的问题:我们必须能够处理数据,以及大量数据无法在如此长的时间内保存下来。对于数据处理挑战,我们必须统一处理文本、图像、音频、地图、3D 对象及其解释。今天,用于此目的的大多数系统采用图形和符号表示,但我们已经看到,深度学习的能力在许多应用中能够胜过任何符号系统,正如最近在语言翻译任务中所证明的那样。因此,这个项目的一个目标是创造一个通用的表现空间,使我们能够将以上所有的东西相互转换。然而,这样一个系统有一个很大的缺点,那就是它不允许把观察结果和推理链联系起来,就像我们在符号演绎中能够做到的那样。另一个重要的目标是融合基于符号图和基于模糊神经网络的方法。基于这些进展,我们仍然需要能够生成历史重建。传统方法使用计算机图形来实现这些目的,然而,机器和深度学习也在这个学科中兴起。因此,我们需要能够从相当简单的描述中生成复杂场景的方法。后续的信息解释和分析仍将由与时间机器互动的人类来完成。通过这样做,从历史专家到公民科学家以及非专业用户的用户将能够为他们的目的操作时间机器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

时间机器项目将使用链接的开放数据来连接过去的见解,并使它们可以访问。视频由欧洲时间机器项目提供。

时间机器的第三个重要方面是它如何被用来产生新的见解。在所有观察中,必须确定信息内容以及是否信任它。这需要扩展的认识论方法——数字认识论——能够同时处理不同版本的历史真相。事实上,能够轻松地对过去进行不同的重建需要仔细的思考,因为结果可能会被产生并用于推动某种当今的政治观点。这种尝试在历史上是众所周知的,也是解释历史知识如此困难的主要原因。此外,所有对过去的重建——包括传统方法——通常都有特定的目的,因此,在审视这些重建时,必须牢记初衷。例如,考古学家可能希望通过使用柔和的灰色来清楚地表明寺庙的原始颜色是未知的。相比之下,为了给观众创造一个更加身临其境的体验,旅游办公室更喜欢对同一座寺庙进行可信且细节丰富的重建。新的历史洞察力也是对数据的解释,因此必须与原始数据和导致这种洞察力的观察链相联系。在人文和哲学领域,这已经通过文本和语言的方式进行了几个世纪。然而,我们必须建立一个数字工作流程来做同样的事情,以便允许更高程度的合作,并使科学能够更快地进步。通用人工智能也将是时间机器成功的一个重要因素,因为它将允许创建虚拟代理,这些代理可以驻留在我们过去的虚拟图像中。此外,劳动密集型任务,如数据库查询,将由现代人工智能方法处理,旨在自动回答问题和语言解释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着时间机器项目,我们会很快拥有虚拟时间旅行吗?来自 PexelsPixabay 的视频。

该项目旨在以目前未知的详细程度再现过去。正因如此,像育碧这样以刺客信条系列而闻名的主要产业玩家加入这个财团并非巧合。在他们对时间机器——Animus——的设想中,他们已经非常接近时间机器项目的目标,因为 Animus 通过回到自己祖先的生活来实现沉浸式的过去体验。虽然这个目标今天还远未实现,但时间机器项目的研究人员相信,这样的时间机器将是研究的革命性产品,也将推动历史领域的商业应用。

文章和内容以知识共享许可 4.0 署名发布,并首先出现在 MarkTechPost.com。如果你喜欢这篇文章,也请看看我的 YouTube 频道。

这场危机会帮助自主人工智能走上正确的道路吗?

原文:https://towardsdatascience.com/will-the-coronavirus-help-set-autonomous-ai-robotics-on-the-right-course-5082dc2ca58c?source=collection_archive---------37-----------------------

新冠肺炎疫情为所有人工智能、机器人和无人驾驶汽车初创公司敲响了警钟:停止构建令人眼花缭乱的演示,停止谈论通用人工智能的未来可能性。相反,专注于部署现实世界的解决方案,这些解决方案可以在最少的人工干预下一天 24 小时运行,并为用户提供真正的价值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

疾控中心在 Unsplash 上的照片

在当前的疫情,数百万美国人开始在家工作。零售商一直在努力应对供应问题,而紧张的消费者正在囤积从卫生纸到洗手液的各种物品。

在全球范围内,中国电子商务巨头京东开始在武汉测试四级自动送货机器人,并全天 24 小时运行其自动化仓库,以应对需求的激增。

突然间,自主机器需要比仅仅证明概念更好。他们不再依赖现场工程支持来应对边缘情况。它们必须足够健壮,能够在各种现实生活环境中独立工作。

在某些方面,这种流行病加速了已经在路上的自动化未来。它暴露了人工智能创业领域长期存在的问题:流行语和炒作蒙蔽了人们的判断,难以看到真正的进展。

该行业需要在以下三个方面对现实世界的自治系统进行急需的改革:

1.反思度量标准

随着越来越多的自主 AI 机器部署在现实世界中,速度、周期时间或成功率等传统指标不再能够代表全貌。我们需要在不确定性的情况下,用健壮性指标(比如平均人工干预次数)来衡量系统的可靠性。

我们需要更多的工具和行业标准来评估各种场景下的整体系统性能,因为现实生活与受控环境不同,是不可预测的。

如果送货机器人可以达到最高 4 英里/小时的速度,但没有人类的支持无法完成一次送货,那么机器人就没有为用户创造多少价值。

几年前,为了缩短开发周期并持续交付高质量的软件,DevOps 应运而生。与软件工程相比,人工智能或 ML 要不成熟得多。 87% 的 ML 项目从未投产。然而,最近我们开始看到越来越多的 MLOps 或 AIOps 出现。

这标志着从 AI/ML 研究到每天使用和测试的实际产品的关键过渡。这需要思维模式的重大转变,以专注于质量保证,而不是最先进的 ML 模型。我并不是说我们不能同时拥有两者,但是到目前为止,我们已经看到了对后者的更多强调。

2.重新设计错误处理和沟通

最近 Starsky Robotics 的关闭提醒我们,距离完全自主的解决方案还有数年的时间。这并不意味着人工智能机器人不能给人类带来直接的价值。正如我在以前的一篇文章中提到的,即使人类需要处理 15%的时间,这仍然意味着公司可以减少大量的劳动力和集成成本。

然而,目前,人工智能公司倾向于在建立自主系统上花费更多的资源,而在考虑错误处理和机器与人类之间的无缝交接上花费更少的时间。

我们需要一种更好的方法来处理和交流错误,特别是对于 ML 产品,因为 ML 更具概率性,更不透明。因此,展示模型预测的可信度或者将你的预测框定为建议而不是决策,是赢得用户信任的方法。

我们需要将错误分为不同的级别,相应地设计不同的协议,并优先最小化导致系统停止并需要人工干预的致命错误。如果出现致命错误,系统不再工作,我们能否快速响应并远程排除故障?

最困难的部分是识别系统无法检测的未知错误。因此,进行双向沟通并允许用户标记错误或选择激活之前商定的后备计划也很重要。

3.重新定义人机交互

冠状病毒迫使公司更快地采用自动化并转向云。随着越来越少的人控制越来越多的机器人,我们是否有合适的工具和技术将所有相关信息迅速传递给决策者?每个机器人上是否有足够的传感器来提供完整的画面?

今天,我们依靠像电脑或平板电脑这样的触觉输入来控制机器人。在信息量激增而响应时间仍然很短的情况下,这些仍然是最好的界面吗?我们是否应该重新考虑超越触觉的人机界面,例如,语音、VR/AR 或脑机接口?

我们还需要决定应该由谁来控制。随着机器变得越来越聪明,我们应该总是做最后的决定吗?

例如,谁应该控制一个自主机器人?汽车本身?人类安全驾驶员?远程监控机器人轴心舰队的人?乘客呢?什么情况下?还是应该是人和机器双方加权判断的共同决策?有什么伦理寓意?界面能否支持多步共同决策?

最终,我们如何设计以人为中心的人工智能,以确保自主机器让我们的生活变得更好,而不是更糟?我们如何自动化正确的用例来增强人类?我们如何建立一个混合团队来交付更好的结果,并允许人类和机器相互学习

还有很多问题需要我们回答。当前的疫情正敦促我们更快地回答这些问题,以便未来的自治系统能够兑现它们的承诺。如果这些系统的制造商能够专注于我上面概述的三个领域,他们将能够更好地更快地得出关键结论。这将确保我们朝着正确的方向前进。

我们连线吧!如果你喜欢读这篇文章,请在这里订阅我的个人博客

Bastiane Huang 是 OSARO 的产品经理,OSARO 是一家总部位于旧金山的初创公司,致力于打造人工智能定义的机器人。她曾在亚马逊的 Alexa 小组和哈佛商业评论以及该大学的未来工作倡议中工作。她写关于人工智能、机器人和产品管理的文章。跟着她到这里 。

这篇文章发表在 www.productschool.com 的社区上。

新冠肺炎疫苗会改变我的 DNA 并把我和人工智能联系起来吗?

原文:https://towardsdatascience.com/will-the-covid-19-vaccine-alter-my-dna-and-hook-me-to-an-ai-f7d086b94e07?source=collection_archive---------24-----------------------

在疫情时代检查你的事实

编者按: 走向数据科学 是一份以数据科学和机器学习研究为主的中型刊物。我们不是健康专家或流行病学家,本文的观点不应被解释为专业建议。想了解更多关于疫情冠状病毒的信息,可以点击 这里

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ashkan Forouzani 在 Unsplash 拍摄的照片

信不信由你,这个标题不是我编的。目前互联网上流传最广的假新闻之一是新冠肺炎疫苗将改变接受者的 DNA,把我们变成转基因生物。但是捏造并没有就此停止;他们还声称,这种疫苗将“把我们所有人都连接到人工智能(AI)界面上”。哇,我要说,相当令人兴奋,尤其是对于像我这样在过去二十年里一直从事人工智能工作的人来说。首先是因为技术不存在,其次是因为为什么会有人这么做?因此,除非你是黑客帝国的粉丝,否则我无法理解为什么一个高度智能的人工智能有机体(尚不存在)会想把人类变成非常低效的电池。

别再说这些垃圾了。首先,让大家放心。据世界卫生组织(世卫组织)称,我们的 DNA 不会受到这些疫苗的影响。第二,现有的人工智能没有能力(或渴望)吸取我们的能量。这条新闻只是假新闻。

近年来,我们看到假新闻大量增加。这样的新闻是故意耸人听闻的;事实上,为产生流量的网站增加流量是很经济的。通过这样做,他们通过广告赚钱。这是一个简单明了的模型,运行良好。它利用了人们的恐惧,这样一来,他们就成了传播假新闻的帮凶。与分享真实新闻的人相比,70%的人分享这样的故事,正因为如此,它的传播速度快了 20%。AI 算法在这种情况下也充当帮凶。我们估计,在互联网上,有一支机器人大军(大约 2 亿)在传播假新闻。这些机器人是生活在互联网上的计算机程序,其工作是传播新闻。有些是故意设计来散布错误信息的。其他机器人不会故意这样做,但由于它们学会了传播最具病毒式的消息,在大多数情况下,这些消息都是假的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由联合国新冠肺炎回应Unsplash

所以百万美元的问题是如何检测假新闻?我们可以通过以下三个简单的步骤做到这一点:分析语言,分析事实,分析来源。不用担心;比你想的简单多了。让我来解释一下。

首先,这些假新闻大多使用一种不同于真实新闻的语言。标题通常给出了一个很好的指示,因为这些故事试图使用点击诱饵格式来耸人听闻、误导和危言耸听。其中一个这样的主张是下面这个被近 100 万个人分享的主张;“教皇方济各震惊世界,支持唐纳德·特朗普”。它通过设计吸引注意力,试图吸引用户跟随链接并消费内容。所以,当你读到一些使用夸张的词语,看起来好得令人难以置信的东西时,警钟应该开始敲响了。

第二,一旦你阅读了文件,不要停留在那里,而是提取事实。问问你自己,这篇文章的主要内容是什么?在关于新冠肺炎疫苗的文章中,我们可以确定两种说法;“新冠肺炎疫苗改变了我的 DNA”和“新冠肺炎疫苗将把我和人工智能联系起来”。检验这些是否正确的最好方法是使用一个叫做谷歌的老朋友。只要将这些陈述粘贴到搜索引擎中,看看会出现什么。如果像世界卫生组织这样的权威机构发表了这些声明,那么你可以把它们当作事实;否则,它们很可能是假新闻。这些故事也倾向于引用不知名的科学家。为了检查科学家的工作,谷歌提供了另一项名为谷歌学术的免费服务。所以你要做的就是去谷歌学术核实这些声明的真实性。

第三,如果你仍然有疑问,检查来源的真实性。像 Breaking-CNN.com、CBSnews.com.co 和 cnn-trending.com 这样的网站旨在把你搞混。他们给人的印象是,他们隶属于像 CNN 或 CBS 这样受人尊敬的新闻网络。他们甚至复制他们的网站布局和标志。所以当你有疑问的时候,最好的方法是去原始网站寻找那个故事。如果你找不到它,那么它可能只不过是一个骗局。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

engin akyurtUnsplash 上拍摄的照片

我明白辨别真假新闻并不总是那么容易。当你有疑问时,即使经历了以上三个步骤,最好还是忽略这个新项目,而不是分享它。请记住,通过在社交媒体上分享一些东西,你也在分享这条信息的责任。一些人仅仅因为这个原因被传唤到法庭,因为实际上,他们是他们社交媒体个人资料的编辑。股票通常被认为是对这个故事的认可。虽然其中一些故事可能很有趣,但其他的可能是致命的。就在今年,假冠状病毒新闻的传播(例如喝漂白剂或吃牛粪来治愈病毒)导致数百人死亡。所以不要成为帮凶,检查新闻,通知自己,如果有疑问,选择不要分享可能伤害他人的东西。

如果你喜欢这篇文章,并想与我联系,请这样做🐦推特,🔗 LinkedIn ,📷 Instagram 或者😊脸书

[## 游戏新冠肺炎:让我们通过玩游戏打败病毒!

在一个封闭的世界里,无助感可能会压倒一切,但我们都可以用我们的电脑来打败…

towardsdatascience.com](/gaming-covid-19-lets-defeat-the-virus-by-playing-a-game-f8433805fe7d) [## 中国是如何用科技钉死冠状病毒的!

中国高科技系统对抗 COVD-19 的案例研究

towardsdatascience.com](/how-china-nailed-the-coronavirus-using-technology-77703dc94a37) [## 冠状病毒的多米诺效应

新冠肺炎如何对我们的经济产生负面影响以及可能的解决方案

towardsdatascience.com](/the-domino-effect-of-the-coronavirus-66fdd72fc9fd)

阿列克谢·丁力教授 是马耳他大学的 AI 教授。二十多年来,他一直在人工智能领域进行研究和工作,协助不同的公司实施人工智能解决方案。他的工作被国际专家评为世界级,并赢得了几个当地和国际奖项(如欧洲航天局、世界知识产权组织和联合国等)。他已经出版了几本同行评审的出版物,并成为马耳他的一员。由马耳他政府成立的人工智能特别工作组,旨在使马耳他成为世界上人工智能水平最高的国家之一。

下一次飓风会袭击我的家吗?

原文:https://towardsdatascience.com/will-the-next-hurricane-hit-my-home-a1348c0a6db9?source=collection_archive---------46-----------------------

基于历史风暴轨迹的数据分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Unsplash 上的 Shashank Sahay 拍摄的照片

我们正处于一个非常活跃的飓风季节,昨晚莎莉飓风登陆,其他几个热带风暴正在大西洋酝酿。每个人心中的大问题总是:“下一场飓风会不会袭击我家附近?”。尽管气象学取得了许多卓越的进展,热带风暴仍然很难预测。在风暴的一生中,路径和强度都会发生显著的变化。

人们可能会问的另一个问题是:在过去所有穿过一个地理区域(比如一个城市)的热带风暴中,路径看起来像什么?换句话说,以一个像新奥尔良这样的城市为例,画出所有经过它或非常接近它的飓风的地理图:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

为了全面回答这个问题,我们需要一个尽可能完整和准确的所有热带风暴的数据集。NOAA 维护这样一个数据集作为 shape file的集合,Wolfram 语言可以很容易地导入它。将来自 NOAA 的原始数据转换成 Wolfram 语言的可计算数据集的代码。它可以像任何旧数据集一样被查询。例如,我在这里查询“2005”季节中名为“KATRINA”的风暴,它返回所有相关的行:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

要获取靠近新奥尔良的所有风暴,我们可以查找该城市的纬度和经度,并选择具有匹配坐标的数据集行:

Interpreter["City"]["New Orleans, Louisiana"]["Position"]

这会返回地理位置[{29.9728,-90.059}] 。接下来,我们可以寻找接近该位置的路径,并返回命名的风暴和季节的列表。生成的数据集列出了经过新奥尔良的所有风暴:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

有了这些名字,你就可以为每个风暴绘制路径。这就是这个故事开头的图像中显示的内容。一张放大的地图显示了有多少风暴经过新奥尔良:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

当然,从这些数据中无法得出简单的结论。袭击新奥尔良的一些风暴起源于非常遥远的大西洋。但是更多的开始于加勒比海和墨西哥湾。

该代码可以很容易地适用于任何地点,如迈阿密。在那种情况下,地理情节如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

要获取完整代码,可以在云端打开这个 Wolfram 笔记本

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

摩根·彼得罗斯基Unsplash 上拍摄的照片

餐饮业能在疫情生存下来吗?

原文:https://towardsdatascience.com/will-the-restaurant-industry-survive-the-pandemic-133404883f1c?source=collection_archive---------35-----------------------

看看新冠肺炎中部的美国餐饮业。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

在过去的两年里,我有机会住在美食爱好者的三大目的地:纽约、巴黎和波哥大。无论是巴黎的羊角面包,纽约的披萨片,还是波哥大的 Ajiaco ,探索这座城市的美食总是我最想做的事情。可悲的是,疫情在几周内就把事情搞得天翻地覆,和朋友在当地咖啡店喝杯咖啡或和家人出去吃午饭的日常计划成了遥远的记忆。疫情爆发后不久,许多成功的餐馆老板看到他们毕生的梦想破灭了。

我和我的家人一直在尽可能地通过订购外卖来支持当地的餐馆。然而,尽管我们热衷于支持餐饮业,但我们对近期去餐馆就餐犹豫不决。听说我过去常去的餐馆已经关门或不得不裁员以求生存,这促使我更多地了解行业状况,评估复苏前景,并了解市场对餐馆重新开业的反应。

我使用了来自 OpenTable纽约时报的公开数据,对美国餐饮业的现状进行了全面的分析。这项研究的目的是为餐馆老板和利益相关者提供一个清晰而深刻的行业发展方向,并激励消费者寻找支持该行业的方法。

疫情对行业的影响程度如何?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

OpenTable 的第一个数据集是美国就餐人数的年度对比。样本人口仅包括 2019 年和 2020 年 OpenTable 网络中拥有 50 家以上餐厅的大都市或州。年度对比意味着,例如,如果在 2019 年和 2020 年的某一天,餐厅的就餐人数相同,我们将得到 0%的值。在 3 月份之前,入座用餐者的比例在零附近波动,这意味着 2020 年的用餐者人数大于或等于 2019 年的人数。然而,3 月上半月,全国范围内的入座食客数量骤降至-100%。上面的线图说明了顾客数量的急剧下降——近两个月来,这个行业完全不活跃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单独评估每个州,我们看到 3 月 15 日左右,所有州的用餐人数骤降至-100%,这与美国疫情的爆发相吻合。然而,用餐人数回升的时间因州而异。德克萨斯州和佛罗里达州等几个州在 5 月初重新开放,而纽约、哥伦比亚特区和华盛顿等其他州在晚些时候以更温和的速度重新开放。

复苏开始成形了吗?

我们使用来自 OpenTable 的第二个数据集,其中只包括选择重新开业的餐馆的数据。在这种情况下,如果 2019 年和 2020 年在一家餐厅有相同数量的入座用餐者,我们将获得 100%的值。在 5 月中旬之前,没有可用的数据,表明大多数餐馆在那之前都是关闭的。在整个五月和七月,用餐人数逐渐增加,然而,曲线远未达到疫情之前的数字。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

重新开业的餐厅的用餐人数增长有多快?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在接下来的分析中,我们关注八个州:德克萨斯州、佛罗里达州、新泽西州、加利福尼亚州、纽约州、伊利诺伊州、宾夕法尼亚州和马萨诸塞州。我们计算了每个州就餐人数的每周百分比变化,并绘制了平均值。与去年相比,所有八个州重新开业的餐厅的用餐人数保持在 50-60%以下。随着时间的推移,坐在座位上的食客数量没有明显增长,周环比变化率不超过 2%,甚至下降到了-1%。

市场对美国不同的重新开放政策和新冠肺炎曲线反应如何?

我们使用《纽约时报》的数据绘制了八个州的每日新冠肺炎病例曲线和就餐人数随时间变化的曲线,并根据感染曲线的行为将它们分为三类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先,在这项分析研究的八个州中,纽约州和新泽西州是新冠肺炎病例最引人注目和最早达到高峰的州,也是用餐人数最近回升的州。餐饮业直到感染曲线变平后才重新活跃起来,坐着用餐的比例一直保持在-60%以下,这表明将会有一个缓慢的复苏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二,加利福尼亚州、得克萨斯州和佛罗里达州的新冠肺炎案例曲线非常相似:直到 6 月份左右是一个适度平坦的曲线,随后是一个剧烈的倾斜。佛罗里达州和德克萨斯州的餐饮业很早就开始复苏,那里的就餐人数在 5 月初开始上升——至少比大多数州早一个月——并达到-10%的峰值。然而,随着 6 月下旬这三个州出现明显的新冠肺炎病例激增,餐饮业似乎再次放缓。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后,从疫情爆发到今天,伊利诺伊州、马萨诸塞州和宾夕法尼亚州的曲线保持相对平坦。6 月初,就餐人数开始上升,这似乎是餐馆重新开业的谨慎时机。目前,坐着用餐者的曲线似乎呈上升趋势,达到了-50%左右。这三个州没有像纽约和新泽西那样出现戏剧性的高峰,但似乎正在以更快的速度复苏。

这个行业会回到“正常”状态吗?

似乎急于重振经济、回归“正常”生活的各州正在看到其政策的后果,这反映在最近报道的新冠肺炎病例激增上——显然导致这些州的餐饮业复苏放缓。另一方面,那些已经设法使曲线变平并控制住病毒传播的州似乎正在经济复苏的轨道上。尽管餐饮业远未达到疫情疫情前的水平,但在病毒得到控制的各州,上升趋势是显而易见的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者图片

我们都梦想着那些日子,那时我们必须排队才能在我们最喜欢的餐馆得到一个座位,不需要戴面具或保持社交距离。如果我们想拯救这个行业,我们不仅应该支持我们当地的餐馆,而且还应该通过采取预防措施来照顾自己和他人,例如戴上口罩来控制病毒的传播,并确保我们能够尽早在餐馆或酒吧享受夜晚。

你正在做些什么来支持你当地的餐馆并遏制病毒的传播?

这项研究的源代码和数据文件可以在 GitHub 上找到:https://GitHub . com/manuela rod/restaurant-industry-imya-covid 19

我们能解决医疗应用中的数据短缺问题吗?

原文:https://towardsdatascience.com/will-we-ever-solve-the-shortage-of-data-in-medical-applications-70da163e2c2d?source=collection_archive---------34-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗数据是医学中新的深度学习应用的基本要求。照片由皮查拜派克斯拍摄。

在深度学习时代,数据成为构建强大智能系统的重要资源。在几个领域,我们已经看到,构建竞争性系统所需的数据量如此之大,以至于新的参与者几乎不可能进入市场。例如,Google 或 Nuance 等主要公司提供的最先进的大词汇量语音识别系统经过了长达 100 万小时的语音训练。有了如此大量的数据,我们现在能够训练语音到文本系统,准确率高达 99.7%。这接近甚至超过了人类的表现,因为该系统不需要休息、睡眠或尝试。

除了集合之外,数据也需要被注释。对于语音示例,一个小时的语音数据需要大约 10 个小时的人工劳动来写下每个单词和非语言事件,例如咳嗽或大笑。因此,即使我们有 100 万小时的演讲,忽略实际软件开发成本的转录本身——假设每小时 5 美元——就相当于 5000 万美元的投资。因此,大多数公司更愿意从当前的软件供应商那里获得最先进的语音识别系统的许可。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果数据没有被分配到类别中,它对于机器学习来说通常是无用的。照片由马库斯·斯皮斯克派克斯拍摄。

对于医疗数据的情况,事情就更复杂了。患者健康数据受到患者数据法的良好保护,这是有充分理由的。不幸的是,各国的标准差异很大,这使得问题更加复杂。最近,几家大医院、公司卫生当局以匿名方式公开数据,以推动深度学习研究向前发展。然而,这些数据集仅达到从几十到几千的计数,并且与相关联的注释通常显示出显著的变化,因为每个数据集通常仅进行一次注释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Exact 是一个用于医学图像数据注释的开源工具。在 Github 上找到源代码。图片:来源

特别是在医学图像分析中,这些公共数据集对于推动当前的研究非常有用。正如我们在语音处理中看到的,这种较小的数据集(大约 600 小时的语音)适合于开发良好的软件来完成任务。在语音处理方面,这些系统能够识别 90–95%的口语单词。然而,让 99.7%成为可能的游戏规则改变者是 100 万小时的语音数据。

这种观察导致了这样一种需求,即在某个时候,我们将需要数百万张经过良好注释的训练图像来构建最先进的医学分析系统。实际实现这一目标的方法很少:大型行业参与者的大量投资、通过政府机构的组织或非政府组织。一个例外可能是数字病理学,其中公共数据可以从动物标本中生成

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

动物数据在细胞水平上与人类数据非常相似,并且可以帮助解决患者隐私限制。图片:来源

虽然语音和其他机器学习训练数据已经主要由行业控制,但有人可能会问,我们是否希望同样的事情发生在我们的医疗记录上。这些数据得到了很好的保护,例如不会在我们不知情的情况下出售给保险公司,这是有充分理由的。因此,我们每个人都应该问问她或他自己,这是否是一个合理的解决方案。

一些国家实际上已经开始在政府控制的数据库中处理医疗数据,允许访问研究人员和工业发展。丹麦是一个已经走上这条道路的例子。看到丹麦和其他国家未来的发展会很有趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗数据捐赠者的目标是在严格的道德约束下,特别是在医疗程序后获得患者完全同意的情况下,在全球范围内共享医疗研究数据。图片:医疗数据捐赠者

就在今年,一个名为“医疗数据捐赠者 e.V. ”的小型非营利组织在德国成立。他们遵循第三条道路,要求患者捐献图像数据用于研发。遵循新的欧洲数据保护准则,他们实施了高道德标准。即使在这种强有力的监管框架下,他们也能够在全球范围内收集和共享数据。虽然这种努力才刚刚开始,而且这个组织还很小,但是看看他们能走多远将会很有趣。这特别有趣,因为他们试图通过游戏化来解决注释问题。游戏的故事板已经可以使用了。因此,他们不仅收集数据,还生成高质量的注释。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据捐赠允许对医学图像的大规模注释使用众包。这是长期获取高质量医疗数据的策略吗?图片:医学数据捐赠者

就在最近,医疗数据捐赠者发表了更多关于数据注释的实际游戏的想法。他们采用常见的游戏,如以器官轮廓为目的的比赛或糖果粉碎来给图像分配标签。特别地,奥丁之眼似乎是一种用于眼科图像数据的人群注释的令人兴奋的方法。

奥丁之眼旨在利用糖果粉碎的游戏原理进行医学影像分类。

综上,我们看到医疗数据问题远未解决。我们确定了三种不同的可行解决方案来解决这个问题:工业投资、国家控制或非政府组织。虽然所有这些都有可能,但我们必须问自己更喜欢哪一种。无论如何,这个问题很紧迫,需要解决,以便推动医学领域的深度学习研究。

如果你喜欢这篇文章,你可以看看我的 YouTube 频道。这篇文章最初出现在 MarkTechPost.com 的,以知识共享 4.0 归属许可发布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值