机器学习的十个误区

原文:https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3
作者:Pedro Domingos
翻译:AI梦蝶

译者注:在本文中,主要介绍了机器学习人员10种可能的认识误区。

  这里写图片描述

  机器学习通常在幕后出现:Amazon通过挖掘你的点击和购买行为来为你推荐物品;Google通过挖掘你的搜索行为来投放广告;Facebook通过挖掘你的社交网络来选择推送的信息。但是现在机器学习出现报纸的头版上,成为了一个激烈争论的话题。自动驾驶学习算法,语音翻译,在《危险边缘》益智游戏中获得胜利!它们能做什么和不能做什么?它们是隐私、工作甚至是人类种族灭亡的开始吗?这种日益增长的意识是值得鼓励的,因为机器学习是我们未来发展的一个主要推动力,我们必须掌握它。不幸的是关于机器学习的一些误区也逐渐出现,因此首先需要消除这些误区。让我们快速地浏览一下最主要的几个误区:
  机器学习仅仅是数据的总结事实上,机器学习的主要目的是预测未来。知道你过去观看过得电影仅仅只是预测你未来可能观看哪些电影。你的信用记录是预测你是否会准时付账单。像机器人科学家,学习算法提出假设,改进算法, 当且仅当他们的假设是真的时候才会信任算法。学习算法还没有科学家那么聪明,但是它们却比科学家高出 几百万倍的计算能力。
  机器学习仅仅发现两个事件之间的相关性。这是你从媒体中提到关于“机器学习”最多的印象。有一个著名的例子,在Google搜索中随着关键词“流感”的搜索增加,这是流感传播的早期迹象。这一切都很好,但机器学习可以发现更丰富的知识形式。如皮肤上的痣,一般是规则的,如果出现了不规则的形状和颜色的痣,并且在生长,那么这就有可能是皮肤癌。
  机器学习只能发现相关性,而不能发现因果关系。事实上,最流行的机器学习类型之一包括尝试不同的行为,然后观察它们的结果序列(因果发现的本质)。例如电商网站,可能会尝试不同的产品展示方式,然后选择一种导致购买率最高的形式。你可能尝试上千次的实验,而事先一无所知。即使是在一些谈不上的情形中,也可以发现因果关系。所有的计算机都可以查看过去的数据。
  机器学习不能预测先前没有出现过的事情, 即“黑天鹅”。如果事件从来没有发生过,那么它的预测概率必须是零—还有别的什么可能吗?正相反,机器学习是一门高准确性地预测稀有事件的艺术。如果A是B的原因之一,B是C的原因之一,那么A可以导致C的发生,尽管我们之前从来没有见过A导致C发生的事件。每天,垃圾邮件过滤器都会正确地标记新出现的垃圾邮件。事实上,像2008年的房屋倒塌的黑天鹅事件被广泛预测,恰恰是当时大多数银行没有使用的有缺陷的风险模型。
  你获得数据越多,越有可能得到一个虚幻模型。假设国家安全局工作人员查看了越多的电话记录,就越有可能把无辜者标记为一名恐怖分子,因为他不小心匹配了一条恐怖主义识别规则。挖掘相同实体的更多特征确实可能增加得到虚幻模型的风险,但是机器学习专家非常擅长于把风险最小化。另一方面,采用具有相同特征集的更多实体会降低风险,因从这样的数据集学习的规则将会得到更强的支持。且一些机器学习算法可以找到涉及更多实体的模式,这使得它们具有更强的鲁棒性:一个在纽约市政厅录影的人可能不会被怀疑,另一个购买了大量硝酸铵的人可能也不会被怀疑;但是如果这两个人有电话接触,也许FBI应该查一查,仅仅是为了确保这会是一起炸弹袭击事件。
  机器学习忽略了预先存在的知识。机器学习领域的许多专家已经渗透到了他们知道的“空白”机器学习算法上,正真的知识是一个漫长的推理和实验过程的结果,你不可能在一个数据库上运行通用算法来模拟数据分布。但并不是所有的学习算法都以空白的方式开始;有一些算法使用数据来改进预先存在的知识体系,如果把它编码成计算机可以理解的形式的话,这是非常复杂的。
  人类很难理解计算机学习的模型。这当然是令人担忧的原因。如果一个算法是一个黑匣子,我们如何信任算法的结果呢?有一些类型的模型确实是非常难以理解,例如负责机器学习的最引人注目的成功案例是深度神经网络(如识别YouTube视频中的猫)。像我们前面看到的皮肤啊诊断的规则,让人很容易地理解。
  所有的这些神话都是悲观的。从某种意义来说,他们认为机器学习比实际的学习更有限。但有一些乐观的神话存在:
  简单的模型更加准确。有时候这种观念等同于奥卡姆剃刀,但是剃刀只是说更简单的解释是更好的,而不是为什么。更容易理解是因为它们更容易理解、记忆和推理。有时与数据一致的最简单假设比起更复杂的假设的预测准确率更低。一些最强大的机器学习算法输出模型,它们似乎更加精心设计—有时甚至在模型完美拟合数据之后持续增加—但这是它们如何击败能力较弱的模型。
  计算机发现的模式可以采用面值。我们前文提到的皮肤癌诊断例子中,如果一个机器学习算法输出了其规则,那么这个规则是非常准确的(在几乎所有匹配的痣上确实是肿瘤意义上的),这并不一定意味着你应该信任它。数据的一个轻微变化可能导致算法得到一个非常不同—但是同样准确—规则。正如他们所说的那样,只有在数据中随机变化的情况下可靠地推导出的规则才能被信任。而不会仅仅是有用的预测工具。
  机器学习将会很快出现超越人类的智慧。从每天AI的进步消息中很容易给人一种印象,即计算机在我们看、说和推理的边缘上,之后它们将会很快离开我们的尘土。我们在AI的头50年还有很长的路要走,机器学习是AI最近成功的主要原因,但是我们仍然还有很长的路要走。计算机可以把很多狭窄的工作做好,但是它们仍然没有任何常识,也没有人知道如何教会它们。
  所以你有了它。机器学习比我们通常认为的要强大的很多。我们所做的是取决于我们—只要我们开始对它有准确的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值