机器学习的十个误区

最新推荐文章于 2024-06-24 11:04:58 发布

TNGAI

最新推荐文章于 2024-06-24 11:04:58 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原文：https://medium.com/@pedromdd/ten-myths-about-machine-learning-d888b48334a3
作者：Pedro Domingos
翻译：AI梦蝶

译者注：在本文中，主要介绍了机器学习人员10种可能的认识误区。

这里写图片描述

机器学习通常在幕后出现：Amazon通过挖掘你的点击和购买行为来为你推荐物品；Google通过挖掘你的搜索行为来投放广告；Facebook通过挖掘你的社交网络来选择推送的信息。但是现在机器学习出现报纸的头版上，成为了一个激烈争论的话题。自动驾驶学习算法，语音翻译，在《危险边缘》益智游戏中获得胜利！它们能做什么和不能做什么？它们是隐私、工作甚至是人类种族灭亡的开始吗？这种日益增长的意识是值得鼓励的，因为机器学习是我们未来发展的一个主要推动力，我们必须掌握它。不幸的是关于机器学习的一些误区也逐渐出现，因此首先需要消除这些误区。让我们快速地浏览一下最主要的几个误区：

机器学习仅仅是数据的总结。事实上，机器学习的主要目的是预测未来。知道你过去观看过得电影仅仅只是预测你未来可能观看哪些电影。你的信用记录是预测你是否会准时付账单。像机器人科学家，学习算法提出假设，改进算法，当且仅当他们的假设是真的时候才会信任算法。学习算法还没有科学家那么聪明，但是它们却比科学家高出几百万倍的计算能力。

机器学习仅仅发现两个事件之间的相关性。这是你从媒体中提到关于“机器学习”最多的印象。有一个著名的例子，在Google搜索中随着关键词“流感”的搜索增加，这是流感传播的早期迹象。这一切都很好，但机器学习可以发现更丰富的知识形式。如皮肤上的痣，一般是规则的，如果出现了不规则的形状和颜色的痣，并且在生长，那么这就有可能是皮肤癌。

机器学习只能发现相关性，而不能发现因果关系。事实上，最流行的机器学习类型之一包括尝试不同的行为，然后观察它们的结果序列（因果发现的本质）。例如电商网站，可能会尝试不同的产品展示方式，然后选择一种导致购买率最高的形式。你可能尝试上千次的实验，而事先一无所知。即使是在一些谈不上的情形中，也可以发现因果关系。所有的计算机都可以查看过去的数据。

机器学习不能预测先前没有出现过的事情，即“黑天鹅”。如果事件从来没有发生过，那么它的预测概率必须是零—还有别的什么可能吗？正相反，机器学习是一门高准确性地预测稀有事件的艺术。如果A是B的原因之一，B是C的原因之一，那么A可以导致C的发生，尽管我们之前从来没有见过A导致C发生的事件。每天，垃圾邮件过滤器都会正确地标记新出现的垃圾邮件。事实上，像2008年的房屋倒塌的黑天鹅事件被广泛预测，恰恰是当时大多数银行没有使用的有缺陷的风险模型。

你获得数据越多，越有可能得到一个虚幻模型。假设国家安全局工作人员查看了越多的电话记录，就越有可能把无辜者标记为一名恐怖分子，因为他不小心匹配了一条恐怖主义识别规则。挖掘相同实体的更多特征确实可能增加得到虚幻模型的风险，但是机器学习专家非常擅长于把风险最小化。另一方面，采用具有相同特征集的更多实体会降低风险，因从这样的数据集学习的规则将会得到更强的支持。且一些机器学习算法可以找到涉及更多实体的模式，这使得它们具有更强的鲁棒性：一个在纽约市政厅录影的人可能不会被怀疑，另一个购买了大量硝酸铵的人可能也不会被怀疑；但是如果这两个人有电话接触，也许FBI应该查一查，仅仅是为了确保这会是一起炸弹袭击事件。

机器学习忽略了预先存在的知识。机器学习领域的许多专家已经渗透到了他们知道的“空白”机器学习算法上，正真的知识是一个漫长的推理和实验过程的结果，你不可能在一个数据库上运行通用算法来模拟数据分布。但并不是所有的学习算法都以空白的方式开始；有一些算法使用数据来改进预先存在的知识体系，如果把它编码成计算机可以理解的形式的话，这是非常复杂的。

人类很难理解计算机学习的模型。这当然是令人担忧的原因。如果一个算法是一个黑匣子，我们如何信任算法的结果呢？有一些类型的模型确实是非常难以理解，例如负责机器学习的最引人注目的成功案例是深度神经网络（如识别YouTube视频中的猫）。像我们前面看到的皮肤啊诊断的规则，让人很容易地理解。

所有的这些神话都是悲观的。从某种意义来说，他们认为机器学习比实际的学习更有限。但有一些乐观的神话存在：

简单的模型更加准确。有时候这种观念等同于奥卡姆剃刀，但是剃刀只是说更简单的解释是更好的，而不是为什么。更容易理解是因为它们更容易理解、记忆和推理。有时与数据一致的最简单假设比起更复杂的假设的预测准确率更低。一些最强大的机器学习算法输出模型，它们似乎更加精心设计—有时甚至在模型完美拟合数据之后持续增加—但这是它们如何击败能力较弱的模型。

计算机发现的模式可以采用面值。我们前文提到的皮肤癌诊断例子中，如果一个机器学习算法输出了其规则，那么这个规则是非常准确的（在几乎所有匹配的痣上确实是肿瘤意义上的），这并不一定意味着你应该信任它。数据的一个轻微变化可能导致算法得到一个非常不同—但是同样准确—规则。正如他们所说的那样，只有在数据中随机变化的情况下可靠地推导出的规则才能被信任。而不会仅仅是有用的预测工具。

机器学习将会很快出现超越人类的智慧。从每天AI的进步消息中很容易给人一种印象，即计算机在我们看、说和推理的边缘上，之后它们将会很快离开我们的尘土。我们在AI的头50年还有很长的路要走，机器学习是AI最近成功的主要原因，但是我们仍然还有很长的路要走。计算机可以把很多狭窄的工作做好，但是它们仍然没有任何常识，也没有人知道如何教会它们。

所以你有了它。机器学习比我们通常认为的要强大的很多。我们所做的是取决于我们—只要我们开始对它有准确的理解。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。