Hands-on Machine Learning with Scikit-Learn, keras, and Tensorflow 第二版(机器学习的主要挑战)学习笔记(二)

本文探讨了机器学习中的主要挑战,包括训练数据不足、数据质量问题、不具代表性的训练数据、不相关的特征、过拟合和欠拟合等问题。强调了数据质量和数量对模型性能的重要性,以及如何通过特征工程、超参数调节和模型选择来应对这些挑战。
摘要由CSDN通过智能技术生成

机器学习的主要挑战

  • 简而言之,由于你的主要任务是选择一种学习算法并在某些数据上对其进行训练,因此可能出错的两件事是“错误算法”和“错误数据”。让我们从坏数据的例子开始。
训练数据的数量不足
  • 为了让幼儿知道苹果是什么,你所做可能是指着一个苹果然后说“苹果”(可能重复这个过程很多次)。现在孩子能够识别各种颜色和形状的苹果。
  • 机器学习是完全不同的;大多数机器学习算法都需要大量的数据才能正常工作。即使对于非常简单的问题,你通常也需要上千个样本。对于像图像和语音识别这样复杂的问题,你可能需要上百万的样本(除非你可以重用现有模型的某些部分)。
数据不合理的有效性
  • 在2001年发表的著名论文中,微软的研究者Michele Banko和Eric Brill表明一旦提供足够多的数据,非常不同的算法(哪怕非常简单的算法)在自然语言歧义消除这一复杂问题上的性能几乎相同(如图Figure 1-20 所示)。
    在这里插入图片描述
  • 正如作者所说:“这些结果表明,我们可能需要重新考虑在算法开发上花费时间和金钱与在语料库开发上花费之间的权衡。”
  • Peter Norvig等人在2009年出版的论文“The Unreasonable Effectiveness of Data”中进一步提出对于复杂的问题而言数据比算法更重要的想法。值得注意的是,小型和中型数据集是很常见的,但是获得额外的训练数据并不总是容易和便宜,因此也不要放弃算法。
没有代表性的训练数据
  • 为了获得好的泛化性能,至关重要的是,你的训练数据要能够很好的表示你想要泛化的新案例。无论你使用的是基于实例学习还是基于模型学习,这都是相当正确的。
  • 例如,我们先前用于训练线性模型的国家集合没有很好的代表性,其中一些国家是缺失的。Figure 1-21 展示了添加缺失国家之后的情况。
    在这里插入图片描述
  • 如果你在这些数据上训练线性模型,你得到实线,而老的模型是用虚线表示的。如您所见,添加几个缺失的国家不仅会大大改变模型,而且很明显,这样一个简单的线性模型可能永远无法正常工作。似乎非常富裕的国家并不比中等富裕的国家幸福(事实上,它们似乎并不幸福),相反,一些穷国似乎比许多富裕国家更幸福。
  • 使用没有代表性的训练集,我们的模型是不可能做出准确的预测,特别是对那些非常贫穷和富有的国家。
  • 使用能够代表你想要泛化样本的训练集是至关重要的。这通常比听起来难得多:如果样本太少,则会产生抽样噪音(例如,偶然的机会获得非代表性的样本),但是如果抽样方法有缺陷,即使是非常大的样本也可能无代表性。这也就是所有的采样偏差(sampling bias)。
采样偏差的一个著名例子
  • 抽样偏差最著名的例子也许发生在1936年美国总统大选上,那次选举是Landon对抗Roosevelt:Literary Digest做了一个非常大的民意调查,向1000万人发送了邮件。它得到了240万的答复,并且自信的预测Landon将得到57%的选举票。相反,Roosevelt赢得了62%的选举票。缺陷在于Literary Digest’s 的抽样方法:(1)首先,为了获得发送名义调查的地址,Literary Digest使用了电话薄、杂志订阅者列表、俱乐部成员列表等。所有这些名单都倾向于较富有的人,他们更有可能投票给共和党人(因此,Landon)。(2)其次,不到25%的人接受了民意调查。同样,通过排除那些不太关心政治的人,不喜欢Literary Digest的人以及其他关键群体,这会带来抽样偏差。这种特殊类型的抽样偏差称为无响应偏差(nonresponse bias)。
  • 还有另外一个例子:你想建立一个识别时髦(funk)音乐视频的系统。构建你训练集的一个方式是在YouTube上搜索"funk music"并使用这些结果视频。但这是假设YouTube的搜索引擎返回了一组代表YouTube上所有时髦音乐视频的视频。实际上,这个搜索结果可能会偏好于著名艺术家(如果你居住在巴西,则会收到很多“funk carioca”视频,听起来像詹姆斯·布朗)。另一方面,你还能如何获得大量训练数据呢?
低质量的数据
  • 显然,如果你的训练数据充满了错误、离群值和噪音(例如,由于低质量的度量),这将使得系统更难检测潜在的模式,因此,你的系统更少的可能性会执行的很好。清洗训练数据总是值得做的事情。事实是,大多数数据科学家都将大量时间用于此目的。例如:(1)如果一些实例是明显离群的,简单的丢弃它们或者尝试去修正错误总是有帮助的;(2)如果一些实例缺失一些特征(例如,5%的顾客没有年龄特征),你必须觉得你是否想要忽视这个属性、忽视这些实例、填充缺失值(例如,使用年龄的均值)、或者训练一有这个特征的模型和没有这个特征的模型等等。
不相关的特征
  • 俗话说:垃圾进,垃圾出。仅当训练数据包含足够的相关特征而没有太多不相关的特征时,您的系统才能学习。机器学习项目成功的关键在于提供一个好的特征集合来训练。这个过程也被称为特征工程(feature engineering)
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值