机器学习~绪论

本文概述了机器学习中的基本术语,如样本、标签、特征、训练集、测试集等,介绍了模型学习、过拟合与欠拟合的概念,以及奥卡姆剃刀和归纳偏好的影响。同时,文章探讨了不同领域的机器学习应用,如自然语言处理、计算机视觉、医疗健康等。
摘要由CSDN通过智能技术生成

周志华《机器学习》笔记

基本术语:

在机器学习中,有一些基本的术语是非常常见的,包括:

  1. 样本(Sample):指数据集中的一个数据点,通常表示为一个向量。

  2. 标签(Label):对于监督学习而言,标签是样本对应的真实输出值。

  3. 特征(Feature):用于描述样本的属性,通常表示为向量中的一个元素。

  4. 训练集(Training Set):用于训练模型的样本集合。

  5. 测试集(Test Set):用于评估模型性能的样本集合,与训练集互斥。

  6. 模型(Model):用于描述数据的概率分布或者对数据进行预测的函数。

  7. 学习(Learning):从数据中学习模型的过程,分为监督学习、无监督学习、强化学习等。

  8. 损失函数(Loss Function):用于衡量模型预测值与真实值之间差异的函数。

  9. 优化算法(Optimization Algorithm):用于最小化损失函数,从而优化模型参数的算法,如梯度下降法。

  10. 泛化(Generalization):模型对未见过的数据的预测能力。

  11. 过拟合(Overfitting):模型在训练集上表现很好,但在测试集上表现较差的现象。

  12. 欠拟合(Underfitting):模型在训练集和测试集上表现都不好的现象。

  13. 交叉验证(Cross-validation):一种评估模型性能的方法,将数据集划分为多个子集,轮流将每个子集作为测试集,其余作为训练集。

  14. 特征工程(Feature Engineering):通过对原始数据进行处理和转换,提取更有用的特征来改善模型性能的过程。

  15. 超参数(Hyperparameter):在模型训练之前设定的参数,不通过训练数据学习得到,如学习率、树的深度等。

假设空间:

在机器学习中,“假设空间”(Hypothesis Space)是指模型在学习过程中能够表示的所有可能的解决方案或假设的集合。换句话说,假设空间是模型可以学习的所有可能的函数的集合。

在监督学习中,假设空间通常由参数化的函数族表示,例如线性回归模型中的所有线性函数、决策树中所有可能的决策树等。模型的任务就是从假设空间中选择一个最合适的函数来拟合训练数据,并在未见数据上进行泛化。

假设空间的大小和复杂度直接影响了模型的学习能力和泛化能力。假设空间越大,模型越能够拟合复杂的数据,但也容易出现过拟合;假设空间越小,模型越简单,但可能无法捕捉到数据中的真实规律。

归纳偏好:

归纳偏好是指模型在学习过程中对某种类型假设的偏好或倾向。

这种偏好会影响模型如何从训练数据中选择和学习特定类型的模式或规律。

可以理解为模型在面对不确定性时的一种选择性倾向,即在学习过程中更倾向于选择某些解释而非其他解释。

没有归纳偏好的后果:

如果模型没有归纳偏好,它可能会对所有可能的模型或假设都保持中立,不偏向于任何一种。这种情况下,模型可能会变得过度拟合(overfitting),即在训练数据上表现很好,但在未见数据上表现较差。

另一方面,如果没有归纳偏好,模型可能会变得过于简单化(underfitting),即无法捕捉数据中的复杂模式或规律。这样的模型在训练数据和未见数据上都可能表现不佳,因为它们没有足够的复杂性来适应数据的真实特征。

奥卡姆剃刀原则:

奥卡姆剃刀是一种科学原则,也称为简约原则。该原则最早由英国逻辑学家威廉·奥卡姆提出,其核心思想是“在竞争性假设中,应当选择最简单的解释”。换句话说,当有多个假设能够解释观察到的现象时,应该选择最简单、最少假设的那一个。

在机器学习中,奥卡姆剃刀的意义是指在选择模型时,应该倾向于选择最简单的模型,以避免过度拟合训练数据。过度拟合是指模型在训练数据上表现很好,但在未见数据上表现不佳,即模型过于复杂,试图捕捉训练数据中的噪声或细节,而不是真正的模式或规律。

奥卡姆剃刀指导着机器学习从业者在设计模型时应尽量简单,避免不必要的复杂性,以提高模型的泛化能力和解释性。这也与归纳偏好密切相关,因为奥卡姆剃刀可以被视为一种归纳偏好,即模型倾向于选择简单的解释或模型。

没有免费的午餐定理:

“没有免费午餐”(No Free Lunch, NFL)定理是指在机器学习领域,不存在一种通用的、超越特定问题的算法能够在所有问题上表现最好。换句话说,对于任何一个特定问题,如果有一种算法在某些情况下表现得很好,那么必然会有其他情况下它表现较差。

这个定理的核心思想是,不同的机器学习问题具有不同的特点和结构,适用于某个问题的算法不一定适用于另一个问题。因此,没有一种算法能够在所有问题上都表现最优,每种算法都有其适用的范围和局限性。

机器学习的发展历程:

  1. 早期阶段(1950s - 1960s):机器学习的先驱阶段,重点是通过符号推理和逻辑推理实现人工智能。代表性工作包括逻辑推理、专家系统等。

  2. 知识表达期(1960s - 1970s):研究者开始尝试将知识表示引入机器学习,以便机器可以利用先前的经验。这一时期的代表性工作包括决策树、语义网络等。

  3. 连接主义期(1980s - 1990s):连接主义(connectionism)兴起,强调通过神经网络模拟人脑学习过程。深度学习的雏形开始出现。

  4. 统计学习期(1990s - 2000s):统计学习成为机器学习的主流方法之一,包括支持向量机(SVM)、随机森林(Random Forest)等。代表性算法如AdaBoost、EM算法等被广泛应用。

  5. 大数据时代(2010s至今):随着互联网的发展和数据量的爆炸性增长,机器学习开始重点关注大规模数据的处理和分析。深度学习再次兴起,取得了许多重大突破,如ImageNet比赛中基于深度学习的图像识别系统的成功。

  6. 当前和未来:机器学习领域在不断发展,涌现出越来越多的新算法和技术。深度学习、强化学习、迁移学习等技术将继续推动机器学习领域的进步,应用也将不断扩展到更多领域,如自然语言处理、医疗健康、自动驾驶等。

应用现状:

  1. 自然语言处理(NLP):机器学习在NLP领域的应用非常广泛,包括文本分类、情感分析、机器翻译、语音识别等。例如,谷歌的语音助手和苹果的Siri都是基于机器学习的技术。

  2. 计算机视觉:机器学习在计算机视觉领域的应用包括图像分类、目标检测、图像分割等。例如,人脸识别技术、无人驾驶汽车中的视觉感知系统等都离不开机器学习。

  3. 医疗健康:机器学习在医疗健康领域的应用包括医学影像分析、疾病诊断、个性化治疗等。例如,利用机器学习技术可以帮助医生更准确地诊断病情,并提供更有效的治疗方案。

  4. 金融领域:机器学习在金融领域的应用包括风险评估、欺诈检测、股票预测等。例如,银行可以利用机器学习技术来识别信用卡欺诈行为,投资公司可以利用机器学习技术来预测股市走势。

  5. 工业制造:机器学习在工业制造领域的应用包括质量控制、设备预测性维护、生产优化等。例如,利用机器学习技术可以预测设备故障,及时进行维护,减少停机时间。

  6. 智能交通:机器学习在智能交通领域的应用包括交通流量预测、智能交通信号灯控制、智能驾驶辅助系统等。例如,利用机器学习技术可以优化交通信号灯控制,减少交通拥堵。

  • 31
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值