一、引言部分
机器学习是计算机人工智能领域的一门分支学科,它主要研究通过学习算法,从经验数据中得到模型(从数据中学到的结果),使得让机器拥有类似于人类的学习能力,实现对数据的分析和有效决策。
二、基本术语概念
在西瓜书和up主的视频中,详细介绍了机器学习中的一些基本术语,例如:样本,样本空间,标记,特征向量等等。这些术语是学习机器学习不可缺少的理论概念。通过学习,我认为可以分为两类进行理解。
第一类是基础术语,例如,样本,数据集,训练集,属性。这些是本科数学时常提到的术语,通过字面就可以理解。
第二类是关联术语,即在机器学习中赋予了新的意义。
模型,即从数据中学到的结果;
学习(训练),即从数据中学得模型的过程;
训练集(测试集),即训练(测试)过程中使用的数据;
潜在规律本身称为"真相"。
三、假设空间与版本空间
在机器学习当中,假设空间是所有可能情况的模型构成的集合;版本空间是所有与训练集一致的模型构成集合。假设空间大于版本空间大于真相。通过缩小版本空间可以不断靠近真相(最符合要求的结果)
四、归纳偏好
西瓜书中提到"没有免费的午餐"定理,即NFL定理,在所有问题同等重要的前提下,不同算法的期望性能相同,总体误差与学习算法的优劣无关。
但是在实际问题中,我们对问题中数据分析的模型有一定的偏好,从而引出"归纳偏好"的概念。
归纳偏好,即机器学习算法在学习过程中对某种类型假设的偏好。在处理实际问题中,一个有效的机器学习算法一定有其归纳偏好,倘若没有归纳偏好,在多次使用模型过程中,一会说结果正确,一会说结果不好,这样的模型是无效的,没有任何意义的。所以我们在训练样本过程中,要有某种偏好,才能产出"正确"的模型。
归纳总结对应了学习算法本身所做出的关于"什么样的模型更好"的假设,算法的归纳偏好是否与问题本身匹配,大多数直接决定了算法能否取得好的性能。
五、标记、聚类、学习任务的分类
标记,即示例结果的信息,例如"好瓜"
样例,即有了标记信息的示例。
根据标记取值的不同,我们分为两类:离散值,连续值。
若预测的是离散值,此类学习任务叫"分类";如果是二分类,则称一类是"正类",一类是"反类"。
若预测的是连续值,则称此类学习任务叫"回归"
根据是否有标记信息,将学习任务分为两类:监督学习 和 非监督学习
学得模型适用于新样本的能力,称为"泛化"能力。训练样本越多,我们的到关于"未知"分布的信息越多,越有可能的到具有强泛化能力的模型。
六、模型上限
视频中up主讲到,数据的质量和规模直接决定模型的上限,算法的作用是让模型无限接近上限。让我认识到数据与算法对机器学习训练模型的重要性。
七、自我总结
通过今天的学习,我了解到了机器学习的概念和定义,作者讲述人工智能发展的历程,从基本概念入手,从简单易懂的例子引入,让我有了深入的理解。作为初学者,在学习中有很多很多的不足,希望大佬们可以指出批评,我会认真改正,相信在和大家一起学习的过程中,我能提高自己的专业技能和知识。脚步慢,方向正确,一定一定没有问题的!