吃瓜学习笔记(绪论)

一、引言部分

机器学习是计算机人工智能领域的一门分支学科,它主要研究通过学习算法,从经验数据中得到模型(从数据中学到的结果),使得让机器拥有类似于人类的学习能力,实现对数据的分析和有效决策。

二、基本术语概念

在西瓜书和up主的视频中,详细介绍了机器学习中的一些基本术语,例如:样本,样本空间,标记,特征向量等等。这些术语是学习机器学习不可缺少的理论概念。通过学习,我认为可以分为两类进行理解。

第一类是基础术语,例如,样本,数据集,训练集,属性。这些是本科数学时常提到的术语,通过字面就可以理解。

第二类是关联术语,即在机器学习中赋予了新的意义。

模型,即从数据中学到的结果;

学习(训练),即从数据中学得模型的过程;

训练集(测试集),即训练(测试)过程中使用的数据;

潜在规律本身称为"真相"。

三、假设空间与版本空间

在机器学习当中,假设空间是所有可能情况的模型构成的集合;版本空间是所有与训练集一致的模型构成集合。假设空间大于版本空间大于真相。通过缩小版本空间可以不断靠近真相(最符合要求的结果)

四、归纳偏好

西瓜书中提到"没有免费的午餐"定理,即NFL定理,在所有问题同等重要的前提下,不同算法的期望性能相同,总体误差与学习算法的优劣无关。

但是在实际问题中,我们对问题中数据分析的模型有一定的偏好,从而引出"归纳偏好"的概念。

归纳偏好,即机器学习算法在学习过程中对某种类型假设的偏好。在处理实际问题中,一个有效的机器学习算法一定有其归纳偏好,倘若没有归纳偏好,在多次使用模型过程中,一会说结果正确,一会说结果不好,这样的模型是无效的,没有任何意义的。所以我们在训练样本过程中,要有某种偏好,才能产出"正确"的模型。

归纳总结对应了学习算法本身所做出的关于"什么样的模型更好"的假设,算法的归纳偏好是否与问题本身匹配,大多数直接决定了算法能否取得好的性能。

五、标记、聚类、学习任务的分类

标记,即示例结果的信息,例如"好瓜"

样例,即有了标记信息的示例。

根据标记取值的不同,我们分为两类:离散值,连续值。

若预测的是离散值,此类学习任务叫"分类";如果是二分类,则称一类是"正类",一类是"反类"。

若预测的是连续值,则称此类学习任务叫"回归"

根据是否有标记信息,将学习任务分为两类:监督学习 和 非监督学习

学得模型适用于新样本的能力,称为"泛化"能力。训练样本越多,我们的到关于"未知"分布的信息越多,越有可能的到具有强泛化能力的模型。

六、模型上限

视频中up主讲到,数据的质量和规模直接决定模型的上限,算法的作用是让模型无限接近上限。让我认识到数据与算法对机器学习训练模型的重要性。

七、自我总结

通过今天的学习,我了解到了机器学习的概念和定义,作者讲述人工智能发展的历程,从基本概念入手,从简单易懂的例子引入,让我有了深入的理解。作为初学者,在学习中有很多很多的不足,希望大佬们可以指出批评,我会认真改正,相信在和大家一起学习的过程中,我能提高自己的专业技能和知识。脚步慢,方向正确,一定一定没有问题的!

 

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值