《机器学习》系列总结(导学/复习)---第一章 绪论

《机器学习》系列总结(导学/复习)—第一章 绪论

什么是机器学习?

在日常生活中,我们如果看到天空阴沉、燕子低飞时,可能会说等会可能要下雨;在超市购买苹果,我们会挑选红且没有斑点的苹果,因为我们认为这种苹果会更好吃,更好一点;再例如我们西瓜书全文以西瓜为例,就为了告诉我们如何选西瓜🍉(bushi)。我们通过这些特征/现象(天空阴沉、苹果红、西瓜敲得响),以此预测(或判断)得出一个结论。机器学习也与此类似

机器学习一种计算机通过“数据”产生“模型”算法(叫做“学习算法”)。或者数学的角度讲就是构建一个函数。或者说是基于数据进行学习,从数据样本中寻求规律,再利用规律对未来的数据进行预测。比如我们有很多数据,我们把这些经验数据“喂”给它后,它基于数据产生模型,在遇到新情况时,通过模型即能得到一个相应的判断结果。

  • 模型:此处泛指从数据中学到的结果
  • 理解:类似我们通过很多次的观察发现,有天空阴沉、燕子低飞现象时,会下雨—这就是我们接收的数据。从而我们得到一个“算法”,当发现天阴沉,燕子低飞时,则我们可以预测会下雨

典型的机器学习过程:

  1. 训练数据(包含类别标记) 使用学习算法(learning algorithm)或者说选择采用某种模型进行训练
  2. 得到最终的模型(训练得到模型内部的参数)
  3. 根据最终得到的模型,传入新的数据样本(不含类别标记)
  4. 输出类别标记

image-20230620153958154

基本术语

  • 监督学习和无监督学习:区别在于数据是否有标签

    • 监督学习有标签
    • 无监督学习无标签
  • 数据集、训练集、测试集

    • 数据集:所有数据记录的一个集合
    • 训练集:训练过程中使用的数据
    • 测试集:学得模型后,拿一些确定得数据去测试模型,这些数据构成测试集。注意测试集中的测试例已知它的标签(结果)
  • 示例(instance)或样本(sample):数据集中的每一条数据记录

  • 属性(attribute)或特征(feature):反应事件或对象在某方面的表现或性质的那些事项。比如西瓜的“色泽”,“敲声”,“根蒂”等,或者说”天气的状况“,”动物的行为“等。

  • 属性值(attribute value):在属性上的取值。如”天气晴朗“,”燕子高飞“或者 ” 天气阴沉“,”蚂蚁搬家“或者”青绿“、”响亮“、”乌黑“

  • 属性空间、样本空间、输入空间:将多个属性张开成空间。比如“色泽”,“敲声”,“根蒂”分别作为三个坐标轴,形成一个三维空间,把一条记录的这些属性在空间中找到其位置。

  • 特征向量:样本空间中点对应的坐标向量

  • 标记空间 或 输出空间:预测时,得出样本的结果的标记信息,所标记的集合即为样本空间

  • 假设(hypothesis):学得模型对应数据的某种潜在规律

  • 真相(ground-truth):潜在规律自身

  • 学习器(learner):学习过程中逐渐找出或逼近真相,也可以说就是学习算法在空间中实例化

  • 演绎:从一般到特殊—“特化”

  • 归纳:从特殊到一般—“泛化”

  • 归纳学习

    • 从样例中学习
    • (狭义)概念学习
  • 版本空间:与训练集一致的假设集合

  • 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,简而言之就是学习得到哪种模型更好

  • 泛化(generalization):模型使用新样本的能力称为泛化能力

泛化(generalization):模型使用新样本的能力称为泛化能力

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhihong2002

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值