机器学习西瓜书——第01章绪论

本文是关于周志华老师编写的机器学习书籍『西瓜书』的第一章绪论的简单体会。

主要的内容有:机器学习的过程的一些基本术语和假设空间的解释. (归纳偏好回头再来)

1.1 引言

通俗来说机器学习: 在学习了很多的『经验』情况下, 学会了某种『方法』, 遇到新的问题后, 根据之前的『经验』和『方法』做出有效的决策.

所谓"经验"就是"数据";

所谓"方法"就是机器学习研究的主要内容, 也就是从数据中学会的"模型"(model) 算法.

1.2 基本术语

数据部分

  • 数据集: 记录的集合称为一个"数据集"(data set);

  • 样本: 每条记录是关于一个事件或对象(这里是一个西瓜)的描述, 称为一个"示例"(instance) 或"样本"(sample);

  • 特征: 反映事件或对象在某方面的表现或性质的事项, 例如"色泽" “根蒂” “敲声”, 称为"属性"(attribute) 或"特征"(feature);

  • 样本空间: 属性上的取值,例如"青绿" “乌黑”, 称为"属性值" (attribute value). 属性张成的空间称为"属性空间" (attribute space) 、 “样本空间” (sample space) 或"输入空间".

    把属性值作为坐标轴,张成多维空间,得到坐标位置,每个点对应一个坐标向量,由此也把一个示例称为一个**“特征向量” (feature vector)**.

学习过程

  • 训练: 从数据中学得模型的过程称为"学习"(learning)或"训练"(training) ,这个过程通过执行某个学习算法来完成;

  • 训练样本: 训练过程中使用的数据称为"训练数据"(training data), 其中每个样本称为一个"训练样本"(training sample), 训练样本组成的集合称为"训练集"(training set);

    但有时候也会将整个数据集称为样本,需要依靠上下文判断。

  • 学习器: 有时将模型称为"学习器"(learner), 可看作学习算法在给定数据和参数空间上的实例化;

  • 测试样本: 学得模型后, 使用器进行预测的过程称为"测试"(testing), 被预测的样本称为"测试样本"(test sample).

标记部分

  • 标记: 关于示例结果的信息,例如"好瓜",称为"标记" (label), 拥有了标记信息的示例,则称为"样例" (example);
  • 标记空间: 标记集合称为标记空间(label space)或"输出空间".

学习任务

  • 分类: 若预测的是离散值, 则此类学习任务称为"分类"(classification);
  • 回归: 若预测的是连续值, 则此类学习任务称为"回归"(regression);
  • 聚类: 若对数据样本进行划分为各个"簇"(cluster), 则将此类学习任务称为"聚类";

    聚类的学习过程中使用的训练样本通常没有标记信息.

  • 根据学习任务进行划分, 通常有两大类: 有监督学习(supervised learning)和无监督学习(unsupervised learning), 分类和回归是前者的代表, 聚类则是后者的代表.

模型目标

  • 机器学习的目标是使得模型能够很好的适用于新样本, 而不是仅仅在训练集上表现的很好. 即使是聚类这种无监督的学习任务, 也同样如此;
  • 学得的模型适用于新样本的能力, 称为"泛化"(generalization);
  • 所以我们希望获得的样本能够尽可能的表示样本空间的特性, 从而在整个样本空间上都表现的很好;
  • 通常假设每个样本都是独立同分布(independent and identically);
  • 训练样本越多, 越有可能获得强泛化能力的模型.

1.3 假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段:

  • 前者是从特殊到一般的泛化(generalization)过程,即从具体的事实归结出一般性规律;
  • 后者则是从一般到特殊的特化(specialization)过程,即从基础原理推演出具体状况.

把学习的过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程, 搜索的目标是找到与训练集"匹配"(fit)的假设.

假设的表示一旦确定, 假设空间及其规模大小就确定了.

搜索的策略有: 自顶向下、从一般到特殊,或是自底向上、从特殊到一般等. 搜索过程也可以不断删除与正例不一致的假设. 最终获得与训练集一致的假设, 这就是学习的结果.

但是现实中假设空间可能很大, 但是学习过程中使用的训练样本有限, 所以实际上存在很多的假设空间,但仅存在一个与训练集一致的假设集合, 称之为版本空间(version space).

1.4 归纳偏好

// todo

个人收获

整理了机器学习基本的术语和一些名词, 这是磨刀.

新接触了版本空间的概念,这是之前学习一些内容的时候没有注意到的部分.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值