机器学习——绪论

1. 什么是机器学习?

定义:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。
研究内容:从数据中产生模型的算法,即学习算法

机器学习=任务+方法+经验+性能

  • 任务-T:机器学习要解决的问题(研究对象)
  • 方法-A:各种机器学习方法(核心内容)
  • 经验-E:训练模型的数据(动力源泉)
  • 性能-P:方法针对任务的性能评估准则(检验指标)

任务-Task:

  • 回归(Regression)
  • 分类(Classification)
  • 聚类(Clustering)
  • 表征(Representation)

方法-Algorithm:

  • 有监督学习(Supervised Learning):数据都有标签,模型将新数据分到一个明确的类或得到一个预测值。例如支持向量机(SVM)、贝叶斯分类器、决策树、线性判别分析(LDA)等。
  • 无监督学习(Unsupervised Learning):数据没有标签,模型是从数据中提取出来的模式。例如K-means、Meanshift、主成分分析(PCA)、典型相关分析等。
  • 半监督学习(Semi-supervised Learning):部分数据有标签,模型将新数据分到一个明确的类或得到一个预测值。例如图直推学习、超图直推学习等。

2. 基本术语

(1)数据集:训练集、测试集、验证集。

D = { x 1 , x 2 , . . . , x m } D=\{\bold{x}_1,\bold{x}_2,...,\bold{x}_m\} D={x1,x2,...,xm}表示包含 m m m个示例的数据集,每个示例表示为 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) \bold{x}_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),维数为 d d d

(2)示例=样本≠样例:示例(样本)如 x i \bold{x}_i xi,样例如 ( x i , y i ) (\bold{x}_i,y_i) (xi,yi),也就是说样例是有标签的示例。

每个示例是 d d d维样本空间中的一个向量,称为特征向量

(3)属性≈特征:反映事件或对象在某方面的表现或性质的事项。

属性是事物本身所固有的性质,而特征是事物异于其他事物的特点。

(4)属性值:属性上的取值。
(5)属性空间=样本空间=输入空间=假设空间:由属性张成的空间。
在这里插入图片描述
(6)版本空间:与训练集一致的假设集合。由于这个空间会随训练集的“版本”不同而变化,因此称为版本空间。
在这里插入图片描述
(7)特征空间:排除线性相关和对模型构建无益处的属性后得到的空间。
(8)标记空间=输出空间:所有标记的集合。
(9)学习=训练:从数据中学得模型的过程。
(10)模型=假设=学习器:学得的模型。
(11)真相=真实:模型学到的潜在规律。
(12)泛化能力:学得模型适用于新样本(未见样本)的能力。
(13)独立同分布:假设样本空间中全体样本服从一个未知的分布,且每个样本都是独立的。
(14)归纳≠演绎:归纳是从特殊到一般的“泛化”过程,演绎是从一般到特殊的“特化”过程。

3. 归纳偏好

定义:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其偏好。归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!

奥卡姆剃刀原则

若有多个假设与观察一致,则选最简单的那个。

没有免费午餐定理

一个算法A若在某些问题上好于算法B,则必定存在另一些问题B好于A。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值