《机器学习》阅读笔记(一)

《机器学习》阅读笔记(一)

1 绪论

1.2 基本术语

术语en描述
数据集data set记录的集合(每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample))
属性/特征attribute/feature反映事件或对象在某方面的表现或性质的事项
属性值attribute value属性上的取值
属性空间/样本空间/输入空间attribute space/sample space/-属性张成的空间
特征向量feature vector一个示例

一般地
D = { x 1 , x 2 , … , x m } D=\{x_1,x_2,\dots,x_m\} D={x1,x2,,xm}

  1. D D D:表示包含 m m m个示例的数据集
  2. x i x_i xi:每个示例由 d d d个属性描述,则每个示例 x i = ( x i 1 ; x i 2 ; …   ; x i d ) x_i=(x_{i1};x_{i2};\dots;x_{id}) xi=(xi1;xi2;;xid) d d d维样本空间 X \mathcal{X} X中的一个向量, x i ∈ X x_i\in \mathcal{X} xiX,其中 x i j x_{ij} xij x i x_i xi在第 j j j个属性上的取值
  3. d d d:样本 x i x_i xi的维数
术语en描述
学习/训练learning/training从数据中学得模型的过程
训练数据training data训练过程中使用的数据
训练样本training sample训练数据中的每一个样本
训练集training set训练样本组成的集合
假设hypothesis学得模型对应的关于数据的某种潜在的规律
真相/真实ground-truth这种潜在规律自身
学习器learner模型(学习算法在给定数据和参数空间上的实例化)
术语en描述
标记label关于示例结果的信息
样例example拥有了标记信息的示例

一般地

  1. ( x i , y i ) (x_i,y_i) (xi,yi):第 i i i个样例
  2. y i ∈ Y y_i\in\mathcal{Y} yiY:示例 x i x_i xi的标记
  3. Y \mathcal{Y} Y:所有标记的集合(标记空间(label space)或输出空间))
预测学习任务en
离散值分类classification
连续值回归regression
分类(学习任务)en描述
二分类binary classification通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)
多分类multi-class classification涉及多个类别

预测任务:对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\} {(x1,y1),(x2,y2),,(xm,ym)}进行学习,建立一个从输入空间 X \mathcal{X} X到输出空间 Y \mathcal{Y} Y的映射 f : X ↦ Y f:\mathcal{X}\mapsto\mathcal{Y} f:XY

任务 Y \mathcal{Y} Y
二分类任务 Y = { − 1 , + 1 } \mathcal{Y}=\{-1,+1\} Y={1,+1} { 0 , 1 } \{0,1\} {0,1}
多分类任务I Y \mathcal{Y} YI > 2 >2 >2
回归任务 Y = R \mathcal{Y}=\mathbb{R} Y=R R \mathbb{R} R为实数集
术语en描述
测试testing学得模型后,使用其进行预测的过程
测试样本testing sample被预测的样本

聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster)

是否有标记的信息学习任务en代表
监督学习supervised learning分类/回归
无监督学习unsupervised learning聚类

泛化(generalization):学得模型适用于新样本

1.3 假设空间

版本空间(version space):可能有多个假设与训练集一致,存在着一个与训练集一致的“假设集合”。

1.4 归纳偏好

归纳偏好(inductive bias)(偏好):机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀(Occam’s razor)(一种常用的、自然科学研究中最基本的原则):若有多个假设与观察一致,则选最简单的那个。
为简单起见,假设

  1. X \mathcal{X} X:样本空间(离散)
  2. H \mathcal{H} H:假设空间(离散)
  3. P ( h ∣ X , L a ) P(h|X,\mathfrak{L}_a) P(hX,La):算法 L a \mathfrak{L}_a La基于训练数据 X X X产生假设 h h h的概率
  4. f f f:希望学习的真实目标函数
    L a \mathfrak{L}_a La的“训练集外误差”为
    E o t e ( L a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) I ( h ( x ) ≠ f ( x ) ) P ( h ∣ X , L a ) E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_h\sum\limits_{x\in\mathcal{X}-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,\mathfrak{L}_a) Eote(LaX,f)=hxXXP(x)I(h(x)̸=f(x))P(hX,La)
    其中, I ( ⋅ ) \mathbb{I}(\cdot) I()是指示函数,若·为真则取值1,否则取值0。

对于二分类问题,且真实目标函数可以是任何函数 X ↦ { 0 , 1 } \mathcal{X}\mapsto\{0,1\} X{0,1},函数空间为 { 0 , 1 } ∣ X ∣ \{0,1\}^{|\mathcal{X}|} {0,1}X。对所有可能的 f f f按均匀分布对误差求和,有
∑ f E o t e ( L a ∣ X , f ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) \sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=2^{|\mathcal{X}|-1}\sum\limits_{x\in\mathcal{X}-X}P(x) fEote(LaX,f)=2X1xXXP(x)
即,对于任意两个学习算法 L a \mathfrak{L}_a La L b \mathfrak{L}_b Lb,都有 ∑ f E o t e ( L a ∣ X , f ) = ∑ f E o t e ( L b ∣ X , f ) \sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_{f}E_{ote}(\mathfrak{L}_b|X,f) fEote(LaX,f)=fEote(LbX,f)显示出,总误差与学习算法无关。这就是“没有免费的午餐”定理(NFL定理)。

习题

  1. (色泽=青绿;根蒂=蜷缩;敲声=浊响) \fbox{(色泽=青绿;根蒂=蜷缩;敲声=浊响)} =绿==

若仅根据1和4两个样例,没有其他已知条件的情况下,只能得知一个假设。

  1. 9个合取式

首先,有好瓜,且 ∗ ; ∗ ; ∗ *;*;* 的情况不符合
假设:

  1. 两个 ∗ *
    1. ∗ ; 蜷 缩 ; ∗ *;蜷缩;*
    2. ∗ ; ∗ ; 浊 响 *;*;浊响
    3. 浅 白 ; ∗ ; ∗ 浅白;*;*
  2. 一个 ∗ *
    1. ∗ ; 稍 蜷 ; 清 脆 *;稍蜷;清脆
    2. ∗ ; 硬 挺 ; 沉 闷 *;硬挺;沉闷
    3. 青 绿 ; ∗ ; 沉 闷 青绿;*;沉闷 绿
    4. 乌 黑 ; ∗ ; 清 脆 乌黑;*;清脆
    5. 乌 黑 ; 硬 挺 ; ∗ 乌黑;硬挺;*
    6. 青 绿 ; 稍 蜷 ; ∗ 青绿;稍蜷;* 绿
  3. 0个 ∗ *

共计9种,故一共9个合取式。

  1. 答:
    书中获得结果的方法:“搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设”。
    数据包含噪声,则在此情形下,可以在搜索过程中加以改进,即“搜索过程中,可以对与正例不一致的假设、和(或)与反例一致的假设,附加该假设的罚分,在搜索的过程中累积”,最终罚分最低的假设应该是想要的假设。
  2. ∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ℓ ( h ( x ) , f ( x ) ) P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f ℓ ( h ( x ) , f ( x ) ) = ∑ x ∈ X − X P ( x ) ⋅ 1 ⋅ ∑ f ℓ ( h ( x ) , f ( x ) ) \sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)\\ =\sum\limits_{f}\sum\limits_{h}\sum\limits_{x\in\mathcal{X}-X}P(x)\ell(h(x),f(x))P(h|X,\mathcal{L}_a) \\=\sum\limits_{x\in\mathcal{X}-X}P(x)\sum\limits_{h}P(h|X,\mathcal{L}_a)\sum\limits_{f}\ell(h(x),f(x))\\ =\sum\limits_{x\in\mathcal{X}-X}P(x)\cdot1\cdot\sum\limits_{f}\ell(h(x),f(x)) fEote(LaX,f)=fhxXXP(x)(h(x),f(x))P(hX,La)=xXXP(x)hP(hX,La)f(h(x),f(x))=xXXP(x)1f(h(x),f(x))
  3. 作用
    1. 搜索引擎中广告的投放
    2. 根据点击数及其他因素对搜索结果进行排序
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值