《机器学习》阅读笔记(一)
1 绪论
1.2 基本术语
术语 | en | 描述 |
---|---|---|
数据集 | data set | 记录的集合(每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)) |
属性/特征 | attribute/feature | 反映事件或对象在某方面的表现或性质的事项 |
属性值 | attribute value | 属性上的取值 |
属性空间/样本空间/输入空间 | attribute space/sample space/- | 属性张成的空间 |
特征向量 | feature vector | 一个示例 |
一般地
D
=
{
x
1
,
x
2
,
…
,
x
m
}
D=\{x_1,x_2,\dots,x_m\}
D={x1,x2,…,xm}
- D D D:表示包含 m m m个示例的数据集
- x i x_i xi:每个示例由 d d d个属性描述,则每个示例 x i = ( x i 1 ; x i 2 ; …   ; x i d ) x_i=(x_{i1};x_{i2};\dots;x_{id}) xi=(xi1;xi2;…;xid)是 d d d维样本空间 X \mathcal{X} X中的一个向量, x i ∈ X x_i\in \mathcal{X} xi∈X,其中 x i j x_{ij} xij是 x i x_i xi在第 j j j个属性上的取值
- d d d:样本 x i x_i xi的维数
术语 | en | 描述 |
---|---|---|
学习/训练 | learning/training | 从数据中学得模型的过程 |
训练数据 | training data | 训练过程中使用的数据 |
训练样本 | training sample | 训练数据中的每一个样本 |
训练集 | training set | 训练样本组成的集合 |
假设 | hypothesis | 学得模型对应的关于数据的某种潜在的规律 |
真相/真实 | ground-truth | 这种潜在规律自身 |
学习器 | learner | 模型(学习算法在给定数据和参数空间上的实例化) |
术语 | en | 描述 |
---|---|---|
标记 | label | 关于示例结果的信息 |
样例 | example | 拥有了标记信息的示例 |
一般地
- ( x i , y i ) (x_i,y_i) (xi,yi):第 i i i个样例
- y i ∈ Y y_i\in\mathcal{Y} yi∈Y:示例 x i x_i xi的标记
- Y \mathcal{Y} Y:所有标记的集合(标记空间(label space)或输出空间))
预测 | 学习任务 | en |
---|---|---|
离散值 | 分类 | classification |
连续值 | 回归 | regression |
分类(学习任务) | en | 描述 |
---|---|---|
二分类 | binary classification | 通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class) |
多分类 | multi-class classification | 涉及多个类别 |
预测任务:对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\} {(x1,y1),(x2,y2),…,(xm,ym)}进行学习,建立一个从输入空间 X \mathcal{X} X到输出空间 Y \mathcal{Y} Y的映射 f : X ↦ Y f:\mathcal{X}\mapsto\mathcal{Y} f:X↦Y
任务 | Y \mathcal{Y} Y |
---|---|
二分类任务 | Y = { − 1 , + 1 } \mathcal{Y}=\{-1,+1\} Y={−1,+1}或 { 0 , 1 } \{0,1\} {0,1} |
多分类任务 | I Y \mathcal{Y} YI > 2 >2 >2 |
回归任务 | Y = R \mathcal{Y}=\mathbb{R} Y=R, R \mathbb{R} R为实数集 |
术语 | en | 描述 |
---|---|---|
测试 | testing | 学得模型后,使用其进行预测的过程 |
测试样本 | testing sample | 被预测的样本 |
聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster)
是否有标记的信息 | 学习任务 | en | 代表 |
---|---|---|---|
是 | 监督学习 | supervised learning | 分类/回归 |
否 | 无监督学习 | unsupervised learning | 聚类 |
泛化(generalization):学得模型适用于新样本
1.3 假设空间
版本空间(version space):可能有多个假设与训练集一致,存在着一个与训练集一致的“假设集合”。
1.4 归纳偏好
归纳偏好(inductive bias)(偏好):机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀(Occam’s razor)(一种常用的、自然科学研究中最基本的原则):若有多个假设与观察一致,则选最简单的那个。
为简单起见,假设
- X \mathcal{X} X:样本空间(离散)
- H \mathcal{H} H:假设空间(离散)
- P ( h ∣ X , L a ) P(h|X,\mathfrak{L}_a) P(h∣X,La):算法 L a \mathfrak{L}_a La基于训练数据 X X X产生假设 h h h的概率
-
f
f
f:希望学习的真实目标函数
L a \mathfrak{L}_a La的“训练集外误差”为
E o t e ( L a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) I ( h ( x ) ≠ f ( x ) ) P ( h ∣ X , L a ) E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_h\sum\limits_{x\in\mathcal{X}-X}P(x)\mathbb{I}(h(x)\neq f(x))P(h|X,\mathfrak{L}_a) Eote(La∣X,f)=h∑x∈X−X∑P(x)I(h(x)̸=f(x))P(h∣X,La)
其中, I ( ⋅ ) \mathbb{I}(\cdot) I(⋅)是指示函数,若·为真则取值1,否则取值0。
对于二分类问题,且真实目标函数可以是任何函数
X
↦
{
0
,
1
}
\mathcal{X}\mapsto\{0,1\}
X↦{0,1},函数空间为
{
0
,
1
}
∣
X
∣
\{0,1\}^{|\mathcal{X}|}
{0,1}∣X∣。对所有可能的
f
f
f按均匀分布对误差求和,有
∑
f
E
o
t
e
(
L
a
∣
X
,
f
)
=
2
∣
X
∣
−
1
∑
x
∈
X
−
X
P
(
x
)
\sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=2^{|\mathcal{X}|-1}\sum\limits_{x\in\mathcal{X}-X}P(x)
f∑Eote(La∣X,f)=2∣X∣−1x∈X−X∑P(x)
即,对于任意两个学习算法
L
a
\mathfrak{L}_a
La和
L
b
\mathfrak{L}_b
Lb,都有
∑
f
E
o
t
e
(
L
a
∣
X
,
f
)
=
∑
f
E
o
t
e
(
L
b
∣
X
,
f
)
\sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)=\sum\limits_{f}E_{ote}(\mathfrak{L}_b|X,f)
f∑Eote(La∣X,f)=f∑Eote(Lb∣X,f)显示出,总误差与学习算法无关。这就是“没有免费的午餐”定理(NFL定理)。
习题
- (色泽=青绿;根蒂=蜷缩;敲声=浊响) \fbox{(色泽=青绿;根蒂=蜷缩;敲声=浊响)} (色泽=青绿;根蒂=蜷缩;敲声=浊响)
若仅根据1和4两个样例,没有其他已知条件的情况下,只能得知一个假设。
- 9个合取式
首先,有好瓜,且 ∗ ; ∗ ; ∗ *;*;* ∗;∗;∗的情况不符合
假设:
- 两个 ∗ * ∗
1. ∗ ; 蜷 缩 ; ∗ *;蜷缩;* ∗;蜷缩;∗
2. ∗ ; ∗ ; 浊 响 *;*;浊响 ∗;∗;浊响
3. 浅 白 ; ∗ ; ∗ 浅白;*;* 浅白;∗;∗- 一个 ∗ * ∗
1. ∗ ; 稍 蜷 ; 清 脆 *;稍蜷;清脆 ∗;稍蜷;清脆
2. ∗ ; 硬 挺 ; 沉 闷 *;硬挺;沉闷 ∗;硬挺;沉闷
3. 青 绿 ; ∗ ; 沉 闷 青绿;*;沉闷 青绿;∗;沉闷
4. 乌 黑 ; ∗ ; 清 脆 乌黑;*;清脆 乌黑;∗;清脆
5. 乌 黑 ; 硬 挺 ; ∗ 乌黑;硬挺;* 乌黑;硬挺;∗
6. 青 绿 ; 稍 蜷 ; ∗ 青绿;稍蜷;* 青绿;稍蜷;∗- 0个 ∗ * ∗
共计9种,故一共9个合取式。
- 答:
书中获得结果的方法:“搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设”。
数据包含噪声,则在此情形下,可以在搜索过程中加以改进,即“搜索过程中,可以对与正例不一致的假设、和(或)与反例一致的假设,附加该假设的罚分,在搜索的过程中累积”,最终罚分最低的假设应该是想要的假设。 - ∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ X − X P ( x ) ℓ ( h ( x ) , f ( x ) ) P ( h ∣ X , L a ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f ℓ ( h ( x ) , f ( x ) ) = ∑ x ∈ X − X P ( x ) ⋅ 1 ⋅ ∑ f ℓ ( h ( x ) , f ( x ) ) \sum\limits_{f}E_{ote}(\mathfrak{L}_a|X,f)\\ =\sum\limits_{f}\sum\limits_{h}\sum\limits_{x\in\mathcal{X}-X}P(x)\ell(h(x),f(x))P(h|X,\mathcal{L}_a) \\=\sum\limits_{x\in\mathcal{X}-X}P(x)\sum\limits_{h}P(h|X,\mathcal{L}_a)\sum\limits_{f}\ell(h(x),f(x))\\ =\sum\limits_{x\in\mathcal{X}-X}P(x)\cdot1\cdot\sum\limits_{f}\ell(h(x),f(x)) f∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)ℓ(h(x),f(x))P(h∣X,La)=x∈X−X∑P(x)h∑P(h∣X,La)f∑ℓ(h(x),f(x))=x∈X−X∑P(x)⋅1⋅f∑ℓ(h(x),f(x))
- 作用
- 搜索引擎中广告的投放
- 根据点击数及其他因素对搜索结果进行排序