西瓜书第一章-绪论
First step
对于西瓜书内容做总结笔记,以下都是个人总结,如果有错误欢迎指证。
引言+基本术语
- “模型” (model) 从数据中产生
- “学习算法”(learning alogrithm) 从数据中产生模型的算法
- ”数据集“(data set) 示例(instance)或样例(sample) 的集合
- “属性”(atrribute) 或 "特征”(feature) 反映事件或对象在某方面的表现或性质的事项
- “属性值”(attribute value)
- “属性空间”(attribute space) “样本空间”(sample space)
- “特征向量”(feature vector) 将示例张成向量
例:D={x1,x2,…,xN} 含有N个示例或样本的数据集,
xi有d个属性,d称为xi的维数, xi是d维样本空间 X \mathcal X X的一个向量
- “训练数据”(training data) “训练样本”(training sample) “训练集”(training set)
- “假设”(hypothesis) 从数据集中总结出的模型(学习器),接近数据集中的潜在规律 “真实”(grouth-truth)
- “标记”(label) 关于示例结果的信息。标记空间(label space)
- “分类”(classification) 预测的样本值是离散的;“回归”(regression) 预测的样本值是连续的
- “二分类”(binary classification) 正例(positive class)反例(negative class)
- “多分类”(multi-class classification)
例:对样本集 D = ( x i , y i ) i = 1 , 2 , . . . , N D={(x_i,y_i)}\quad\ i=1,2,...,N D=(xi,yi) i=1,2,...,N,进行学习,实际上是建立一个样本空间 X \mathcal X X到y的一个映射。如果 y ∈ { − 1 , 1 } y\in\{-1,1\} y∈{−1,1}或者 y ∈ { 0 , 1 } y\in\{0,1\} y∈{0,1},则学习的是二分类问题,如果 ∣ y ∣ |y| ∣y∣>2,则学习的是多分类问题,如果 y ∈ R y\in\mathbb{R} y∈R,则学习的是回归问题。
- “测试”(test) 用模型 f f f预测的过程,“测试集”(testing set) y = f ( x ) y=f(x) y=f(x)
- “聚类”(clustering) 将样本集分成各个 “簇”(cluster)
- “监督学习”(supervised learning) 分类和回归
- “无监督学习” (unsupervised learning) 聚类
- “泛化”(generalization) 学习的目的不是在训练集上表现好,而是为了预测“新样本”
- 假设空间服从一个未知的 “分布”(distribution) D D D,我们获得的样本都是从这个空间中独立的采样得到的, “独立同分布”(independent and identically distributed, i i d iid iid)
假设空间
- 归纳(induction) 从特殊到一般的泛化(generalization),即从特殊的样例中总结出泛化性良好的规律
- 演绎(deduction) 特化(specialization)的过程,从规律到特例的过程
- “归纳学习”(inducted learning) 从样例中学习的过程
- “概念”(concept) 一般都是黑箱学习,布尔概念学习0/1
- 记住样本就是所谓的“机器学习”,我们学习的过程可以看作是在所有假设(hypothesis)存在的空间中寻找最能匹配(fit)结果的假设
- “版本空间”(version space)存在多个假设与训练集一致“假设集合”
在西瓜问题中,如何根据训练集求所对应的版本空间?
①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)
②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。
即可得出与训练集一致的假设集合,也就是版本空间了。
(绿色加号代表正类样本,红色小圈代表负类样本)
GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary),;
SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)
GB与SB之间所围成的区域就是版本空间。
原文链接:https://blog.csdn.net/m0_37688984/article/details/79461983
归纳偏好
- “归纳偏好”(inductive bias) ,机器学习在学习过程中对某种学习类型的偏好。学习算法都会有偏好,例如喜欢“尽可能特殊”,或者喜欢“尽可能一般”
图中A,B为两种不同算法偏好 - “奥卡姆剃刀”(Occam’s razor) 若多种假设存在,则选择最简单的那个,偏好A曲线
y
=
−
x
2
+
6
x
+
1
y=-x^2+6x+1
y=−x2+6x+1 更平滑
A曲线 ζ a \zeta a ζa算法习得,而B曲线 ζ b \zeta b ζb算法习得,在不同的问题上,两个的泛化性不同,A或B都可能是最优曲线。
假设样本空间 X \mathcal X X和假设空间 H H H都是离散的, P ( h ∣ ζ a , X ) P(h|\zeta a,\mathcal X) P(h∣ζa,X)代表算法 ζ a \zeta a ζa基于样本 X \mathcal X X产生假设 h h h的概率, f f f代表想学习的真实目标函数, ζ a \zeta a ζa的训练集之外所有样本的误差:
E o t e ( ζ a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) Π ( h ( x ) ≠ f ( x ) ) P ( h ∣ ζ a , X ) , E_{ote}(\zeta a|X,f) = \sum_{h}\sum_{x\in\mathcal X -X}P(x)\Pi(h(x)\ne f(x))P(h|\zeta a,\mathcal X), Eote(ζa∣X,f)=h∑x∈X−X∑P(x)Π(h(x)=f(x))P(h∣ζa,X),
其中 Π ( ⋅ ) \Pi(\cdot) Π(⋅)是指示函数,若 ⋅ \cdot ⋅真为1, ⋅ \cdot ⋅假为0
考虑二分类问题,真实函数可以是任意函数 X ↦ { 0 , 1 } \mathcal X\mapsto \{0,1\} X↦{0,1},函数空间为 { 0 , 1 } ∣ X ∣ \{0,1\}^{|\mathcal X|} {0,1}∣X∣,对所有可能的 f f f按照均匀分布求误差
∑ f E o t e ( ζ a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) Π ( h ( x ) ≠ f ( x ) ) P ( h ∣ ζ a , X ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) ∑ f Π ( h ( x ) ≠ f ( x ) ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) 1 2 2 ∣ X ∣ = 1 2 2 ∣ X ∣ ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ⋅ 1 \begin{aligned} \sum_{f}E_{ote}(\zeta a|X,f)& = \sum_{h}\sum_{x\in\mathcal X -X}P(x)\Pi(h(x)\ne f(x))P(h|\zeta a,\mathcal X)\\ &= \sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X)\sum_{f}\Pi(h(x)\ne f(x)) \\ &= \sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X)\frac{1}{2}2^{|\mathcal X|} \\ &= \frac{1}{2}2^{|\mathcal X|}\sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X) \\ &= 2^{|\mathcal X|-1}\sum_{x\in\mathcal X -X}P(x)\cdot1 \\ \end{aligned} f∑Eote(ζa∣X,f)=h∑x∈X−X∑P(x)Π(h(x)=f(x))P(h∣ζa,X)=x∈X−X∑P(x)h∑P(h∣ζa,X)f∑Π(h(x)=f(x))=x∈X−X∑P(x)h∑P(h∣ζa,X)212∣X∣=212∣X∣x∈X−X∑P(x)h∑P(h∣ζa,X)=2∣X∣−1x∈X−X∑P(x)⋅1
与算法无关
“没有免费的午餐”(NFL)
NFL的意义是脱离实际问题,所有算法都没有意义
我们根据自己需要解决的问题,选择与问题匹配偏好的算法
发展历程与应用现状
主要是大数据时代的到来,与各种硬件的发展,导致数据量增多和算力提升,让原本算法可以快速解决问题。同时深度学习的发展,也导致人工智能的进一步火热。
- 数据挖掘(data mining) 机器学习和统计学为数据挖掘提供数据分析技术
拓展:
全样本假设 ∏ i = 1 N ( t i + 1 ) + 1 \prod_{i=1}^N(t_i+1)+1 ∏i=1N(ti+1)+1。属性取值数量 t i t_i ti+1(1是泛化取值*) + 1(空集合 Φ \Phi Φ)。
表1.1中数据集的假设空间中包含 ( 2 + 1 ) × ( 3 + 1 ) × ( 3 + 1 ) + 1 = 49 (2+1)\times(3+1)\times(3+1)+1=49 (2+1)×(3+1)×(3+1)+1=49种假设。