第一章 - 引言
没什么复杂的,主要是了解下概念。
1.1 主要用来干啥?
1.分类:为每个事项指定类别;
2.回归:预测每个事项的实值
3.排序:根据某种准则将事项进行排序;
4.聚类:将事项划分为同质区域
了解一下就好,具体的任务,可以用到啥任务去搜。
1.2 定义与术语
样本:Items or data
特征:属性的集合,通常用向量的形式表示;
标签:分配给样本的数值或类别;
训练样本:标签+样本;
验证样本:标签+样本->选择参数;
测试样本:用来评估算法性能;
损失函数:衡量 预测标签 与 真实标签 之间的差异和损失的函数。Y:所有标签集合,Y’:可能的预测集合,损失函数映射L:Y x Y’ ->
R
+
\R_+
R+. 常见损失函数有0-1损失和平方损失。
0-1损失函数 { − 1 , + 1 } × { − 1 , + 1 } \{-1,+1\}\times\{-1,+1\} {−1,+1}×{−1,+1}上的函数: L ( y , y ′ ) = 1 y ′ ≠ y L(y,y')=1_{y'\neq y} L(y,y′)=1y′=y
I × I I\times I I×I上的函数: L ( y , y ′ ) = ( y − y ′ ) 2 L(y,y')=(y-y')^2 L(y,y′)=(y−y′)2
假设集:将特征映射到标签集合Y的函数集合。
通过垃圾邮件的学习过程,我们来定义一个简单的深度学习模型过程:
1.给定带标签的样本集合;
2.将数据随机划分为训练样本、验证样本和测试样本;
注意:样本量的大小决定因素:算法自由参数个数、通常训练数据>测试数据;
3.根据先验知识为每个样本关联有用的特征,设计算法,(至关重要);
4.训练过程为算法自由参数固定不同的取值,算法可以从假设集合中得到不同假设;
5.选择最有假设;
6.利用该假设预测测试样本的样例标签,损失函数测试性能。
注意:损失函数是任务相关的
%%%%算法的一致性%%%%
····· 算法可以是一致的,即对训练数据可以完全无误的划分,但这种算法在测试数据集上可能性能很差。(泛化性)
如下图:
1)左侧采用了复杂的决策平面(可以理解为那条折线),算法在训练样本上是一致的,但预测可能很差;
2)右侧不一致,但是泛化性好,我们想要的是这种。
1.3交叉验证
原因:可用的带标签的样本数量很少,导致无法留出验证样本。
方法:n-折交叉验证
过程:
θ
\theta
θ表示自由参数向量。
- 将m个带标签样本的集合S,随机分为n组,或称n折;
- 其中,第i折是样本规模为 m i m_i mi的带标签数据;
- 对于某一折 i ∈ [ 1 , n ] i\in[1,n] i∈[1,n],学习算法在除了第i折之外的其他数据上进行训练,并生成假设 h i h_i hi, h i h_i hi在第i折上进行性能测试。
- 基于假设 h i h_i hi的平均误差,称为交叉验证误差;
- 而对参数值
θ
\theta
θ的评估,采用,
R
C
V
(
θ
)
R_{CV}(\theta)
RCV(θ)表示,定义为:
R C V ( θ ) = 1 n ∑ i = 1 n 1 m i ∑ j = 1 m i L ( h i ( x i j ) , y i ) R_{CV}(\theta)=\frac{1}{n} \sum_{i=1} ^n \frac{1}{m_i} \sum_{j=1} ^{m_i}L(h_i(x_{ij}),y_i) RCV(θ)=n1i=1∑nmi1j=1∑miL(hi(xij),yi) - 通常,每折大小相同,而n通常选择5或10。
1.4 学习情境
·监督学习:学习器获取标签样本作为训练数据,并对未见数据进行预测;分类、回归、排序问题是相关联的最常见情景;
·无监督学习:学习器获取无标签样本训练数据,并对未见数据进行预测;聚类和维数约简是无监督学习问题的实例;
·半监督学习:学习器获取训练样本由无标签和标签数据组成,并对未见数据预测;
·直推学习:学习器获取训练样本由无标签和标签数据组成,并对特定测试数据预测;
·在线学习:在线学习需要多轮,每轮训练和测试混在一起的,在每一轮中,学习器获得一个无标签训练数据,对其做出预测之后,获得真实标签,并产生损失。
·强化学习:在强化学习中,训练和测试仍混在一起,为了收集信息,学习器主动地与环境交互,在一些情况下影响环境,并获得每个行动的即时奖赏。
······学习器的目标:是经过一系列的行动以及与环境的交互来最大化获得的奖赏。
······注意:学习器不提供长期的奖赏反馈,也就是说,学习器在每一次反馈时,要在继续探索未知行动以获得更多信息与利用已知信息进行选择,因此,学习器面临一个探索 or 利用的难题。
·主动学习:学习器自适应地或者交互地收集训练样本,通常以询问专家的方式请求新样本的标签。
······主动学习的目标:利用更少的带标签样本达到与标准监督学习可比较的性能;
······应用场景:标签获取成本高的实际应用中。
1.5 本书概况
·机器学习这本书主要包括以下内容:
1.概率近似正确(PAC,Probably Approximately Correct)学习框架、有限假设集的学习保证;
2.无限假设集的学习保证、Rademacher复杂度、VC-维;
3. ······
随课程更新记录······