一、统计学习的定义与分类
1.概念
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
2.监督学习的实现步骤
1.得到一个有限的训练数据集合
2.确定学习模型的集合(模型)
3.确定模型选择的准则(策略)
4.实现求解最优模型的算法(算法)
5.通过学习方法选择最优模型
6.利用学习的最优模型对新的数据进行预测或分析
监督学习(Supervised Learning):
指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
监督学习的一些相关概念:
输入空间(Input Space):输入的所有可能取值的集合
实例(Instance):每一个具体的输入,通常由特征向量(Feature Vector)表示
特征空间(Feature Space):所有特征向量存在的空间
输出空间(Output Space):输出的所有可能取值的集合
根据变量类型不同:
输入变量与输出变量均为连续变量的预测问题——回归问题
输出变量为有限个离散变量的预测问题——分类问题
输入变量与输出变量均为变量序列的预测问题——标注问题
符号表示
输入变量:X; 输入变量的取值:x
输出变量:Y; 输出变量的取值:y
输入实例x的特征向量:
以表示多个输入变量中的第i个变量:
样本容量为N的训练集:
监督学习的基本假设:X与Y具有联合概率分布P(X,Y)
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示
模型的形式:条件概率分布: P(Y|X)或决策函数: Y=f(X)
假设空间(Hypothesis Space):所有这些可能模型的集合。对具体的输入进行相应的输出预测是,表达为P(Y|X)或y=f(x)
无监督学习(Unsupervised Learning):
指从无标注数据中学习预测模型的机器学习问题,其本质是学习数据中的统计规律或潜在结构。
无监督学习的一些相关概念:
输入空间:X
隐式结构空间:Z
模型:函数z=g(x),条件概率分布 P(z|x)或条件概率分布:P(x|z)
假设空间(Hypothesis Space):所有这些可能模型的集合。
目的:选出在给定评价标准下的最优模型。
样本容量为N的训练集:
模型:
1.决策函数: Y=f(X) ; 预测形式: y=f(x);
2.条件概率分布: P(Y|X); 预测形式: argmaxP(y|x)
二、统计学习三要素
模型(假设空间):
所有可能的条件概率分布或决策函数,用F表示
决策函数
条件概率分布
策略:
0-1损失函数:
平方损失函数:
绝对损失函数:
对数损失函数:
经验风险最小化:
结构风险最小化:
(正则项是减少模型的复杂度,防止过拟合)
算法:
挑选一个合适的算法,使得可以求解最优模型
训练误差:
测试误差:
多项式拟合问题
三、正则化
实现结构风险最小化策略
- 一般形式:
- 经验风险:
- 正则化项:, 其中权衡经验风险和模型复杂度。
其中正则化项有多种形式
- 范数: 其中, (特征筛选)
- 范数: 其中,, (防止过拟合)
简单交叉验证:随机将数据分为两部分,即训练集和测试集
S折交叉验证:随机将数据分为S个互不相交、大小相同的子集,其中以S-1个子集作为训练集,余下的子集作为测试集。
留一交叉验证:S折交叉验证的特殊情形,S=N。(数据非常缺乏才运用)
四、泛化能力
对于未知数据的适应能力
1.泛化误差
若所学习到的模型是,那么对这个模型对未知数据预测的误差即为泛化误差(Generalization Error):
2.泛化误差上界
指泛化误差的概率上界。两种学习方法的优劣,通常通过他们的泛化误差上界(Generalization Error Bound)进行比较。
性质:
- 样本容量的函数:当样本容量增加时,泛化上界趋于0。
- 假设空间容量的函数:假设空间容量越大,模型就越难学,泛化误差上界就越大。
对于二分类问题:
训练数据集:其中,T是从联合概率分布独立同分布产生的,。
其中,
假设,损失函数位0-1损失
- 期望风险:
- 经验风险:
- 经验风险最小化:
- 的泛化能力:
当假设空间是有限个函数的集合时,对任意一个函数,至少以概率,以下不等式成立:
Hoeffding 不等式:
设是独立随机变量,且,是的经验均值,,则对任意,以下等式成立:
五、生成模型与判别模型
生成模型(Generative Model):
有数据学习联合分布概率,然后求出作为预测模型: (输入和输出变量要求随机变量)
典型的生成模型:朴素贝叶斯法,隐马尔可夫模型
判别模型(Discriminative Model):
由数据直接学习决策函数或者条件概率分布作为预测模型。(不需要输入和输出变量均为随机变量)
典型的判别模型:k近邻法、感知机、决策树等
生成模型 | 判别模型 |
所需数据量较大 | 所需样本的数量少于生成模型 |
可还原联合概率分布 | 可直接面对预测,准确率更高 |
收敛速度更快 | 可简化学习问题 |
能反映同类数据本身的相似度 | 不可以反映数据本身的特性 |
隐变量存在时,仍可用生成模型 |
六、分类问题
评价指标:
分类准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比
二分类问题:
TP--将正类预测为正类数
FN--将正类预测为负类数
FP--将负类预测为正类数
TN--将负类预测为负类数
精确率:预测为正类的样本中有多少被分对了
召回率:在实际正类中,有多少正类被模型发现了
调和值:,
方法: | 应用: |
感知机 | 银行业务 |
k近邻法 | 网络安全 |
朴素贝叶斯 | 图像处理 |
决策树 | 手写识别 |
Logistic回归 | 互联网搜索 |
七、标注问题
- 训练集:
输入观察序列:
输出标记序列:
- 学习的模型:
- 预测
新的输入观察序列:
预测的输出标记序列:
方法: | 应用: |
隐马尔可夫模型 | 信息提取 |
条件随机场 | 自然语言处理 |
八、回归问题
类型:按输入变量个数:一元回归、多元回归
按输入和输出变量之间关系:线性回归、非线性回归
损失函数:平方损失
应用:商务领域