统计学习
一、统计学习概述
1.5 泛化能力
概念理解
泛化误差(Generalizaztion Error)
训练的模型对未知数据预测的误差即为泛化误差
泛化误差上界
泛化误差上界指泛化误差概率的上界。
通常通过比较泛化误差上界的大小来比较两种学习方法的优劣。
性质:
- 当样本容量增加时,泛化误差的上界趋于0
- 假设空间(所有可能的模型组成的空间)容量越大,模型就越难学,泛化误差上界就越大
定理
式中:d代表假设空间中函数的个数,N代表训练集中样本的个数。
- 如上式所示,如果N趋于∞大,则该ε的值趋于0。同时训练误差R_hat(f)是训练集损失函数和的平均值,N趋于∞,样本量足够大,则训练误差也会趋于0。则泛化误差上界也会趋于0。
- 当假设空间越来越复杂时,即d越来越大,ε就会变大。所以随着d的增加,泛化误差上界也会增大。
例子
对于二分类问题,数据集和假设空间如下:
1.6 生成模型与判别模型
生成模型
隐马尔可夫模型就是时间序列的概率模型。
注:生成模型输入和输出变量要求为随机变量
常见的生成模型有:朴素贝叶斯法、隐马尔可夫模型等。
判别模型
注:判别模型不需要输入和输出变量均为随机变量
常见的判别模型:k近邻法、感知机、决策树等。
对比
生成模型和判别模型的对比:
- 生成模型需要从大量的数据中寻找规律,学习数据是如何生成的,之后再对数据进行分类。而判别模型侧重于通过差别分类即可(如小狗和大象的鼻子长度不同),有针对性。