分类
1.分类任务:以特征向量X为输入,建立函数C(X)预测一个定性的响应变量Y的取值。(通俗理解,即在求解X属于C中的哪一类的概率更大)
2.线性回归的分类问题上的局限性:对于二元响应变量,通过哑变量的形式建立回归模型度量分类概率,对于二水平以上的定性相应变量,哑变量的方式失效
3.逻辑斯蒂回归(logistic regression):
(1).建立关系p(X)=Pr(Y=1|X):在X情况下Y=1的概率
(2).逻辑斯蒂回归函数:
(3).极大似然估计:找到 使得似然函数最大
(4).意义:确保估计的概率p(X)在0-1之间
4.发生比:取值范围为0到正无穷:
5.对数发生比/分对数:将上式取对数,则可将逻辑斯蒂回归模型看作分对数变换下的线性模型:
6.线性判别分析LDA(linear discriminant analysis):
- 什么时候需要用到?
- 类别的区分度高时
- 样本量n比较小,且X近似正态分布时
- 分类数大于2时
- 贝叶斯定理的表述:其中pi_k是观测属于第k类的先验概率,fk(x)是第k类观测的密度函数,即为x这个观测属于第k类的后验概率;
- 后验概率便是分类标准,即分到后验概率最大的那一类,而最大的后验概率可用下面判别函数得到:
- 当p=1时(预测变量数为1),在实际操作中,则用下面一组估计值来进行分析:
- 决策边界的确定:每一类的都相等时对应的的均值即为决策边界
7.二次判别分析QDA(quadradic discriminant analy):判别函数是关于x的二次函数
8.分类方法的比较:
逻辑斯蒂回归 | LDA | QDA | KNN | |
得到估计系数的方式 | 极大似然估计 | 样本估计得到正态分布的均值和方差 | 无估计系数 | |
联系 | 二者都可以将决策边界表示为β0+β1x的线性函数形式,得到的结果接近 | 是另外三者的折中办法 | 是彻底的非参数方法 | |
假设前提 | 类别之间有一定的线性关系 | 假设每类观测的协方差矩阵服从相同的高斯分布 | 假设每类观测的协方差矩阵服从不一定相同的高斯分布 | 对决策边界无任何假设 |
重抽样方法
1.交叉验证:
(a).验证集方法:
步骤:将可用样本集随机分成两部分:训练集和验证集(一般是等分)
缺点:1.受训练集所包含的观测影响,测试错误率波动大
2.只有训练集中的观测被用来拟合数据,导致验证集错误率可能会高估在 整个数据集上的测试误差
(b).K-折交叉验证(广泛使用):
步骤:将n条数据随机分成K组,每次依次做测试集,其余组做训练集,得出每次的MSE求平均作为最终的MSE
特例:LOOCV(留一法):K=n,即一个样本为一组,偏差小,方差高,成本高
常规选择:K=5或10
2.自助法:
步骤:通过对原始数据集有放回的重复抽样来获得数据量相同的不同数据集,将这个过程重复B次,当B足够大时,就能得到较为理想的标准误差估计
缺点:有严重低估真实预测误差的风险,因为每个bootstrap样本都与原始数据有显著重叠(相较于K折方法,训练集与测试集的完全不重叠才是其成功的关键)
适用情况:几乎可以适用于任何情况,但在以下情况中效果更好:
- 样本数据有限:当样本数据较少,不足以充分反映总体特征时,可以使用自助法来通过从原样本中重采样的方式进行分析
- 自助法常用于非参数统计方法中。非参数统计方法不依赖于总体分布的具体形式,而是通过样本数据的排序、秩次、排列等来进行推断。自助法可以通过生成多个自助样本,对非参数统计方法进行模拟和评估
线性模型选择与正则化
- 预测准确率:
- 最小二乘的偏差较低--x与y接近线性
- 最小二乘的方差较低--观测个数n>>预测变量数p,否则可能会出现过拟合
- 特征选择/变量选择--减小p:通过将一些无关变量的系数设置为0的方式移除这些变量,实现对无关变量的筛选,使得模型更有解释力
- 选择最优模型的方法:(d为预测变量数)
- Cp: 是测试均方误差的无偏估计,选择具有最低Cp的模型,
- AIC:赤池信息量准则,L为模型似然函数最大值, ; 若误差项服从高斯分布,则
- BIC:贝叶斯信息准则,选择具有最低BIC的模型
- ajusted R2:调整R2,与相比R2相比,调整R2对纳入不必要的变量进行了惩罚
- 验证与交叉验证
- 子集选择:
- 最优子集选择:对p个预测变量的所有可能的组合使用最小二乘法回归进行拟合
- 搜索空间:2p个
- 如果是逻辑斯蒂回归模型,则在2.(b)中通过选择偏差最小的作为最优模型
- 特点:
- 简单直观,但计算效率低
- 只适合p为个位数的情况
- 随着搜索空间增大,在测试集上的预测能力不好,同时会有过拟合、系数估计方差高等风险
- 向前逐步选择:---------------------------------------------------------
- 搜索空间:1+p(p+1)/2
- 特点:
- 效率优于最佳子集,但由于每轮搜索都是建立在前一步的基础上,所以无法保证找到的是所有2p个模型中最优的
- 是n<p时可用的唯一方法
- 向后逐步选择:---------------------------------------------------------
- 搜索空间:1+p(p+1)/2
- 特点:
- 效率优于最佳子集,但由于每轮搜索都是建立在前一步的基础上,所以无法保证找到的是所有2p个模型中最优的
- 需要满足n>p,保证全模型可以被拟合
- 最优子集选择:对p个预测变量的所有可能的组合使用最小二乘法回归进行拟合
- 压缩估计:将系数估计值往0的方向压缩
- 方法一 岭回归:在简单线性回归的基础上,在最小化函数中添加L2正则项
- 标准化:将预测变量转化为标准差为1的变量,避免尺度变化的影响
- 估计值通过最小化下列式子来得到------------------------------------
- 特点:
- 不会把任何一个变量压缩为0,最终的结果包含全部的p个变量,p太大解释能力低
- 当预测变量很多且系数大致相等时,岭回归效果更好
- 方法二 lasso:在简单线性回归的基础上,在最小化函数中添加L1正则项
- 估计值通过最小化下列式子来得到------------------------------------
- 特点:
- 可以把某些变量压缩成0,得到的稀疏模型只包含所有变量的一个子集
- 当最小二乘估计的方差较大时,lasso效果更好
- 当只有一小部分种类的x是真实有效的时,lasso效果更好
- 确定哪种方法 交叉验证:
- 由于与响应变量相关的变量个数无法先验知道,所以用交叉验证等技术来确定哪种方法对该数据集效果更好
- 调节 参数λ 或者 限制条件s
- 方法一 岭回归:在简单线性回归的基础上,在最小化函数中添加L2正则项
- 降维方法:改变估计系数的个数
- 主成分回归PCR:无指导学习,通过主成分分析(PCA)用投影的方法将高维空间压缩到低维
- PCA的方法:解决预测变量之间相关性过强的问题
- 第一主成分线:所有点到该点的垂直距离平方和最小
- 弊端:无法保证很好解释预测变量的方向能够很好地预测响应变量,即无法保证x和y之间的相关性
- 偏最小二乘PLS:有指导学习,在PCA的基础上通过有指导的方法进行特征提取
- 主成分回归PCR:无指导学习,通过主成分分析(PCA)用投影的方法将高维空间压缩到低维