《统计学习导论：基于R应用》2、3章知识点汇总

乱絮0357

已于 2023-12-18 21:10:48 修改

阅读量555

点赞数 5

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2023-09-16 15:05:26 首次发布

本文链接：https://blog.csdn.net/weixin_61417245/article/details/132918972

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

什么是统计学习

统计学习：是关于估计f的一系列方法，用来面向预测的统计模型建立，或者对一个或多个给定的输入估计某个输出
输入变量/预测变量/自变量/属性变量：X
输出变量/响应变量/因变量：Y
随机误差项：ε=Y-f(X)，E(ε)=0
预测值/拟合值Ŷ=ŷ=f̂(X)，其中f̂为f的预测，又叫做黑箱，只要能提供准确的Y，我们就无需知道f̂的确切形式
可约误差：当所选的f̂不是f的一个最佳估计时，模型估计的不准确性会引起的一些误差。模型假设产生的这类误差又叫做模型偏差
不可约误差：由于Y是一个关于ε的函数，即使得到f的精准估计，预测仍然存在一个不可测的变差，即ε
推断：研究X和Y的关系而不是去预测Y，即Y是怎样随着X的变化而变化的，故需要知道f的具体形式，f不能当作黑箱看待
观测点/训练数据：用来训练或引导的已观测到的样本点
参数方法：基于模型估计的方法把估计f简化到估计一组参数
非参数方法：不限定f 的具体形式，而是追求接近数据点的估计
指导学习：对于每一个预测变量观测值x都有响应的响应变量的观测y，通过建立X与Y的关系精准预测Y或理解X与Y的关系
无指导学习：只有预测变量x，没有对应的响应变量用于预测
定量变量：呈现数值性，如年龄、身高、收入
定性变量/分类变量：为k个类的其中一个值，如性别、品牌、是否违约。定量和定性变量在不同情景下可以相互转化
定性预测变量，又称为因子

评价模型精度

均方误差MSE(mean squared error):对预测的响应值和真实的响应值之间的接近程度的评价准则

公式和书上形式有一点不同，但结果都是预测的响应值和真实响应值的差

根据使用的数据集的不同，分为训练均方误差（用训练数据算出来的）和测试均方误差（用之前没有参与建模的新的观测点算出来的）

选择的模型应该力图使测试均方误差最小

自由度/光滑度/柔性：描述曲线光滑程度的量，限定性强且曲线平坦的模型比锯齿形有更小的自由度，一般来说，模型越复杂，光滑度越高
数据被过拟合：模型训练均方误差较小，但测试均方误差很大，暗示了降低模型的光滑度，可以减小测试均方误差
方差-偏差权衡：如果一个模型被称为测试性能好，那么要求模型有较小的方差和偏差。方差代表用一个不同的训练数据集估计f时，估计函数的改变量，如果一个模型有较大的方差，则训练数据集的微小改变则会导致f̂的较大改变，光滑度越高，方差也越高；偏差是为了选择一个简单的模型逼近真实函数而被带入的误差，光滑度越高，偏差越小
训练错误率：衡量估计f̂精度的方法，对训练数据使用估计模型f̂所造成的误差比例

I称为示性变量

回归分析问题：响应变量为定量的问题
分类问题：具有定性的响应变量
贝叶斯分类器：将每个观测值分配到它最大可能所在的类别中，将这个类作为他的预测值，通过给定X后Y的条件分布来分类
贝叶斯决策边界：这条线把数据集分成了不同类
K最近邻分类器：通过与之最近的K个邻居来确定类别

K增加，光滑性减弱，更接近线性

1/K增加，方法的柔性增强

简单线性回归

Y对X的回归：Y≈β0+β1x，通过计算ŷ=β0^+β1x来预测因变量，其中β0、β1称为模型的系数/参数
残差平方和RSS（residual sum of squares）最小化：测量模型与观测点接近程度的准则

进而通过最小二乘选择β0 β1来使RSS达到最小

标准偏差/标准差SD（standard deviation）：描述样本点的离散程度总体和样本都可以计算标准差
标准误差SE（standard error）：原本描述样本统计量对总体的偏离程度，即样本对于总体的准确度。在这里则是反映了估计值偏离实际值的平均量，例如，估计均值μ^的标准误差

（其中σ是估计值yi的标准差）

标准误差用于计算置信区间

标准误差用于假设检验

残差标准误RSE(residual standard error)：对σ2的估计（σ2是εi的方差，E(RSE)=σ2），是响应值偏离真正的回归线的平均量，用来量化模型拟合数据的程度

t统计量：测量了β1^偏离0的标准偏差

R2统计量：是数据中可被解释方差的比例，值在0到1之间

R2统计量接近于1说明回归可以解释响应变量大部分变异

接近0说明回归没有解释太多响应变量的变异，可能原因有：

模型错误
固有误差项σ2较大

多元线性回归

Y对X的回归：，其中自由度为p（有p个参数）
流程：确定是否存在多元线性关系->选定重要变量->模型拟合->预测
F统计量：用于假设检验，确定Y和X之间是否有关系
1. ，其中RSS/(n-p-1)为多元线性模型中的残差标准误RSE
3. 若F统计量接近1，则Y与X无关；若F统计量远大于1，则说明至少有一个X与Y有关
因子：定性预测变量
哑变量：一种用来表示分类变量的方法，比如某个因子只有两个水平/取值，则这个二值变量可以被量化为1和0
可加性假设：预测变量Xj的变化对响应变量Y产生的影响与其他预测变量取值无关
线性假设：无论Xj取何值，X变化一个单位引起的响应变量Y的变化恒定
协同效应/交互作用：多个因素能协同影响，去除了可加性假设在模型上表示为含有X1*X2这个交互项
实验分层原则：如果模型中含有交互项X1X2，即使X1、X2的p值很大（效应不显著），也应该包含在模型中
多项式回归：加入了预测变量的多项式函数，含有平方项、立方项等多次项变量，不仅仅是一次项
残差图：残差ei与预测变量xi（简单线性）或者与拟合值ŷ（多元线性）的散点图。

若存在明显规律，则表示线性模型的某些方面可能有问题

若残差图呈现漏斗形，则可能存在异方差性，解决方案是用凹函数对y做变换，如logY、√Y

若残差图出现离群点（响应值yi远离模型预测值的点），很可能是数据记录错误，确定离群点的方法是是绘制学生化残差（t分布那玩意），由残差除以它的估计标准误，若绝对值>3，则说明可能有离群点
若残差图出现高杠杆点（观测点xi远离别的大部分x的异常点），则该点往往会对回归直线的估计由很大的影响，所以找出高杠杆点很重要

误差项自相关：如果误差项之间有相关性，那么95%置信区间内包含真实参数的概率会更低，p值也更低。这种相关性往往出现在时间序列数据，即在相邻的时间点观测到的数据
共线性：两个或更多的预测变量高度相关
假设检验的效力power：正确检测非零系数的概率,共线性会导致效力下降
方差膨胀因子VIF：一般来说VIF>5则有共线性问题
2. 解决方案：
  1. 剔除问题变量
  2. 共线变量组合成单一变量
线性回归：将f(x)假设为线性函数，所需估计系数少，易拟合，易检验，但存在假设过强与实际相差太远的风险
K最近邻回归：给定K值和预测点x0，首先确定K个最接近x0的训练观测，记为。然后用中所有训练数据的平均值来估计f(x0)
线性回归与K最近邻法的比较：
1. 线性回归属于参数方法，KNN回归属于非参数方法
2. 若真正关系为线性，则选择参数方法
3. 若真正关系为非线性，KNN可能优于线性回归，但预测效果会随位数增加而恶化
对待回归问题的一般思路：