《统计学习导论:基于R应用》2、3章知识点汇总

什么是统计学习

  1. 统计学习:是关于估计f的一系列方法,用来面向预测的统计模型建立,或者对一个或多个给定的输入估计某个输出
  2. 输入变量/预测变量/自变量/属性变量:X
  3. 输出变量/响应变量/因变量:Y
  4. 随机误差项:ε=Y-f(X),E(ε)=0
  5. 预测值/拟合值Ŷ=ŷ=f̂(X),其中f̂为f的预测,又叫做黑箱,只要能提供准确的Y,我们就无需知道f̂的确切形式
  6. 可约误差:当所选的f̂不是f的一个最佳估计时,模型估计的不准确性会引起的一些误差。模型假设产生的这类误差又叫做模型偏差
  7. 不可约误差:由于Y是一个关于ε的函数,即使得到f的精准估计,预测仍然存在一个不可测的变差,即ε
  8. 推断:研究X和Y的关系而不是去预测Y,即Y是怎样随着X的变化而变化的,故需要知道f的具体形式,f不能当作黑箱看待
  9. 观测点/训练数据:用来训练或引导的已观测到的样本点
  10. 参数方法:基于模型估计的方法把估计f简化到估计一组参数
  11. 非参数方法:不限定f 的具体形式,而是追求接近数据点的估计
  12. 指导学习:对于每一个预测变量观测值x都有响应的响应变量的观测y,通过建立X与Y的关系精准预测Y或理解X与Y的关系
  13. 无指导学习:只有预测变量x,没有对应的响应变量用于预测
  14. 定量变量:呈现数值性,如年龄、身高、收入
  15. 定性变量/分类变量:为k个类的其中一个值,如性别、品牌、是否违约。定量和定性变量在不同情景下可以相互转化
  16. 定性预测变量,又称为因子

评价模型精度

  1. 均方误差MSE(mean squared error):对预测的响应值和真实的响应值之间的接近程度的评价准则

公式和书上形式有一点不同,但结果都是预测的响应值和真实响应值的差

根据使用的数据集的不同,分为训练均方误差(用训练数据算出来的)和测试均方误差(用之前没有参与建模的新的观测点算出来的)

选择的模型应该力图使测试均方误差最小

  1. 自由度/光滑度/柔性:描述曲线光滑程度的量,限定性强且曲线平坦的模型比锯齿形有更小的自由度,一般来说,模型越复杂,光滑度越高
  2. 数据被过拟合:模型训练均方误差较小,但测试均方误差很大,暗示了降低模型的光滑度,可以减小测试均方误差
  3. 方差-偏差权衡:如果一个模型被称为测试性能好,那么要求模型有较小的方差和偏差。方差代表用一个不同的训练数据集估计f时,估计函数的改变量,如果一个模型有较大的方差,则训练数据集的微小改变则会导致f̂的较大改变,光滑度越高,方差也越高偏差是为了选择一个简单的模型逼近真实函数而被带入的误差,光滑度越高,偏差越小
  4. 训练错误率:衡量估计f̂精度的方法,对训练数据使用估计模型f̂所造成的误差比例

 

I称为示性变量

  1. 回归分析问题:响应变量为定量的问题
  2. 分类问题:具有定性的响应变量
  3. 贝叶斯分类器:将每个观测值分配到它最大可能所在的类别中,将这个类作为他的预测值,通过给定X后Y的条件分布来分类
  4. 贝叶斯决策边界:这条线把数据集分成了不同类
  5. K最近邻分类器:通过与之最近的K个邻居来确定类别

K增加,光滑性减弱,更接近线性

1/K增加,方法的柔性增强

简单线性回归

  1. YX的回归Yβ0+β1x,通过计算ŷ=β0^+β1x来预测因变量,其中β0、β1称为模型的系数/参数
  2. 残差平方和RSS(residual sum of squares)最小化:测量模型与观测点接近程度的准则

进而通过最小二乘选择β0  β1来使RSS达到最小

  1. 标准偏差/标准差SD(standard deviation):描述样本点的离散程度总体和样本都可以计算标准差
  2. 标准误差SE(standard error):原本描述样本统计量对总体的偏离程度,即样本对于总体的准确度。在这里则是反映了估计值偏离实际值的平均量,例如,估计均值μ^的标准误差

(其中σ是估计值yi的标准差)

标准误差用于计算置信区间

          

标准误差用于假设检验

  1. 残差标准误RSE(residual standard error)σ2的估计(σ2εi的方差,E(RSE)=σ2是响应值偏离真正的回归线的平均量,用来量化模型拟合数据的程度

  1. t统计量:测量了β1^偏离0的标准偏差

  1. R2统计量:是数据中可被解释方差的比例,值在0到1之间

R2统计量接近于1说明回归可以解释响应变量大部分变异

接近0说明回归没有解释太多响应变量的变异,可能原因有:

  1. 模型错误
  2. 固有误差项σ2较大

多元线性回归

  1. Y对X的回归,其中自由度为p(有p个参数)
  2. 流程:确定是否存在多元线性关系->选定重要变量->模型拟合->预测
  3. F统计量:用于假设检验,确定Y和X之间是否有关系
    1. ,其中RSS/(n-p-1)为多元线性模型中的残差标准误RSE
    2. F统计量接近1,则Y与X无关若F统计量远大于1,则说明至少有一个X与Y有关
  4. 因子:定性预测变量
  5. 哑变量:一种用来表示分类变量的方法,比如某个因子只有两个水平/取值,则这个二值变量可以被量化为1和0
  6. 可加假设:预测变量Xj的变化对响应变量Y产生的影响与其他预测变量取值无关
  7. 线性假设:无论Xj取何值,X变化一个单位引起的响应变量Y的变化恒定
  8. 协同效应/交互作用:多个因素能协同影响,去除了可加性假设在模型上表示为含有X1*X2这个交互项
  9. 实验分层原则:如果模型中含有交互项X1X2,即使X1、X2的p值很大(效应不显著),也应该包含在模型中
  10. 多项式回归:加入了预测变量的多项式函数,含有平方项、立方项等多次项变量,不仅仅是一次项
  11. 残差图:残差ei与预测变量xi(简单线性)或者与拟合值ŷ(多元线性)的散点图。
  • 若存在明显规律,则表示线性模型的某些方面可能有问题
  • 若残差图呈现漏斗形,则可能存在异方差性,解决方案是用凹函数对y做变换,如logY、√Y
  • 残差图出现离群点(响应值yi远离模型预测值的点),很可能是数据记录错误,确定离群点的方法是是绘制学生化残差(t分布那玩意),由残差除以它的估计标准误,若绝对值>3,则说明可能有离群点
  • 若残差图出现高杠杆点(观测点xi远离别的大部分x的异常点),则该点往往会对回归直线的估计由很大的影响,所以找出高杠杆点很重要
  1. 误差项自相关:如果误差项之间有相关性,那么95%置信区间内包含真实参数的概率会更低,p值也更低。这种相关性往往出现在时间序列数据,即在相邻的时间点观测到的数据
  2. 共线性:两个或更多的预测变量高度相关
  3. 假设检验的效力power:正确检测非零系数的概率,共线性会导致效力下降
  4. 方差膨胀因子VIF:一般来说VIF>5则有共线性问题
    1. 解决方案:
      1. 剔除问题变量
      2. 共线变量组合成单一变量
  5. 线性回归:将f(x)假设为线性函数,所需估计系数少,易拟合,易检验,但存在假设过强与实际相差太远的风险
  6. K最近邻回归:给定K值和预测点x0,首先确定K个最接近x0的训练观测,记为。然后用中所有训练数据的平均值来估计f(x0)
  7. 线性回归与K最近邻法的比较
    1. 线性回归属于参数方法,KNN回归属于非参数方法
    2. 若真正关系为线性,则选择参数方法
    3. 若真正关系为非线性,KNN可能优于线性回归,但预测效果会随位数增加而恶化
  8. 对待回归问题的一般思路

(1).确定研究对象,设研究对象为A、B、C.......

(2).A与B是否有关?(方法:设置零假设,分析F统计量及其p值)

(3).A与B之间的关系有多强? (方法:1.分析RSE  2.分析R²)

(4).是B对A的影响强还是C对A的影响强? 

    (方法:1.检查每个统计量的p值  2.检查组合项(B×C)的p值)

(5).如何精确估计B、C等统计量的影响?(方法:求置信区间)

(6).A与B之间的关系是否线性? (方法:分析残差图)

(7).B、C之间是否存在协同效应? (方法:加入交互项看p值与R²的变化程度)

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值