处理回归问题常见的算法

7.处理回归问题常见的算法:

  1. 回归属于有监督学习的一种,其从连续的统计数据中的到数学模型,然后使用生成的模型用于预测和分类。
  2. 线性回归:给定数据集,其中线性回归模型通过对数据集的学习生成一个线性模型,以预测实际输出的标记。
  • 模型推导:
  1. 线性回归,根据大数定律和中心极限定律假定样本无穷大的时候,其真实值和预测值的误差ε 的累加和服从u=0,方差=δ²的高斯分布且独立同分布,然后把ε=y-Øx 代入公式,就可以化简得到线性回归的损失函数

3.普通最小二乘回归(OSL回归):

  • 本质:主要用于线性回归的参数估计。求使得实际值和模型估值之差的平方和达到最小的值,将其作为参数估计值。通过最小化误差的平方和寻找数据的最佳函数匹配。寻找线性模型中的(w,b)。
  • 基本原则:最优拟合曲线应该使各点到直线的距离的平方和(即残差平方和,简称RSS)最小。
  • 使用OSL数据需要满足条件:
  1. 正态性:对于固定的自变量值,因变量值成正太分布
  2. 独立性:个体之间相互独立
  3. 线性相关:因变量和自变量之间为线性相关
  4. 同方差性:因变量的方差不随自变量的水平不同而变化,即因变量的方差是不 变的
  • OSL估计过程:残差平方和最小。

 

4.逐步回归:逐步回归主要解决的是多变量共线性问题。即不是线性无关的关系,它是基于变量解释性来进行特征提取的一种回归方法。

  • 基本思想:逐个引入自变量,每次引入对y影响最显著的自变量(F检验),并对方程中的老变量逐个进行检验(t检验),把变得不显著的变量逐个从方程中剔除,最终的回归方程中既不漏掉对y影响显著的变量,又不包含对y影响不显著的变量。
  • 三种逐步回归方法:
  1. Forward selection:事先给定挑选自变量进入方程的显著性水平,按自变量对因变量y的贡献由大到小依次挑选自变量进入方程,直到方程外没有显著的自变量可引入为止。

        该方法的特点是:自变量一旦被选入,就永远保留在模型中。

        2. Backward elimination:事先给定从方程中剔除自变量的显著性水平,开始全部自变量都在模型中,然后按自变量对y的贡献由小到大依次剔除,直至方程中没有不显著的变量可剔除为止。

        该方法的特点是:自变量一旦被剔除,就不再进入模型,

        3.Bidirectional elimination(逐步筛选法): 该方法在前进法的基础上,引进后退法的思想。即对每一个自变量随着其对回归方程贡献的变化,随时地引入或剔除模型,使得最终回归方程中的变量对y的影响都是显著的,而回归方程外的变量对y的影响都是不显著的,该方法即通常所说的逐步回归法。

具体计算参考:https://wenku.baidu.com/view/0cd259ae69dc5022aaea0043.html

  1. 5.多元自适应回归以样条函数的张量积作为基函数,分为前向过程、后向剪枝过程与模型选取三个步骤。研究过程中对采集的原始数据进行了消除负差、剔除异常数据、数据标准化等预处理工作,选取精华样本,分别建立了线性模型、非线性模型、神经网络模型等,并与MARS方法做比较。
  2. 前向过程:通过自适应的选取节点对数据进行分割,每选取一个节点就生成两个新的基函数,前向过程结束后生成一个过拟合的模型。
  3. 后向剪枝:在保证模型准确度的前提下,删除过拟合模型中对模型贡献度小的基函数,最后选取一个最优的模型作为回归模型。
  4. 模型选取:选取线性模型、非线性模型、神经网络模型等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值