【回归算法】回归分析

1.1什么是回归问题?

  • 线性:两个变量之间的关系是一次函数关系(直线)
  • 非线性:两个变量之间的关系不是一次函数关系
  • 回归:根据两个或者多个数据之间的关系,找到他们之间的一条线,我们把这条线叫做这些变量之间的回归线,通过这条回归线,我们便可以预测出已知变量对应的未知数值.

1.2回归分析解决什么样的问题?

寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就是对结果进行预测。解决的就是通过已知的数据得到未知的结果。例如:对房价的预测、判断信用评价、电影票房预估等。

1.3表达式推演

1.3.1梯度下降法

主要思想:通过选择未知参数,使得预测值和真实值之间的误差尽可能的最小.

这里的yi=w*x+b,因此也可以写成这样:

矩阵形式:

我们的线性回归还可以使用最小二乘法,线性回归时一种特殊的情况,因此有专门的公式

1.3.2数学基础

  • 满秩矩阵:分为行满秩和列满秩,行满秩就是行向量之间线性无关,列满秩就是列向量之间线性无关,如果该矩阵既是行满秩又是列满秩那就称为方阵.
  • 奇异矩阵:矩阵必须是方阵并且不是满秩矩阵.非奇异矩阵是可逆矩阵的充要条件(非奇异矩阵就是满秩矩阵,满秩矩阵一定可逆)
  • 矩阵求逆:如果要求一个矩阵的逆矩阵,首先要判断该矩阵是不是可逆矩阵(满秩矩阵):AA-¹=A-¹A=E(单位矩阵)
  • 逆矩阵的作用:逆矩阵就相当于是倒数,矩阵与逆矩阵相乘等于单位阵,引入逆矩阵是为了实现矩阵的除法.任何矩阵乘以单位阵都是自己本身.

1.3.3推演过程

该公式和上面的公式一样,事不过为了消除求导后的系数,我们添加了1/2m,因为常量是不会影响我们的结果的.对我们的J进行求导之后即可得到变化效率.

1.4过拟合和欠拟合原因和解决

1.4.1过拟合

1.为什么会出现过拟合?

对数据的特征学习的太完全了.过拟合会使得模型的鲁棒性降低,过拟合表现为模型在训练集上效果非常好,但是在测试集上效果却很差.

2.什么情况下出现过拟合?

  • 样本数量太少了
  • 样本中的噪音数量干扰过大
  • 参数太多,模型的复杂度高;
  • 如果是决策树模型的话,我们可以对其进行剪枝操作
  • 神经网络中的过拟合

 

3.如何解决过拟合?

 

1.4.2欠拟合

 

1.4.3什么是L1正则化(Lasso回归)及其使用场景.

1.4.4什么是L2正则化(Ridge回归)及其使用场景

1.4.5什么是ElasticNet(弹性网络)回归及其使用场景

 

1.5为什么线性回归要求因变量服从正太分布?

 

1.6使用sklearn实现

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值