线性回归的基本介绍
定义
定义:利用回归方程对一个or多个自变量(特征值)和因变量(目标值)之间的关系进行建模
特点
-
单变量回归:只有一个自变量
-
多元回归:多于一个自变量情况
公式
特征与目标的关系分析
俩种模型:一种线性关系,一种非线性关系
线性回归的损失和优化
损失函数
损失值 = (预测值-真实值)平方再 求和
最小二乘法
优化算法(正规方程)
-1为逆
利用矩阵的逆,转置进行一步求解,只适合样本和特征比较少的情况
计算过程:涉及到矩阵的逆、转置可查看这篇文章
优化
正规方程、梯度下降法
梯度下降法
概念
沿着下降最快方向,梯度是函数的微分
单变量 – 切线
多变量 – 向量
公式
a
:代表下降的步子
-
:负号代表朝着梯度相反的方向前进
单变量函数梯度下降
假设有一个单变量的函数J(θ)=θ的2次方
函数的微分:即J(θ)求导 = 2θ
初始化,起点:θ的0次方 = 1
学习率:α = 0.4
以下是计算过程:
多变量梯度下降
假设一个目标函数:J(θ) = θ1的二次方 + θ2的二次方
然后我们通过梯度下降法来计算出该函数的最小值,即可看出最小值及是(0,0)。即我们一步步计算到(0,0)。假设其起始点为θ的次方(1,3)
初始学习率:α = 0.1
函数的梯度为:J(θ) = <2*θ1,2*θ2>
在进行以下的多次迭代
与正规方程的对比
梯度下降 | 正规方程 |
---|---|
需要选择学习率 | 不需要 |
需要迭代求解 | 一次运算得出 |
特征数量较大可以使用 | 需要计算方程,时间复杂度高 |
几种梯度下降法
全梯度下降法(FG)
耗时长,计算较精确;
需要计算所有样本的误差,对其求和再取平均值
随机梯度下降算法(SG)
每次只选择一个样本迭代
小批量梯度下降法
算法第二选择; 以上俩个方法的折中
随机平均梯度下降法(SAG)
算法首选; 等同于SG,但加快了速度