- 回归分析:用来建立方程模拟两个或者多个变量之间如何关联
- 因变量:被预测的变量(结果/标签),输出
- 自变量:被用来进行预测的变量(特征),输入
- 一元线性回归:包含一个自变量与一个因变量,并且变量的关系用一条直线来模拟
-
一元线性回归
- 公式:
这个方程对应的图像是一条直线,称作回归线。其中,为回归线的斜率,
为回归的截距。
- 相关性:
正相关:
不相关:
负相关:
-
代价函数
- 一般使用最小二乘法:真实值
,预测值
,则误差平方为
,找到合适的参数,使得误差平方平方和最小
- 其中共有m个样本点,乘以
是为了方便计算,如求导。
-
相关系数
- 定义:相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。
- 公式:
-
决定系数
- 定义:相关系数
是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。它可以用来评估模型的效果。
- 总平方和(SST):
- 回归平方和(SSR):
- 残差平方和(SSE):
真实值
真实值的平均值
预测值
- 它们三者的关系是:
- 决定系数:
-
用梯度下降法求解线性回归
- 一元线性回归方程:
- 参数:
,
- 代价函数:
- 目标:
- 梯度下降法:不断改变
,
直到
达到一个全局最小或者局部最小。
repeat until convergence{
(for j = 0 and j = 1)
}为学习率,当学习率过大会造成不收敛也就是找不到一个全局最小值或者局部最小值,学习率过小会浪费大量的时间进行计算。
正确的做法:同步更新
- 使用梯度下降
repeat until convergence{
}