一元线性回归
回归定义:
回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
被预测的变量叫做:因变量(dependent variable), 输出(output)
被用来进行预测的变量叫做: 自变量(independent variable), 输入(input)
一元线性回归包含一个自变量和一个因变量
以上两个变量的关系用一条直线来模拟
如果包含两个以上的自变量,则称作多元回归分析(multiple regression)
通俗来讲:就是通过建立一个方程,方程内有自变量和因变量(自变量叫做拿来做预测的量即已知量,因变量叫预测结果)
一元线性回归方程:
y = kx + b
x:自变量 y:因变量 k:斜率 b:截距 y在平面上是一条直线,这条线也就是回归线
正负相关:
k > 0 : 正相关 k > 0 : 负相关 k = 0 :不相关
代价函数:Cost Function
真实值:yture 预测值:ypredict
均方误差:mean squared error
mse = (yture - ypredict) ** 2
预测函数:
代价函数公式:
其中我们可以通过相关系数来衡量相关性的强弱
:分别表示 带测试的自变量, 自变量带入模型方程求得的因变量 即预测的值(因变量), 已知自变量的均值(平均值), 已知测试集数据实际的值(即实际的因变量)
相关系数 (coefficient of determination)是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。它可以用来评价模型的效果。
总平方和(SST):
总偏差平方和之简称,是指反映全部数据误差大小的平方和。
回归平方和(SSE):
SSE越大说明多元线性回归线对样本观测值的拟合情况越好。
残差平方和(SSR):
总平方和是:(样本点与(样本点的平均值)的差值)的平方
回归平方和是:(回归线上的点 即预测点 与 (预测点的平均值)的差值)的平方
残差平方和是:(样本点 与 (回归线上的点 即预测点)的差值)的平方
把每个残差平方之后加起来 称为残差平方和,它表示随机误差的效应。一组数据的残差平方和越小,其拟合程度越好。
他们三者的关系为
决定系数:
一般用在回归模型用用于评估预测值和实际值的符合程度,同时一般用在线性模型中
个人感觉在相关系数这一块理解不到位,希望看见的评论讲解,我多学习,谢谢^_^
【未完待续.........】