线性回归的决定系数
对于线性回归模型来说,除了SSE以外,我们还可使用决定系数(R-square,也被称为拟合优度检验)作为其模型评估指标。决定系数的计算需要使用之前介绍的组间误差平方和和离差平方和的概念。在回归分析中,SSR表示聚类中类似的组间平方和概念,表意为Sum of squares of the regression,由预测数据与标签均值之间差值的平方和计算得出:
S
S
R
=
∑
i
=
1
n
(
y
i
ˉ
−
y
i
^
)
2
SSR =\sum^{n}_{i=1}(\bar{y_i}-\hat{y_i})^2
SSR=i=1∑n(yiˉ−yi^)2
而SST(Total sum of squares)则是实际值和均值之间的差值的平方和计算得到:
S
S
T
=
∑
i
=
1
n
(
y
i
ˉ
−
y
i
)
2
SST =\sum^{n}_{i=1}(\bar{y_i}-y_i)^2
SST=i=1∑n(yiˉ−yi)2
并且,
S
S
T
SST
SST可由
S
S
R
+
S
S
E
SSR+SSE
SSR+SSE计算得出。而决定系数,则由
S
S
R
SSR
SSR和
S
S
T
SST
SST共同决定:
R
−
s
q
u
a
r
e
=
S
S
R
S
S
T
=
S
S
T
−
S
S
E
S
S
E
=
1
−
S
S
E
S
S
T
R-square=\frac{SSR}{SST}=\frac{SST-SSE}{SSE}=1-\frac{SSE}{SST}
R−square=SSTSSR=SSESST−SSE=1−SSTSSE
很明显,决定系数是一个鉴于[0,1]之间的值,并且约趋近于1,模型拟合效果越好。