线性回归
平方误差
每个点同回归直线的竖直距离
S
E
l
i
n
e
=
∑
i
=
1
n
(
y
i
−
(
m
x
i
+
b
)
)
2
SE_{line} = \sum^n_{i=1}(y_i -(mx_i + b))^2
SEline=∑i=1n(yi−(mxi+b))2
可以看作直线对数据点拟合程度的度量
设回归直线
y
=
m
x
+
b
y = mx +b
y=mx+b
由公式拆分推导可得:
决定系数
概念:y的波动程度有多少百分比能被x的波动程度所描述
协方差
概念:两随机变量离各自均值之积的期望值,同步程度决定协方差的大小
卡方分布
假设 X i − N ( 0 , 1 ) X_i - N(0,1) Xi−N(0,1), i = 1 , 2 , 3 , . . . . . . . , n i =1,2,3,.......,n i=1,2,3,.......,n,且相互独立。令变量 Q = ∑ i = 1 n X i 2 Q = \sum^n_{i=1} X^2_i Q=∑i=1nXi2,则Q服从自由度为n的卡方分布。
皮尔逊卡方检验
X 2 = ∑ 【 ( 实 际 频 数 − 理 论 频 数 的 ) 2 】 / 理 论 频 数 X^2=∑{【(实际频数-理论频数的)^2】/理论频数} X2=∑【(实际频数−理论频数的)2】/理论频数
每个数据点注意标准化,即除以理论频数
自由度的计算:
n个数据点只有n-1个自由度,是因为根据n-1个数据点可以推算出第n个数据的信息(以存取的信息量为准)
列联表卡方检验
自由度: ( 行 数 − 1 ) ∗ ( 列 数 − 1 ) (行数-1)*(列数-1) (行数−1)∗(列数−1)
方差分析
分析数据总波动有多少是由于组内波动造成的,有多少是由于组外波动造成的
SST:方差的分子部分,自由度为
m
∗
n
−
1
m *n-1
m∗n−1
SSB:组内平方和,概念为总波动是有多少因为组均值之间的波动,自由度为m-1
SSW:组内平方和,不同分组内数据对组均值差的平方和之和,自由度为
m
∗
(
n
−
1
)
m*(n-1)
m∗(n−1)
由此可发现
SST的自由度=SSB自由度+SSW自由度
说明数据的总波动分解为两个分量的波动之和,一个组内,一个组间。